CN110795990B

CN110795990B - 一种面向水下设备的手势识别方法

Info

Publication number: CN110795990B
Application number: CN201910858330.7A
Authority: CN
Inventors: 何波; 李凯歌; 王淇; 武玫含
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2022-04-29
Anticipated expiration: 2039-09-11
Also published as: CN110795990A

Abstract

本发明公开了一种面向水下设备的手势识别方法，包括：(1)通过手势图像采集模块获得待测手势图像序列，并通过帧分离的方式将手势从图像序列中截取出来，输入手势识别模块；(2)基于手势识别模块提取手势特征并完成对手势的识别；(3)根据指令转换模块将手势识别结果转换成相应的系统指令，并根据指令完成相应工作，从而完成采用手势进行控制的功能。本发明通过设计新型的深度卷积神经网络架构对手势图像进行识别，以至少解决现有手势识别方法所存在的实现过程较为繁琐、实时性差、且识别率低等问题，进而使得潜水员可以通过手势与水下设备进行交互，提高作业效率，具有较高的实际应用价值。

Description

一种面向水下设备的手势识别方法

技术领域

本发明属于基于视觉的手势识别技术领域，具体涉及一种面向水下设备的手势识别方法。

背景技术

现有技术中，对于水下设备(如无人潜水器、水下机械臂等)的控制一般都是在岸机端，通过按键或手柄控制水下设备的活动。然而，在岸上控制水下设备具有较大的缺陷：水下环境使得声学和无线电通信变得复杂、昂贵和不可行，一些在岸上给设备发送命令的控制方式很难实现；水下设备在接收岸上的命令信号时可能会出现延时或偏差等错误情况；设备不能及时与潜水员进行交互。对于一项实际要求较高的实践性工作，水下设备交互控制技术的重要性不言而喻。然而，由于在水下环境中，触屏、手柄等交互控制方式受到极大限制，而有时需要潜水员在水下实时控制设备。因此，采用具有智能形式的人机交互技术解决水下设备的人机交互控制方式问题就显得尤为重要。

近年来深度学习在计算机视觉应用中高速发展，人机交互的方式得到了极大的丰富，给人们的操作带来了便利和极佳的使用体验。在众多的人机交互方式中，基于视觉的手部交互技术凭借其良好的舒适性和自然性被广泛研究和应用。手势识别是手势交互技术的核心内容之一。识别的手势可用于控制机器人或传达有意义的信息。传统的基于视觉的手势识别方法主要分为如下三个核心步骤：

首先，对输入手势图像进行预处理(如手势分割)，从背景中分割出手势区域。

然后，使用提取方法提取手势区域特征，对手势区域进行定量的表示。

最后，将得到的特征信息输入到设计好的分类器(如支持向量机、隐马尔可夫模型、人工神经网络等)中从而对手势进行分类和识别。

但传统的基于视觉的手势识别方法，通过人工提取图像特征(颜色、形状、Haar特征等)难以适应手势图像复杂的背景，手势变化的多样性和手势本身的复杂性，这加大了手势识别的难度，降低了识别准确率和可靠性。由于基于深度学习范例的神经网络相比于传统的机器学习方法具有更加强大的特征提取和表达能力，可以表示高度非线性函数且具有自学习和鲁邦性强等优点，其被越来越多的用于基于视觉的手势分类任务上。然而，基于深度神经网络的手势识别技术虽然准确率相比传统方法更高，但是也存在模型复杂度高、网络计算成本高、实时性差等缺点。

因此，现有的手势识别方法不仅耗费时间，实现过程也较为繁琐，如在进行手势分割时，需要根据不同场景建立不同模型，尤其训练基于神经网络的手势分割模型时，需要针对每张图像分别制作分割标签，极其耗费人力物力。此外，现有方法在水下这种复杂环境下识别精度也不高，不适用于具有高精度以及实时性要求的水下设备控制场合。

发明内容

本发明针对现有技术中存在的上述缺陷，提出了一种可用于水下复杂环境的手势识别方法，在有效提高手势识别的效率的同时，具有较高的识别精度，从而实现使用不同手势实时控制水下设备活动的目的。

本发明是采用以下的技术方案实现的：一种面向水下设备的手势识别方法，包括以下步骤：

步骤A、采集水下手势图像以获得待测手势图像序列，并通过帧分离的方式将手势信息从图像序列中截取出来；

步骤B、对步骤A中所获手势信息，基于深度卷积神经网络模型对手势信息提取其手势特征，以对其进行手势识别；

所述深度卷积神经网络模型构建过程如下：

步骤B1、获取训练样本集，并对其依据手势类别设定标签，所述手势类别包括拳头、手掌；

步骤B2、训练样本集预处理；

步骤B3、将经步骤B2处理后数据作为训练样本，构建深度卷积神经网络模型：

所述深度卷积神经网络模型包括依次相连的初始模块、掩模模块和分类模块，经过初始模块、掩模模块和分类模块完成对手势特征的提取与分类，根据分类结果判断输入图像属于哪种手势类别，从而完成手势识别；

步骤C、依据指令转换模块将手势识别结果转换成相应的系统指令，以控制水下设备动作，所述指令转换模块用以定义手势映射模型，建立手势交互的对应关系。

进一步的，所述步骤B3包括：

(B31)手势图像x首先经过初始模块，进行初步特征提取；

所述初始模块包括卷积层、最大池化层、合并层、规范化层和激活层，其中，卷积层和最大池化层并行连接，输入的手势图像经卷积层和最大池化层两层的输出，经合并层合并后依次输入规范化层和激活层，激活层的输出I(x)作为初始模块最终输出；

初始模块表示为：

I(x)＝ReLU(BN(Cat(Conv(x),Maxpooling(x))))

其中，Conv表示卷积层，Maxpooling表示最大池化层，Cat表示合并层，BN表示规范化层，ReLU表示激活层；

(B32)初始模块提取的特征I(x)输入掩模模块，完成进一步的特征提取，对特征I(x)进行细化和完善，得到细化后的特征T(x)；

(B33)经掩模模块细化后的特征T(x)输入分类模块，分类模块在细化后的手势特征T(x)的基础上进行特征提取和分类；

(B34)基于交叉熵函数预测网络模型误差，以得到最优的网络模型结构；

所述交叉熵函数为：

其中，y_i为样本真实数字标签，

为网络模型预测标签。

进一步的，所述步骤B32中，所述掩模模块包括输入特征层、软掩模分支层、相乘层、合并层以及卷积层，输入特征层接收初始模块提取的特征I(x)，经软掩模分支层后生成手势掩模M(x)；输入特征层、软掩模分支层依次连接并将结果输出至相乘层，所述输入特征层包括一条快捷连接通向相乘层，I(x)和M(x)经相乘层输出得到经掩模细化修饰后的手势特征，相乘层的输出与所述输入层输出I(x)经合并层合并后输入卷积层，卷积层输出作为掩模模块最终输出T(x)，即：

所述掩模模块表示为：

式中，i表示特征点的空间位置，c为特征通道的索引，掩模M_i,c(x)作为初始模块输出特征I_i,c(x)的控制门，用以突出手势特征，减弱背景特征；SMBranch表示软掩模分支层，Cat表示合并层，Conv表示卷积层。

进一步的，所述软掩模分支层采用编码器-解码器结构，输入经编码器编码提取特征后输入解码器再经Sigmoid函数层获得手势掩模作为软掩模分支层的最终输出；

所述编码器根据依次连接的不同类型的双分支块和下采样块收集图像的全局信息，所述解码器通过两个上采样块结合全局信息对编码器的输出进行上采样，以微调目标细节并恢复相应的输入分辨率，另外，所述软掩模分支内还包含一个跳跃连接，用以捕获不同层次的信息，从而生成更加精确的手势掩模。

进一步的，所述步骤B33中，所述分类模块包括以下结构：输入层、双分支块、下采样块、全局平均池化层、卷积层和Softmax分类层，其中输入层、双分支块、下采样块、全局平均池化层、卷积层依次连接并将结果输出至Softmax分类层作为网络的最终输出，

Softmax分类器表示如下：

上式表示了输入手势图像x属于第j类手势概率的分析方法，O_j(x)表示卷积层输出的第j个特征，O_k(x)表示卷积层输出的第k个特征，num_class表示手势类别数目。

进一步的，所述双分支块包括输入层、残差模块、快捷连接、合并层以及通道混洗层，其中输入层将输入一分为二分别经过残差模块和快捷连接，两者输出通过合并层合并后输入通道混洗层作为双分支块的最终输出，

双分支模块表示为：

其中，X_left表示输入被一分为二后的左半部分，X_right为右半部分，ResidualModule表示残差模块，Res为残差模块输出，Cat表示合并层，Channelshuffle表示通道混洗层，Out为双分支块最终输出。

进一步的，所述双分支块中的残差模块包括以下结构：输入层、规范化层、激活层、深度卷积层、逐点卷积层和相加层，其中输入层、规范化层、激活层、深度卷积层、逐点卷积层按特定结构依次连接并将结果输出至相加层，所述输入层包括一条快捷连接通向相加层，相加层的输出作为残差模块最终输出。

进一步的，所述下采样块包括以下结构：输入层、规范化层、深度卷积层和逐点卷积层，各层依次连接，逐点卷积层的输出作为下采样块最终输出；所述上采样块包括以下结构：输入层、规范化层、双线性插值层、深度卷积层和逐点卷积层，各层依次连接，逐点卷积层的输出作为上采样块最终输出。

进一步的，所述步骤B1中，所述训练样本集依据不同水下环境获得，所述水下环境的不同包括光照、背景和角度，且所述训练样本集为具有标签的样本，并按照标签类别分类保存图像。

进一步的，所述步骤B2中，训练样本集的预处理方式如下：

(1)图像尺寸归一化处理：通过最近邻插值算法将图像尺寸统一为规定大小；

(2)样本集图像数据扩充：采用旋转变换、缩放变换、水平和垂直翻转变换以及随机改变亮度、对比度和颜色的方式对样本集图像进行数据增强。

与现有技术相比，本发明的优点和积极效果在于：

本发明方案通过设计新型的深度卷积神经网络架构对手势图像进行识别，通过对深度卷积神经网络模型的结构进行设计，通过初始模块、掩模模块和分类模块完成对手势特征的提取与分类，根据分类结果判断输入图像属于哪种手势类别，从而完成手势识别的过程，结合掩模模块、双分支块等的创新设计，解决现有手势识别方法所存在的实现过程较为繁琐、实时性差、且识别率低等问题，进而使得潜水员可以通过手势与水下设备进行交互，提高作业效率。

附图说明

图1为本发明实施例中所述手势识别方法流程示意图；

图2为本发明实施例中手势识别深度卷积神经网络的模型结构示意图；

图3为本发明实施例中掩模模块的结构示意图；

图4为本发明实施例所述软掩模分支所包含的跳跃连接示意图；

图5为本发明实施例中组成手势识别深度卷积神经网络的各个基本块的结构示意图；其中，(a)为双分支块结构示意图；(b)为下采样块结构示意图；(c)为上采样块结构示意图。

具体实施方式

为了能够更清楚的理解本发明的上述目的和优点，下面结合附图对本发明的具体实施方式做详细地描述，需要说明的是，本实施例中，由于卷积层、合并层、规范化层等结构相同，故在不同的模块下用相同的名称表示，具体实施时，在不同模块下，本领域技术人员根据输入输出不同可根据实际情况做相应调整。

本发明提出一种面向水下设备的手势识别方法，如图1所示，包括以下步骤：

步骤一、通过手势图像采集模块获得待测手势图像序列，并通过帧分离的方式将手势从图像序列中截取出来，输入手势识别模块；

步骤二、通过手势识别模块提取手势特征并完成对手势的识别；

步骤三、根据指令转换模块将手势识别结果转换成相应的系统指令，如控制设备向前或向后移动，所述指令转换模块用于定义手势映射模型，建立手势交互的对应关系。

具体的，所述步骤二中，对手势进行识别时，建立深度卷积神经网络模型对手势图像进行识别，其中，深度卷积神经网络模型如下：

1、获取训练样本集：通过图像采集模块获取原始手势图像视频，按照帧分离的方式获得手势图像样本并分类保存，所述原始手势图像视频包括不同水下环境(光照、背景、角度等)下的手势图像视频；所述训练样本为具有标签的样本，并按照标签类别分类保存图像；比如按照不同手势类别(比如，拳头或手掌)将采集的手势图像分别保存，从而构建深度学习集，比如拳头、手掌两类手势可分别将其数字标签设为1、2；

2、对训练样本集进行预处理：

(1)图像尺寸归一化处理：

首先，本实施例中采集的图像尺寸1920×1080×3大小的图像，为了减少计算量、提高运行效率，通过最近邻插值算法将图像尺寸统一更改为224×224×3；

(2)样本集图像数据扩充：

为了防止由于样本较少引起的过拟合问题，且增强模型的泛化性能，采用数据增强的方式对图像样本进行数据扩充，由于手势图像主要采集角度和距离、光照条件等因素的影响，本实施例中主要采用旋转变换、缩放变换、水平和垂直翻转变换以及随机改变亮度、对比度和颜色等方式对样本集图像进行数据增强；

3、将经处理后获得的训练数据集图像训练样本，构建深度卷积神经网络模型：

如图2所示，为手势识别深度卷积神经网络的模型结构图，所述网络模型包括3个模块：初始模块，掩模模块和分类模块，三个模块依次相连构成整体网络结构。将由图像采集模块采集的1920×1080×3大小的图像的尺寸重置为224×224×3输入深度卷积神经网络，经过初始模块、掩模模块和分类模块完成对手势特征的提取与分类，根据分类结果判断输入图像属于哪种手势类别，从而完成手势识别的过程。具体的操作步骤如下：

31)、手势图像x首先经过初始模块，进行初步特征提取：

所述初始模块包括以下结构：13个步长为2的3×3卷积层(Conv)、最大池化层(Maxpooling)、合并层(Cat)、规范化(BN)层和激活层(ReLU)，其中卷积层和最大池化层并行连接，输入手势图像经卷积层和最大池化层两层的输出，经合并层合并后依次输入规范化层和激活层，激活层的输出I(x)作为初始模块最终输出，共提取16个特征；

初始模块公式表达为：

I(x)＝ReLU(BN(Cat(Conv(x),Maxpooling(x))))

其中，Conv表示卷积层，Maxpooling表示最大池化层，Cat表示合并层，BN表示规范化层，ReLU表示激活层，初始模块提取的特征I(x)输入掩模模块，完成进一步的特征提取，对特征I(x)进行细化和完善。

32)、初始模块提取的特征I(x)输入掩模模块，完成进一步的特征提取：

所述掩模模块包括以下结构：输入特征层(Feature)、软掩模分支层(SM-Branch)、相乘层(Product)、合并层(Cat)以及1×1卷积层。其结构图如图3所示，输入特征层接收初始模块提取的特征I(x)，经软掩模分支层后生成手势掩模M(x)，输入特征层、软掩模分支层依次连接并将结果输出至相乘层，所述输入特征层存在一条快捷连接通向相乘层，I(x)和M(x)经相乘层输出得到经掩模细化修饰后的手势特征，相乘层的输出与所述输入层输出I(x)经合并层合并后输入1×1卷积层，其输出作为掩模模块最终输出T(x)：

掩模模块表达为：

式中，i表示特征点的空间位置，c为特征通道的索引，Conv表示1×1卷积层，其输出为大小112×112×16的特征图；掩模M_i,c(x)作为初始模块输出特征I_i,c(x)的控制门，可以突出手势特征，减弱背景特征。假设空间位置i处为背景像素，则相应的M_i,c(x)值会趋于0，从而抑制背景信息，反之，若为手势特征像素，则其值趋近于1。

需要强调的是，本实施例中，所述软掩模分支层是一种编码器-解码器结构，从而加速网络推理过程：输入经编码器编码提取特征后输入解码器再经Sigmoid函数层获得手势掩模作为软掩模分支层的最终输出，其具体结构如表1所示：

表1、软掩模分支层结构表

基本块名称	块类型	输入尺寸	输出尺寸
				Down-sampling Block		112×112×16	56×56×64
Double-branches Block×4		56×56×64	56×56×64
				Down-sampling Block		56×56×64	28×28×128
Double-branches Block	dilated 2	28×28×128	28×28×128
				Double-branches Block	dilated 4	28×28×128	28×28×128
Double-branches Block	dilated 6	28×28×128	28×28×128
				Double-branches Block	dilated 8	28×28×128	28×28×128
Up-sampling Block		28×28×128	56×56×64
				Up-sampling Block		56×56×64	112×112×16
Sigmoid		112×112×16	112×112×16

其中，所述编码器通过按一定结构依次连接的不同类型的双分支块(Double-branchesBlock)和下采样块(Down-sampling Block)快速收集图像的全局信息，所述解码器通过两个上采样块(Up-sampling Block)结合全局信息对编码器的输出进行上采样，微调目标细节并恢复相应的输入分辨率。此外，所述软掩模分支内包含一个跳跃连接，用以捕获不同层次的信息，从而生成更加精确的手势掩模，如图4所示。

33)、经掩模模块细化后的特征T(x)输入分类模块，分类模块在细化后的手势特征T(x)的基础上进行特征提取和分类可以达到较高的分类性能(识别率)；

所述分类模块包括以下结构：输入层、双分支块(Double-branches Block)、下采样块(Down-sampling Block)、全局平均池化(GAP)层、1×1卷积层和Softmax分类层，结构如表2所示。其中输入层、双分支块、下采样块、全局平均池化层、1×1卷积层按一定结构依次连接并将结果输出至Softmax分类层作为网络的最终输出。

表2：分类模块结构表

输入层接收掩模模块输出特征T(x)，经按一定结构依次连接的双分支块、下采样块、全局平均池化层、1×1卷积层提取特征后，将提取的特征O(x)输入Softmax分类层作为网络的最终输出。通过Softmax函数计算，得到输入手势图像属于每一类手势的概率估计值。最后，取概率值最大的手势种类作为该幅手势图像的类别即完成了对输入手势图像的分类识别。

Softmax分类器表示如下：

上式表示了输入手势图像x属于第j类手势概率的计算方法，O_j(x)表示1×1卷积层输出的第j个特征，O_k(x)表示卷积层输出的第k个特征，num_class表示手势类别数目。

其中，所述双分支块包括以下结构：输入层、残差模块(Residual Module)、快捷连接、合并层以及通道混洗层(Channel shuffle)，其中输入层将输入一分为二(左右两半部分)分别经过残差模块和快捷连接，两者输出通过合并层合并后输入通道混洗层作为双分支块的最终输出，其结构图如图5(a)所示，双分支块公式表达为：

另外，所述双分支块中的残差模块包括以下结构：输入层、规范化层、激活层、3×3深度卷积层(DWConv)、1×1逐点卷积层(PWConv)和相加层，其中输入层、规范化层、激活层、深度卷积层、逐点卷积层按一定结构依次连接并将结果输出至相加层，所述输入层存在一条快捷连接通向相加层，相加层的输出作为残差模块最终输出。

其中，不同类型的双分支块主要体现在残差模块中的深度可分离卷积层，其采用不同扩张率的扩张卷积代表不同类型的双分支块，如扩张卷积扩张率为2，则双分支块类型为“dilated 2”。扩张卷积主要用于增加模型的感受野，从而获得更多的上下文环境信息。

另外，所述下采样块，其对输入进行下采样操作，包括以下结构：输入层、规范化层、步长为2的3×3深度卷积层和1×1逐点卷积层，其中上述各层按一定结构依次连接，取最后逐点卷积层的输出作为下采样块最终输出，结构图如图5(b)所示；所述上采样块，其对输入进行上采样操作，包括以下结构：输入层、规范化层、双线性插值层、3×3深度卷积层和1×1逐点卷积层，其中各层按一定结构依次连接，逐点卷积层的输出作为上采样块最终输出，其结构图如图5(c)所示。

34)、最后，本发明使用交叉熵函数计算网络的预测误差，其公式为：

其中，y_i为样本真实数字标签，

为网络模型预测标签。训练时采用权值参数随机初始化方法，优化算法采用Adam算法，保存训练得到的网络参数，作为手势识别模型。

4、调用手势识别网络模型进行实时识别：利用图像采集模块获取手势图像视频，分帧输入保存的模型中获得识别结果，并使用txt文本记录。

训练完成后，即可利用NVIDIA Jetson AGX Xavier上的识别算法模块调用手势识别算法模型进行实时的手势识别及交互控制。首先利用图像采集模块获取手势图像视频，然后分帧输入算法模型中获得手势识别结果。由于在实际交互控制过程中，潜水员并不是时刻发送手势命令的，因此在潜水员未发送手势命令时，水下设备应当保持状态。本发明的算法模型可以获得当前帧图像所属各类手势的概率，因此，如果各类手势中最大的概率值大于0.7，此时该概率值对应的手势种类被认为是该幅手势图像的类别(识别结果)；如果最大概率值仍小于0.7，那么系统认为该幅图像存在疑义或该图像为非手势图像(如背景)，识别算法模块将继续发送上一个识别结果至指令转换模块，也即水下设备将保持上一状态。上述过程可公式表示为：

式中，x_i为第i帧手势图像，M为网络模型，y_i为网络预测类别标签，j为各类手势数字标签，P(y_i＝j|x_i,M)为网络预测第i帧手势图像属于不同手势类别的概率值，P_max为各类手势概率值的最大值，gesture为当前最大概率值对应的手势类别，R(t)为当前t时刻识别算法模块输出的识别结果。本发明设定R(0)时刻设备保持静止状态。

此外，本发明使用txt文本记录识别结果，以供后期查看。在txt文本中，按照手势图像帧号(第几帧)和识别结果分行记录识别结果，假设处理的是第8帧手势，其识别结果为“2”，那么txt文本中某行记录信息为“第8帧手势——2”。

最后将识别结果转换为相应动作指令发送至执行机构：根据预先定义的手势映射模型，将识别结果映射为相应的系统动作指令并发送至执行机构，完成整个交互过程：指令转换模块将接收识别算法模块给出的手势识别结果R(t)，并根据预设的手势映射模型将识别结果转换为相应的系统动作指令发送至设备执行机构，完成手势交互过程。其中，手势映射模型可表示为{手势类别标签→动作指令}，例如：{0→静止，1→向前，2→向后}。

为证明本发明方案的效果，下面结合具体实例进行实验验证，分别列举了不同模型在不同训练数据集下的结果对比：

1、比如在公开数据库下：

训练数据集图像选用公开手势库NUS-Hand-Posture-Dataset-II中HandPostures子数据库中的数据图像，该数据集的手势图像是在在复杂的自然背景下拍摄的，手的形状和大小各不相同。数据集共包含10种手势类型，每种类型200张图片，总计2000张图片。按照7.5:2.5的比例将数据集图像分为训练集和测试集。因此，训练数据集中的每种手势都包含150幅图像，而测试数据集中的每种手势都包含50幅图像。通过随机改变图像的亮度、对比度、饱和度以及随机旋转等方法分别对训练集和测试集图像进行数据扩充，最终训练集共1500+1500×2＝4500张图像，测试集共500+500×2＝1500张图像。

2、在自建数据库下：

为了测试真实水下环境下网络的模型的性能，采集了4类水下手势图像(拳头、手掌、大拇指和Yes手势)，共计4424张。实际应用中，由于摄像头的晃动等因素，采集的手势图像可能会是模糊或者不完整的。为了全面测试网络模型性能，我们采集了不同状态和水下环境下的手势图像，并分为训练集(3090张)和测试集(1334张)。

不同数据库下的实验测试结果如表3所示，本发明提出的手势识别网络模型在嵌入式系统模块NVIDIA Jetson AGX Xavier上处理单张图像(尺寸224×224×3)的推理时间相较于其他深度卷积神经网络模型更快，仅需7.79毫秒，也即网络模型可以以平均每秒处理128.27帧的速度处理大小为224×224×3的图像。此外，在两种数据集上的测试准确率与其他模型相比也更高。综上，本发明提出的手势识别网络模型可以在有效提高手势识别的效率的同时保证识别精度，可以实现使用不同手势实时控制水下设备活动的目的。

表3、实验结果对比表：

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种面向水下设备的手势识别方法，其特征在于，包括以下步骤：

所述深度卷积神经网络模型构建过程如下：

步骤B2、训练样本集预处理；

所述深度卷积神经网络模型包括依次相连的初始模块、掩模模块和分类模块，经过初始模块、掩模模块和分类模块完成对手势特征的提取与分类，根据分类结果判断输入图像属于哪种手势类别，从而完成手势识别；具体包括：

(B31)手势图像x首先经过初始模块，进行初步特征提取；

初始模块表示为：

I(x)＝ReLU(BN(Cat(Conv(x)，Maxpooling(x))))

所述交叉熵函数为：

其中，y_i为样本真实数字标签，

为网络模型预测标签；

2.根据权利要求1所述的面向水下设备的手势识别方法，其特征在于：所述步骤B32中，所述掩模模块包括输入特征层、软掩模分支层、相乘层、合并层以及卷积层，输入特征层接收初始模块提取的特征I(x)，经软掩模分支层后生成手势掩模M(x)；输入特征层、软掩模分支层依次连接并将结果输出至相乘层，所述输入特征层包括一条快捷连接通向相乘层，I(x)和M(x)经相乘层输出得到经掩模细化修饰后的手势特征，相乘层的输出与所述输入特征层输出I(x)经合并层合并后输入卷积层，卷积层输出作为掩模模块最终输出T(x)，即：

所述掩模模块表示为：

式中，i表示特征点的空间位置，c为特征通道的索引，掩模M_i，c(x)作为初始模块输出特征I_i，c(x)的控制门，用以突出手势特征，减弱背景特征；SMBranch表示软掩模分支层，Cat表示合并层，Conv表示卷积层。

3.根据权利要求2所述的面向水下设备的手势识别方法，其特征在于：所述软掩模分支层采用编码器-解码器结构，输入经编码器编码提取特征后输入解码器再经Sigmoid函数层获得手势掩模作为软掩模分支层的最终输出；

4.根据权利要求3所述的面向水下设备的手势识别方法，其特征在于：所述步骤B33中，所述分类模块包括以下结构：输入层、双分支块、下采样块、全局平均池化层、卷积层和Softmax分类层，其中输入层、双分支块、下采样块、全局平均池化层、卷积层依次连接并将结果输出至Softmax分类层作为网络的最终输出，

Softmax分类器表示如下：

5.根据权利要求4所述的面向水下设备的手势识别方法，其特征在于：所述双分支块包括输入层、残差模块、快捷连接、合并层以及通道混洗层，其中输入层将输入一分为二分别经过残差模块和快捷连接，两者输出通过合并层合并后输入通道混洗层作为双分支块的最终输出，

双分支模块表示为：

6.根据权利要求5所述的面向水下设备的手势识别方法，其特征在于：所述双分支块中的残差模块包括以下结构：输入层、规范化层、激活层、深度卷积层、逐点卷积层和相加层，其中输入层、规范化层、激活层、深度卷积层、逐点卷积层按特定结构依次连接并将结果输出至相加层，所述输入层包括一条快捷连接通向相加层，相加层的输出作为残差模块最终输出。

7.根据权利要求6所述的面向水下设备的手势识别方法，其特征在于：所述下采样块包括以下结构：输入层、规范化层、深度卷积层和逐点卷积层，各层依次连接，逐点卷积层的输出作为下采样块最终输出；所述上采样块包括以下结构：输入层、规范化层、双线性插值层、深度卷积层和逐点卷积层，各层依次连接，逐点卷积层的输出作为上采样块最终输出。

8.根据权利要求1所述的面向水下设备的手势识别方法，其特征在于：所述步骤B1中，所述训练样本集依据不同水下环境获得，所述水下环境的不同包括光照、背景和角度，且所述训练样本集为具有标签的样本，并按照标签类别分类保存图像。

9.根据权利要求1所述的面向水下设备的手势识别方法，其特征在于：所述步骤B2中，训练样本集的预处理方式如下：