CN113065426A

CN113065426A - 基于通道感知的手势图像特征融合方法

Info

Publication number: CN113065426A
Application number: CN202110297521.8A
Authority: CN
Inventors: 岳金鸿; 田秋红; 吴佳璐; 符悦成; 章立早
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-07-02
Anticipated expiration: 2041-03-19
Also published as: CN113065426B

Abstract

本发明公开了一种基于通道感知的手势图像特征融合方法。本发明包括如下步骤：1对原始手势图像进行预处理，获得手势图像；2手势图像输入到不同的卷积神经网络，分别获得高阶特征张量和低阶特征张量；3对高阶特征张量进行处理，获得通道压缩后的高阶特征张量；对低阶特征张量进行处理，获得通道扩增后的低阶特征张量；4将步骤3中获得的特征张量进行拼接融合，得到包含高低阶特征的特征张量；5将包含高低阶特征的特征张量输入到SE‑Net模块中，得到标定后的特征张量；6将标定后的特征张量输入到分类器中，得到分类结果。本发明能够提取手势图像的高低阶特征并进行组合，得到精确描述手势的特征张量，并通过其特征实现对手势图像的精确识别。

Description

基于通道感知的手势图像特征融合方法

技术领域

本发明涉及了一种手势图像特征融合方法，具体涉及了一种基于通道感知的手势图像特征融合方法。

背景技术

手势识别主要应用于人机交互以及模式识别等领域，已成为当今时代人机交互的研究热点之一。但如何在现实应用中对复杂背景中的多样化手势进行精确的识别成为了一大难点。目前手势识别方法主要分为基于机器视觉的手势识别方法以及基于深度学习的手势识别方法两大类。

基于机器视觉的手势识别方法主要是通过图像检测、图像处理、图像分割等方法处理图像，获得多种可以描述手势的手势特征，并将这些特征按照一定的比例进行融合，并对融合后的特征进行识别；基于多特征融合的手势识别方法则是提取梯度直方图(HOG)和局部二值模式(LBP)等特征，并进行融合，进而得到更加全面的手势特征信息；基于深度学习的手势识别方法使用卷积神经网络通过卷积层自动提取手势的轮廓肤色等深度特征，并通过卷积层进行融合。

基于机器视觉的手势特征融合方法也能在一定程度上实现对复杂手势特征融合，但是其提取的特征易受光照背景的影响，使融合得到的特征难以精确描述手势图像，且速度较慢。目前基于深度学习的手势识别方法逐渐成为主流，但通过单一卷积神经网络提取到的特征尺度单一，无法全面的描述手势图像。

发明内容

针对传统手势图像特征融合与识别方法得到的特征难以精确描述手势图像的问题，本发明提出了一种更加全面有效的特征融合方法。实现对不同尺度的手势特征的有效融合，使融合后的特征能够精确的描述手势图像。本发明利用ResNet50以及Mini-ResNet两个卷积神经网络提取手势图像的高阶与低阶特征；对低阶特征依次进行空间特征增强、空间压缩以及通道扩增，得到低阶特征张量；对高阶特征进行通道压缩，得到高阶特征张量；将高低阶特征张量在通道维度上进行拼接融合，再使用SE-Net对融合后的特征进行通道特征重标定，强化主要特征同时抑制次要特征。本发明提出的方法完成了对手势图像的高低阶特征的融合，融合后的特征能够更加精确的描述手势图像，实现精确的手势识别。

本发明的技术方案如下：

本发明包括如下步骤：

1)对原始手势图像进行尺寸归一化处理，获得手势图像；

2)手势图像输入到ResNet50卷积神经网络和Mini-ResNet卷积神经网络分别提取手势图像的高阶特征和低阶特征，分别获得高阶特征张量和低阶特征张量；

3)对高阶特征张量进行通道压缩，获得通道压缩后的高阶特征张量；对低阶特征张量依次进行空间特征增强、空间压缩和通道扩增，获得通道扩增后的低阶特征张量；

4)将通道压缩后的高阶特征张量和通道扩增后的低阶特征张量在通道维度上进行拼接融合，得到包含高低阶特征的特征张量；

5)将包含高低阶特征的特征张量输入到SE-Net模块中，得到标定后的特征张量；

6)将标定后的特征张量输入到Softmax分类器中进行分类，得到手势图像的分类结果。

所述步骤2)中：

ResNet50卷积神经网络和Mini-ResNet卷积神经网络均主要由多个不同的残差模块依次连接构成，残差模块主要包括两个部分，残差映射和恒等映射；在残差模块中，残差模块的输入特征张量经残差映射进行特征提取获得第一特征张量，根据第一特征张量对输入特征张量经恒等映射获得第二特征张量，第一特征张量和第二特征张量相加获得残差模块的输出特征张量，通过以下公式进行设置：

H(x)＝F(x)+G(x)

其中，H(*)为残差模块的输出函数；F(*)为残差映射函数；G(*)为恒等映射函数；x为残差模块的输入特征张量；

所述的残差映射中，输入特征张量经第一卷积层进行映射，得到经特征提取后的特征张量

恒等映射中，判断残差映射的输出特征张量的通道数和输入特征张量的通道数是否相同；相同则直接以输入特征张量作为恒等映射的输出特征张量，不相同则以经第二卷积层进行恒等映射后的特征张量作为恒等映射的输出特征张量，恒等映射的输出特征张量作为残差模块的输出特征张量，通过以下公式进行设置；

其中，G(*)为恒等映射函数；Conv_1×1(*)为卷积核尺寸为1×1的卷积函数。

所述Mini-ResNet卷积神经网络主要由3个不同的残差模块依次连接构成具体为：

Mini-ResNet卷积神经网络主要由第一残差模块、第二残差模块和第三残差模块依次连接组成；

第一残差模块包括第一残差子模块、第二残差子模块、第三残差子模块和第一恒等映射模块；第一残差子模块、第二残差子模块和第三残差子模块组成第一残差模块的残差映射，第一恒等映射模块作为第一残差模块的恒等映射；第一残差子模块依次经第二残差子模块和第三残差子模块后与第一恒等映射模块相连，第一残差子模块的输出还直接输入到第一恒等映射模块，Mini-ResNet卷积神经网络的输入作为第一残差子模块的输入；

第一残差子模块主要由第三卷积层、第一批归一化层和第一激活层依次连接组成，第二残差子模块主要由第四卷积层、第二批归一化层和第二激活层依次连接组成，第三残差子模块主要由第五卷积层和第三批归一化层连接组成，第一恒等映射模块主要由第四批归一化层和第三激活层连接组成，第一激活层的输出输入到第四批归一化层，第三激活层的输出作为第一恒等映射模块的输出；

第二残差模块包括第五残差子模块、第六残差子模块、第七残差子模块、第五卷积层和二恒等映射模块；第五残差子模块、第六残差子模块和第七残差子模块组成第二残差模块的残差映射，第二恒等映射模块和第五卷积层组成第二残差模块的恒等映射；第五残差子模块依次经第六残差子模块和第七残差子模块后与第二恒等映射模块相连，第五残差子模块的输出还经第五卷积层与第二恒等映射模块相连，第一恒等映射模块的输出作为第五残差子模块的输入；

第五残差子模块主要由第四激活层和第一最大池化层连接组成，第六残差子模块主要由第六卷积层、第五批归一化层和第五激活层依次连接组成，第七残差子模块主要由第七卷积层和第六批归一化层连接组成，第二恒等映射模块主要由第七批归一化层和第八卷积层连接组成，第一最大池化层经第五卷积层与第七批归一化层相连，第八卷积层的输出作为第二恒等映射模块的输出；

第三残差模块包括第九残差子模块、第十残差子模块、第十一残差子模块、第九卷积层和第三恒等映射模块；第九残差子模块、第十残差子模块和第十一残差子模块组成第三残差模块的残差映射，第三恒等映射模块和第九卷积层组成第三残差模块的恒等映射；第九残差子模块依次经第十残差子模块和第十一残差子模块后与第三恒等映射模块相连，第九残差子模块的输出还经第九卷积层与第三恒等映射模块相连，第二恒等映射模块的输出作为第九残差子模块的输入；

第九残差子模块主要由第六激活层和第二最大池化层连接组成，第十残差子模块主要由第十卷积层、第八批归一化层和第七激活层依次连接组成，第十一残差子模块主要由第十一卷积层和第九批归一化层连接组成，第三恒等映射模块主要由第十批归一化层和第八激活层连接组成，第二最大池化层经第九卷积层与第十批归一化层相连，第八激活层的输出作为第三恒等映射模块的输出。

所述步骤3)具体为：

3.1)使用第十二卷积层对高阶特征张量进行通道压缩，第十二卷积层通过以下公式进行处理：

其中，S(*)为通道压缩函数；

为卷积核尺寸为1×1、输出通道为c的卷积函数；u为输入的高阶特征张量；

3.2)对低阶特征张量依次利用空间注意力机制进行空间特征增强、利用第三最大池化层进行空间压缩和利用第十三卷积层进行通道扩增，获得通道扩增后的低阶特征张量。

所述步骤3.2)具体为：

3.2.1)空间特征增强中，空间注意力机制包括全局最大池化层、第一全局平均池化层和第十四卷积层；低阶特征张量分别输入到全局最大池化层和第一全局平均池化层中，全局最大池化层与第一全局平均池化层的输出在通道维度上进行拼接后输出拼接后的特征张量，低阶特征张量和拼接后的特征张量同时输入到第十四卷积层中后输出空间特征增强后的低阶特征张量，通过以下公式进行设置：

其中，Sq(*)为空间特征增强函数；

为包含一个尺寸为7×7卷积核的卷积函数；GlobMaxPool_c(*)为通道维度上的全局最大池化函数；GlobAvgPool_c(*)为通道维度上的全局平均池化函数；v为低阶特征张量；

3.2.2)空间压缩中，使用第三最大池化层对空间特征增强后的低阶特征张量进行处理，输出空间压缩后的低阶特征张量，通过以下公式进行设置：

其中，Q(*)为空间压缩函数；

为空间维度上步长为k的最大池化函数；s为空间特征增强后的低阶特征张量；l为空间特征增强后的低阶特征张量的长度；r为空间特征增强后的低阶特征张量的宽度；

3.2.3)通道扩增中，使用第十三卷积层对空间压缩后的低阶特征张量进行通道扩增，获得通道扩增后的低阶特征张量；

其中，E(*)为通道扩增函数；

为卷积核尺寸为1×1、输出通道为d的卷积函数；q为空间压缩后的低阶特征张量。

所述步骤5)具体为：

SE-Net模块包括特征压缩模块、特征激励模块和特征重标定模块，将包含高低阶特征的特征张量输入到SE-Net模块中，特征压缩模块、特征激励模块和特征重标定模块依次相连，包含高低阶特征的特征张量同时输入到特征压缩模块和特征重标定模块，特征重标定模块的输出作为SE-Net模块的输出，SE-Net模块输出标定后的特征张量；

5.1)特征压缩模块包括第二全局平均池化层，包含高低阶特征的特征张量输入到经全局平均池化处理后输出特征压缩后的特征张量；

5.2)特征激励模块主要由第一全连接层、第二全连接层、第九激活层和第十激活层依次连接组成，特征压缩后的特征张量经特征激励后输出特征激励后的特征张量，通过以下公式进行设置：

F_ex(z)＝σ(Dense(δ(Dense(z))))

其中，F_ex(*)为Excitation函数；Dense(*)为全连接函数；z为特征压缩后的特征张量；δ(*)为ReLU激活函数；σ(*)为Sigmoid激活函数；

5.3)特征重标定模块包括第十五卷积层，特征激励后的特征张量和包含高低阶特征的特征张量同时输入到第十五卷积层进行重标定，得到标定后的特征张量，通过以下公式进行设置：

F_scale(f,d)＝f×d

其中，F_scale(*)为Reweight函数；d为特征激励后的特征张量；f为包含高低阶特征的特征张量。

本发明的有益效果：

(1)本发明提出了一种基于通道感知的高低阶特征融合方法；包括高阶特征通道压缩，低阶特征的空间特征增强、空间压缩、通道扩增，以及高低阶特征在通道维度上的融合。能够有效的融合手势图像的高低阶特征，使其能够更加精确的描述手势图像。

(2)本发明使用了SE-Net对特征张量进行特征重标定，给融合后的特征增加权重，标定其对手势图像识别的贡献度，有效的增强了主要特征并抑制了次要特征，提高了识别的准确率。

(3)本发明设计了一个浅层卷积神经网络Mini-ResNet，由三个残差模块构成，包含9个卷积层，能够有效的提取手势图像的低阶特征。

附图说明

图1为本发明方法的技术方案流程图。

图2为本发明方法所用到的部分数据集。

图3为本发明所使用的残差模块的结构示意图。

图4为本发明残差模块的积木单元CBRP的结构示意图。

图5为本发明所使用的Mini-ResNet神经网络的结构示意图。

图6为本发明中SE-Net模块的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明的技术方案流程图如图1所示。

本发明的数据集采用ASL(American sign language)开源手语数据集，其部分数据如图2所示。包含了不同角度、不同光照、不同大小以及不同背景环境下的手势图像，共包含28中手势类别以及非手势类别，共29个分类类别。

本发明的具体技术方案如下：

如图1所示，本发明包括如下步骤：

1)如图2所示，对原始手势图像进行尺寸归一化处理，获得手势图像，将读入的原始手势图像的尺寸归一化为256×256×3的三通道RGB图像，256×256×3作为神经网络的输入尺寸，再对三通道RGB图像进行标准化，将三通道RGB图像从0～255之间的整数映射到0～1之间的浮点数。；

2)如图3-5所示，手势图像输入到ResNet50卷积神经网络和自行设计的Mini-ResNet卷积神经网络分别提取手势图像的高阶特征和低阶特征，分别获得高阶特征张量和低阶特征张量，高阶特征张量的尺寸为8×8×2048，低阶特征张量的尺寸为64×64×64；

步骤2)中：

ResNet50卷积神经网络和Mini-ResNet卷积神经网络均主要由多个不同的残差模块依次连接构成，手势图像输入到ResNet50卷积神经网络和Mini-ResNet卷积神经网络，分别提取手势图像的高阶特征和低阶特征，分别获得高阶特征张量和低阶特征张量；残差模块主要包括两个部分，残差映射(Residual Mapping)和恒等映射(Identity Mapping)；在残差模块中，残差模块的输入特征张量经残差映射进一步的进行特征提取获得第一特征张量，根据第一特征张量对输入特征张量经恒等映射获得第二特征张量，第一特征张量和第二特征张量相加获得残差模块的输出特征张量，通过以下公式进行设置：

H(x)＝F(x)+G(x)

残差映射中，输入特征张量经第一卷积层进行映射，得到经进一步特征提取后的特征张量，通过以下公式进行设置；

F(x)＝Conv(x)

其中，F(*)为残差映射函数；Conv(*)为卷积函数；x为残差模块的输入特征张量；

恒等映射中，判断残差映射的输出特征张量的通道数和输入特征张量的通道数是否相同；相同则直接以输入特征张量作为恒等映射的输出特征张量，不相同则以经卷积核尺寸为1×1的第二卷积层进行恒等映射后的特征张量作为恒等映射的输出特征张量，恒等映射的输出特征张量作为残差模块的输出特征张量，通过以下公式进行设置；

Mini-ResNet卷积神经网络是自行设计的浅层卷积神经网络，主要由3个不同的残差模块依次连接构成，共包含9个卷积层。Mini-ResNet卷积神经网络层数较浅、参数较少，用于提取手势图像的低阶特征。

Mini-ResNet卷积神经网络主要由3个不同的残差模块依次连接构成具体为：

步骤3)具体为：

3.1)由于ResNet50提取到的高阶特征张量通道数较大，使用第十二卷积层对高阶特征张量进行通道压缩，能够调整其融合后所占的比例，使低阶特征能够在融合后发挥实际作用，同时去除对识别贡献较小的特征，并且能去除其中的冗余信息；通道维度从2048压缩到1792，得到维度为8×8×1792的高阶特征张量，第十二卷积层通过以下公式进行处理：

其中，S(*)为通道压缩函数；

3.2)Mini-ResNet提取的低阶特征张量与高阶特征张量的宽高尺寸不同，无法直接进行拼接融合；通过空间特征增强加强其空间上的主要特征，减少由后续空间压缩造成的空间特征损失，能够在空间压缩后保留其在空间上的主要特征；由于低阶特征张量的通道数较少，为了提升融合后低阶特征占比，加强低阶特征在识别中的作用，对低阶特征张量依次利用空间注意力机制进行空间特征增强、利用第三最大池化层进行空间压缩和利用第十三卷积层进行通道扩增，获得通道扩增后的低阶特征张量。

步骤3.2)具体为：

3.2.1)空间特征增强中，空间注意力机制包括全局最大池化层、第一全局平均池化层和第十四卷积层；低阶特征张量分别输入到全局最大池化层和第一全局平均池化层中，全局最大池化层和第一全局平均池化层分别将低阶特征张量的通道维度压缩到1，得到两个维度为64×64×1的张量；全局最大池化层与第一全局平均池化层的输出在通道维度上进行拼接后输出拼接后的特征张量，低阶特征张量和拼接后的特征张量同时输入到一个尺寸为7×7卷积核的第十四卷积层中后输出空间特征增强后的低阶特征张量，第十四卷积层可以得到低阶特征张量的空间位置上的权重(维度为64×64×1)，通过以下公式进行设置：

其中，Sq(*)为空间特征增强函数；

3.2.2)空间压缩中，使用第三最大池化层对空间特征增强后的低阶特征张量进行处理，输出空间压缩后的低阶特征张量，低阶特征张量的尺寸为8×8×64；通过以下公式进行设置：

其中，Q(*)为空间压缩函数；

3.2.3)通道扩增中，使用卷积核尺寸为1×1的第十三卷积层对空间压缩后的低阶特征张量进行通道扩增，将通道数由64扩增至256以增大低阶特征在融合后特征所占比例，获得通道扩增后的低阶特征张量；

其中，E(*)为通道扩增函数；

4)将通道压缩后的高阶特征张量和通道扩增后的低阶特征张量在通道维度上进行拼接融合，得到维度为8×8×2048的包含高低阶特征的特征张量，其中高低阶特征比例为7:1；

步骤5)具体为：

如图6所示，SE-Net模块包括特征压缩模块、特征激励模块和特征重标定模块，将包含高低阶特征的特征张量输入到SE-Net模块中，特征压缩模块、特征激励模块和特征重标定模块依次相连，包含高低阶特征的特征张量同时输入到特征压缩模块和特征重标定模块，特征重标定模块的输出作为SE-Net模块的输出，SE-Net模块输出标定后的特征张量；

5.1)特征压缩Squeeze模块包括第二全局平均池化层，包含高低阶特征的特征张量输入到经全局平均池化处理后输出特征压缩后的特征张量，特征压缩后的特征张量在宽度和高度上只保留通道特征，转化为一维特征向量，通过以下公式进行设置：

F_sq((f)＝GlobAvgPool(f)

其中，F_sq(*)为Squeeze函数；GlobAvgPool(*)为全局平均池化函数；f为包含高低阶特征的特征张量；

5.2)特征激励Excitation模块主要由第一全连接层、第二全连接层、第九激活层和第十激活层依次连接组成，特征压缩后的特征张量经特征激励后输出特征激励后的特征张量，第一全连接层第九激活层的激活函数为ReLU函数，第十激活层的激活函数为Sigmoid函数，将第一全连接层的输出参数将输入的一维向量缩放成输入一维向量的1/16，以达到筛选主要特征过滤次要特征的目的；第二全连接层的输出参数与特征压缩后的特征张量的尺寸相同；最后使用Sigmoid函数生成每个通道上的特征权重。通过以下公式进行设置：

F_ex(z)＝σ(Dense(δ(Dense(z))))

5.3)特征重标定Reweight模块包括第十五卷积层，特征激励后的特征张量和包含高低阶特征的特征张量同时输入到第十五卷积层进行重标定，得到标定后的特征张量，将特征激励后的特征张量作为学习得到的每个通道上特征权重组成的权重向量，将包含高低阶特征的特征张量与该权重向量相乘得到加权后的特征图，完成特征重标定。通过以下公式进行设置：

F_scale(f,d)＝f×d

6)将标定后的特征张量输入到Softmax分类器中进行分类，映射为29个类别的概率值，取概率值最大的作为手势图像的分类类别，得到手势图像的分类结果。