CN114170634A

CN114170634A - 基于DenseNet网络改进的手势图像特征提取方法

Info

Publication number: CN114170634A
Application number: CN202111485244.XA
Authority: CN
Inventors: 周梓豪; 田秋红
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-11

Abstract

本发明公开了一种基于DenseNet网络改进的手势图像特征提取方法。对手势采集获得原始手势图像；经卷积降采样网络结构卷积降采样，选取较浅层和深层的特征张量，分别输入融合Drop‑Path模块的DenseNet‑B模块中得到两种特征张量；融合后得多尺度特征融合的特征张量再经过渡层压缩，再输入融合Drop‑Path模块的DenseNet‑B模块中，得包含多尺度高维度的特征张量；经全局平均池化层、全连接层、softmax分类器得分类结果。本发明含有降采样网络结构中不同深度的特征张量，对大目标、小目标物体均能精确识别，同时在DenseNet网络中融合Drop‑Path模块，在不降低精度的同时有效减少参数量，提高模型训练的速度，防止过拟合，提高了手势识别的准确率。

Description

基于DenseNet网络改进的手势图像特征提取方法

技术领域

本发明涉及一种手势图像的提取方法，具体涉及了一种基于DenseNet网络所改进的手势图像特征提取方法。

背景技术

手势识别是近年来大热的人机交互方式，广泛应用在手语识别、智能监控和虚拟现实等各个领域。最初的手势识别主要是利用可穿戴设备，直接检测手、胳膊各关节的角度和空间位置，这些设备虽可提供良好的检测效果，但将其应用在常用领域则价格昂贵。近年来手势识别技术从可穿戴设备转向机器视觉的手势识别方法以及基于深度学习的手势识别方法两大类。尽管手势识别技术已经取得很大进步，在真实环境中还面临着许多挑战，如光照、目标大小等诸多因素都会影响手势识别的性能。基于机器视觉的手势特征融合方法能在一定程度上实现对复杂手势特征提取和融合，但是其提取的特征易受光照和背景的影响，使融合得到的特征难以精确描述手势图像，且处理速度较慢。目前基于深度学习的手势识别方法逐渐成为主流，一般使用卷积神经网络通过卷积层自动提取手势的轮廓肤色纹理等深度特征，并通过卷积层进行融合,但通过单一卷积神经网络较难提取到手势目标占比不同的图像的多尺度特征，正确率表现不佳。

发明内容

针对传统手势图像特征融合与识别方法得到的特征难以精确识别复杂背景下手势目标占比不同的图像的问题以及DenseNet网络中密集连接可能产生的信息冗余问题，本发明的目的在于提出一种适应手势目标占比不同的图像的有效特征提取与融合方法，能够满足复杂背景下的针对占比不同的手势目标进行高精度识别的需求。

本发明含有降采样网络结构中不同深度的特征张量，对大目标、小目标物体均能精确识别，同时在DenseNet网络中融合Drop-Path模块，在不降低精度的同时有效减少参数量，提高模型训练的速度，防止过拟合，提高了手势识别的准确率。

本发明的技术方案包括如下步骤：

1)对各种手势进行图像采集获得原始图像，对原始图像进行尺寸归一化处理获得原始手势图像；

2)对原始手势图像经过卷积降采样网络结构处理进行多次卷积降采样，选取卷积降采样网络结构中较浅层的特征张量和深层的特征张量；

3)将较浅层的特征张量和深层的特征张量分别输入到融合了Drop-Path模块的DenseNet-B模块中得到两种包含不同尺度语义信息的通道数扩增后的特征张量；

4)将获得的两种包含不同尺度语义信息的通道数扩增后的特征张量进行融合，得到多尺度特征融合的特征张量；所述的融合是指通道的叠加。

5)将获得的多尺度特征融合的特征张量经过过渡层进行压缩，压缩后再次输入到融合了Drop-Path模块的DenseNet-B模块中，得到包含多尺度高维度的特征张量；

6)将多尺度高维度特征张量经过全局平均池化层，再经过全连接层，再通过softmax分类器得到手势图像的分类结果。

所述的卷积降采样网络结构主要由四个连续的二阶卷积模块和一个三阶卷积模块和一个上采样层依次连接构成；

所述的二阶卷积模块主要由进行降采样的stride＝2的第一个卷积层、1×1的第二个卷积层、批量归一化层和RELU激活层依次连接构成；通过第一个卷积层处理能够降低池化带来的梯度负面效果而代替池化层进行降采样，通过第二个卷积层能够提高非线性程度、灵活改变网络结构，通过所述的批量归一化层和RELU激活层能够加快网络训练和收敛速度。

所述的三阶卷积模块是在二阶卷积模块基础上添加了一个瓶颈层后组成，瓶颈层的具体位置是在二阶卷积模块中两个卷积层之后、批量归一化层之前，通过瓶颈层能够压缩维度、大幅减少计算量；

所述的上采样层是采用最近邻(nearest)插值算法进行；

选取第三个二阶卷积模块和上采样层的输出分别作为较浅层的特征张量和深层的特征张量。

所述的二阶卷积模块f₂(z)和三阶卷积模块f₃(z)具体按照以下公式设置表示：

其中，z代表输入的图像，

代表卷积核尺寸为i×i、输出通道数为n的卷积函数，a、b、c表示卷积降采样网络结构中不同卷积模块第一个卷积层、第二个卷积层和瓶颈层输出特定的通道数；BN(*)代表批量归一化函数；δ(*)代表RELU激活函数。

原始手势图像经过第一个二阶卷积模块后输出相当于原始图像1/2大小的通道数为8的特征张量，经过第二个二阶卷积模块后输出相当于原始图像1/4大小的通道数为16的特征张量，经过第三个二阶卷积模块后输出相当于原始图像1/8大小的通道数为32的特征张量，经过第四个二阶卷积模块后输出相当于原始图像1/16大小的通道数为64的特征张量，经过一个三阶卷积模块后输出相当于原始图像1/32大小的通道数为32的特征张量，经过上采样层输出相当于原始图像1/8大小的通道数为32的特征张量。

所述的DenseNet-B模块主要由多个密集层组成，每一个密集层是由两个连续的卷积模块BRC组成，两个卷积模块BRC拓扑结构相同但参数不同，卷积模块BRC是由一个批量归一化层、RELU激活层和一个单卷积层顺序连接而成；两个卷积模块BRC的区别在于单卷积层中卷积核的大小不同，其中一个卷积模块BRC的单卷积层中卷积核是1×1，另一个卷积模块BRC的单卷积层中卷积核是3×3；卷积模块BRC由以下公式设置表示：

其中，z代表输入的图像，BN(*)代表批量归一化函数；δ(*)代表RELU激活函数，

代表卷积核尺寸为i×i、输出通道数为n的卷积函数；BRC(*)表示卷积模块BRC的函数。

所述的DenseNet-B模块中，第一密集层的输入是卷积降采样网络结构中选取的特征张量，其余每个密集层的输入均包括卷积降采样网络结构中选取的特征张量和位于自身前面的所有密集层的输出，由卷积降采样网络结构中选取的特征张量和所有密集层的输出共同连接作为DenseNet-B模块的输出；

具体实施中设置四个密集层，第一密集层的输入是卷积降采样网络结构中选取的特征张量，第二密集层的输入是卷积降采样网络结构中选取的特征张量和第一密集层的输出，第三密集层的输入是卷积降采样网络结构中选取的特征张量、第一密集层的输出和第二密集层的输出，第四密集层的输入是卷积降采样网络结构中选取的特征张量、第一密集层的输出、第二密集层的输出和第三密集层的输出，以此类推。

最终由卷积降采样网络结构中选取的特征张量和第一到第四密集层的输出在通道维度上融合，融合后的特征张量作为DenseNet-B模块的输出。

DenseNet-B模块由以下公式设置表示：

其中，X₀表示第一密集层的输入，X_l表示第L层密集层的输出，H_l表示第L层的两个卷积核大小不同的卷积模块BRC，

表示通道维度上的叠加。

所述的DenseNet-B模块通过特征再利用，确保最大化的层级之间的信息流动。

所述的融合Drop-Path模块的DenseNet-B模块是在DenseNet-B模块上的每一层密集层之前设置Drop-Path函数随机丢弃某些输入子路径，但保证至少有一条子路径输入；Drop-Path模块自行设置丢弃率，减少了模型训练参数，提供了很好的正则化效果，是Dropout的扩展。

融合Drop-Path模块的DenseNet-B模块由以下公式进行设置表示：

其中，Drop-Path_n(*)表示Drop-Path函数，下标n表示设置的丢弃率。

所述的过渡层主要是由卷积池化模块BRCM组成，卷积池化模块BRCM是在卷积模块BRC基础上在最后增加了一个最大池化层，卷积池化模块BRCM可以用以下公式设置表示：

其中，

代表步长为2、卷积核大小为2×2的最大池化层。

本发明将两种不同尺度下通道数扩增后的特征张量进行融合，得到多尺度特征融合的特征张量是通过在通道上进行叠加，形成包含不同尺度的多维度特征张量然后输入到过渡层进行压缩，通过过渡层能够将通道紧凑，改变特征张量的尺度，增强图像边缘信息，有效抑制了过拟合。

本发明利用类似目标检测算法FPN的降采样网络对输入的原始手势图像进行多次降采样，选取降采样结构中较浅层的特征张量和深层的特征张量分别输入到DenseNet-B模块，融合Drop-Path模块，减少信息冗余和提高正则化效果，输出包含不同尺度语义信息的多维度特征张量，将包含不同尺度语义信息的特征张量在通道维度上进行拼接，再使用过渡层对融合后的特征张量进行空间压缩，增强图像边缘信息后再次输入到融合Drop-Path模块的DenseNet-B模块中，提取更高阶的多尺度特征张量。

本发明提出的方法完成了对手势目标占比不同的图像进行特征提取，多尺度特征融合，实现精确的手势识别。

本发明的有益效果：

(1)本发明提出了类似目标检测算法FPN的降采样网络结构，由四个二阶卷积模块、一个三阶卷积模块和一个上采样层构成，对输入的原始手势图像进行处理，能够适应手势目标占比不同的图像的检测，有效帮助卷积网络快速学习不同占比手势的特征，提高了网络训练速度。

(2)本发明采用了融合Drop-Path模块的DenseNet-B网络模型，将降采样网络结构中得到的包含不同尺度语义信息的特征张量输入到融合Drop-Path模块的DenseNet-B网络模型中，在特征再利用，最大化保证层级之间信息流动下降低网络图像特征信息冗余，减少网络模型参数，加快网络训练速度，有效抑制了过拟合，提高正则化效果，能够对不同占比的手势目标进行有效的特征提取和融合，产生多尺度的特征表示，进一步提高了识别准确率。

附图说明

图1为本发明的技术方案流程图；

图2为本发明方法所用到的手语数据集的部分手势图像；

图3为本发明中采用的基本单元二阶卷积模块示意图；

图4为本发明中采用的基本单元三阶卷积模块示意图；

图5为本发明中采用的基本单元卷积模块BRC示意图；

图6为本发明中采用的基本单元卷积池化模块BRCM示意图；

图7为本发明中采用的融合Drop-Path模块的DenseNet-B模块的结构示意图；

图8为网络模型之间平均参数量的对比结果图；

图9为网络模型之间验证集平均准确率的对比结果图。

图10为本发明的网络与常用网络模型之间验证集平均准确率的对比结果图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

本发明的技术方案流程图如图1所示。

本发明的数据集采用ASL(American sign language)开源手语数据集，其部分数据如图2所示。包含了不同手势目标占比、不同角度、不同光照以及不同背景环境下的手势图像，共包含28个手势类别以及1个非手势类别，共29个分类类别。

1)将原始手势图像的尺寸归一化为224×224×3的RGB图像，再对原始手势图像进行标准化，将原始手势图像从0～255之间的整数映射到0～1之间的浮点数作为神经网络的输入。

2)将标准化的手势图像输入图1所示的降采样网络中，降采样网络主要由四个二阶卷积模块和一个三阶卷积模块以及一个上采样层依次连接构成，二阶卷积模块结构如图3，三阶卷积模块如图4。所述的二阶卷积模块f₂(z)和三阶卷积模块f₃(z)按照以下公式进行设置：

其中，z代表输入的特征向量，

代表卷积核尺寸为i×i，输出通道数为n的卷积函数,以上公式中的a、b、c表示卷积降采样结构中不同卷积模块第一个卷积层、第二个卷积层和瓶颈层输出特定的通道数；BN(*)代表批量归一化函数；δ(*)代表RELU激活函数。

二阶卷积模块的第一个卷积层卷积核尺寸是3×3，步长为2，第二个卷积层卷积核尺寸是1×1，步长为1，图1中所示的多个二阶卷积模块的差别在于两层卷积层使用的卷积核个数，第一个二阶卷积模块两层卷积层的卷积核个数都是8，第二个二阶卷积模块两层卷积层的卷积核个数都是16，第三个二阶卷积模块两层卷积层的卷积核个数都是32，第四个二阶卷积模块两层卷积层的卷积核个数都是64；三阶卷积模块的第一个卷积层卷积核个数是128，尺寸是3×3，步长为2，第二个卷积层卷积核个数是128，尺寸是1×1，步长为1，第三个卷积层卷积核个数是32，尺寸是1×1，步长为1。

原始手势图像经过第一个二阶卷积模块后输出尺寸为112×112×8的特征张量，经过第二个二阶卷积模块后输出尺寸为56×56×16的特征张量，经过第三个二阶卷积模块后输出尺寸为28×28×32的特征张量，经过第四个二阶卷积模块后输出尺寸为14×14×64的特征张量，经过三阶卷积模块后输出尺寸为7×7×32的特征张量。

原始手势图像输入降采样网络之后选取较浅层和深层特征张量作为融合Drop-Path模块的DenseNet-B模块的输入，选取的较浅层特征张量尺寸为28×28×32，深层特征张量尺寸为7×7×32，不同深度的特征张量包含了手势图像的不同语义信息，浅层网络的感受野比较小，几何细节信息表征能力强，但是语义信息表征能力弱，深层网络的感受野比较大，语义表征能力强，但是空间几何特征细节缺乏，几何信息表征能力弱，设法融合不同深度的特征形成多尺度特征能够有效帮助网络提高不同占比手势的识别率。其中的深层特征张量，再经过一个上采样层，按照最近邻插值算法输出尺寸为28×28×32的特征张量。

3)将较浅层特征张量和经过上采样后的深层特征张量分别输入到如图7所示的融合Drop-Path模块的DenseNet-B模块中，图7中颜色较浅的路径为随机丢弃的子路径，图7所示的神经网络只画出4层密集层，第一层为输入层，本过程使用的是包含6层密集层的融合Drop-Path模块的DenseNet-B模块，DenseNet-B模块是将当前层得到的特征图，输入到所有后续层，对于一个L层网络，传统CNN包含L个层际之间的连接，DenseNet-B模块共包含1+2+…L＝L×(L+1)÷2个层际连接，实现了特征再利用，确保最大化的层级之间的信息流动，但这些层级之间的信息流动，多次紧密地包含了前继层的特征，造成了信息的冗余，增加了模型训练的计算量，而且每一次融合前继层要开辟一组全新的内存空间，导致需要消耗的内存空间较大，融合Drop-Path模块可以减少参数量，缓解内存的占用，同时还能够增强模型的泛化能力，提高模型的识别精度。图7网络结构中的BRC*2表示两个卷积模块BRC即密集层由两个卷积模块BRC组成，卷积模块BRC的结构如图5，密集层的第一个卷积模块BRC作为密集层的瓶颈层，卷积核尺寸为1×1，先对输入的多维特征张量的通道数压缩到4×k，本过程k设置为32，减少特征张量的通道数，降低网络的训练时间，修改原有的非线性环节，再输入到第二个卷积模块BRC，卷积核尺寸为3×3，进行非线性激活，输出通道数为k的特征张量，未融合Drop-Path模块的DenseNet-B模块的第n层密集层的输入特征张量的通道数为k₀+(n-1)×k，k₀为输入DenseNet-B模块的特征张量的通道数，融合Drop-Path模块的DenseNet-B模块的第n层密集层的输入特征张量的通道数根据Drop-Path模块设置的丢弃率d决定，随机丢弃当前层的输入子路径，则第n层密集层的输入特征张量的通道数近似等于d×(k₀+(n-1)×k)，本网络d设置为0.5，Drop-Path模块可以防止网络过深，提供了很好的正则效果，最后融合Drop-Path模块的DenseNet-B模块的输出如图7为输入特征张量和所有子层的叠加，则本过程网络输出的高维度特征张量尺寸为28×28×224。

其中，卷积模块BRC和DenseNet-B模块可由以下公式进行设置：

其中，X₀表示DenseNet-B模块的输入特征张量，X_l表示第L层密集层的输出，H_l表示第L层的两个卷积核大小不同的卷积模块BRC，

表示通道叠加操作。

融合Drop-Path模块的DenseNet-B模块可由以下公式进行设置：

其中，Drop-Path_n(*)表示Drop-Path函数，下标n表示丢弃率。

包含L层密集层的融合Drop-Path模块的DenseNet-B模块的输出可由以下公式进行计算：

4)将两路经过融合Drop-Path模块的DenseNet-B模块输出的两种包含不同尺度语义信息的通道数扩增后的特征张量进行通道融合，如图1，在通道融合层进行通道叠加，形成包含不同尺度语义信息的高维度特征张量，融合后的尺寸为28×28×448，然后输入到过渡层进行空间压缩，过渡层的作用是能够将通道紧凑，紧凑率设置为0.5，即将通道数压缩为原来的一半，并且改变特征张量的尺度，增强图像边缘信息，有效抑制了过拟合。过渡层是由一个卷积池化模块BRCM组成，卷积池化模块BRCM是在卷积模块BRC基础上增加了一个最大池化层，卷积池化模块BRCM如图6，原先DenseNet网络的过渡层的池化层为平均池化层，本网络采用最大池化层，有利于增强边缘信息，边缘信息作为手势图像的重要特征组成，能够有效提高手势识别准确率和速度，压缩后的特征张量尺寸为28×28×224，经过过渡层中压缩和池化的作用最终输出的多尺度高维度特征张量的尺寸为14×14×224。

5)如图1所示，本网络共使用3个融合Drop-Path模块的DenseNet-B模块，将过渡层的输出作为下一个融合Drop-Path模块的DenseNet-B模块的输入，本过程中，密集层的数量为6，学习速率k设置为16，最终按照公式

计算得出模块的输出张量尺寸为14×14×320。

6)最终，将多尺度高维度特征张量经过全局平均池化层之后再通过一个全连接层，将通道数映射到29，最后输入softmax分类器中，获得手势图像的分类结果。

如图8和图9所示，网络1为DenseNet-B网络，网络2为融合Drop-Path模块的DenseNet-B网络，网络3为融合降采样网络和Drop-Path模块的DenseNet-B网络，三个网络均在含有11600张图像的训练集上训练，在含有2900张图像的验证集上验证，多次训练统计模型参数量和验证集上的准确率，网络1的平均参数为1368000，平均准确率达98.22％，网络2的平均参数为908000，平均准确率达98.85％，网络3的平均参数为950000，平均准确率达99.83％。

将融合降采样网络和Drop-Path模块的DenseNet-B网络与常用的手势识别网络InceptionV3、MobileNet和AlexNet在相同手势数据集上训练20个迭代周期，比较网络模型之间的平均训练时间、平均模型大小和在验证集上的平均识别率，如表1，并绘制网络模型的验证集准确率曲线如图10。

表1

可以看到，本网络模型大小仅有11.1MB，参数量只有9.44×10⁵，总运行时间919s，且识别率只比InceptionV3和MobileNet低0.06％，综合表现最好。

通过实验得到的数据表明，本发明中融合的Drop-Path模块在识别精度不下降的同时，能大幅度降低模型训练的参数，有效抑制过拟合现象，减小模型占用的存储量，加快模型收敛的速度，本发明中的融合降采样网络结构和Drop-Path模块的DenseNet-B网络能够快速适应手势目标占比不同的图像的多尺度特征的提取，增强模型识别的泛化性，提高网络模型识别的精度。

Claims

1.一种基于DenseNet网络改进的手势图像特征提取方法，其特征在于：包括如下步骤：

4)将获得的两种包含不同尺度语义信息的通道数扩增后的特征张量进行融合，得到多尺度特征融合的特征张量；

2.根据权利要求1所述的一种基于DenseNet网络改进的手势图像特征提取方法，其特征在于：所述的卷积降采样网络结构主要由四个连续的二阶卷积模块和一个三阶卷积模块和一个上采样层依次连接构成；

所述的二阶卷积模块主要由进行降采样的stride＝2的第一个卷积层、1×1的第二个卷积层、批量归一化层和RELU激活层依次连接构成；

所述的三阶卷积模块是在二阶卷积模块基础上添加了一个瓶颈层后组成，瓶颈层的具体位置是在二阶卷积模块中两个卷积层之后、批量归一化层之前；

所述的上采样层是采用最近邻(nearest)插值算法进行；

3.根据权利要求2所述的一种基于DenseNet网络改进的手势图像特征提取方法，其特征在于：所述的二阶卷积模块f₂(z)和三阶卷积模块f₃(z)具体按照以下公式设置表示：

其中，z代表输入的图像，

4.根据权利要求1所述的一种基于DenseNet网络改进的手势图像特征提取方法，其特征在于：所述的DenseNet-B模块主要由多个密集层组成，每一个密集层是由两个连续的卷积模块BRC组成，两个卷积模块BRC拓扑结构相同但参数不同，卷积模块BRC是由一个批量归一化层、RELU激活层和一个单卷积层顺序连接而成；两个卷积模块BRC的区别在于单卷积层中卷积核的大小不同；卷积模块BRC由以下公式设置表示：

5.根据权利要求4所述的一种基于DenseNet网络改进的手势图像特征提取方法，其特征在于：所述的DenseNet-B模块中，第一密集层的输入是卷积降采样网络结构中选取的特征张量，其余每个密集层的输入均包括卷积降采样网络结构中选取的特征张量和位于自身前面的所有密集层的输出，由卷积降采样网络结构中选取的特征张量和所有密集层的输出共同连接作为DenseNet-B模块的输出；DenseNet-B模块由以下公式设置表示：

表示通道维度上的叠加。

6.根据权利要求1所述的一种基于DenseNet网络改进的手势图像特征提取方法，其特征在于：所述的融合Drop-Path模块的DenseNet-B模块是在DenseNet-B模块上的每一层密集层之前设置Drop-Path函数随机丢弃输入子路径；

融合Drop-Path模块的DenseNet-B模块由以下公式进行设置表示：

7.根据权利要求1所述的一种基于DenseNet网络改进的手势图像特征提取方法，其特征在于：所述的过渡层主要是由卷积池化模块BRCM组成，卷积池化模块BRCM是在卷积模块BRC基础上在最后增加了一个最大池化层，卷积池化模块BRCM可以用以下公式设置表示：

其中，

代表步长为2、卷积核大小为2×2的最大池化层。