CN113837263B - 基于特征融合注意力模块和特征选择的手势图像分类方法 - Google Patents

基于特征融合注意力模块和特征选择的手势图像分类方法 Download PDF

Info

Publication number
CN113837263B
CN113837263B CN202111098535.3A CN202111098535A CN113837263B CN 113837263 B CN113837263 B CN 113837263B CN 202111098535 A CN202111098535 A CN 202111098535A CN 113837263 B CN113837263 B CN 113837263B
Authority
CN
China
Prior art keywords
feature
order
module
low
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111098535.3A
Other languages
English (en)
Other versions
CN113837263A (zh
Inventor
田秋红
孙文轩
张元奎
吴佳璐
章立早
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Sci Tech University ZSTU
Original Assignee
Zhejiang Sci Tech University ZSTU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Sci Tech University ZSTU filed Critical Zhejiang Sci Tech University ZSTU
Priority to CN202111098535.3A priority Critical patent/CN113837263B/zh
Publication of CN113837263A publication Critical patent/CN113837263A/zh
Application granted granted Critical
Publication of CN113837263B publication Critical patent/CN113837263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征融合注意力模块和特征选择的手势图像分类方法。包括如下步骤:1对原始手势图像进行预处理;2将手势图像输入VGG16和ResNet50中,分别获得高阶和低阶特征张量;3将高阶与低阶特征张量同时输入特征融合注意力模块,特征注意力模块包括低阶特征增强模块、高阶特征增强模块和高低阶特征同步增强模块;4将融合后得到的特征张量输入SK‑Net模块中,得到特征选择后的特征张量;5将特征选择后的特征张量输入分类器中进行分类,得到手势图像的分类结果。本发明使用特征融合注意力模块分别对高阶特征和低阶特征进行增强与融合,得到精确描述手势的特征张量,最终通过特征选择实现对手势图像的精确识别。

Description

基于特征融合注意力模块和特征选择的手势图像分类方法
技术领域
本发明属于手势图像分类方法,具体涉及一种基于特征融合注意力模块和特征选择的手势图像分类方法。
背景技术
手势识别被广泛应用于人机交互、增强现实、智能家居和辅助驾驶等领域,可以让人们使用一种更加直接、快捷的方式进行人机交互,因此,手势识别已经成为人机交互领域的一个热点研究方向。但是如何对种类繁多的手语表达进行准确分类还是一大难点。目前对手势识别的研究中,主要分为基于机器视觉的手势识别方法和基于深度学习的手势识别方法两大类。
基于机器视觉的手势识别方法通常涉及视觉处理过程的多个阶段,例如手工特征提取和分类算法。简单地说,手工特征提取方法被设计用来处理特定的任务,这使得它不足以处理横跨多个数据集的各种任务,并且常常获得不合格的泛化。并且,手工特征提取方法的有效性及其处理多个数据集的各种任务的能力很大程度上依赖所用的手工特征提取方法。因此,基于机器视觉的手势识别方法适应各种任务的能力本身就受到限制,因为在复杂环境中捕捉到的手势图像可能具有各种各样的条件。
基于机器视觉的手势特征提取繁琐、费时,可能会因为提取特征产生的误差而导致识别准确率低,且有容易受复杂背景下光照和背景的影响。目前主流的手势识别方法基于深度学习居多,但有着准确率不够高,且通过单一卷积神经网络提取的特征尺度单一,无法全面描述手势图像等缺点。
发明内容
针对传统手势图像分类方法提取的特征无法全面描述手势图像且准确率不高的问题,本发明提出了一种更加有效的手势图像特征提取与分类方法。本发明利用预训练的VGG16网络以及ResNet50网络的特征提取模块提取手势图像的高阶与低阶特征;将高低阶特征张量分别输入特征融合注意力模块中。对于低阶特征张量,分别增强图像边界特征和关键特征并进行组合,对于高阶特征,直接增强其特征信息;将增强后的高低阶特征张量组合,并与之前的低阶特征张量与高阶特征张量分别组合,显著其低阶与高阶特征,并将显著后的高低阶特征融合。本发明提出的方法使用注意力模块完成了对手势图像的高阶特征与低阶特征的增强,并实现增强后的高阶特征与低阶特征的融合,并增强了融合特征的主要特征,能够实现更加精确的手势分类。
本发明的技术方案包括如下步骤:
1)使用ASL开源手语数据集中的手势图像作为原始手势图像,并获取原始手势图像的类别标签,对原始手势图像进行尺寸归一化处理,将经过尺寸归一化处理后的手势图像分为训练集和数据集;
2)构建卷积神经网络,卷积神经网络包括高阶特征提取模块、低阶特征提取模块、特征融合注意力模块、SK-Net模块和Softmax分类器;
3)将步骤1)的训练集和数据集输入卷积神经网络进行训练;
3.1)高阶特征提取模型和低阶特征提取模块分别提取输入图像的高阶特征和低阶特征,获得高阶特征张量和低阶特征张量;
3.2)将高阶特征张量与低阶特征张量同时输入特征融合注意力模块中;特征融合注意力模块包括低阶特征增强模块、高阶特征增强模块和高低阶特征同步增强模块;
3.3)将高低阶特征融合后的特征张量输入到SK-Net模块中,得到特征选择后的特征张量;
3.4)将特征选择后的特征张量输入Softmax分类器中进行分类,得到手势图像的分类结果。
4)将待分类的手势图像输入步骤3)训练好的卷积神经网络中进行手势图像分类,得到分类结果。
所述待分类的手势图像属于ASL开源手语数据集的手势类别。
所述步骤3.1):
高阶特征提取模型采用基于ImageNet训练的VGG16卷积神经网络作为迁移学习模型,将迁移后的VGG16中用于分类的最后一层全连接层进行冻结,使用VGG16中第十五层卷积网络输出的特征作为高阶特征;
低阶特征提取模块具体采用Resnet50模型中依次连接的Conv_Block模块(残差映射)和Identity_Block模块(恒等映射)。
所述步骤3.2)具体为:
3.2.1)通过低阶特征增强模块分别增强低阶特征的图像边界特征与关键特征,并进行特征组合;通过高阶特征增强模块直接增强高阶特征的特征信息;
3.2.2)通过高低阶特征同步增强模块处理后得到高低阶特征融合后的特征张量。
所述步骤3.2.1)中
低阶特征增强模块包括边缘特征增强模块和关键特征增强模块;
边缘特征增强模块包括一个归一化层和两个卷积分支;低阶特征提取模块输出的低阶特征输入第十一归一化层,第十一归一化层分别输入两路分支,每路分支均由两个依次连接的卷积层组成,两路分支输出的特征张量相加后输出得到边缘特征增强后的低阶特征张量;
关键特征增强模块包括一个卷积层和四个最大池化层;边缘特征增强后的低阶特征张量经第十六卷积层输入第二最大池化层,第十一归一化层输出的特征经第三最大池化层与第二最大池化层输出的特征相加后得到关键特征增强后的低阶特征张量。
所述步骤3.2.1)中:
高阶特征增强模块包括一个最大池化层和一个卷积层,高阶特征提取模型输出的高阶特征经第六最大池化层输入第十七卷积层,第十七卷积层输出的特征为增强后的高阶特征。
所述步骤3.2.2)中:
高低阶特征同步增强模块包括两个最大池化层和三个卷积层;低阶特征增强模块输出的优化后的低阶特征张量依次经第四最大池化层和第五最大池化层输入第十八卷积层,第四最大池化层和第五最大池化层对优化后的低阶特征张量进行两次空间压缩;高阶特征增强模块输出的增强后的高阶特征输入第十九卷积层;
将第十八卷积层和第十九卷积层输出的特征通过乘法进行特征融合后输入第二十卷积层,第二十卷积层的输出分别与第五最大池化层和第十七卷积层的输出相加后分别得到同步增强的低阶特征与高阶特征;将同步增强的低阶特征与高阶特征相加后得到最终的输出结果,即为特征融合注意力模块的输出结果。
所述步骤3.3)中的SK-Net模块包括依次相连的特征分离模块、多通道融合模块和特征选择模块;将包含高低阶特征的特征张量输入到SK-Net模块中;
1)特征分离模块包括一个卷积层和一个空洞卷积层,特征融合注意力模块输出的高低阶特征融合后的特征向量分别输入第二十一卷积层和空洞卷积层得到分离特征张量和分离特征张量/>第二十一卷积层使用3×3的卷积核,空洞卷积层使用3×3的卷积核,膨胀系数为2;具体通过以下公式进行设置:
其中,C为高低阶特征融合后的特征向量,为卷积核尺寸为3×3,输出通道为d的卷积函数,/>为卷积核尺寸为3×3,经过膨胀系数为2的膨胀之后感受野变成5×5,输出通道为d的空洞卷积;/>为经第二十一卷积层输出的分离特征张量,/>为经空洞卷积层输出的分离特征张量;
2)多通道融合模块包括一个全局平均池化层和一个全连接层;将特征分离模块得到的两个分离特征张量相加后输入依次连接的全局平均池化层和第一全连接层,第一全连接层输出的融合特征为多通道融合模块的输出结果;具体通过以下公式进行设置:
Fuse(U)=Ffc(GlobAvgPoolc(U))
其中,U为两个分离特征张量相加后得到的特征张量,Fuse(*)为多通道融合函数;GlobAvgPoolc(*)为通道维度上的全局平均池化函数,Ffc(*)为全连接函数;
3)特征选择模块包括一个全连接层和一个激活层;多通道融合模块输出的融合特征输入第二全连接层,得到紧凑特征z,紧凑特征z输入第九激活层,第九激活层为softmax激活函数;
通过softmax激活函数分别得到权重矩阵ac和权重矩阵bc,具体通过以下公式进行设置:
ac=softmax(z)
bc=softmax(z)
其中,softmax(x)是激活函数,x为激活函数的输入变量,A和B是形状和紧凑特征z相同的随机实数矩阵,Ac和Bc分别对应A和B的第c行;由于A和B是随机的,所以ac和bc是通过同一个激活函数得到的不同权重矩阵;
再将得到的权重矩阵ac和权重矩阵bc分别与分离特征张量和分离特征张量/>相乘得到特征选择后的特征张量V,即得SK-Net模块的最终输出;具体通过以下公式进行设置:
本发明的有益效果:
(1)本发明提出了一种基于特征融合注意力模块和特征选择的手势图像分类方法;通过特征融合注意力模块分别增强手势图像低阶特征与高阶特征,将增强后的高低阶特征张量组合,并与之前的低阶特征张量与高阶特征张量分别组合,显著其低阶与高阶特征,并将显著后的高低阶特征融合。能够有效的融合手势图像的高低阶特征,使其能够更加精确的描述手势图像。
(2)本发明使用了ResNet50网络模型,从中提取出特征提取模块,能够有效提取低阶特征。
(3)本发明使用了SK-Net对特征张量进行特征选择,将融合后的特征张量进行特征分离,根据不同特征的重要程度进行多分支融合,提升了模型对感受野的自适应能力,增强了有效特征的表达能力,提高了分类的准确率。
附图说明
图1为本发明方法的技术方案流程图。
图2为本发明方法所用到的部分数据集。
图3为本发明提取出的部分手势低阶特征。
图4为本发明提取出的部分手势高阶特征。
图5为本发明所使用的两种残差模块的结构示意图。
图6为本发明残差模块中CBA_Block和CB_Block的结构示意图。
图7为本发明所使用的RestNet50特征提取模块结构示意图。
图8为本发明所使用的特征融合注意力模块结构示意图。
图9为本发明中SK-Net模块的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明的技术方案流程图如图1所示。
本发明的数据集采用ASL(American sign language)开源手语数据集,其部分数据如图2所示。包含了不同角度、不同光照、不同大小以及不同背景环境下的手势图像,共包含28种手势类别以及非手势类别,共29个分类类别。
本发明的具体技术方案如下:
如图1所示,本发明包括如下步骤:
步骤1)如图2所示,使用ASL开源手语数据集中的手势图像作为原始手势图像,对原始手势图像进行尺寸归一化处理,获得手势图像,将读入的原始手势图像的尺寸归一化为256×256×3的三通道RGB图像,256×256×3作为神经网络的输入尺寸,再对三通道RGB图像进行标准化,将三通道RGB图像从0~255之间的整数映射到0~1之间的浮点数;
步骤2)如图3到图7所示,将手势图像输入到预训练的VGG16卷积神经网络和ResNet50卷积神经网络的特征提取模块中分别提取手势图像的高阶特征和低阶特征,分别获得高阶特征张量和低阶特征张量,高阶特征张量的尺寸为8×8×512,低阶特征张量的尺寸为64×64×256;
具体为:
提取高阶特征的模型采用了基于ImageNet训练的大型卷积神经网络VGG16作为迁移学习模型。VGG16模型通过反复叠加3×3个小卷积核和2×2个最大池化层以及全连接层,成功构建了十六层深的卷积神经网络。VGG16将传统卷积层提升到卷积块,每个卷积块由2到3个卷积层组成,并且使用线性整流函数(ReLu)激活函数增加线性变换,增强模型的学习能力和特征提取能力。
迁移学习可以减少对训练数据量的要求,同时能够带来更快的训练速度。将迁移后的VGG16模型的用于分类的最后一层全连接层进行冻结,使用VGG16中第十五层卷积网络训练得到的特征作为高阶特征。
ResNet50卷积神经网络包含了49个卷积层和一个全连接层,主要由多个不同的残差模块依次连接构成。每个残差模块主要包含两种映射:残差映射和恒等映射。在残差模块中,输入特征张量经过残差映射得到残差映射张量,根据残差映射张量将输入特征张量进行恒等映射得到恒等映射张量,残差映射特征张量与恒等映射特征张量相加即得到残差模块的输出特征张量;通过如下公式进行设置:
H(x)=F(x)+C(x)
其中,H(*)为残差模块的输出函数;F(*)为恒等映射函数;C(*)为残差映射函数;x为残差模块的输入特征张量。
RseNet50中有两个基本的残差模块,分别名为Conv_Block(残差映射)与Identity_Block(恒等映射),具体结构如图5所示。Conv_Block由残差映射模块和恒等映射模块组成,残差映射模块包括两个CBA_Block和一个CB_Block,恒等映射模块包括一个CB_Block,恒等映射模块中的CB_Block结构如图6所示,公式如下:
Fconv(x)=BN(Conv(x))
其中,Conv(*)为卷积函数,BN(*)为批归一化函数,Fconv(*)为Conv_Block的恒等映射函数。
Identity_Block由残差映射模块和恒等映射模块组成,残差映射模块包括两个CBA_Block和一个CB_Block,恒等映射模块具体公式如下:
Fidentity(x)=x
Fidentity(*)为Identity_Block中的恒等映射函数。
Conv_Block模块中,在残差映射中输入特征张量经过卷积核为1×1的第一卷积层进行特征降维,得到的降维特征张量输入到卷积核为3×3的第二卷积层,再将得到的中间层特征张量输入到卷积核为1×1的第三卷积层进行特征升维,恢复到原本的维度,得到残差映射特征张量;在恒等映射中将输入特征张量经过卷积核为1×1的卷积层直接进行特征升维,得到恒等映射特征张量。此时将恒等映射特征张量与残差映射特征张量相加,得到的结果作为Conv_Block模块的输出特征张量,这种简单的加法并不会给网络增加额外的参数和计算量,同时可以大大增加模型的训练速度,提高训练效果,并且当模型的层数加深时,这个简单的结构能够很好解决退化问题。
Identity_Block模块中,残差映射与Conv_Block模块中的流程相同,在恒等映射中直接将输入特征向量作为恒等映射模块的输出,得到恒等映射特征张量,最后将残差映射特征张量与恒等映射特征张量相加,得到的结果作为Identity_Block模块的输出特征张量。
通过Resnet50的特征提取模块提取低阶特征,其特征提取模块由第一残差模块、第二残差模块、第三残差模块和第四残差模块组成。
第一残差模块由第一填充层、第一卷积层、第一批归一化层和第一激活层、第二填充层和第一全局最大池化层组成。
第二残差模块包括第一残差子模块,第二残差子模块,第三残差子模块和第一恒等映射模块组成。第一、第二和第三残差子模块组成第二残差模块的残差映射,第一恒等映射模块作为第一残差子模块的恒等映射。残差映射和恒等映射的输出相加作为第二残差模块的输出。第一残差子模块是一个CBA_Block,包括第二卷积层、第二批归一化层和第二激活层;第二残差子模块是一个CBA_Block,主要包括第三卷积层、第三批归一化层和第三激活层;第三残差子模块是一个CBA_Block,由第四卷积层、第四批归一化层和第四激活层组成。第一恒等映射模块是一个CB_Block,由第五卷积层和第五批归一化层组成。
第三残差模块包括第四残差子模块,第五残差子模块,第六残差子模块和第二恒等映射模块组成。第四、第五和第六残差子模块组成第三残差模块的残差映射,第二恒等映射模块作为第三残差模块的恒等映射;残差映射和恒等映射的输出相加作为第三残差模块的输出。第四、五、六残差子模块都是CBA_Block,其中第四残差子模块由第六卷积层、第六批归一化层和第五激活层组成;第五残差子模块包括第七卷积层、第七批归一化层和第六激活层;第六残差子模块由第八卷积层、第八批归一化层、第七激活层组成。
第四残差模块包括第七残差子模块和第八残差子模块。第七残差子模块是一个CBA_Block,由第九卷积层、第九批归一化层和第八激活层组成,第八残差子模块也是一个CBA_Block,由第十卷积层、第十批归一化层、第九激活层和第十一卷积层组成。
步骤3)如图8所示,将高阶特征张量与低阶特征张量同时输入特征融合注意力模块中。对于高阶特征,直接增强其特征信息,对于低阶特征,分别增强其图像边界特征与关键特征并进行特征组合。
具体为:
3.1)低阶特征增强中,又分为边缘特征增强和关键特征增强。
边缘特征增强:将提取的低阶特征张量输入到第十一批归一化层,将得到的特征张量分别输入到第十二卷积层和第十三卷积层,再分别将结果输入第十四卷积层和第十五卷积层,再将两个卷积层得到的特征张量相加,即得到增强图像边界特征的低阶特征张量。通过以下公式进行设置:
其中,S(*)为边界特征增强函数,为包含一个卷积核尺寸为1×5,输出通道为d的卷积函数,v为输入的特征张量。
关键特征增强:将增强边界特征后的低阶特征张量输入第十六卷积层,得到的特征张量再输入第二最大池化层,把经过第十一批归一化层的特征张量输入第三最大池化层,将两个最大池化层得到的输出张量相加,即得到增强后的低阶特征。
3.2)高阶特征增强中,使用第六最大池化层和第十七卷积层对高阶特征进行特征增强,通过以下公式进行设置:
其中,E(*)为通道扩增函数;为卷积核尺寸为3×3、输出通道为d的卷积函数;q为原始的高阶特征张量,MaxPool(*)为最大池化函数。
步骤4)将增强后的高阶特征张量与增强后的低阶特征张量组合,之后与原始高阶特征张量和原始低阶特征张量分别组合,显著图像的低阶特征与高阶特征,最终将显著后的高阶特征与低阶特征进行融合。
具体为:
低阶特征增强模块输出的优化后的低阶特征张量依次经第四最大池化层和第五最大池化层输入第十八卷积层,第四最大池化层和第五最大池化层对优化后的低阶特征张量进行两次空间压缩;单次空间压缩通过以下公式进行设置:
其中,P(*)为空间压缩函数;为空间维度上步长为k的最大池化函数;s为特征增强后的低阶特征张量;l为特征增强后的低阶特征张量的长度;r为特征增强后的低阶特征张量的宽度。
高阶特征增强模块输出的增强后的高阶特征输入第十九卷积层。使用第十八卷积层和第十九卷积层分别提取高阶特征信息与显著性激活低阶特征信息,分别凸显出高阶与低阶特征中的重要特征。
将高阶特征信息与显著性激活低阶特征信息通过乘法进行特征融合,融合的特征则包含了清晰的边界和一致的语义信息;之后将特征融合后的增强信息采用第二十卷积层还原图像信息的内在含义,并将包含图像信息内在含义的特征张量分别与第五最大池化层和第十七卷积层的输出相加后分别得到同步增强的低阶特征与高阶特征。通过以下公式进行设置:
其中,R(*)为特征融合函数;l为低阶特征张量;h为高阶特征张量;L(*)为提取低阶特征函数,r为特征融合函数的结果;H(*)为提取高阶特征函数。
最后将同步增强的低阶特征与高阶特征相加后得到最终的输出结果,即为特征融合注意力模块的输出结果。
步骤5)如图9所示,SK-Net模块包括特征分离模块,多通道融合模块和特征选择模块。将包含高低阶特征的特征张量输入到SK-Net模块中,特征分离模块,多通道融合模块和特征选择模块依次相连;
具体为:
5.1)特征分离模块包括第二十一卷积层和空洞卷积层,空洞卷积与标准卷积相比,在不增加参数量的同时增大了感受野,使用空洞卷积能够在一定程度上提高效率。特征分离模块将输入特征分别输入两个不同的卷积层用于提取不同的特征,能够增强有效特征,弱化无效特征。第二十一卷积层使用3×3的卷积核,空洞卷积层使用3×3的卷积核,膨胀系数为2,将包含高低阶特征的特征张量分别输入到第二十一卷积层和空洞卷积层中,分别得到分离特征张量和分离特征张量/>通过以下公式进行设置:
其中,C为高低阶特征融合后的特征向量为卷积核尺寸为3×3,输出通道为d的卷积函数,/>为卷积核尺寸为3×3,经过膨胀系数为2的膨胀之后感受野变成5×5,输出通道为d的空洞卷积。
5.2)多通道融合模块包括全局平均池化层和第一全连接层,先通过特征拼接融合两个分支的结果。拼接特征分离模块得到的分离特征张量和/>公式如下:
将得到的特征张量U输入全局平均池化层,使用全局平均池化来嵌入全局信息,为了在信息中实现精确和自适应选择的指导,再将全局平均池化层的输出输入到第一全连接层,降低了维数,能够在一定程度上提高效率。
通过以下公式进行设置:
Fuse(U)=Ffc(GlobAvgPoolc(U))
其中,U为特征分离模块的Fuse(*)为多通道融合函数;GlobAvgPoolc(*)为通道维度上的全局平均池化函数,Ffc(*)为全连接函数。
5.3)特征选择模块包括第二全连接层,第九激活层。为了紧凑全局特征,再次使用全连接函数,将多通道融合模块得到的融合特征输入第二全连接层,得到紧凑特征z,在紧凑特征的引导下,采用跨通道的注意力自适应选择不同的特征空间尺度,即得到的紧凑特征再输入第九激活层,通过softmax激活函数分别得到权重矩阵ac和权重矩阵bc,通过以下公式进行设置:
z=Ffc(f)
ac=softmax(z)
bc=softmax(z)
其中Ffc(*)为全连接函数,f是多通道特征融合模块的结果,softmax(x)是激活函数,x对应该激活函数的输入变量,A和B是形状和紧凑特征z相同的随机实数矩阵,Ac和Bc分别对应A和B的第c行。因为A和B是随机的,所以ac和bc是通过同一个激活函数得到的不同权重矩阵。
为了能够使用不同分支携带不同尺度的特征信息进入下一层的神经元,需要整合来自所有分支的特征,将得到的权重矩阵ac和权重矩阵bc分别与分离特征张量和分离特征张量/>相乘,通过以下公式进行设置:
通过以上公式,最终得到特征选择模块得到的输出特征V。
步骤6)将特征选择后的特征张量输入到Softmax分类器中进行分类,映射为29个类别的概率值,取概率值最大的作为手势图像的分类类别,得到手势图像的分类结果。
在同一设备上使用VGG16、SE-Xception-Net以及本文提出的图像分类方法对ASL开源手语数据集进行对比实验,得到如下表所示的结果。
表1:本发明与其他模型的结果对比表
上述具体技术流程用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

Claims (5)

1.一种基于特征融合注意力模块和特征选择的手势图像分类方法,其特征在于:包括如下步骤:
步骤1)使用ASL开源手语数据集中的手势图像作为原始手势图像,并获取原始手势图像的类别标签,对原始手势图像进行尺寸归一化处理,将经过尺寸归一化处理后的手势图像分为训练集和数据集;
步骤2)构建卷积神经网络,卷积神经网络包括高阶特征提取模块、低阶特征提取模块、特征融合注意力模块、SK-Net模块和Softmax分类器;
步骤3)将步骤1)的训练集和数据集输入卷积神经网络进行训练;
3.1)高阶特征提取模型和低阶特征提取模块分别提取输入图像的高阶特征和低阶特征,获得高阶特征张量和低阶特征张量;
3.2)将高阶特征张量与低阶特征张量同时输入特征融合注意力模块中;特征融合注意力模块包括低阶特征增强模块、高阶特征增强模块和高低阶特征同步增强模块;
3.3)将高低阶特征融合后的特征张量输入到SK-Net模块中,得到特征选择后的特征张量;
3.4)将特征选择后的特征张量输入Softmax分类器中进行分类,得到手势图像的分类结果;
步骤4)将待分类的手势图像输入步骤3)训练好的卷积神经网络中进行手势图像分类,得到分类结果;
所述步骤3.2)具体为:
3.2.1)通过低阶特征增强模块分别增强低阶特征的图像边界特征与关键特征,并进行特征组合;通过高阶特征增强模块直接增强高阶特征的特征信息;
3.2.2)通过高低阶特征同步增强模块处理后得到高低阶特征融合后的特征张量;
所述步骤3.2.2)中:
高低阶特征同步增强模块包括两个最大池化层和三个卷积层;低阶特征增强模块输出的优化后的低阶特征张量依次经第四最大池化层和第五最大池化层输入第十八卷积层,第四最大池化层和第五最大池化层对优化后的低阶特征张量进行两次空间压缩;高阶特征增强模块输出的增强后的高阶特征输入第十九卷积层;
将第十八卷积层和第十九卷积层输出的特征通过乘法进行特征融合后输入第二十卷积层,第二十卷积层的输出分别与第五最大池化层和第十七卷积层的输出相加后分别得到同步增强的低阶特征与高阶特征;将同步增强的低阶特征与高阶特征相加后得到最终的输出结果,即为特征融合注意力模块的输出结果。
2.根据权利要求1所述的一种基于特征融合注意力模块和特征选择的手势图像分类方法,其特征在于:所述步骤3.1):
高阶特征提取模型采用基于ImageNet训练的VGG16卷积神经网络作为迁移学习模型,将迁移后的VGG16中用于分类的最后一层全连接层进行冻结,使用VGG16中第十五层卷积网络输出的特征作为高阶特征;
低阶特征提取模块具体采用Resnet50模型中依次连接的Conv_Block模块和Identity_Block模块。
3.根据权利要求1所述的一种基于特征融合注意力模块和特征选择的手势图像分类方法,其特征在于:所述步骤3.2.1)中
低阶特征增强模块包括边缘特征增强模块和关键特征增强模块;
边缘特征增强模块包括一个归一化层和两个卷积分支;低阶特征提取模块输出的低阶特征输入第十一归一化层,第十一归一化层分别输入两路分支,每路分支均由两个依次连接的卷积层组成,两路分支输出的特征张量相加后输出得到边缘特征增强后的低阶特征张量;
关键特征增强模块包括一个卷积层和四个最大池化层;边缘特征增强后的低阶特征张量经第十六卷积层输入第二最大池化层,第十一归一化层输出的特征经第三最大池化层与第二最大池化层输出的特征相加后得到关键特征增强后的低阶特征张量。
4.根据权利要求1所述的一种基于特征融合注意力模块和特征选择的手势图像分类方法,其特征在于:所述步骤3.2.1)中:
高阶特征增强模块包括一个最大池化层和一个卷积层,高阶特征提取模型输出的高阶特征经第六最大池化层输入第十七卷积层,第十七卷积层输出的特征为增强后的高阶特征。
5.根据权利要求1所述的一种基于特征融合注意力模块和特征选择的手势图像分类方法,其特征在于:所述步骤3.3)中的SK-Net模块包括依次相连的特征分离模块、多通道融合模块和特征选择模块;将包含高低阶特征的特征张量输入到SK-Net模块中;
1)特征分离模块包括一个卷积层和一个空洞卷积层,特征融合注意力模块输出的高低阶特征融合后的特征向量分别输入第二十一卷积层和空洞卷积层得到分离特征张量和分离特征张量/>第二十一卷积层使用3×3的卷积核,空洞卷积层使用3×3的卷积核,膨胀系数为2;
2)多通道融合模块包括一个全局平均池化层和一个全连接层;将特征分离模块得到的两个分离特征张量相加后输入依次连接的全局平均池化层和第一全连接层,第一全连接层输出的融合特征为多通道融合模块的输出结果;
3)特征选择模块包括一个全连接层和一个激活层;多通道融合模块输出的融合特征输入第二全连接层,得到紧凑特征z,紧凑特征z输入第九激活层,第九激活层为softmax激活函数;
通过softmax激活函数分别得到权重矩阵ac和权重矩阵bc,具体通过以下公式进行设置:
ac=softmax(z)
bc=softmax(z)
其中,softmax(x)是激活函数,x为激活函数的输入变量,A和B是形状和紧凑特征z相同的随机实数矩阵,Ac和Bc分别对应A和B的第c行;由于A和B是随机的,所以ac和bc是通过同一个激活函数得到的不同权重矩阵;
再将得到的权重矩阵ac和权重矩阵bc分别与分离特征张量和分离特征张量/>相乘得到特征选择后的特征张量V,即得SK-Net模块的最终输出;具体通过以下公式进行设置:
ac+bc=1。
CN202111098535.3A 2021-09-18 2021-09-18 基于特征融合注意力模块和特征选择的手势图像分类方法 Active CN113837263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111098535.3A CN113837263B (zh) 2021-09-18 2021-09-18 基于特征融合注意力模块和特征选择的手势图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111098535.3A CN113837263B (zh) 2021-09-18 2021-09-18 基于特征融合注意力模块和特征选择的手势图像分类方法

Publications (2)

Publication Number Publication Date
CN113837263A CN113837263A (zh) 2021-12-24
CN113837263B true CN113837263B (zh) 2023-09-26

Family

ID=78959945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111098535.3A Active CN113837263B (zh) 2021-09-18 2021-09-18 基于特征融合注意力模块和特征选择的手势图像分类方法

Country Status (1)

Country Link
CN (1) CN113837263B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115129019A (zh) * 2022-08-31 2022-09-30 合肥中科迪宏自动化有限公司 生产线故障分析模型的训练方法及生产线故障分析方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145332A (zh) * 2006-09-14 2008-03-19 英华达(上海)科技有限公司 屏幕亮度调节装置及其调节电子装置屏幕亮度的方法
CN103607758A (zh) * 2013-11-06 2014-02-26 中兴通讯股份有限公司 终端屏幕省电处理方法、装置及终端
CN107679491A (zh) * 2017-09-29 2018-02-09 华中师范大学 一种融合多模态数据的3d卷积神经网络手语识别方法
WO2019080203A1 (zh) * 2017-10-25 2019-05-02 南京阿凡达机器人科技有限公司 一种机器人的手势识别方法、系统及机器人
CN109886225A (zh) * 2019-02-27 2019-06-14 浙江理工大学 一种基于深度学习的图像手势动作在线检测与识别方法
CN110598554A (zh) * 2019-08-09 2019-12-20 中国地质大学(武汉) 基于对抗学习的多人姿态估计方法
KR102108050B1 (ko) * 2019-10-21 2020-05-07 가천대학교 산학협력단 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치
CN112149504A (zh) * 2020-08-21 2020-12-29 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法
CN112836651A (zh) * 2021-02-04 2021-05-25 浙江理工大学 基于动态融合机制的手势图像特征提取方法
CN113033398A (zh) * 2021-03-25 2021-06-25 深圳市康冠商用科技有限公司 一种手势识别方法、装置、计算机设备及存储介质
CN113065426A (zh) * 2021-03-19 2021-07-02 浙江理工大学 基于通道感知的手势图像特征融合方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3756129A1 (en) * 2018-02-21 2020-12-30 Robert Bosch GmbH Real-time object detection using depth sensors
US11227151B2 (en) * 2020-03-05 2022-01-18 King Fahd University Of Petroleum And Minerals Methods and systems for computerized recognition of hand gestures

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145332A (zh) * 2006-09-14 2008-03-19 英华达(上海)科技有限公司 屏幕亮度调节装置及其调节电子装置屏幕亮度的方法
CN103607758A (zh) * 2013-11-06 2014-02-26 中兴通讯股份有限公司 终端屏幕省电处理方法、装置及终端
CN107679491A (zh) * 2017-09-29 2018-02-09 华中师范大学 一种融合多模态数据的3d卷积神经网络手语识别方法
WO2019080203A1 (zh) * 2017-10-25 2019-05-02 南京阿凡达机器人科技有限公司 一种机器人的手势识别方法、系统及机器人
CN109886225A (zh) * 2019-02-27 2019-06-14 浙江理工大学 一种基于深度学习的图像手势动作在线检测与识别方法
CN110598554A (zh) * 2019-08-09 2019-12-20 中国地质大学(武汉) 基于对抗学习的多人姿态估计方法
KR102108050B1 (ko) * 2019-10-21 2020-05-07 가천대학교 산학협력단 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치
CN112149504A (zh) * 2020-08-21 2020-12-29 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法
CN112836651A (zh) * 2021-02-04 2021-05-25 浙江理工大学 基于动态融合机制的手势图像特征提取方法
CN113065426A (zh) * 2021-03-19 2021-07-02 浙江理工大学 基于通道感知的手势图像特征融合方法
CN113033398A (zh) * 2021-03-25 2021-06-25 深圳市康冠商用科技有限公司 一种手势识别方法、装置、计算机设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Jiaqing Liu ; Kotaro Furusawa ; Tomoko Tateyama ; Yutaro Iwamoto ; .An Improved Hand Gesture Recognition with Two-Stage Convolution Neural Networks Using a Hand Color Image and its Pseudo-Depth Image.2019 IEEE International Conference on Image Processing (ICIP).2019,375-379. *
基于PCA-HOG与LBP特征融合的静态手势识别方法研究;王瑶;优秀硕士论文全文库信息科技;1-64 *
基于优化PSO-BP的多特征融合图像识别算法研究;孙文轩;青岛大学学报(工程技术版);72-82 *
基于计算机视觉的手势识别技术的研究;赵倩楠;优秀硕士论文全文库信息科技;1-71 *
手势识别算法研究及实现;解栋文;优秀硕士论文全文库信息科技;1-73 *
视觉动态手势识别综述;田秋红;浙江理工大学学报;557-569 *

Also Published As

Publication number Publication date
CN113837263A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
CN108154194B (zh) 一种用基于张量的卷积网络提取高维特征的方法
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN111274869A (zh) 基于并行注意力机制残差网进行高光谱图像分类的方法
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN110135460B (zh) 基于vlad卷积模块的图像信息强化方法
CN114038037B (zh) 基于可分离残差注意力网络的表情标签修正和识别方法
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN111126256A (zh) 一种基于自适应空谱多尺度网络的高光谱图像分类方法
CN109871892A (zh) 一种基于小样本度量学习的机器人视觉认知系统
CN110991349B (zh) 一种基于度量学习的轻量级车辆属性识别方法
CN112200090A (zh) 基于交叉分组空谱特征增强网络的高光谱图像分类方法
CN113065426B (zh) 基于通道感知的手势图像特征融合方法
US11941865B2 (en) Hyperspectral image classification method based on context-rich networks
CN114463812B (zh) 基于双通道多分支融合特征蒸馏的低分辨率人脸识别方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN108363962B (zh) 一种基于多层次特征深度学习的人脸检测方法及系统
CN108416795B (zh) 基于排序池化融合空间特征的视频动作识别方法
Lv et al. ESSINet: Efficient spatial–spectral interaction network for hyperspectral image classification
CN113837263B (zh) 基于特征融合注意力模块和特征选择的手势图像分类方法
CN112364705A (zh) 基于多层次特征融合的轻量型cnn的表情识别方法
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant