CN113065426B - 基于通道感知的手势图像特征融合方法 - Google Patents

基于通道感知的手势图像特征融合方法 Download PDF

Info

Publication number
CN113065426B
CN113065426B CN202110297521.8A CN202110297521A CN113065426B CN 113065426 B CN113065426 B CN 113065426B CN 202110297521 A CN202110297521 A CN 202110297521A CN 113065426 B CN113065426 B CN 113065426B
Authority
CN
China
Prior art keywords
module
feature
residual
layer
tensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110297521.8A
Other languages
English (en)
Other versions
CN113065426A (zh
Inventor
岳金鸿
田秋红
吴佳璐
符悦成
章立早
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Sci Tech University ZSTU
Original Assignee
Zhejiang Sci Tech University ZSTU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Sci Tech University ZSTU filed Critical Zhejiang Sci Tech University ZSTU
Priority to CN202110297521.8A priority Critical patent/CN113065426B/zh
Publication of CN113065426A publication Critical patent/CN113065426A/zh
Application granted granted Critical
Publication of CN113065426B publication Critical patent/CN113065426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于通道感知的手势图像特征融合方法。本发明包括如下步骤:1对原始手势图像进行预处理,获得手势图像;2手势图像输入到不同的卷积神经网络,分别获得高阶特征张量和低阶特征张量;3对高阶特征张量进行处理,获得通道压缩后的高阶特征张量;对低阶特征张量进行处理,获得通道扩增后的低阶特征张量;4将步骤3中获得的特征张量进行拼接融合,得到包含高低阶特征的特征张量;5将包含高低阶特征的特征张量输入到SE‑Net模块中,得到标定后的特征张量;6将标定后的特征张量输入到分类器中,得到分类结果。本发明能够提取手势图像的高低阶特征并进行组合,得到精确描述手势的特征张量,并通过其特征实现对手势图像的精确识别。

Description

基于通道感知的手势图像特征融合方法
技术领域
本发明涉及了一种手势图像特征融合方法,具体涉及了一种基于通道感知的手势图像特征融合方法。
背景技术
手势识别主要应用于人机交互以及模式识别等领域,已成为当今时代人机交互的研究热点之一。但如何在现实应用中对复杂背景中的多样化手势进行精确的识别成为了一大难点。目前手势识别方法主要分为基于机器视觉的手势识别方法以及基于深度学习的手势识别方法两大类。
基于机器视觉的手势识别方法主要是通过图像检测、图像处理、图像分割等方法处理图像,获得多种可以描述手势的手势特征,并将这些特征按照一定的比例进行融合,并对融合后的特征进行识别;基于多特征融合的手势识别方法则是提取梯度直方图(HOG)和局部二值模式(LBP)等特征,并进行融合,进而得到更加全面的手势特征信息;基于深度学习的手势识别方法使用卷积神经网络通过卷积层自动提取手势的轮廓肤色等深度特征,并通过卷积层进行融合。
基于机器视觉的手势特征融合方法也能在一定程度上实现对复杂手势特征融合,但是其提取的特征易受光照背景的影响,使融合得到的特征难以精确描述手势图像,且速度较慢。目前基于深度学习的手势识别方法逐渐成为主流,但通过单一卷积神经网络提取到的特征尺度单一,无法全面的描述手势图像。
发明内容
针对传统手势图像特征融合与识别方法得到的特征难以精确描述手势图像的问题,本发明提出了一种更加全面有效的特征融合方法。实现对不同尺度的手势特征的有效融合,使融合后的特征能够精确的描述手势图像。本发明利用ResNet50以及Mini-ResNet两个卷积神经网络提取手势图像的高阶与低阶特征;对低阶特征依次进行空间特征增强、空间压缩以及通道扩增,得到低阶特征张量;对高阶特征进行通道压缩,得到高阶特征张量;将高低阶特征张量在通道维度上进行拼接融合,再使用SE-Net对融合后的特征进行通道特征重标定,强化主要特征同时抑制次要特征。本发明提出的方法完成了对手势图像的高低阶特征的融合,融合后的特征能够更加精确的描述手势图像,实现精确的手势识别。
本发明的技术方案如下:
本发明包括如下步骤:
1)对原始手势图像进行尺寸归一化处理,获得手势图像;
2)手势图像输入到ResNet50卷积神经网络和Mini-ResNet卷积神经网络分别提取手势图像的高阶特征和低阶特征,分别获得高阶特征张量和低阶特征张量;
3)对高阶特征张量进行通道压缩,获得通道压缩后的高阶特征张量;对低阶特征张量依次进行空间特征增强、空间压缩和通道扩增,获得通道扩增后的低阶特征张量;
4)将通道压缩后的高阶特征张量和通道扩增后的低阶特征张量在通道维度上进行拼接融合,得到包含高低阶特征的特征张量;
5)将包含高低阶特征的特征张量输入到SE-Net模块中,得到标定后的特征张量;
6)将标定后的特征张量输入到Softmax分类器中进行分类,得到手势图像的分类结果。
所述步骤2)中:
ResNet50卷积神经网络和Mini-ResNet卷积神经网络均主要由多个不同的残差模块依次连接构成,残差模块主要包括两个部分,残差映射和恒等映射;在残差模块中,残差模块的输入特征张量经残差映射进行特征提取获得第一特征张量,根据第一特征张量对输入特征张量经恒等映射获得第二特征张量,第一特征张量和第二特征张量相加获得残差模块的输出特征张量,通过以下公式进行设置:
H(x)=F(x)+G(x)
其中,H(*)为残差模块的输出函数;F(*)为残差映射函数;G(*)为恒等映射函数;x为残差模块的输入特征张量;
所述的残差映射中,输入特征张量经第一卷积层进行映射,得到经特征提取后的特征张量
恒等映射中,判断残差映射的输出特征张量的通道数和输入特征张量的通道数是否相同;相同则直接以输入特征张量作为恒等映射的输出特征张量,不相同则以经第二卷积层进行恒等映射后的特征张量作为恒等映射的输出特征张量,恒等映射的输出特征张量作为残差模块的输出特征张量,通过以下公式进行设置;
其中,G(*)为恒等映射函数;Conv1×1(*)为卷积核尺寸为1×1的卷积函数。
所述Mini-ResNet卷积神经网络主要由3个不同的残差模块依次连接构成具体为:
Mini-ResNet卷积神经网络主要由第一残差模块、第二残差模块和第三残差模块依次连接组成;
第一残差模块包括第一残差子模块、第二残差子模块、第三残差子模块和第一恒等映射模块;第一残差子模块、第二残差子模块和第三残差子模块组成第一残差模块的残差映射,第一恒等映射模块作为第一残差模块的恒等映射;第一残差子模块依次经第二残差子模块和第三残差子模块后与第一恒等映射模块相连,第一残差子模块的输出还直接输入到第一恒等映射模块,Mini-ResNet卷积神经网络的输入作为第一残差子模块的输入;
第一残差子模块主要由第三卷积层、第一批归一化层和第一激活层依次连接组成,第二残差子模块主要由第四卷积层、第二批归一化层和第二激活层依次连接组成,第三残差子模块主要由第五卷积层和第三批归一化层连接组成,第一恒等映射模块主要由第四批归一化层和第三激活层连接组成,第一激活层的输出输入到第四批归一化层,第三激活层的输出作为第一恒等映射模块的输出;
第二残差模块包括第五残差子模块、第六残差子模块、第七残差子模块、第五卷积层和二恒等映射模块;第五残差子模块、第六残差子模块和第七残差子模块组成第二残差模块的残差映射,第二恒等映射模块和第五卷积层组成第二残差模块的恒等映射;第五残差子模块依次经第六残差子模块和第七残差子模块后与第二恒等映射模块相连,第五残差子模块的输出还经第五卷积层与第二恒等映射模块相连,第一恒等映射模块的输出作为第五残差子模块的输入;
第五残差子模块主要由第四激活层和第一最大池化层连接组成,第六残差子模块主要由第六卷积层、第五批归一化层和第五激活层依次连接组成,第七残差子模块主要由第七卷积层和第六批归一化层连接组成,第二恒等映射模块主要由第七批归一化层和第八卷积层连接组成,第一最大池化层经第五卷积层与第七批归一化层相连,第八卷积层的输出作为第二恒等映射模块的输出;
第三残差模块包括第九残差子模块、第十残差子模块、第十一残差子模块、第九卷积层和第三恒等映射模块;第九残差子模块、第十残差子模块和第十一残差子模块组成第三残差模块的残差映射,第三恒等映射模块和第九卷积层组成第三残差模块的恒等映射;第九残差子模块依次经第十残差子模块和第十一残差子模块后与第三恒等映射模块相连,第九残差子模块的输出还经第九卷积层与第三恒等映射模块相连,第二恒等映射模块的输出作为第九残差子模块的输入;
第九残差子模块主要由第六激活层和第二最大池化层连接组成,第十残差子模块主要由第十卷积层、第八批归一化层和第七激活层依次连接组成,第十一残差子模块主要由第十一卷积层和第九批归一化层连接组成,第三恒等映射模块主要由第十批归一化层和第八激活层连接组成,第二最大池化层经第九卷积层与第十批归一化层相连,第八激活层的输出作为第三恒等映射模块的输出。
所述步骤3)具体为:
3.1)使用第十二卷积层对高阶特征张量进行通道压缩,第十二卷积层通过以下公式进行处理:
其中,S(*)为通道压缩函数;为卷积核尺寸为1×1、输出通道为c的卷积函数;u为输入的高阶特征张量;
3.2)对低阶特征张量依次利用空间注意力机制进行空间特征增强、利用第三最大池化层进行空间压缩和利用第十三卷积层进行通道扩增,获得通道扩增后的低阶特征张量。
所述步骤3.2)具体为:
3.2.1)空间特征增强中,空间注意力机制包括全局最大池化层、第一全局平均池化层和第十四卷积层;低阶特征张量分别输入到全局最大池化层和第一全局平均池化层中,全局最大池化层与第一全局平均池化层的输出在通道维度上进行拼接后输出拼接后的特征张量,低阶特征张量和拼接后的特征张量同时输入到第十四卷积层中后输出空间特征增强后的低阶特征张量,通过以下公式进行设置:
其中,Sq(*)为空间特征增强函数;为包含一个尺寸为7×7卷积核的卷积函数;GlobMaxPoolc(*)为通道维度上的全局最大池化函数;GlobAvgPoolc(*)为通道维度上的全局平均池化函数;v为低阶特征张量;
3.2.2)空间压缩中,使用第三最大池化层对空间特征增强后的低阶特征张量进行处理,输出空间压缩后的低阶特征张量,通过以下公式进行设置:
其中,Q(*)为空间压缩函数;为空间维度上步长为k的最大池化函数;s为空间特征增强后的低阶特征张量;l为空间特征增强后的低阶特征张量的长度;r为空间特征增强后的低阶特征张量的宽度;
3.2.3)通道扩增中,使用第十三卷积层对空间压缩后的低阶特征张量进行通道扩增,获得通道扩增后的低阶特征张量;
其中,E(*)为通道扩增函数;为卷积核尺寸为1×1、输出通道为d的卷积函数;q为空间压缩后的低阶特征张量。
所述步骤5)具体为:
SE-Net模块包括特征压缩模块、特征激励模块和特征重标定模块,将包含高低阶特征的特征张量输入到SE-Net模块中,特征压缩模块、特征激励模块和特征重标定模块依次相连,包含高低阶特征的特征张量同时输入到特征压缩模块和特征重标定模块,特征重标定模块的输出作为SE-Net模块的输出,SE-Net模块输出标定后的特征张量;
5.1)特征压缩模块包括第二全局平均池化层,包含高低阶特征的特征张量输入到经全局平均池化处理后输出特征压缩后的特征张量;
5.2)特征激励模块主要由第一全连接层、第二全连接层、第九激活层和第十激活层依次连接组成,特征压缩后的特征张量经特征激励后输出特征激励后的特征张量,通过以下公式进行设置:
Fex(z)=σ(Dense(δ(Dense(z))))
其中,Fex(*)为Excitation函数;Dense(*)为全连接函数;z为特征压缩后的特征张量;δ(*)为ReLU激活函数;σ(*)为Sigmoid激活函数;
5.3)特征重标定模块包括第十五卷积层,特征激励后的特征张量和包含高低阶特征的特征张量同时输入到第十五卷积层进行重标定,得到标定后的特征张量,通过以下公式进行设置:
Fscale(f,d)=f×d
其中,Fscale(*)为Reweight函数;d为特征激励后的特征张量;f为包含高低阶特征的特征张量。
本发明的有益效果:
(1)本发明提出了一种基于通道感知的高低阶特征融合方法;包括高阶特征通道压缩,低阶特征的空间特征增强、空间压缩、通道扩增,以及高低阶特征在通道维度上的融合。能够有效的融合手势图像的高低阶特征,使其能够更加精确的描述手势图像。
(2)本发明使用了SE-Net对特征张量进行特征重标定,给融合后的特征增加权重,标定其对手势图像识别的贡献度,有效的增强了主要特征并抑制了次要特征,提高了识别的准确率。
(3)本发明设计了一个浅层卷积神经网络Mini-ResNet,由三个残差模块构成,包含9个卷积层,能够有效的提取手势图像的低阶特征。
附图说明
图1为本发明方法的技术方案流程图。
图2为本发明方法所用到的部分数据集。
图3为本发明所使用的残差模块的结构示意图。
图4为本发明残差模块的积木单元CBRP的结构示意图。
图5为本发明所使用的Mini-ResNet神经网络的结构示意图。
图6为本发明中SE-Net模块的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明的技术方案流程图如图1所示。
本发明的数据集采用ASL(American sign language)开源手语数据集,其部分数据如图2所示。包含了不同角度、不同光照、不同大小以及不同背景环境下的手势图像,共包含28中手势类别以及非手势类别,共29个分类类别。
本发明的具体技术方案如下:
如图1所示,本发明包括如下步骤:
1)如图2所示,对原始手势图像进行尺寸归一化处理,获得手势图像,将读入的原始手势图像的尺寸归一化为256×256×3的三通道RGB图像,256×256×3作为神经网络的输入尺寸,再对三通道RGB图像进行标准化,将三通道RGB图像从0~255之间的整数映射到0~1之间的浮点数。;
2)如图3-5所示,手势图像输入到ResNet50卷积神经网络和自行设计的Mini-ResNet卷积神经网络分别提取手势图像的高阶特征和低阶特征,分别获得高阶特征张量和低阶特征张量,高阶特征张量的尺寸为8×8×2048,低阶特征张量的尺寸为64×64×64;
步骤2)中:
ResNet50卷积神经网络和Mini-ResNet卷积神经网络均主要由多个不同的残差模块依次连接构成,手势图像输入到ResNet50卷积神经网络和Mini-ResNet卷积神经网络,分别提取手势图像的高阶特征和低阶特征,分别获得高阶特征张量和低阶特征张量;残差模块主要包括两个部分,残差映射(Residual Mapping)和恒等映射(Identity Mapping);在残差模块中,残差模块的输入特征张量经残差映射进一步的进行特征提取获得第一特征张量,根据第一特征张量对输入特征张量经恒等映射获得第二特征张量,第一特征张量和第二特征张量相加获得残差模块的输出特征张量,通过以下公式进行设置:
H(x)=F(x)+G(x)
其中,H(*)为残差模块的输出函数;F(*)为残差映射函数;G(*)为恒等映射函数;x为残差模块的输入特征张量;
残差映射中,输入特征张量经第一卷积层进行映射,得到经进一步特征提取后的特征张量,通过以下公式进行设置;
F(x)=Conv(x)
其中,F(*)为残差映射函数;Conv(*)为卷积函数;x为残差模块的输入特征张量;
恒等映射中,判断残差映射的输出特征张量的通道数和输入特征张量的通道数是否相同;相同则直接以输入特征张量作为恒等映射的输出特征张量,不相同则以经卷积核尺寸为1×1的第二卷积层进行恒等映射后的特征张量作为恒等映射的输出特征张量,恒等映射的输出特征张量作为残差模块的输出特征张量,通过以下公式进行设置;
其中,G(*)为恒等映射函数;Conv1×1(*)为卷积核尺寸为1×1的卷积函数。
Mini-ResNet卷积神经网络是自行设计的浅层卷积神经网络,主要由3个不同的残差模块依次连接构成,共包含9个卷积层。Mini-ResNet卷积神经网络层数较浅、参数较少,用于提取手势图像的低阶特征。
Mini-ResNet卷积神经网络主要由3个不同的残差模块依次连接构成具体为:
Mini-ResNet卷积神经网络主要由第一残差模块、第二残差模块和第三残差模块依次连接组成;
第一残差模块包括第一残差子模块、第二残差子模块、第三残差子模块和第一恒等映射模块;第一残差子模块、第二残差子模块和第三残差子模块组成第一残差模块的残差映射,第一恒等映射模块作为第一残差模块的恒等映射;第一残差子模块依次经第二残差子模块和第三残差子模块后与第一恒等映射模块相连,第一残差子模块的输出还直接输入到第一恒等映射模块,Mini-ResNet卷积神经网络的输入作为第一残差子模块的输入;
第一残差子模块主要由第三卷积层、第一批归一化层和第一激活层依次连接组成,第二残差子模块主要由第四卷积层、第二批归一化层和第二激活层依次连接组成,第三残差子模块主要由第五卷积层和第三批归一化层连接组成,第一恒等映射模块主要由第四批归一化层和第三激活层连接组成,第一激活层的输出输入到第四批归一化层,第三激活层的输出作为第一恒等映射模块的输出;
第二残差模块包括第五残差子模块、第六残差子模块、第七残差子模块、第五卷积层和二恒等映射模块;第五残差子模块、第六残差子模块和第七残差子模块组成第二残差模块的残差映射,第二恒等映射模块和第五卷积层组成第二残差模块的恒等映射;第五残差子模块依次经第六残差子模块和第七残差子模块后与第二恒等映射模块相连,第五残差子模块的输出还经第五卷积层与第二恒等映射模块相连,第一恒等映射模块的输出作为第五残差子模块的输入;
第五残差子模块主要由第四激活层和第一最大池化层连接组成,第六残差子模块主要由第六卷积层、第五批归一化层和第五激活层依次连接组成,第七残差子模块主要由第七卷积层和第六批归一化层连接组成,第二恒等映射模块主要由第七批归一化层和第八卷积层连接组成,第一最大池化层经第五卷积层与第七批归一化层相连,第八卷积层的输出作为第二恒等映射模块的输出;
第三残差模块包括第九残差子模块、第十残差子模块、第十一残差子模块、第九卷积层和第三恒等映射模块;第九残差子模块、第十残差子模块和第十一残差子模块组成第三残差模块的残差映射,第三恒等映射模块和第九卷积层组成第三残差模块的恒等映射;第九残差子模块依次经第十残差子模块和第十一残差子模块后与第三恒等映射模块相连,第九残差子模块的输出还经第九卷积层与第三恒等映射模块相连,第二恒等映射模块的输出作为第九残差子模块的输入;
第九残差子模块主要由第六激活层和第二最大池化层连接组成,第十残差子模块主要由第十卷积层、第八批归一化层和第七激活层依次连接组成,第十一残差子模块主要由第十一卷积层和第九批归一化层连接组成,第三恒等映射模块主要由第十批归一化层和第八激活层连接组成,第二最大池化层经第九卷积层与第十批归一化层相连,第八激活层的输出作为第三恒等映射模块的输出。
3)对高阶特征张量进行通道压缩,获得通道压缩后的高阶特征张量;对低阶特征张量依次进行空间特征增强、空间压缩和通道扩增,获得通道扩增后的低阶特征张量;
步骤3)具体为:
3.1)由于ResNet50提取到的高阶特征张量通道数较大,使用第十二卷积层对高阶特征张量进行通道压缩,能够调整其融合后所占的比例,使低阶特征能够在融合后发挥实际作用,同时去除对识别贡献较小的特征,并且能去除其中的冗余信息;通道维度从2048压缩到1792,得到维度为8×8×1792的高阶特征张量,第十二卷积层通过以下公式进行处理:
其中,S(*)为通道压缩函数;为卷积核尺寸为1×1、输出通道为c的卷积函数;u为输入的高阶特征张量;
3.2)Mini-ResNet提取的低阶特征张量与高阶特征张量的宽高尺寸不同,无法直接进行拼接融合;通过空间特征增强加强其空间上的主要特征,减少由后续空间压缩造成的空间特征损失,能够在空间压缩后保留其在空间上的主要特征;由于低阶特征张量的通道数较少,为了提升融合后低阶特征占比,加强低阶特征在识别中的作用,对低阶特征张量依次利用空间注意力机制进行空间特征增强、利用第三最大池化层进行空间压缩和利用第十三卷积层进行通道扩增,获得通道扩增后的低阶特征张量。
步骤3.2)具体为:
3.2.1)空间特征增强中,空间注意力机制包括全局最大池化层、第一全局平均池化层和第十四卷积层;低阶特征张量分别输入到全局最大池化层和第一全局平均池化层中,全局最大池化层和第一全局平均池化层分别将低阶特征张量的通道维度压缩到1,得到两个维度为64×64×1的张量;全局最大池化层与第一全局平均池化层的输出在通道维度上进行拼接后输出拼接后的特征张量,低阶特征张量和拼接后的特征张量同时输入到一个尺寸为7×7卷积核的第十四卷积层中后输出空间特征增强后的低阶特征张量,第十四卷积层可以得到低阶特征张量的空间位置上的权重(维度为64×64×1),通过以下公式进行设置:
其中,Sq(*)为空间特征增强函数;为包含一个尺寸为7×7卷积核的卷积函数;GlobMaxPoolc(*)为通道维度上的全局最大池化函数;GlobAvgPoolc(*)为通道维度上的全局平均池化函数;v为低阶特征张量;
3.2.2)空间压缩中,使用第三最大池化层对空间特征增强后的低阶特征张量进行处理,输出空间压缩后的低阶特征张量,低阶特征张量的尺寸为8×8×64;通过以下公式进行设置:
其中,Q(*)为空间压缩函数;为空间维度上步长为k的最大池化函数;s为空间特征增强后的低阶特征张量;l为空间特征增强后的低阶特征张量的长度;r为空间特征增强后的低阶特征张量的宽度;
3.2.3)通道扩增中,使用卷积核尺寸为1×1的第十三卷积层对空间压缩后的低阶特征张量进行通道扩增,将通道数由64扩增至256以增大低阶特征在融合后特征所占比例,获得通道扩增后的低阶特征张量;
其中,E(*)为通道扩增函数;为卷积核尺寸为1×1、输出通道为d的卷积函数;q为空间压缩后的低阶特征张量。
4)将通道压缩后的高阶特征张量和通道扩增后的低阶特征张量在通道维度上进行拼接融合,得到维度为8×8×2048的包含高低阶特征的特征张量,其中高低阶特征比例为7:1;
5)将包含高低阶特征的特征张量输入到SE-Net模块中,得到标定后的特征张量;
步骤5)具体为:
如图6所示,SE-Net模块包括特征压缩模块、特征激励模块和特征重标定模块,将包含高低阶特征的特征张量输入到SE-Net模块中,特征压缩模块、特征激励模块和特征重标定模块依次相连,包含高低阶特征的特征张量同时输入到特征压缩模块和特征重标定模块,特征重标定模块的输出作为SE-Net模块的输出,SE-Net模块输出标定后的特征张量;
5.1)特征压缩Squeeze模块包括第二全局平均池化层,包含高低阶特征的特征张量输入到经全局平均池化处理后输出特征压缩后的特征张量,特征压缩后的特征张量在宽度和高度上只保留通道特征,转化为一维特征向量,通过以下公式进行设置:
Fsq((f)=GlobAvgPool(f)
其中,Fsq(*)为Squeeze函数;GlobAvgPool(*)为全局平均池化函数;f为包含高低阶特征的特征张量;
5.2)特征激励Excitation模块主要由第一全连接层、第二全连接层、第九激活层和第十激活层依次连接组成,特征压缩后的特征张量经特征激励后输出特征激励后的特征张量,第一全连接层第九激活层的激活函数为ReLU函数,第十激活层的激活函数为Sigmoid函数,将第一全连接层的输出参数将输入的一维向量缩放成输入一维向量的1/16,以达到筛选主要特征过滤次要特征的目的;第二全连接层的输出参数与特征压缩后的特征张量的尺寸相同;最后使用Sigmoid函数生成每个通道上的特征权重。通过以下公式进行设置:
Fex(z)=σ(Dense(δ(Dense(z))))
其中,Fex(*)为Excitation函数;Dense(*)为全连接函数;z为特征压缩后的特征张量;δ(*)为ReLU激活函数;σ(*)为Sigmoid激活函数;
5.3)特征重标定Reweight模块包括第十五卷积层,特征激励后的特征张量和包含高低阶特征的特征张量同时输入到第十五卷积层进行重标定,得到标定后的特征张量,将特征激励后的特征张量作为学习得到的每个通道上特征权重组成的权重向量,将包含高低阶特征的特征张量与该权重向量相乘得到加权后的特征图,完成特征重标定。通过以下公式进行设置:
Fscale(f,d)=f×d
其中,Fscale(*)为Reweight函数;d为特征激励后的特征张量;f为包含高低阶特征的特征张量。
6)将标定后的特征张量输入到Softmax分类器中进行分类,映射为29个类别的概率值,取概率值最大的作为手势图像的分类类别,得到手势图像的分类结果。

Claims (4)

1.一种基于通道感知的手势图像特征融合方法,其特征在于:包括如下步骤:
1)对原始手势图像进行尺寸归一化处理,获得手势图像;
2)手势图像输入到ResNet50卷积神经网络和Mini-ResNet卷积神经网络分别提取手势图像的高阶特征和低阶特征,分别获得高阶特征张量和低阶特征张量;
3)对高阶特征张量进行通道压缩,获得通道压缩后的高阶特征张量;对低阶特征张量依次进行空间特征增强、空间压缩和通道扩增,获得通道扩增后的低阶特征张量;
4)将通道压缩后的高阶特征张量和通道扩增后的低阶特征张量在通道维度上进行拼接融合,得到包含高低阶特征的特征张量;
5)将包含高低阶特征的特征张量输入到SE-Net模块中,得到标定后的特征张量;
6)将标定后的特征张量输入到Softmax分类器中进行分类,得到手势图像的分类结果;
所述步骤2)中:
ResNet50卷积神经网络和Mini-ResNet卷积神经网络均主要由多个不同的残差模块依次连接构成,残差模块主要包括两个部分,残差映射和恒等映射;在残差模块中,残差模块的输入特征张量经残差映射进行特征提取获得第一特征张量,根据第一特征张量对输入特征张量经恒等映射获得第二特征张量,第一特征张量和第二特征张量相加获得残差模块的输出特征张量,通过以下公式进行设置:
H(x)=F(x)+G(x)
其中,H(*)为残差模块的输出函数;F(*)为残差映射函数;G(*)为恒等映射函数;x为残差模块的输入特征张量;
所述的残差映射中,输入特征张量经第一卷积层进行映射,得到经特征提取后的特征张量;
恒等映射中,判断残差映射的输出特征张量的通道数和输入特征张量的通道数是否相同;相同则直接以输入特征张量作为恒等映射的输出特征张量,不相同则以经第二卷积层进行恒等映射后的特征张量作为恒等映射的输出特征张量,恒等映射的输出特征张量作为残差模块的输出特征张量,通过以下公式进行设置;
其中,G(*)为恒等映射函数;Conv1×1(*)为卷积核尺寸为1×1的卷积函数;
所述Mini-ResNet卷积神经网络主要由3个不同的残差模块依次连接构成具体为:
Mini-ResNet卷积神经网络主要由第一残差模块、第二残差模块和第三残差模块依次连接组成;
第一残差模块包括第一残差子模块、第二残差子模块、第三残差子模块和第一恒等映射模块;第一残差子模块、第二残差子模块和第三残差子模块组成第一残差模块的残差映射,第一恒等映射模块作为第一残差模块的恒等映射;第一残差子模块依次经第二残差子模块和第三残差子模块后与第一恒等映射模块相连,第一残差子模块的输出还直接输入到第一恒等映射模块,Mini-ResNet卷积神经网络的输入作为第一残差子模块的输入;
第一残差子模块主要由第三卷积层、第一批归一化层和第一激活层依次连接组成,第二残差子模块主要由第四卷积层、第二批归一化层和第二激活层依次连接组成,第三残差子模块主要由第五卷积层和第三批归一化层连接组成,第一恒等映射模块主要由第四批归一化层和第三激活层连接组成,第一激活层的输出输入到第四批归一化层,第三激活层的输出作为第一恒等映射模块的输出;
第二残差模块包括第五残差子模块、第六残差子模块、第七残差子模块、第五卷积层和二恒等映射模块;第五残差子模块、第六残差子模块和第七残差子模块组成第二残差模块的残差映射,第二恒等映射模块和第五卷积层组成第二残差模块的恒等映射;第五残差子模块依次经第六残差子模块和第七残差子模块后与第二恒等映射模块相连,第五残差子模块的输出还经第五卷积层与第二恒等映射模块相连,第一恒等映射模块的输出作为第五残差子模块的输入;
第五残差子模块主要由第四激活层和第一最大池化层连接组成,第六残差子模块主要由第六卷积层、第五批归一化层和第五激活层依次连接组成,第七残差子模块主要由第七卷积层和第六批归一化层连接组成,第二恒等映射模块主要由第七批归一化层和第八卷积层连接组成,第一最大池化层经第五卷积层与第七批归一化层相连,第八卷积层的输出作为第二恒等映射模块的输出;
第三残差模块包括第九残差子模块、第十残差子模块、第十一残差子模块、第九卷积层和第三恒等映射模块;第九残差子模块、第十残差子模块和第十一残差子模块组成第三残差模块的残差映射,第三恒等映射模块和第九卷积层组成第三残差模块的恒等映射;第九残差子模块依次经第十残差子模块和第十一残差子模块后与第三恒等映射模块相连,第九残差子模块的输出还经第九卷积层与第三恒等映射模块相连,第二恒等映射模块的输出作为第九残差子模块的输入;
第九残差子模块主要由第六激活层和第二最大池化层连接组成,第十残差子模块主要由第十卷积层、第八批归一化层和第七激活层依次连接组成,第十一残差子模块主要由第十一卷积层和第九批归一化层连接组成,第三恒等映射模块主要由第十批归一化层和第八激活层连接组成,第二最大池化层经第九卷积层与第十批归一化层相连,第八激活层的输出作为第三恒等映射模块的输出。
2.根据权利要求1所述的一种基于通道感知的手势图像特征融合方法,其特征在于:所述步骤3)具体为:
3.1)使用第十二卷积层对高阶特征张量进行通道压缩,第十二卷积层通过以下公式进行处理:
其中,S(*)为通道压缩函数;为卷积核尺寸为1×1、输出通道为c的卷积函数;u为输入的高阶特征张量;
3.2)对低阶特征张量依次利用空间注意力机制进行空间特征增强、利用第三最大池化层进行空间压缩和利用第十三卷积层进行通道扩增,获得通道扩增后的低阶特征张量。
3.根据权利要求2所述的一种基于通道感知的手势图像特征融合方法,其特征在于:所述步骤3.2)具体为:
3.2.1)空间特征增强中,空间注意力机制包括全局最大池化层、第一全局平均池化层和第十四卷积层;低阶特征张量分别输入到全局最大池化层和第一全局平均池化层中,全局最大池化层与第一全局平均池化层的输出在通道维度上进行拼接后输出拼接后的特征张量,低阶特征张量和拼接后的特征张量同时输入到第十四卷积层中后输出空间特征增强后的低阶特征张量,通过以下公式进行设置:
其中,Sq(*)为空间特征增强函数;为包含一个尺寸为7×7卷积核的卷积函数;GlobMaxPoolc(*)为通道维度上的全局最大池化函数;GlobAvgPoolc(*)为通道维度上的全局平均池化函数;v为低阶特征张量;
3.2.2)空间压缩中,使用第三最大池化层对空间特征增强后的低阶特征张量进行处理,输出空间压缩后的低阶特征张量,通过以下公式进行设置:
其中,Q(*)为空间压缩函数;为空间维度上步长为k的最大池化函数;s为空间特征增强后的低阶特征张量;l为空间特征增强后的低阶特征张量的长度;r为空间特征增强后的低阶特征张量的宽度;
3.2.3)通道扩增中,使用第十三卷积层对空间压缩后的低阶特征张量进行通道扩增,获得通道扩增后的低阶特征张量;
其中,E(*)为通道扩增函数;为卷积核尺寸为1×1、输出通道为d的卷积函数;q为空间压缩后的低阶特征张量。
4.根据权利要求1所述的一种基于通道感知的手势图像特征融合方法,其特征在于:所述步骤5)具体为:
SE-Net模块包括特征压缩模块、特征激励模块和特征重标定模块,将包含高低阶特征的特征张量输入到SE-Net模块中,特征压缩模块、特征激励模块和特征重标定模块依次相连,包含高低阶特征的特征张量同时输入到特征压缩模块和特征重标定模块,特征重标定模块的输出作为SE-Net模块的输出,SE-Net模块输出标定后的特征张量;
5.1)特征压缩模块包括第二全局平均池化层,包含高低阶特征的特征张量输入到经全局平均池化处理后输出特征压缩后的特征张量;
5.2)特征激励模块主要由第一全连接层、第二全连接层、第九激活层和第十激活层依次连接组成,特征压缩后的特征张量经特征激励后输出特征激励后的特征张量,通过以下公式进行设置:
Fex(z)=σ(Dense(δ(Dense(z))))
其中,Fex(*)为Excitation函数;Dense(*)为全连接函数;z为特征压缩后的特征张量;δ(*)为ReLU激活函数;σ(*)为Sigmoid激活函数;
5.3)特征重标定模块包括第十五卷积层,特征激励后的特征张量和包含高低阶特征的特征张量同时输入到第十五卷积层进行重标定,得到标定后的特征张量,通过以下公式进行设置:
Fscale(f,d)=f×d
其中,Fscale(*)为Reweight函数;d为特征激励后的特征张量;f为包含高低阶特征的特征张量。
CN202110297521.8A 2021-03-19 2021-03-19 基于通道感知的手势图像特征融合方法 Active CN113065426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110297521.8A CN113065426B (zh) 2021-03-19 2021-03-19 基于通道感知的手势图像特征融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110297521.8A CN113065426B (zh) 2021-03-19 2021-03-19 基于通道感知的手势图像特征融合方法

Publications (2)

Publication Number Publication Date
CN113065426A CN113065426A (zh) 2021-07-02
CN113065426B true CN113065426B (zh) 2023-10-17

Family

ID=76562758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110297521.8A Active CN113065426B (zh) 2021-03-19 2021-03-19 基于通道感知的手势图像特征融合方法

Country Status (1)

Country Link
CN (1) CN113065426B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837263B (zh) * 2021-09-18 2023-09-26 浙江理工大学 基于特征融合注意力模块和特征选择的手势图像分类方法
CN113657558B (zh) * 2021-10-18 2022-07-01 广东航宇卫星科技有限公司 一种针对骶髂关节ct图像的分类评级方法及装置
CN116403163B (zh) * 2023-04-20 2023-10-27 慧铁科技有限公司 一种截断塞门手把开合状态的识别方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829506A (zh) * 2019-02-18 2019-05-31 南京旷云科技有限公司 图像处理方法、装置、电子设备和计算机存储介质
CN110427990A (zh) * 2019-07-22 2019-11-08 浙江理工大学 一种基于卷积神经网络的艺术图像分类方法
CN111160194A (zh) * 2019-12-23 2020-05-15 浙江理工大学 一种基于多特征融合的静态手势图像识别方法
CN111462126A (zh) * 2020-04-08 2020-07-28 武汉大学 一种基于边缘增强的语义图像分割方法及系统
CN111626330A (zh) * 2020-04-23 2020-09-04 南京邮电大学 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统
CN111832620A (zh) * 2020-06-11 2020-10-27 桂林电子科技大学 一种基于双注意力多层特征融合的图片情感分类方法
CN111967537A (zh) * 2020-04-13 2020-11-20 江西理工大学 一种基于双路胶囊网络的sar目标分类方法
CN112232232A (zh) * 2020-10-20 2021-01-15 城云科技(中国)有限公司 一种目标检测方法
WO2021018163A1 (zh) * 2019-07-30 2021-02-04 华为技术有限公司 神经网络的搜索方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829506A (zh) * 2019-02-18 2019-05-31 南京旷云科技有限公司 图像处理方法、装置、电子设备和计算机存储介质
CN110427990A (zh) * 2019-07-22 2019-11-08 浙江理工大学 一种基于卷积神经网络的艺术图像分类方法
WO2021018163A1 (zh) * 2019-07-30 2021-02-04 华为技术有限公司 神经网络的搜索方法及装置
CN111160194A (zh) * 2019-12-23 2020-05-15 浙江理工大学 一种基于多特征融合的静态手势图像识别方法
CN111462126A (zh) * 2020-04-08 2020-07-28 武汉大学 一种基于边缘增强的语义图像分割方法及系统
CN111967537A (zh) * 2020-04-13 2020-11-20 江西理工大学 一种基于双路胶囊网络的sar目标分类方法
CN111626330A (zh) * 2020-04-23 2020-09-04 南京邮电大学 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统
CN111832620A (zh) * 2020-06-11 2020-10-27 桂林电子科技大学 一种基于双注意力多层特征融合的图片情感分类方法
CN112232232A (zh) * 2020-10-20 2021-01-15 城云科技(中国)有限公司 一种目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田秋红 ; 杨慧敏 ; 梁庆龙 ; 包嘉欣.视觉动态手势识别综述.《浙江理工大学学报(自然科学版)》.2020,全文. *
韩文静 ; 罗晓曙 ; 杨日星.一种复合型手势识别方法研究.《计算机工程与应用》.全文. *

Also Published As

Publication number Publication date
CN113065426A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN113065426B (zh) 基于通道感知的手势图像特征融合方法
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN113221639B (zh) 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN109344701B (zh) 一种基于Kinect的动态手势识别方法
CN106529447B (zh) 一种小样本人脸识别方法
CN110674741B (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN111832546B (zh) 一种轻量级自然场景文本识别方法
CN106682569A (zh) 一种基于卷积神经网络的快速交通标识牌识别方法
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN111191583A (zh) 基于卷积神经网络的空间目标识别系统及方法
CN104200228B (zh) 一种安全带识别方法与系统
CN104484658A (zh) 一种基于多通道卷积神经网络的人脸性别识别方法及装置
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN112766229B (zh) 基于注意力机制的人脸点云图像智能识别系统及方法
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN112200090A (zh) 基于交叉分组空谱特征增强网络的高光谱图像分类方法
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN113239839B (zh) 基于dca人脸特征融合的表情识别方法
CN112836651A (zh) 基于动态融合机制的手势图像特征提取方法
Tereikovskyi et al. The method of semantic image segmentation using neural networks
CN110826534B (zh) 一种基于局部主成分分析的人脸关键点检测方法及系统
CN112364705A (zh) 基于多层次特征融合的轻量型cnn的表情识别方法
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统
CN113076916A (zh) 基于几何特征加权融合的动态人脸表情识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant