CN110674741B - 一种基于双通道特征融合的机器视觉中手势识别方法 - Google Patents

一种基于双通道特征融合的机器视觉中手势识别方法 Download PDF

Info

Publication number
CN110674741B
CN110674741B CN201910902883.8A CN201910902883A CN110674741B CN 110674741 B CN110674741 B CN 110674741B CN 201910902883 A CN201910902883 A CN 201910902883A CN 110674741 B CN110674741 B CN 110674741B
Authority
CN
China
Prior art keywords
channel
layer
feature
gesture
base layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910902883.8A
Other languages
English (en)
Other versions
CN110674741A (zh
Inventor
韩文静
罗晓曙
赵书林
刘欣
郑伟鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanning Zhuanju Intellectual Property Service Co ltd
Qingdao Haizhichen Industrial Equipment Co ltd
Original Assignee
Qingdao Haizhichen Industrial Equipment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haizhichen Industrial Equipment Co ltd filed Critical Qingdao Haizhichen Industrial Equipment Co ltd
Priority to CN201910902883.8A priority Critical patent/CN110674741B/zh
Publication of CN110674741A publication Critical patent/CN110674741A/zh
Application granted granted Critical
Publication of CN110674741B publication Critical patent/CN110674741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双通道特征融合的机器视觉中手势识别方法,其特征在于,包括如下步骤:1)采集数据源、制作数据集;2)对数据集中的手势图像进行预处理;4)进行网络第一阶段训练;5)进行网络第二阶段训练;6)进行特征融合操作;7)进行手势图像识别。这种方法能克服现有网络精度不高、存在梯度弥散的缺陷,能提高手势识别准确率。

Description

一种基于双通道特征融合的机器视觉中手势识别方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于双通道特征融合的机器视觉中手势识别方法。
背景技术
近年来,随着人工智能技术的快速发展,人机交互成为人工智能领域中重要的研究领域,为了满足实际应用的需要,研究基于机器视觉的人机手势交流方法具有重要的应用价值。例如在手持式云台、无人机云台、AR(Augmented Reality)、VR(Virtual Reality)等领域的人机手势交流应用以及对聋哑人的手势手语的翻译,都将大大提高相关产品的智能化水平。更为高效、舒适的交互方式是让机器能够直接理解人的肢体语言,在各种肢体语言中手势最为简单、方便,因此可以将它作为一种简单、高效的人机交互方式,有着十分广阔的应用前景。
基于手势的人机交互中,一个很重要的过程是对手势进行识别。传统的手势识别包括基于模板匹配、基于数据手套和基于隐马尔科夫模型等方法。其中,基于模板匹配的交互方法需要手工设计一个标准手势库,将模板与输入图像进行匹配,工序复杂,迁移性差;基于数据手套的交互方法,其设备昂贵,一旦重新更换手套,需要重新训练,很不方便;基于隐马尔科夫模型的手势识别方法,其计算量大、速度慢、过程复杂;通过人工建模等方式设计手势描述特征的过程十分繁琐、无法深度挖掘更高层次、更多维度的特征信息,这就导致基于传统方法的模型泛化性差、很难达到实时检测目的。基于计算机视觉的手势识别方法可以有效克服传统方法的弊处,现有技术中已有一些基于计算机视觉的手势识别方法,比如借助Kinect设备进行手势识别的方法、基于CNN的静态手势识别方法、基于迁移学习的手势识别方法等,但是这些现有方法识别率不够高。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于双通道特征融合的机器视觉中手势识别方法。这种方法能克服现有网络精度不高、存在梯度弥散的缺陷,能提高手势识别准确率。
实现本发明目的的技术方案是:
一种基于双通道特征融合的机器视觉中手势识别方法,与现有技术不同处在于,包括如下步骤:
1)采集数据源、制作数据集:采用美国手语手势数据集(American SignLanguage,简称ASL)为数据源,注释美国手语手势数据集中的手势类别信息,设置2165张图片为训练集和350张图片为测试集,并生成tfrecord文件;
2)对数据集中的手势图像进行预处理:对步骤1)处理过的数据集中的手势图像进行亮度调整、对比度调整和随机裁剪;
3)构建深度卷积神经网络:构建基于双通道特征融合的深度卷积神经网络模型,所述深度卷积神经网络模型包括顺序连接的由双通道构成的输入层、特征融合层即Concatenate层、全局平均池化层(Global Average Pooling,简称GAP)、全连接层(FullyConnected Layer,简称FC)和分类函数层(Sigmoid);
4)进行网络第一阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第一个通道中对卷积神经网络进行训练即进行第一阶段训练,完成手势图像的局部特征提取;
5)进行网络第二阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第二个通道中对卷积神经网络进行训练即进行第二阶段训练,完成手势图像的全局特征提取;
6)进行特征融合操作:将第一阶段训练得到的手势图像的局部特征与第二阶段训练得到的手势图像的全局特征进行通道维度上的融合;
7)进行手势图像识别:将步骤6)融合后的特征图经过全局平均池化层后输入全连接层,最后通过分类函数对结果进行分类,并选择批处理大小、学习率大小、正则化方式及优化算法对步骤3)构造的深度卷积神经网络进行参数微调,获得最佳的卷积神经网络模型,实现手势图像训练集的精确识别,采用步骤1)处理过的数据集中手势图像测试集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型中,验证步骤3)构造的双通道特征融合的深度卷积神经网络模型能够实现手势图像的精确识别。
步骤3)中所述的双通道包括由SE_Net构成的第一通道和由Xception_ResNeXt构成的第二通道,所述第一通道包括由上至下顺序连接的第一base layer子模块、SE_Net模块和第二base layer子模块,所述第二通道包括2个结构相同串联的由上至下顺序连接的第三base layer子模块、由base layer子模块平行堆叠构成相同拓扑结构的base layer堆叠构建模块、第一通道拼接层、第四base layer子模块、由3个相同separable layer模块顺序连接构成的深度可分离卷积层、第五base layer子模块,其中,第三base layer子模块的输出与第四base layer子模块的输出进行逐像素相加作为由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输入,第三base layer子模块的输出与由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输出进行逐像素相加作为第五base layer子模块的输入,第一通道和第二通道提取的特征进行通道维度上的融合,所述SE_Net即第一通道通过学习自动获取每个通道特征的重要程度,并根据重要程度的不同对特征图进行自动调整,达到特征重标定的作用,所述SE_Net具体公式如下所示:
Figure BDA0002212365310000031
s=σ(W2δ(W1,z)) (2)
xc=sc·uc (3)
其中,W表示特征图的宽度,H表示特征图的高度,uc表示特征图的第c个通道,uc(i,j)表示特征图的第c个通道的(i,j)位置的参数,z=[z1,z2,...,zc]表示通道描述符,zc表示z的第c个元素,W1和W2表示全连接层的参数,δ表示激活函数ReLU,σ表示激活函数(Sigmoid),s=[s1,s2,...,sc]表示激励的输出,sc表示s的第c个元素,·表示标量乘法,xc表示输出,所述Xception_ResNeXt即第二通道采用depthwise separable convolution操作,将网络学习空间相关性和学习通道间相关性的任务完全分离,采用ResNeXt操作用于快捷连接前后层的特征,并用平行堆叠相同拓扑结构的方式对图像进行特征提取,具体公式如公式(4)所示:
Figure BDA0002212365310000032
其中,x表示输入,C表示基数,Ti表示任意函数,y表示输出。
步骤4)中所述的局部特征提取,包括如下步骤:
(4-1)输入图像尺寸为32x32x32x3,经过双通道特征融合的深度卷积神经网络模型第一通道中第一base layer子模块提取64个特征,base layer子模块包括由上到下顺序叠接的卷积层即Conv层、归一化层即Batch Normalization层和激活函数层即ReLU层,第一base layer子模块使用3x3卷积核对输入信息进行卷积运算,卷积的计算表达式如公式(5)所示:
conv=kernel*input (5)
其中,input为卷积的输入,kernel为卷积核,conv为卷积的输出,*为卷积操作,提取卷积特征之后,采用Batch Normalization进行批量归一化操作,再将归一化结果输入到激活函数层,激活函数层选用ReLU作为激活函数;
(4-2)第一base layer子模块的输出输入到SE_Net模块中,SE_Net模块通过以下三个操作进行特征重标定;
(4-2-1)Squeeze操作:即全局平均池化,顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配,它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野;
(4-2-2)Excitation操作:即全连接层+激活函数层即ReLU层+全连接层+激活函数层即Sigmoid层,类似于循环神经网络中门的机制,采用参数w来为每个特征通道生成权重,其中参数w被学习用来显式地建模特征通道间的相关性;
(4-2-3)Reweight操作:将Excitation输出的权重看做是经过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到第一base layer层的输出上,完成在通道维度上的对原始特征的重标定;
(4-3)SE_Net模块的输出输入到第二base layer子模块,输出图像尺寸为32x32x32x64。
步骤5)中所述的全局特征提取,过程为:输入图像尺寸为32x32x32x3,经过Xception_ResNeXt构成的第二通道,输出图像尺寸为32x32x32x64。
步骤5)中所述的separable layer模块包括由上而下顺序连接的可分离卷积层即separable_conv2d层、归一化层即Batch Normalization层和激活函数层即ReLU层。
本技术方案中深度卷积神经网络模型中第一通道提取的局部特征和第二通道提取的全局特征进行融合。
本技术方案中采用双通道特征融合的深度卷积神经网络,增强网络前后层之间的联系,促使网络更好地提取手势特征,这种方法能克服现有网络精度不高、存在梯度弥散的缺陷,能提高手势识别准确率。
附图说明
图1为实施例中方法流程示意图;
图2为实施例双通道特征融合的深度卷积神经网络模型的结构示意图;
图3-1为实施例双通道特征融合的深度卷积神经网络模型中的base layer子模块示意图;
图3-2为实施例双通道特征融合的深度卷积神经网络模型中的separable layer子模块结构示意图;
图4为实施例双通道特征融合的深度卷积神经网络模型中第一阶段SE_Net结构示意图;
图5为实施例双通道特征融合的深度卷积神经网络模型中第二阶段Xception_ResNeXt结构示意图;
图6为实施例中ASL数据集的36种手势示意图;
图7为实施例中训练集的识别准确率示意图;
图8为实施例中训练集的学习曲线示意图;
图9为实施例中训练集的loss曲线示意图;
图10为实施例中测试集的准确率示意图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
本例手势识别方法流程实验环境是:双E5-2637 v4 CPU服务器,64位操作系统Ubuntu 16.04,使用GTX1080Ti显卡、32GB内存来加速训练,所使用的平台是谷歌开发的机器学习框架tensorflow1.8-gpu版,具体为:
参照图1,一种基于双通道特征融合的机器视觉中手势识别方法,包括如下步骤:
1)采集数据源、制作数据集:采用美国手语手势数据集(American SignLanguage,简称ASL)为数据源,数据集的图片均为二维静态图,如图6所示,包含26种字母手势和10种数字手势,总数量为2515张,注释美国手语手势数据集中的手势类别信息,设置2165张图片为训练集和350张图片为测试集,并生成tfrecord文件;
2)对数据集中的手势图像进行预处理:对步骤1)处理过的数据集中的手势图像进行亮度调整、对比度调整和随机裁剪;
3)构建深度卷积神经网络:构建基于双通道特征融合的深度卷积神经网络模型,双通道特征融合的深度卷积神经网络模型如图2所示,包括顺序连接的由双通道构成的输入层、特征融合层、全局平均池化层、全连接层和分类函数层;
4)进行网络第一阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第一个通道中对卷积神经网络进行训练即进行第一阶段训练,完成手势图像的局部特征提取,双通道特征融合的深度卷积神经网络模型中第一通道SE_Net结构如图4所示;
5)进行网络第二阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第二个通道中对卷积神经网络进行训练即进行第二阶段训练,完成手势图像的全局特征提取,双通道特征融合的深度卷积神经网络模型中第二阶段Xception_ResNeXt结构如图5所示;
6)进行特征融合操作:将第一阶段训练得到的手势图像的局部特征与第二阶段训练得到的手势图像的全局特征进行通道维度上的融合;
7)进行手势图像识别:将步骤6)融合后的特征图经过全局平均池化层后输入全连接层,最后通过分类函数层对结果进行分类,并选择批处理大小、学习率大小、正则化方式及优化算法对步骤3)构造的深度卷积神经网络进行参数微调,获得最佳的卷积神经网络模型,实现手势图像训练集的精确识别,采用步骤1)处理过的数据集中手势图像测试集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型中,验证步骤3)构造的双通道特征融合的深度卷积神经网络模型能够实现手势图像的精确识别。本例识别涉及的仿真结果见图7、8、9、10,可以得到本例方法可以有效识别出36种手势,获得了97.01%的识别率,而且鲁棒性较强。
步骤3)中所述的双通道包括由SE_Net构成的第一通道和由Xception_ResNeXt构成的第二通道,所述第一通道包括由上至下顺序连接的第一base layer子模块如图3-1所示、SE_Net模块和第二base layer子模块,所述第二通道包括2个结构相同串联的由上至下顺序连接的第三base layer子模块、由base layer子模块平行堆叠构成相同拓扑结构的base layer堆叠构建块、第一通道拼接层、第四base layer子模块、由3个相同separablelayer模块顺序连接构成的深度可分离卷积层,separable layer模块如图3-2所示、第五base layer子模块,其中,第三base layer子模块的输出与第四base layer子模块的输出进行逐像素相加作为由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输入,第三base layer子模块的输出与由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输出进行逐像素相加作为第五base layer子模块的输入,第一通道和第二通道提取的特征进行通道维度上的融合,其中,所述SE_Net即第一通道通过学习自动获取每个通道特征的重要程度,并根据重要程度的不同对特征图进行自动调整,达到特征重标定的作用,所述SE_Net具体公式如下所示:
Figure BDA0002212365310000071
s=σ(W2δ(W1,z)) (2)
xc=sc·uc (3)
其中,W表示特征图的宽度,H表示特征图的高度,uc表示特征图的第c个通道,uc(i,j)表示特征图的第c个通道的(i,j)位置的参数,z=[z1,z2,...,zc]表示通道描述符,zc表示z的第c个元素,W1和W2表示全连接层的参数,δ表示激活函数ReLU,σ表示激活函数,s=[s1,s2,...,sc]表示激励的输出,sc表示s的第c个元素,·表示标量乘法,xc表示输出,所述Xception_ResNeXt即第二通道采用depthwise separable convolution操作,将网络学习空间相关性和学习通道间相关性的任务完全分离,采用ResNeXt操作用于快捷连接前后层的特征,并用平行堆叠相同拓扑结构的方式对图像进行特征提取,具体公式如公式(4)所示:
Figure BDA0002212365310000081
其中,x表示输入,C表示基数,Ti表示任意函数,y表示输出。
步骤4)中所述的局部特征提取,包括如下步骤:
(4-1)输入图像尺寸为32x32x32x3,经过双通道特征融合的深度卷积神经网络模型第一通道中第一base layer子模块提取64个特征,base layer子模块包括由上到下顺序叠接的卷积层即Conv层、归一化层即Batch Normalization层和激活函数层即ReLU层,第一base layer子模块使用3x3卷积核对输入信息进行卷积运算,卷积的计算表达式如公式(5)所示:
conv=kernel*input (5)
其中,input为卷积的输入,kernel为卷积核,conv为卷积的输出,*为卷积操作,提取卷积特征之后,采用Batch Normalization进行批量归一化操作,再将归一化结果输入到激活函数层,激活函数层选用ReLU作为激活函数;
(4-2)第一base layer子模块的输出输入到SE_Net模块中,SE_Net模块通过以下三个操作进行特征重标定:
(4-2-1)Squeeze操作:即全局平均池化(Global Average Pooling),顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配,它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野;
(4-2-2)Excitation操作:即全连接层+激活函数层(ReLU)+全连接层+激活函数层,类似于循环神经网络中门的机制,采用参数w来为每个特征通道生成权重,其中参数w被学习用来显式地建模特征通道间的相关性;
(4-2-3)Reweight操作:将Excitation输出的权重看做是经过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到第一base layer层的输出上,完成在通道维度上的对原始特征的重标定;
(4-3)SE_Net模块的输出输入到第二base layer子模块,输出图像尺寸为32x32x32x64。
步骤5)中所述的全局特征提取,过程为:输入图像尺寸为32x32x32x3,输入图像尺寸为32x32x32x3,经过Xception_ResNeXt构成的第二通道,输出图像尺寸为32x32x32x64。
步骤5)中所述的separable layer模块包括由上而下顺序连接的可分离卷积层即separable_conv2d层、归一化层即Batch Normalization层和激活函数层即ReLU层,如图3-2所示。

Claims (4)

1.一种基于双通道特征融合的机器视觉中手势识别方法,其特征在于,包括如下步骤:
1)采集数据源、制作数据集:采用美国手语手势数据集为数据源,注释美国手语手势数据集中的手势类别信息,设置2165张图片为训练集和350张图片为测试集,并生成tfrecord文件;
2)对数据集中的手势图像进行预处理:对步骤1)处理过的数据集中的手势图像进行亮度调整、对比度调整和随机裁剪;
3)构建深度卷积神经网络:构建基于双通道特征融合的深度卷积神经网络模型,所述深度卷积神经网络模型包括顺序连接的由双通道构成的输入层、特征融合层、全局平均池化层、全连接层和分类函数层;
4)进行网络第一阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第一个通道中对卷积神经网络进行训练即进行第一阶段训练,完成手势图像的局部特征提取;
5)进行网络第二阶段训练:将步骤1)处理过的数据集中手势图像训练集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型的第二个通道中对卷积神经网络进行训练即进行第二阶段训练,完成手势图像的全局特征提取;
6)进行特征融合操作:将第一阶段训练得到的手势图像的局部特征与第二阶段训练得到的手势图像的全局特征进行通道维度上的融合;
7)进行手势图像识别:将步骤6)融合后的特征图经过全局平均池化层后输入全连接层,最后通过分类函数层对结果进行分类,并选择批处理大小、学习率大小、正则化方式及优化算法对步骤3)构造的深度卷积神经网络进行参数微调,获得最佳的卷积神经网络模型,实现手势图像训练集的精确识别,采用步骤1)处理过的数据集中手势图像测试集输入到步骤3)构造的双通道特征融合的深度卷积神经网络模型中,验证步骤3)构造的双通道特征融合的深度卷积神经网络模型能够实现手势图像的精确识别;
步骤3)中所述的双通道包括由SE_Net构成的第一通道和由Xception_ResNeXt构成的第二通道,所述第一通道包括由上至下顺序连接的第一base layer子模块、SE_Net模块和第二base layer子模块,所述第二通道包括2个结构相同串联的由上至下顺序连接的第三base layer子模块、由base layer子模块平行堆叠构成相同拓扑结构的base layer堆叠构建模块、第一通道拼接层、第四base layer子模块、由3个相同separable layer模块顺序连接构成的深度可分离卷积层、第五base layer子模块,其中,第三base layer子模块的输出与第四base layer子模块的输出进行逐像素相加作为由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输入,第三base layer子模块的输出与由3个相同separable layer模块顺序连接构成的深度可分离卷积层的输出进行逐像素相加作为第五base layer子模块的输入,第一通道和第二通道提取的特征进行通道维度上的融合,所述SE_Net具体公式如下所示:
Figure FDA0003685769200000021
s=σ(W2δ(W1,z)) (2),
xc=sc·uc (3),
其中,W表示特征图的宽度,H表示特征图的高度,uc表示特征图的第c个通道,uc(i,j)表示特征图的第c个通道的(i,j)位置的参数,z=[z1,z2,...,zc]表示通道描述符,zc表示z的第c个元素,W1和W2表示全连接层的参数,δ表示激活函数ReLU,σ表示激活函数,s=[s1,s2,...,sc]表示激励的输出,sc表示s的第c个元素,·表示标量乘法,xc表示输出,所述Xception_ResNeXt即第二通道采用depthwise separable convolution操作,将网络学习空间相关性和学习通道间相关性的任务完全分离,用平行堆叠相同拓扑结构的方式对图像进行特征提取,具体公式如公式(4)所示:
Figure FDA0003685769200000022
其中,x表示输入,C表示基数,Ti表示任意函数,y表示输出。
2.根据权利要求1所述的基于双通道特征融合的机器视觉中手势识别方法,其特征在于,步骤4)中所述的局部特征提取,包括如下步骤:
(4-1)输入图像尺寸为32x32x32x3,经过双通道特征融合的深度卷积神经网络模型第一通道中第一base layer子模块提取64个特征,base layer子模块包括由上到下顺序叠接的卷积层即Conv层、归一化层即Batch Normalization层和激活函数层即ReLU层,第一baselayer子模块使用3x3卷积核对输入信息进行卷积运算,卷积的计算表达式如公式(5)所示:
conv=kernel*input (5),
其中,input为卷积的输入,kernel为卷积核,conv为卷积的输出,*为卷积操作,提取卷积特征之后,采用Batch Normalization进行批量归一化操作,再将归一化结果输入到激活函数层,激活函数层选用ReLU作为激活函数;
(4-2)第一base layer子模块的输出输入到SE_Net模块中,SE_Net模块通过以下三个操作进行特征重标定:
(4-2-1)Squeeze操作:即全局平均池化,顺着空间维度进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配,它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野;
(4-2-2)Excitation操作:即全连接层+激活函数层+全连接层+激活函数层,采用参数w来为每个特征通道生成权重,其中参数w被学习用来显式地建模特征通道间的相关性;
(4-2-3)Reweight操作:将Excitation输出的权重看做是经过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到第一baselayer层的输出上,完成在通道维度上的对原始特征的重标定;
(4-3)SE_Net模块的输出输入到第二base layer子模块,输出图像尺寸为32x32x32x64。
3.根据权利要求1所述的基于双通道特征融合的机器视觉中手势识别方法,其特征在于,步骤5)中所述的全局特征提取,过程为:输入图像尺寸为32x32x32x3,经过Xception_ResNeXt构成的第二通道,输出图像尺寸为32x32x32x64。
4.根据权利要求2所述的基于双通道特征融合的机器视觉中手势识别方法,其特征在于,步骤5)中所述的separable layer模块包括由上而下顺序连接的可分离卷积层即separable_conv2d层、归一化层即Batch Normalization层和激活函数层即ReLU层。
CN201910902883.8A 2019-09-24 2019-09-24 一种基于双通道特征融合的机器视觉中手势识别方法 Active CN110674741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910902883.8A CN110674741B (zh) 2019-09-24 2019-09-24 一种基于双通道特征融合的机器视觉中手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910902883.8A CN110674741B (zh) 2019-09-24 2019-09-24 一种基于双通道特征融合的机器视觉中手势识别方法

Publications (2)

Publication Number Publication Date
CN110674741A CN110674741A (zh) 2020-01-10
CN110674741B true CN110674741B (zh) 2023-06-09

Family

ID=69077345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910902883.8A Active CN110674741B (zh) 2019-09-24 2019-09-24 一种基于双通道特征融合的机器视觉中手势识别方法

Country Status (1)

Country Link
CN (1) CN110674741B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242229A (zh) * 2020-01-17 2020-06-05 南京航空航天大学 一种基于两阶段信息融合的图像识别方法
CN111401400B (zh) * 2020-02-12 2023-06-20 杭州电子科技大学 一种可编程控制器视觉功能块fbd的内部变量优化方法
CN111401166A (zh) * 2020-03-06 2020-07-10 中国科学技术大学 基于肌电信息解码的鲁棒手势识别方法
CN111476161A (zh) * 2020-04-07 2020-07-31 金陵科技学院 一种融合图像和生理信号双通道的体感动态手势识别方法
CN111899879A (zh) * 2020-07-31 2020-11-06 罗雄彪 一种眼表疾病自动筛查方法与系统、区块链
CN112836651A (zh) * 2021-02-04 2021-05-25 浙江理工大学 基于动态融合机制的手势图像特征提取方法
CN113158757B (zh) * 2021-02-08 2023-04-07 海信视像科技股份有限公司 显示设备及手势控制方法
CN113361546A (zh) * 2021-06-18 2021-09-07 合肥工业大学 融合非对称卷积和注意力机制的遥感图像特征提取方法
CN113792573A (zh) * 2021-07-13 2021-12-14 浙江理工大学 一种小波变换低频信息与Xception网络的静态手势识别方法
CN115511968B (zh) * 2022-11-21 2023-02-28 珠海亿智电子科技有限公司 一种二维手部姿态估计方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107037518A (zh) * 2015-07-30 2017-08-11 王卫国 一种双通道滤波器
CN108710945A (zh) * 2018-05-04 2018-10-26 广州华多网络科技有限公司 深度神经网络的下采样方法、装置和计算机设备
CN109214250A (zh) * 2017-07-05 2019-01-15 中南大学 一种基于多尺度卷积神经网络的静态手势识别方法
CN109635750A (zh) * 2018-12-14 2019-04-16 广西师范大学 一种复杂背景下的复合卷积神经网络手势图像识别方法
CN110135237A (zh) * 2019-03-24 2019-08-16 北京化工大学 一种手势识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102619981B1 (ko) * 2016-02-02 2024-01-02 삼성전자주식회사 근전도 신호를 이용한 동작 분류 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107037518A (zh) * 2015-07-30 2017-08-11 王卫国 一种双通道滤波器
CN109214250A (zh) * 2017-07-05 2019-01-15 中南大学 一种基于多尺度卷积神经网络的静态手势识别方法
CN108710945A (zh) * 2018-05-04 2018-10-26 广州华多网络科技有限公司 深度神经网络的下采样方法、装置和计算机设备
CN109635750A (zh) * 2018-12-14 2019-04-16 广西师范大学 一种复杂背景下的复合卷积神经网络手势图像识别方法
CN110135237A (zh) * 2019-03-24 2019-08-16 北京化工大学 一种手势识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Feature Extraction and Multi-feature Fusion for Similar Hand Gesture Recognition;C. Xie et al.;《2018 IEEE Visual Communications and Image Processing (VCIP)》;20190425;第1-4页 *
基于计算机视觉的手势识别方法研究;莫伟珑;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊),2019年第09期》;20190915;全文 *
基于高低维度特征融合的双通道卷积神经网络;文元美等;《计算机与现代化,2018年第12期》;20181231;第101-105页 *

Also Published As

Publication number Publication date
CN110674741A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110674741B (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN109816725B (zh) 一种基于深度学习的单目相机物体位姿估计方法及装置
CN109344701B (zh) 一种基于Kinect的动态手势识别方法
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及系统
CN105205449B (zh) 基于深度学习的手语识别方法
CN112801169B (zh) 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质
CN106991386A (zh) 一种基于深度残差网络的手势识别方法
CN110188708A (zh) 一种基于卷积神经网络的人脸表情识别方法
CN112784782B (zh) 一种基于多视角双注意网络的三维物体识别方法
CN112183435A (zh) 一种两阶段的手部目标检测方法
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN105868706A (zh) 一种基于稀疏自编码的三维模型识别方法
CN113065426B (zh) 基于通道感知的手势图像特征融合方法
CN112507904B (zh) 一种基于多尺度特征的教室人体姿态实时检测方法
CN106599810A (zh) 一种基于栈式自编码的头部姿态估计方法
WO2023151237A1 (zh) 人脸位姿估计方法、装置、电子设备及存储介质
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN110096991A (zh) 一种基于卷积神经网络的手语识别方法
CN110598537A (zh) 一种基于深度卷积网络的视频显著性检测方法
CN107330363B (zh) 一种快速的互联网广告牌检测方法
Zheng et al. Feature enhancement for multi-scale object detection
Chiu et al. See the difference: Direct pre-image reconstruction and pose estimation by differentiating hog
Yao Application of higher education management in colleges and universities by deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230516

Address after: Room a2-102, No.1000, Yuntaishan Road, Qingdao area, China (Shandong) pilot Free Trade Zone, Qingdao, Shandong 266000

Applicant after: QINGDAO HAIZHICHEN INDUSTRIAL EQUIPMENT Co.,Ltd.

Address before: No. 1107, Unit X, Building 7, Zhongxu Tianyue, No. 3, Xining Road, Xixiangtang District, Nanning City, Guangxi Zhuang Autonomous Region, 530000

Applicant before: Nanning Zhuanju Intellectual Property Service Co.,Ltd.

Effective date of registration: 20230516

Address after: No. 1107, Unit X, Building 7, Zhongxu Tianyue, No. 3, Xining Road, Xixiangtang District, Nanning City, Guangxi Zhuang Autonomous Region, 530000

Applicant after: Nanning Zhuanju Intellectual Property Service Co.,Ltd.

Address before: 541004 No. 15 Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region

Applicant before: Guangxi Normal University

GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A gesture recognition method in machine vision based on dual channel feature fusion

Effective date of registration: 20231011

Granted publication date: 20230609

Pledgee: Weihai commercial bank Limited by Share Ltd. Qingdao branch

Pledgor: QINGDAO HAIZHICHEN INDUSTRIAL EQUIPMENT Co.,Ltd.

Registration number: Y2023980060713