CN107590449A - 一种基于加权特征谱融合的手势检测方法 - Google Patents

一种基于加权特征谱融合的手势检测方法 Download PDF

Info

Publication number
CN107590449A
CN107590449A CN201710767612.7A CN201710767612A CN107590449A CN 107590449 A CN107590449 A CN 107590449A CN 201710767612 A CN201710767612 A CN 201710767612A CN 107590449 A CN107590449 A CN 107590449A
Authority
CN
China
Prior art keywords
convolution
modules
module
length
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710767612.7A
Other languages
English (en)
Inventor
李宏亮
杨燕平
姚晓宇
方清
陈雅丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201710767612.7A priority Critical patent/CN107590449A/zh
Publication of CN107590449A publication Critical patent/CN107590449A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于加权特征谱融合的手势检测方法,属于图像处理及识别领域。本发明设计了小网络,对小网络进行了速度和精度上面的优化,保证网络满足手势检测的特征提取的要求,也保证了网络运行的速度。由于底层特征包含了丰富的颜色和形状特征信息,对于手势检测精度有这很大的影响,本发明提出使用加权特征融合的方法,低层特征依次通过降采样模块和加权模块再与高层特征进行级联,使用加权模块让网络自动学习高层特征和低层特征的重要性,避免不同层特征简单级联带来尺度不一致带来的问题,影响原始网络的特征提取。

Description

一种基于加权特征谱融合的手势检测方法
技术领域
本发明属于图像处理及识别领域,是一种用于手势识别的卷积神经网络的新型应用技术。
背景技术
手势交互是一种通过识别人类的肢体语言并转化为操作设备指令的计算机图像技术。手势交互是继鼠标键盘和触摸屏之后的一种新型的人机交互技术。由于人类在开始能进行语言交流之前都是使用了肢体语言进行交流,因此手势交互对于人类来说是一种很便捷的人机交互。由于手势交互的便捷和灵活性,越来越多的人机交互系统使用了手势作为输入法或者作为控制软件和游戏的方法。
手势交互的性能主要取决于对于手势识别的准确性,同时手势识别的准确性又依赖于对手势检测的准确性。近年来,随着深度学习在计算机视觉领域的飞速发展,使得在大部分的计算机视觉领域比如分类、目标分割和目标检测等方面,深度学习都取得了性能和速度上最佳的效果。深度学习成为了手势检测首选的方法。并且越来越多的通用目标检测的方法应用于手势检测,比如Single Shot MultiBox Detector(SSD),You Only LookOnce(YOLO)v1和v2,Faster-Region Convolution neural network(Faster-Rcnn)等方法。SSD方法在多尺度的特征谱上得到不同方向比和尺度的先验框,并且回归这些先验框的置信度和位置偏移。YOLOv1和v2都是直接在最高层的特征谱上面直接回归置信度和位置的偏移。Faster-Rcnn是通过RPN网络先得到目标的proposal,然后根据这些proposal对特征谱进行ROI-Pooling操作,然后进行置信度和位置偏移的回归。尽管这些通用框架可以在手势检测中取得不错的效果,但是针对于手势检测,通用网络就过于冗余,由于底层的特征谱通常包含丰富的边缘和颜色特征,将底层特征融合进中高层特征,改善置信度和位置的回归。在我们的工作中,我们使用加权底层特征谱和高层特征谱进行融合,然后再进行目标的置信度和位置偏移的回归,通常手势交互的设备具有有限的计算资源,因此我们提出使用小网络结合加权特征谱的方式进行手势的检测。
本发明提出了一种基于加权特征谱融合的手势检测方法,是一种用于手势识别的卷积神经网络的新型应用技术。在我们建立的数据库上,我们进行了大量的测试,并取得了很高的检测精度。
发明内容
本发明解决的问题的技术问题包括:现在公开的数据库满足不了进行复杂手势检测,通用网络过于冗余,参数过多,训练样本不足导致的过拟合问题。
本发明技术方案为一种基于加权特征谱融合的手势检测方法,该方法包括:
步骤1:获取用户手势图像,对进行灰度处理;
步骤2:采用特征提取网络提取步骤1处理后图像的全局特征;
步骤3:步骤2的到的全局特征采用识别器进行识别;
其特征在于所述步骤2的特征提取网络包括依次级联的:第1卷积模块、第1池化模块、第2卷积模块、第2池化模块、第3-1卷积模块、第3-2卷积模块、第3-3卷积模块、第3池化模块、第4-1卷积模块、第4-2卷积模块、第4-3卷积模块、第4池化模块、第5-1卷积模块、第5-2卷积模块、第5-3卷积模块、第5池化模块、第6卷积模块;额外的还包括一条加权支路,该加权支路包括依次级联的下采样模块和加权模块;加权支路的输入为第3-3卷积模块的输出,加权支路的输出与第4-3卷积模块的输出级联作为特征提取网络的一个输出,特征提取网络的另外两个输出为第5-3卷积模块的输出和第6卷积模块的输出。
采用连续三个卷积模块是为了增加网络的深度,增加网络的深度使得网络的非线性表达能力大大增加,保证网络的表达能力。同时,将第一卷积模块减少为一个卷积模块是为了降低网络的运算量,这是由于网络的输入阶段的尺度较大,较少卷积层的个数和卷积核的个数可以达到降低计算量的目的。
进一步的,所述特征提取网络中第1卷积模块的卷积核个数为32、卷积核大小为5×5、卷积步长为2/1,第1池化模块的卷积核大小为2×2、卷积步长为2/0,第2卷积模块的卷积核个数为64、卷积核大小为5×5、卷积步长为1/1,第2池化模块的卷积核大小为2×2、卷积步长为2/0,第3-1卷积模块的卷积核个数为128、卷积核大小为3×3、卷积步长为1/1,第3-2卷积模块、第3-3卷积模块的参数与第3-1卷积模块的参数相同,第3池化模块的卷积核大小为2×2、卷积步长为2/0,第4-1卷积模块的卷积核个数为256、卷积核大小为3×3、卷积步长为1/1,第4-2卷积模块、第4-3卷积模块的参数与第4-1卷积模块的参数相同,第4池化模块的卷积核大小为2×2、卷积步长为2/0,第5-1卷积模块的卷积核个数为256、卷积核大小为3×3、卷积步长为1/1,第5-2卷积模块的的参数与第5-1卷积模块的参数相同,第5-3卷积模块的卷积核个数为1024、卷积核大小为3×3、卷积步长为1/1,第5池化模块的卷积核大小为3×3、卷积步长为1/1,第6卷积模块的卷积核个数为1024、卷积核大小为3×3、卷积步长为2/1。
进一步的,所述加权支路中的下采样的采样率为2;加权模块的参数为0.5。
本发明设计了小网络,对小网络进行了速度和精度上面的优化,保证网络满足手势检测的特征提取的要求,也保证了网络运行的速度。由于底层特征包含了丰富的颜色和形状特征信息,对于手势检测精度有这很大的影响,本发明提出使用加权特征融合的方法,低层特征依次通过降采样模块和加权模块再与高层特征进行级联,使用加权模块让网络自动学习高层特征和低层特征的重要性,避免不同层特征简单级联带来尺度不一致带来的问题,影响原始网络的特征提取。
附图说明
图1为手势检测网络结构图;
图2为低层特征和高层特征融合流程图。
具体实施方式
本发明主要可以分为手势检测网络的训练和测试两部分,全部工作可以分为以下五个步骤:
步骤1、训练小网络,在imagenet这个10000类的分类数据库上面,根据上面表格所示的网络,在表格二的网络后面添加两个全连连接层,第一个连接层输出的个数是1024,第二个输出层的个数是1000,之后添加softmax损失层计算损失,使用随机梯度下降进行学习,学习率设置为0.1,使用L2正则化,在imagenet上面训练5epoch,得到预训练模型。
步骤2、预处理手势检测数据库,对手势数据图像统一归一化为320x320,同时在训练过程中,对图像进行随机的采样进行样本增广,之后对图像进行减均值的操作。
步骤3、编写特征融合的层,该层的操作分为三个部分,第一部分是对尺度较大的层进行降采样,使得与尺度较小的层输入的大小是一致。第二部分,将降采样的结果乘以一个可学习参数。第三部分是将两个特征谱进行级联作为输出。
步骤4、将小网络后面部分的全连接层去掉,截取的网络为输入层到第6卷积模块之间,选择第4-3卷积模块和第5-3卷积模块和第6卷积模块三个特征谱,每一个特征谱添加两个卷积层和先验框层,。之后将输出的结果和图像标注的结果进行比较,位置的偏移使用L1损失,置信度回归使用交叉熵损失,之后进行误差的后向传播,利用随机梯度下降更新参数。这里先验框的设置有如下的几个要点:首先,先验框需要设置目标框的方向比,我们设置的方向比(宽高的比率)为1:2,2:1,3:1,1:3和1:1这五种。其次设置不同的尺度,设置的尺度根据特征谱的大小和图像大小的比例来设置的,在我们发明中,最大尺度为(图像大小*(n+1)/4),最小尺度为(图像大小*n/4),其中,第4-3卷积模块的n为1,第5-3卷积模块的n为2,第6卷积模块的n为3。最后,根据方向比和尺度来定先验框的大小。
步骤5、在我们收集的数据库进行训练,我们使用的学习率为0.01,并将小网络学习的参数作为初始化参数,训练次数为10000,每1000次进行一次测试,每5000次学习率乘以0.1.
本发明在收集的数据库上面得到的结果mAp(平均准确度)指标为0.88。在同样的网络中,我们实验中,去除掉加权特征级联模块,在我们的数据库上面,手势检测的mAp指标为0.8。

Claims (3)

1.一种基于加权特征谱融合的手势检测方法,该方法包括:
步骤1:获取用户手势图像,对进行灰度处理;
步骤2:采用特征提取网络提取步骤1处理后图像的全局特征;
步骤3:步骤2的到的全局特征采用识别器进行识别;
其特征在于所述步骤2的特征提取网络包括依次级联的:第1卷积模块、第1池化模块、第2卷积模块、第2池化模块、第3-1卷积模块、第3-2卷积模块、第3-3卷积模块、第3池化模块、第4-1卷积模块、第4-2卷积模块、第4-3卷积模块、第4池化模块、第5-1卷积模块、第5-2卷积模块、第5-3卷积模块、第5池化模块、第6卷积模块;额外的还包括一条加权支路,该加权支路包括依次级联的下采样模块和加权模块;加权支路的输入为第3-3卷积模块的输出,加权支路的输出与第4-3卷积模块的输出级联作为特征提取网络的一个输出,特征提取网络的另外两个输出为第5-3卷积模块的输出和第6卷积模块的输出。
2.如权利要求1所述的一种基于加权特征谱融合的手势检测方法,其特征在于所述特征提取网络中第1卷积模块的卷积核个数为32、卷积核大小为5×5、卷积步长为2/1,第1池化模块的卷积核大小为2×2、卷积步长为2/0,第2卷积模块的卷积核个数为64、卷积核大小为5×5、卷积步长为1/1,第2池化模块的卷积核大小为2×2、卷积步长为2/0,第3-1卷积模块的卷积核个数为128、卷积核大小为3×3、卷积步长为1/1,第3-2卷积模块、第3-3卷积模块的参数与第3-1卷积模块的参数相同,第3池化模块的卷积核大小为2×2、卷积步长为2/0,第4-1卷积模块的卷积核个数为256、卷积核大小为3×3、卷积步长为1/1,第4-2卷积模块、第4-3卷积模块的参数与第4-1卷积模块的参数相同,第4池化模块的卷积核大小为2×2、卷积步长为2/0,第5-1卷积模块的卷积核个数为256、卷积核大小为3×3、卷积步长为1/1,第5-2卷积模块的的参数与第5-1卷积模块的参数相同,第5-3卷积模块的卷积核个数为1024、卷积核大小为3×3、卷积步长为1/1,第5池化模块的卷积核大小为3×3、卷积步长为1/1,第6卷积模块的卷积核个数为1024、卷积核大小为3×3、卷积步长为2/1。
3.如权利要求2所述的一种基于加权特征谱融合的手势检测方法,其特征在于所述加权支路中的下采样的采样率为2;加权模块的参数为0.5。
CN201710767612.7A 2017-08-31 2017-08-31 一种基于加权特征谱融合的手势检测方法 Pending CN107590449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710767612.7A CN107590449A (zh) 2017-08-31 2017-08-31 一种基于加权特征谱融合的手势检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710767612.7A CN107590449A (zh) 2017-08-31 2017-08-31 一种基于加权特征谱融合的手势检测方法

Publications (1)

Publication Number Publication Date
CN107590449A true CN107590449A (zh) 2018-01-16

Family

ID=61050255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710767612.7A Pending CN107590449A (zh) 2017-08-31 2017-08-31 一种基于加权特征谱融合的手势检测方法

Country Status (1)

Country Link
CN (1) CN107590449A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629288A (zh) * 2018-04-09 2018-10-09 华中科技大学 一种手势识别模型训练方法、手势识别方法及系统
CN109800628A (zh) * 2018-12-04 2019-05-24 华南理工大学 一种加强ssd小目标行人检测性能的网络结构及检测方法
CN109872364A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 图像区域定位方法、装置、存储介质和医学影像处理设备
CN110659631A (zh) * 2018-06-30 2020-01-07 华为技术有限公司 车牌识别方法和终端设备
CN113191403A (zh) * 2021-04-16 2021-07-30 上海戏剧学院 一种剧场动态海报的生成与展示系统
CN113421263A (zh) * 2021-08-24 2021-09-21 深圳市信润富联数字科技有限公司 零件缺陷检测方法、设备、介质及计算机程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866829A (zh) * 2015-05-25 2015-08-26 苏州大学 一种基于特征学习的跨年龄人脸验证方法
US20160098844A1 (en) * 2014-10-03 2016-04-07 EyeEm Mobile GmbH Systems, methods, and computer program products for searching and sorting images by aesthetic quality
CN105631415A (zh) * 2015-12-25 2016-06-01 中通服公众信息产业股份有限公司 一种基于卷积神经网络的视频行人识别方法
CN105975931A (zh) * 2016-05-04 2016-09-28 浙江大学 一种基于多尺度池化的卷积神经网络人脸识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160098844A1 (en) * 2014-10-03 2016-04-07 EyeEm Mobile GmbH Systems, methods, and computer program products for searching and sorting images by aesthetic quality
CN104866829A (zh) * 2015-05-25 2015-08-26 苏州大学 一种基于特征学习的跨年龄人脸验证方法
CN105631415A (zh) * 2015-12-25 2016-06-01 中通服公众信息产业股份有限公司 一种基于卷积神经网络的视频行人识别方法
CN105975931A (zh) * 2016-05-04 2016-09-28 浙江大学 一种基于多尺度池化的卷积神经网络人脸识别方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629288A (zh) * 2018-04-09 2018-10-09 华中科技大学 一种手势识别模型训练方法、手势识别方法及系统
CN108629288B (zh) * 2018-04-09 2020-05-19 华中科技大学 一种手势识别模型训练方法、手势识别方法及系统
CN110659631A (zh) * 2018-06-30 2020-01-07 华为技术有限公司 车牌识别方法和终端设备
CN110659631B (zh) * 2018-06-30 2023-12-15 华为技术有限公司 车牌识别方法和终端设备
CN109800628A (zh) * 2018-12-04 2019-05-24 华南理工大学 一种加强ssd小目标行人检测性能的网络结构及检测方法
CN109872364A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 图像区域定位方法、装置、存储介质和医学影像处理设备
CN113191403A (zh) * 2021-04-16 2021-07-30 上海戏剧学院 一种剧场动态海报的生成与展示系统
CN113421263A (zh) * 2021-08-24 2021-09-21 深圳市信润富联数字科技有限公司 零件缺陷检测方法、设备、介质及计算机程序产品
CN113421263B (zh) * 2021-08-24 2021-11-30 深圳市信润富联数字科技有限公司 零件缺陷检测方法、设备、介质及计算机程序产品

Similar Documents

Publication Publication Date Title
CN107590449A (zh) 一种基于加权特征谱融合的手势检测方法
US11341366B2 (en) Cross-modality processing method and apparatus, and computer storage medium
CN107292333B (zh) 一种基于深度学习的快速图像分类方法
WO2020143323A1 (zh) 遥感影像分割方法、装置及存储介质、服务器
US11694461B2 (en) Optical character recognition method and apparatus, electronic device and storage medium
CN109190635A (zh) 基于分类cnn的目标追踪方法、装置及电子设备
CN109214250A (zh) 一种基于多尺度卷积神经网络的静态手势识别方法
CN110674741B (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN109117876A (zh) 一种稠密小目标检测模型构建方法、模型及检测方法
CN107909101A (zh) 基于卷积神经网络的半监督迁移学习字符识别方法及系统
CN113642431B (zh) 目标检测模型的训练方法及装置、电子设备和存储介质
US20220406090A1 (en) Face parsing method and related devices
CN112241715A (zh) 模型训练方法、表情识别方法、装置、设备及存储介质
CN109284779A (zh) 基于深度全卷积网络的物体检测方法
CN112347769A (zh) 实体识别模型的生成方法、装置、电子设备及存储介质
CN110222184A (zh) 一种文本的情感信息识别方法及相关装置
CN108229300A (zh) 视频分类方法、装置、计算机可读存储介质和电子设备
CN110457677A (zh) 实体关系识别方法及装置、存储介质、计算机设备
CN109102498A (zh) 一种宫颈涂片图像中簇型细胞核分割的方法
CN110096991A (zh) 一种基于卷积神经网络的手语识别方法
CN112561056A (zh) 神经网络模型的训练方法、装置、电子设备和存储介质
CN110222730A (zh) 基于惯性传感器的用户身份识别方法及识别模型构建方法
CN110019952A (zh) 视频描述方法、系统及装置
CN107133631A (zh) 一种识别电视台图标的方法及装置
Wang et al. Swin transformer based pyramid pooling network for food segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180116

RJ01 Rejection of invention patent application after publication