CN111339985A - 基于混合卷积的手势检测方法 - Google Patents
基于混合卷积的手势检测方法 Download PDFInfo
- Publication number
- CN111339985A CN111339985A CN202010149891.2A CN202010149891A CN111339985A CN 111339985 A CN111339985 A CN 111339985A CN 202010149891 A CN202010149891 A CN 202010149891A CN 111339985 A CN111339985 A CN 111339985A
- Authority
- CN
- China
- Prior art keywords
- gesture
- image
- convolution
- detection model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000002372 labelling Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于混合卷积的手势检测方法,包括:获取待检测的手势图像;基于训练好的手势图像检测模型,对手势目标图像进行检测,获取所述手势目标图像的目标检测结果,其中:所述手势图像检测模型为将VGG16网络替换为Mobilenet网络的SSD框架。本发明在检测手势图像时能够兼顾检测不同大小的手势目标,能够快速的识别手势图像中的手势种类。
Description
技术领域
本发明属于检测技术,具体为一种基于混合卷积的手势检测方法。
背景技术
2016年Liu W等提出SSD(Single Shot MultiBoxDetector)算法,SSD算法在多个尺度的特征图(Feature Map)上对目标进行预测,高分辨率的特征图预测小物体,低分辨率的特征图预测大物体,同时结合RPN网络的思想,对特征图中的每一个点放置不同尺度不同长宽比的预选框(Prior Box),并对每一个预选框进行类别预测和位置的回归。这种方法在保证速度的同时,准确率得到了大幅度的提升,是目前最流行的目标检测算法之一。
如图1所示,Liu W等提出的SSD目标检测算法使用VGGNet作为主干网络,VGGNet网络计算量和参数量较大,使用轻量级的Mobilenet网络结构替代VGGNet能够有效的减少网络模型的参数量,在精度和模型大小之间取得较好的平衡。然而Mobilenet网络采用单一的3×3小卷积核提取特征,不利于提取多尺寸的特征。
发明内容
本发明的目的在于提供了一种基于混合卷积的手势检测方法。
实现本发明目的的技术解决方案为:一种基于混合卷积的手势检测方法包括:
获取待检测的手势图像;
基于训练好的手势图像检测模型,对手势目标图像进行检测,获取所述手势目标图像的目标检测结果,其中:
所述手势图像检测模型为将VGG16网络替换为Mobilenet网络的SSD框架。
优选地,所述Mobilenet网络的第2、4、6层、7~12层均为3×3卷积核、5×5卷积核以及7×7卷积核组成的混合卷积核组。
优选地,所述Mobilenet网络的第7~12层的3×3卷积核、5×5卷积核以及7×7卷积核均分别由1×n与n×1卷积核串联而成,n=3,5,7。
优选地,所述Mobilenet网络的第2、4、6层、7~12层的卷积核个数为d,3×3卷积核、5×5卷积核以及7×7卷积核的数量分别为d/2个、d/4个以及d/4个。
优选地,所述训练好的手势图像检测模型通过以下步骤得到:
根据手势种类,对手势样本图像上的手势图像进行标注,得到手势样本图像的标注集;
对手势样本图像的标注集进行格式转换,得到手势样本图像训练集;
利用手势样本图像训练集对手势图像检测模型进行训练,得到训练好的手势图像检测模型。
优选地,利用手势样本图像训练集对手势图像检测模型进行训练,得到训练好的手势图像检测模型的具体过程为:
将手势样本图像训练集中的图像输入Mobilenet网络获得检测特征图;
对手势样本数据集进行多尺度预测处理,将每个手势样本图像的真实值标签框和具有最大交并比的默认框进行匹配,若两者的交并比大于预设阈值,则将默认框筛选出来,通过非极大值抑制得到置信度最高的默认框作为当前手势样本图像的训练结果;
通过损失函数对训练结果进行判断,若结果满足预设条件则得到训练好的手势检测模型,否则保存当前网络参数,重复上述过程继续训练。
本发明与现有技术相比,其显著优点为:本发明在检测手势图像时能够兼顾检测不同大小的手势目标,能够快速的识别手势图像中的手势种类,具有更高的检测效率和准确度,并为移动端部署手势图像检测提供技术可行性。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为普通卷积层与混合卷积层对比图。
图2是在混合卷积层的基础上进行非对称分解后卷积层的结构图。
具体实施方式
如图1、2所示,一种基于混合卷积的手势检测方法,具体为:
S1:获取待检测的手势图像
在某些实施例中,通过移动终端或者目标检测设备上的图像扫描设备对手势图像进行采集,从而获取到待检测的目标手势图像。需要说明的是,本发明各实施例中描述的手势图像泛指包含有手势的图像,图像中的手势即使不完整或只包含部分,也可以作为本发明实施例中的手势图像。
S2:基于训练好的手势图像检测模型,对手势图像进行检测,获取所述手势图像的目标检测结果,其中:
所述手势图像检测模型为将VGG16网络替换为Mobilenet网络的SSD框架。
进一步地,所述SSD框架包括Mobilenet和检测网络,同时,所述Mobilenet网络的具体结构进行了改进,在第2、4、6层,使用3×3、5×5以及7×7组成的混合卷积核组,混合卷积核组如图1所示,本发明将改进后的Mobilenet网络定义为Mixed-Mobilenet网络;
对于网络的第7~12层,使用3×3、5×5以及7×7组成的混合卷积核组,与第2、4、6层这些网络层不同在于,其组成形式是由两个卷积核串联而成的。具体的,对于n×n的卷积核,使用1×n和n×1(n={3,5,7})两个卷积核串联的形式替代n×n卷积核。因此对于网络的7~12层,如图2其使用的卷积核组形式为1×3串联3×1、1×5串联5×1、1×7串联7×1。
进一步地,所述Mobilenet网络的第2、4、6层、7~12层的卷积核个数为d,3×3卷积核、5×5卷积核以及7×7卷积核的数量分别为d/2个、d/4个以及d/4个。
具体地,Mixed-Mobilenet的整体结构如表1所示。混合使用3×3、5×5和7×7不同尺寸的卷积核能够兼顾不同感受野的特征,对于不同尺寸的物体,不同大小的感受野能够有效的提取更为全面的特征,能够显著提升网络提取特征的能力。对于第7~12层,由于其层数较多,参数量较大,引入1×n和n×1卷积核串联形式对比直接使用n×n卷积核,能够有效减少参数量和计算量,并且由于增加了非线性,模型的表达能力得到提升。
所述训练好的手势图像检测模型通过以下步骤得到:
根据手势种类,对手势样本图像上的手势图像进行标注得到手势样本图像的标注集,手势样本图像通过采集不同光照、场景下不同尺寸不同种类的手势获得。
对所述手势样本图像的标注集进行处理得到手势图像训练集,处理的过程可根据训练所使用的平台输出对应格式的数据集格式。
利用手势图像训练集对手势图像检测模型进行训练,得到训练好的手势图像检测模型,具体过程为:
使用Mixed-Mobilenet主干网络为SSD框架下的检测算法提供检测特征图;
SSD框架下的检测算法对提取到的特征图进行多尺度预测处理,以用于为每个手势样本图像的真实值标签框匹配多个默认框,具体为:
对手势样本数据集进行多尺度预测处理,将每个手势样本图像的真实值标签框和具有最大交并比的默认框进行匹配,从而保证每个真实值标签框都有对应的默认框;并且,将每个默认框和任意真实值标签框进行匹配时,若两者的交并比大于预设阈值,在某些实施例中,选取0.5作为预设阈值进行说明,即当真实值标签框和默认框的交并比大于0.5时,则将默认框筛选出来,最终通过非极大值抑制得到置信度最高的默认框作为当前手势样本图像的训练结果。
根据损失函数公式对手势图像检测模型的训练结果进行判断,若训练结果满足预设条件,则得到训练好的手势图像检测模型。
Claims (6)
1.一种基于混合卷积的手势检测方法,其特征在于,包括:
获取待检测的手势图像;
基于训练好的手势图像检测模型,对手势目标图像进行检测,获取所述手势目标图像的目标检测结果,其中:
所述手势图像检测模型为将VGG16网络替换为Mobilenet网络的SSD框架。
2.根据权利要求1所述的基于混合卷积的手势检测方法,其特征在于,所述Mobilenet网络的第2、4、6层、7~12层均为3×3卷积核、5×5卷积核以及7×7卷积核组成的混合卷积核组。
3.根据权利要求1所述的基于混合卷积的手势检测方法,其特征在于,所述Mobilenet网络的第7~12层的3×3卷积核、5×5卷积核以及7×7卷积核均分别由1×n与n×1卷积核串联而成,n=3,5,7。
4.根据权利要求2所述的基于混合卷积的手势检测方法,其特征在于,所述Mobilenet网络的第2、4、6层、7~12层的卷积核个数为d,3×3卷积核、5×5卷积核以及7×7卷积核的数量分别为d/2个、d/4个以及d/4个。
5.根据权利要求1所述的基于混合卷积的手势检测方法,其特征在于,所述训练好的手势图像检测模型通过以下步骤得到:
根据手势种类,对手势样本图像上的手势图像进行标注,得到手势样本图像的标注集;
对手势样本图像的标注集进行格式转换,得到手势样本图像训练集;
利用手势样本图像训练集对手势图像检测模型进行训练,得到训练好的手势图像检测模型。
6.根据权利要求2所述的基于混合卷积的手势检测方法,其特征在于,利用手势样本图像训练集对手势图像检测模型进行训练,得到训练好的手势图像检测模型的具体过程为:
将手势样本图像训练集中的图像输入Mobilenet网络获得检测特征图;
对手势样本数据集进行多尺度预测处理,将每个手势样本图像的真实值标签框和具有最大交并比的默认框进行匹配,若两者的交并比大于预设阈值,则将默认框筛选出来,通过非极大值抑制得到置信度最高的默认框作为当前手势样本图像的训练结果;
通过损失函数对训练结果进行判断,若结果满足预设条件则得到训练好的手势检测模型,否则保存当前网络参数,重复上述过程继续训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010149891.2A CN111339985A (zh) | 2020-03-06 | 2020-03-06 | 基于混合卷积的手势检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010149891.2A CN111339985A (zh) | 2020-03-06 | 2020-03-06 | 基于混合卷积的手势检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111339985A true CN111339985A (zh) | 2020-06-26 |
Family
ID=71185926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010149891.2A Pending CN111339985A (zh) | 2020-03-06 | 2020-03-06 | 基于混合卷积的手势检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339985A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597969A (zh) * | 2020-05-14 | 2020-08-28 | 新疆爱华盈通信息技术有限公司 | 基于手势识别的电梯控制方法及系统 |
CN112101366A (zh) * | 2020-09-11 | 2020-12-18 | 湖南大学 | 基于混合扩张网络的实时分割系统与方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796018A (zh) * | 2019-09-30 | 2020-02-14 | 武汉科技大学 | 一种基于深度图像和彩色图像的手部运动识别方法 |
-
2020
- 2020-03-06 CN CN202010149891.2A patent/CN111339985A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796018A (zh) * | 2019-09-30 | 2020-02-14 | 武汉科技大学 | 一种基于深度图像和彩色图像的手部运动识别方法 |
Non-Patent Citations (2)
Title |
---|
MINGXING TAN等: "MixConv:Mixed Depthwise Convolutional Kernels", 《ARXIV:1907.09595V3》 * |
龙辉: "基于深度学习的手势识别算法设计", 《智能处理与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597969A (zh) * | 2020-05-14 | 2020-08-28 | 新疆爱华盈通信息技术有限公司 | 基于手势识别的电梯控制方法及系统 |
CN112101366A (zh) * | 2020-09-11 | 2020-12-18 | 湖南大学 | 基于混合扩张网络的实时分割系统与方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299688B (zh) | 基于可变形快速卷积神经网络的舰船检测方法 | |
CN111126472B (zh) | 一种基于ssd改进的目标检测方法 | |
CN103927387B (zh) | 图像检索系统及其相关方法和装置 | |
CN109753903B (zh) | 一种基于深度学习的无人机检测方法 | |
CN109145872B (zh) | 一种基于CFAR与Fast-RCNN融合的SAR图像舰船目标检测方法 | |
CN114445706A (zh) | 一种基于特征融合的输电线路目标检测与识别方法 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN111844101B (zh) | 一种多指灵巧手分拣规划方法 | |
CN111310756A (zh) | 一种基于深度学习的损伤玉米颗粒检测和分类方法 | |
CN111178177A (zh) | 一种基于卷积神经网络的黄瓜病害识别方法 | |
CN114972208B (zh) | 一种基于YOLOv4的轻量化小麦赤霉病检测方法 | |
CN114998756B (zh) | 一种基于yolov5的遥感图像检测方法、装置及存储介质 | |
CN111339985A (zh) | 基于混合卷积的手势检测方法 | |
CN114140665A (zh) | 一种基于改进YOLOv5的密集小目标检测方法 | |
CN112101113B (zh) | 一种轻量化的无人机图像小目标检测方法 | |
CN112164030A (zh) | 水稻穗粒快速检测方法、装置、计算机设备及存储介质 | |
Antioquia et al. | ZipNet: ZFNet-level accuracy with 48× fewer parameters | |
CN112329861A (zh) | 一种面向移动机器人多目标检测的分层特征融合方法 | |
CN116168240A (zh) | 基于注意力增强的任意方向密集舰船目标检测方法 | |
CN116363535A (zh) | 基于卷积神经网络的无人机航拍影像中的船舶检测方法 | |
CN107368847B (zh) | 一种作物叶部病害识别方法及系统 | |
CN111079585B (zh) | 图像增强结合伪孪生卷积神经网络的行人再识别方法 | |
CN117557901A (zh) | 一种田间小目标作物的检测模型及构建方法 | |
CN113902903B (zh) | 一种基于下采样的双注意力多尺度融合方法 | |
CN116563844A (zh) | 圣女果成熟度检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200626 |
|
RJ01 | Rejection of invention patent application after publication |