CN111339985A

CN111339985A - 基于混合卷积的手势检测方法

Info

Publication number: CN111339985A
Application number: CN202010149891.2A
Authority: CN
Inventors: 李蔚清; 陈伟星
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-06-26

Abstract

本发明公开了一种基于混合卷积的手势检测方法，包括：获取待检测的手势图像；基于训练好的手势图像检测模型，对手势目标图像进行检测，获取所述手势目标图像的目标检测结果，其中：所述手势图像检测模型为将VGG16网络替换为Mobilenet网络的SSD框架。本发明在检测手势图像时能够兼顾检测不同大小的手势目标，能够快速的识别手势图像中的手势种类。

Description

基于混合卷积的手势检测方法

技术领域

本发明属于检测技术，具体为一种基于混合卷积的手势检测方法。

背景技术

2016年Liu W等提出SSD(Single Shot MultiBoxDetector)算法，SSD算法在多个尺度的特征图(Feature Map)上对目标进行预测，高分辨率的特征图预测小物体，低分辨率的特征图预测大物体，同时结合RPN网络的思想，对特征图中的每一个点放置不同尺度不同长宽比的预选框(Prior Box)，并对每一个预选框进行类别预测和位置的回归。这种方法在保证速度的同时，准确率得到了大幅度的提升，是目前最流行的目标检测算法之一。

如图1所示，Liu W等提出的SSD目标检测算法使用VGGNet作为主干网络，VGGNet网络计算量和参数量较大，使用轻量级的Mobilenet网络结构替代VGGNet能够有效的减少网络模型的参数量，在精度和模型大小之间取得较好的平衡。然而Mobilenet网络采用单一的3×3小卷积核提取特征，不利于提取多尺寸的特征。

发明内容

本发明的目的在于提供了一种基于混合卷积的手势检测方法。

实现本发明目的的技术解决方案为：一种基于混合卷积的手势检测方法包括：

获取待检测的手势图像；

基于训练好的手势图像检测模型，对手势目标图像进行检测，获取所述手势目标图像的目标检测结果，其中：

所述手势图像检测模型为将VGG16网络替换为Mobilenet网络的SSD框架。

优选地，所述Mobilenet网络的第2、4、6层、7～12层均为3×3卷积核、5×5卷积核以及7×7卷积核组成的混合卷积核组。

优选地，所述Mobilenet网络的第7～12层的3×3卷积核、5×5卷积核以及7×7卷积核均分别由1×n与n×1卷积核串联而成，n＝3,5,7。

优选地，所述Mobilenet网络的第2、4、6层、7～12层的卷积核个数为d，3×3卷积核、5×5卷积核以及7×7卷积核的数量分别为d/2个、d/4个以及d/4个。

优选地，所述训练好的手势图像检测模型通过以下步骤得到：

根据手势种类，对手势样本图像上的手势图像进行标注，得到手势样本图像的标注集；

对手势样本图像的标注集进行格式转换，得到手势样本图像训练集；

利用手势样本图像训练集对手势图像检测模型进行训练，得到训练好的手势图像检测模型。

优选地，利用手势样本图像训练集对手势图像检测模型进行训练，得到训练好的手势图像检测模型的具体过程为：

将手势样本图像训练集中的图像输入Mobilenet网络获得检测特征图；

对手势样本数据集进行多尺度预测处理，将每个手势样本图像的真实值标签框和具有最大交并比的默认框进行匹配，若两者的交并比大于预设阈值，则将默认框筛选出来，通过非极大值抑制得到置信度最高的默认框作为当前手势样本图像的训练结果；

通过损失函数对训练结果进行判断，若结果满足预设条件则得到训练好的手势检测模型，否则保存当前网络参数，重复上述过程继续训练。

本发明与现有技术相比，其显著优点为：本发明在检测手势图像时能够兼顾检测不同大小的手势目标，能够快速的识别手势图像中的手势种类，具有更高的检测效率和准确度，并为移动端部署手势图像检测提供技术可行性。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为普通卷积层与混合卷积层对比图。

图2是在混合卷积层的基础上进行非对称分解后卷积层的结构图。

具体实施方式

如图1、2所示，一种基于混合卷积的手势检测方法，具体为：

S1：获取待检测的手势图像

在某些实施例中，通过移动终端或者目标检测设备上的图像扫描设备对手势图像进行采集，从而获取到待检测的目标手势图像。需要说明的是，本发明各实施例中描述的手势图像泛指包含有手势的图像，图像中的手势即使不完整或只包含部分，也可以作为本发明实施例中的手势图像。

S2：基于训练好的手势图像检测模型，对手势图像进行检测，获取所述手势图像的目标检测结果，其中：

进一步地，所述SSD框架包括Mobilenet和检测网络，同时，所述Mobilenet网络的具体结构进行了改进，在第2、4、6层，使用3×3、5×5以及7×7组成的混合卷积核组，混合卷积核组如图1所示，本发明将改进后的Mobilenet网络定义为Mixed-Mobilenet网络；

对于网络的第7～12层，使用3×3、5×5以及7×7组成的混合卷积核组，与第2、4、6层这些网络层不同在于，其组成形式是由两个卷积核串联而成的。具体的，对于n×n的卷积核，使用1×n和n×1(n＝{3，5，7})两个卷积核串联的形式替代n×n卷积核。因此对于网络的7～12层，如图2其使用的卷积核组形式为1×3串联3×1、1×5串联5×1、1×7串联7×1。

进一步地，所述Mobilenet网络的第2、4、6层、7～12层的卷积核个数为d，3×3卷积核、5×5卷积核以及7×7卷积核的数量分别为d/2个、d/4个以及d/4个。

具体地，Mixed-Mobilenet的整体结构如表1所示。混合使用3×3、5×5和7×7不同尺寸的卷积核能够兼顾不同感受野的特征，对于不同尺寸的物体，不同大小的感受野能够有效的提取更为全面的特征，能够显著提升网络提取特征的能力。对于第7～12层，由于其层数较多，参数量较大，引入1×n和n×1卷积核串联形式对比直接使用n×n卷积核，能够有效减少参数量和计算量，并且由于增加了非线性，模型的表达能力得到提升。

所述训练好的手势图像检测模型通过以下步骤得到：

根据手势种类，对手势样本图像上的手势图像进行标注得到手势样本图像的标注集，手势样本图像通过采集不同光照、场景下不同尺寸不同种类的手势获得。

对所述手势样本图像的标注集进行处理得到手势图像训练集，处理的过程可根据训练所使用的平台输出对应格式的数据集格式。

利用手势图像训练集对手势图像检测模型进行训练，得到训练好的手势图像检测模型，具体过程为：

使用Mixed-Mobilenet主干网络为SSD框架下的检测算法提供检测特征图；

SSD框架下的检测算法对提取到的特征图进行多尺度预测处理，以用于为每个手势样本图像的真实值标签框匹配多个默认框，具体为：

对手势样本数据集进行多尺度预测处理，将每个手势样本图像的真实值标签框和具有最大交并比的默认框进行匹配，从而保证每个真实值标签框都有对应的默认框；并且，将每个默认框和任意真实值标签框进行匹配时，若两者的交并比大于预设阈值，在某些实施例中，选取0.5作为预设阈值进行说明，即当真实值标签框和默认框的交并比大于0.5时，则将默认框筛选出来，最终通过非极大值抑制得到置信度最高的默认框作为当前手势样本图像的训练结果。

根据损失函数公式对手势图像检测模型的训练结果进行判断，若训练结果满足预设条件，则得到训练好的手势图像检测模型。

Claims

1.一种基于混合卷积的手势检测方法，其特征在于，包括：

获取待检测的手势图像；

2.根据权利要求1所述的基于混合卷积的手势检测方法，其特征在于，所述Mobilenet网络的第2、4、6层、7～12层均为3×3卷积核、5×5卷积核以及7×7卷积核组成的混合卷积核组。

3.根据权利要求1所述的基于混合卷积的手势检测方法，其特征在于，所述Mobilenet网络的第7～12层的3×3卷积核、5×5卷积核以及7×7卷积核均分别由1×n与n×1卷积核串联而成，n＝3,5,7。

4.根据权利要求2所述的基于混合卷积的手势检测方法，其特征在于，所述Mobilenet网络的第2、4、6层、7～12层的卷积核个数为d，3×3卷积核、5×5卷积核以及7×7卷积核的数量分别为d/2个、d/4个以及d/4个。

5.根据权利要求1所述的基于混合卷积的手势检测方法，其特征在于，所述训练好的手势图像检测模型通过以下步骤得到：

6.根据权利要求2所述的基于混合卷积的手势检测方法，其特征在于，利用手势样本图像训练集对手势图像检测模型进行训练，得到训练好的手势图像检测模型的具体过程为：