CN110390275B

CN110390275B - 一种基于迁移学习的手势分类方法

Info

Publication number: CN110390275B
Application number: CN201910597980.0A
Authority: CN
Inventors: 金鹰; 王飞; 胡荣林; 朱全银; 董甜甜; 姚玉婷; 邵鹤帅; 施嘉婷
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2023-05-26
Anticipated expiration: 2039-07-04
Also published as: CN110390275A

Abstract

本发明公开了一种基于迁移学习的手势分类方法，适用于手势图像分类问题。本发明步骤一、将手势视频V转换为手势帧数据集合G0；步骤二、通过高斯滤波方法、OTSU算法和图像与运算对G0分别进行去除噪声、二值化和背景分割处理，得到手势帧数据集合G1，为G1设置标签后得到帧标签数据集合L；步骤三、使用MobileNet卷积神经网络架构和权重文件进行迁移学习，创建与训练模型M1；步骤四、通过模型M1提取帧数据集合G1的特征，得到帧特征向量集合F0；步骤五、将XGBoost作为分类模型对测试集进行分类，得到最终分类结果。本发明将已经训练好的MobileNet卷积神经网络权重迁移至手势图像数据集进行特征提取，采用XGBoost作为分类模型，提升分类精确度的同时减少模型计算量。

Description

一种基于迁移学习的手势分类方法

技术领域

本发明属于监督算法和图像识别技术领域，特别涉及一种基于迁移学习的手势分类方法。

背景技术

在面向手势分类的问题时，最近的文献有的只使用单一模型对图像进行自主学习特征并分类，例如：张江鑫，吴晓凤，徐欣晨.一种基于Faster R-CNN的手势检测和识别方法.中国专利公开号:CN107239731A,2017.10.10；程树英，林培杰，卢箫扬.一种基于XGBoost的静态手语识别系统.中国专利公开号:CN109086699A,2018.12.25；王威，邹婷，王新.一种基于D-MobileNet神经网络图像分类方法.中国专利公开号:CN 109214406A,2019.01.15。这类方法训练时需要消耗大量的时间。有的文献提出将提取特征和分类进行分段处理的改进方法，例如：丁世飞，侯艳路，张楠.一种基于卷积神经网络和随机森林的手写体数字识别方法.中国专利公开号:CN106991374A,2017.07.28。这类方法中CNN是自定义的网络架构，卷积深度不够，特征提取准确度较低。

金鹰，朱全银，胡荣林等人已有的研究基础包括：顾相平,金鹰.水下无线传感器网络信道研究[J].计算机与现代化,2011(10):120-122+125.；朱松豪，刘佳伟，罗青青，胡荣林.基于关联模型的图像分割[A].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会.第26届中国控制与决策会议论文集[C].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会:《控制与决策》编辑部,2014:5.；朱松豪，刘佳伟，胡荣林.一种图像分类的新方法[A].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会.第26届中国控制与决策会议论文集[C].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会:《控制与决策》编辑部,2014:6.；李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759；Quanyin Zhu,Sunqun Cao.A NovelClassifier-independent Feature Selection Algorithm for ImbalancedDatasets.2009,p:77-82；Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The CaseStudy for Price Extracting of Mobile Phone Sell Online.2011,p:282-285；QuanyinZhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast basedon Dichotomy Backfilling and Disturbance Factor Algorithm.InternationalReview on Computers and Software,2011,Vol.6(6):1089-1093；朱全银，胡荣林等人申请、公开与授权的相关专利：朱全银，刘涛，严云洋，高尚兵等.一种基于OpenCV的建筑图纸标签信息检测方法.中国专利公开号:CN109002824A,2018.12.14；朱全银，许康，宗慧，冯万利等.一种基于Faster-RCNN模型的建筑构件提取方法.中国专利公开号:CN109002841A,2018.12.14；朱全银，于柿民，胡荣林，冯万利等.一种基于知识图谱的专家组合推荐方法.中国专利公开号:CN109062961A,2018.12.21；李翔，朱全银，胡荣林，周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。

迁移学习：

给定源域Ds＝{Xs,Fs(X)}和学习任务Ts,目标域DT＝{Xt,Ft(X)}和学习任务Tt,迁移学习旨在源域不同于目标域或学习任务Tt不同于学习任务Ts的条件下通过使用学习任务Ts和源域Ds＝{Xs,Fs(X)}所获取的知识来帮助学习目标的在目标域Dt的预测函数Ft(.)。

MobileNet：

MobileNets是为移动和嵌入式设备提出的高效卷积神经网络模型。MobileNets基于流线型架构(streamlined)，使用深度可分离卷积(depthwise separableconvolutions，即Xception变体结构)来构建轻量级深度神经网络。

XGBoost：

XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型，所以它是将许多树模型集成在一起，形成一个很强的分类器。而所用到的树模型则是CART回归树模型。XGBoost算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。

CART决策树：

决策树是使用类似于一棵树的结构来表示类的划分，树的构建可以看成是变量(属性)选择的过程，内部节点表示树选择哪几个变量(属性)作为划分，每棵树的叶节点表示为一个类的标号，树的最顶层为根节点。CART决策树又称分类回归树，当数据集的因变量为连续性数值时，该树算法就是一个回归树，可以用叶节点观察的均值作为预测值；当数据集的因变量为离散型数值时，该树算法就是一个分类树，可以很好的解决分类问题。但需要注意的是，该算法是一个二叉树，即每一个非叶节点只能引伸出两个分支，所以当某个非叶节点是多水平(2个以上)的离散变量时，该变量就有可能被多次使用。

发明内容

发明目的：针对上述问题，本发明提供一种基于迁移学习的手势分类方法，基于已有的手势标签图像数据集，利用卷积神经网络MobileNet的迁移学习和XGBoost进行多标签手势图像有效分类；实现较高的分类准确度，并降低模型的计算复杂度，缩减从业者的工作时长，提高相关产品的运行效率。

技术方案：本发明提出一种基于迁移学习的手势分类方法，包括如下步骤：

(1)将手势视频V转换为手势帧数据集合G0；

(2)通过高斯滤波方法、OTSU算法和图像与运算对G0分别进行去除噪声、二值化和背景分割处理，得到手势帧数据集合G1，为G1设置标签后得到帧标签数据集合L；

(3)使用MobileNet卷积神经网络架构和权重文件进行迁移学习，创建与训练模型M1；通过模型M1提取帧数据集合G1的特征，得到帧特征向量集合F0；

(4)将XGBoost作为分类模型对测试集进行分类，得到最终分类结果。

进一步的，所述步骤(1)中将手势视频V转换为手势帧数据集合G0的具体步骤如下：

(1.1)定义V为手势视频数据集合，Video为单个视频信息集，V＝{Video₁,Video₂,…,Video_a,…,Video_A}，Video_a为V中第a个视频信息数据，A为V中Video的数量即手势类型数量，变量a∈[1,A]；

(1.2)定义N为每个Video转换的帧总数量，Frame为单个帧信息集，定义循环变量i用于遍历V，i∈[1,A]，i赋初值为1，开始遍历V；

(1.3)如果i≤A，则跳转至步骤(1.4)，否则跳转至步骤(1.6)；

(1.4)定义count记录Video_i转换的帧数，当count＝N时，得到N个Frame帧信息集；

(1.5)i＝i+1，跳转至步骤(1.3)继续遍历V；

(1.6)结束遍历V，得到帧数据集合G0，G0＝{Frame₁,Frame₂,…,Frame_N,Frame_(N+1),…,Frame_(2×N),Frame_(2×N+1),…,Frame_(A×N)}，Frame_N表示第N个帧数据信息，(A×N)为帧Frame的数量，即帧标签总数量。

进一步的，所述步骤(2)中得到手势帧数据集合G1，为G1设置标签后得到帧标签数据集合L的具体步骤如下：

(2.1)定义frame为Frame预处理后的单个帧信息集，定义循环变量j用来遍历G0，j∈[1,A×N]，j赋初值为1，开始遍历G0；

(2.2)如果j≤(A×N)，则跳转至步骤(2.3)，否则跳转至步骤(2.8)；

(2.3)读取帧Frame_j，将其分割为三通道帧，分别为明亮度y_j、色调Cr_j和饱和度Cb_j，通过高斯滤波方法对Cr_j通道帧进行滤波平滑处理，采用(3×3)的高斯内核与Cr_j进行卷积得到帧Cr1_j；

(2.4)通过OTSU算法求帧阈值，对帧Cr1_j进行二值化处理得到帧skin_j；

(2.5)对帧skin_j使用内核为3×3的方形进行2次形态学开运算(先腐蚀再膨胀)，得到帧sure_bg_j；

(2.6)将帧Frame_j和帧sure_bg_j每个像素值进行二进制与运算，得到背景分割的手势帧frame_j；

(2.7)j＝j+1，跳转至步骤(2.2)，继续遍历G0；

(2.8)结束遍历G0，得到预处理后的手势帧数据集合G1，G1＝{frame₁,frame₂,…,frame_d,…,frame_(A×N)}，frame_d为Frame_d经过预处理后的帧数据信息，d∈[1,A×N]；

(2.9)对G1中的数据添加类别标签得到帧标签数据集合L，L＝{Label₁,Label₂,…,Label_N,…,Label_(A×N)}，Label_N为第N帧即frame_N对应的标签,，将L划分为训练集L1和测试集L2，满足len(L1):len(L2)＝4:1。

进一步的，所述步骤(3)中创建与训练模型M1，通过模型M1提取帧数据集合G1的特征，得到帧特征向量集合F0的具体步骤如下：

(3.1)构建使用预训练的权重、网络顶部没有完全连接层、帧输入维度为(224,224,3)的网络架构模型M1；

(3.2)M1模型通过深度可分离卷积的方法，将标准卷积分解成两个更小的操作为深度卷积和点卷积；

(3.3)将维度为H×W×C(长×宽×通道数)的输入帧分为C组，然后对每一组做3×3的卷积，收集每个组的特征即每个通道的特征；

(3.4)将步骤(3.3)中得到的每个通道的特征做1×1的卷积进行组合并输出至步骤(3.3)进行下一次的深度卷积操作；

(3.5)重复步骤(3.3)和步骤(3.4)的操作13次，即经过13次深度可分离卷积提取帧特征；

(3.6)使用M1模型提取手势帧数据集合G1的特征，得到手势帧特征向量集合F0，将F0划分为训练集F1和测试集F2，满足len(F1):len(F2)＝4:1。

进一步的，所述步骤(4)中将XGBoost作为分类模型对测试集进行分类，得到最终分类结果的具体步骤如下：

(4.1)设置XGBClassifier函数参数，包括：基分类器为树模型、CART树的最大深度为6、学习率为0.1、CART树的个数为60、目标函数为“mulit:softmax”和多分类个数为10，构建XGBoost模型M2；

(4.2)通过递归寻找最优的切分特征和切分点，对叶子节点的权值进行优化得到CART树，根据F1和L1构建训练第一棵CART树，拟合已经生成的前一棵CART树的残差，构建下一棵新的CART树，训练好具有10棵树的M2模型；

(4.3)基于M2模型，对F2分类预测得到分类结果。

本发明中的手势分类方法对传统的有监督手势分类有重要的作用和意义。在面对手势分类问题时，研究者们将特征提取与分类这两个部分通过两个不同的模型进行分段处理。本发明利用CNN较强的自主学习能力提取特征，提高特征提取的准确度，结合XGBoost算法自动地运用CPU的多线程进行并行计算和引入正则化项为特征分类。

本发明采用上述技术方案，具有以下有益效果：

本发明方法基于已有的手势标签图像数据集，利用卷积神经网络MobileNet的迁移学习和XGBoost进行多标签手势图像有效分类，具体描述如下：本发明通过迁移学习利用MobileNet卷积神经网络架构和权重提取特征，该算法基于已有的权重文件，能够在精准提取特征的同时节省重新构建网络架构的时间；利用XGBoost作为分类模型，将提取的特征输入XGBoost模型，利用XGBoost自动地运用CPU的多线程进行并行计算和引入正则化项，实现较高的分类准确度，并降低模型的计算复杂度，缩减从业者的工作时长，提高相关产品的运行效率。

附图说明

图1为本发明的总体流程图；

图2为具体实施例中视频预处理方法的具体流程图；

图3为具体实施例中图像预处理方法的具体流程图；

图4为具体实施例中基于迁移学习的手势分类方法模型架构图的具体流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1-图4所示，本发明所述的一种基于迁移学习的手势分类方法，包括如下步骤：

步骤1：将手势视频V转换为手势帧数据集合G0，具体的如图2所示：

步骤1.1：定义V为手势视频数据集合，Video为单个视频信息集，V＝{Video₁,Video₂,…,Video_a,…,Video_A}，Video_a为V中第a个视频信息数据，A为V中Video的数量即手势类型数量，变量a∈[1,A]；

步骤1.2：定义N为每个Video转换的帧总数量，Frame为单个帧信息集，定义循环变量i用于遍历V，i∈[1,A]，i赋初值为1，开始遍历V；

步骤1.3：如果i≤A，则跳转至步骤1.4，否则跳转至步骤1.6；

步骤1.4：定义count记录Video_i转换的帧数，当count＝N时，得到N个Frame帧信息集；

步骤1.5：i＝i+1，跳转至步骤1.3继续遍历V；

步骤1.6：结束遍历V，得到帧数据集合G0，G0＝{Frame₁,Frame₂,…,Frame_N,Frame_(N+1),…,Frame_(2×N),Frame_(2×N+1),…,Frame_(A×N)}，Frame_N表示第N个帧数据信息，(A×N)为帧Frame的数量，即帧标签总数量。

步骤2：通过高斯滤波方法、OTSU算法和图像与运算对G0分别进行去除噪声、二值化和背景分割处理，得到手势帧数据集合G1，为G1设置标签后得到帧标签数据集合L，具体的如图3所示：

步骤2.1：定义frame为Frame预处理后的单个帧信息集，定义循环变量j用来遍历G0，j∈[1,A×N]，j赋初值为1开始遍历G0；

步骤2.2：如果j≤(A×N)，则跳转至步骤2.3，否则跳转至步骤2.8；

步骤2.3：读取帧Frame_j，将其分割为三通道帧，分别为明亮度y_j、色调Cr_j和饱和度Cb_j，通过高斯滤波方法对Cr_j通道帧进行滤波平滑处理，采用(3×3)的高斯内核与Cr_j进行卷积得到帧Cr1_j，要想得到一个高斯滤波器的模板，可以对高斯函数进行离散化，得到的高斯函数值作为模板的系数，二维高斯函数公式如下：

其中，(x,y)为点坐标，σ为标准差；

步骤2.4：通过OTSU算法求帧阈值，对帧Cr1_j进行二值化处理得到帧skin_j，记t为前景与背景的分割阈值，前景点数占图像比例为w0，平均灰度为u0，背景点数占图像比例为w1，平均灰度为u1，则图像的总平均灰度为：

u＝w0×u0+w1×u1

前景和背景图象的方差为：

g＝w0×(u0-u)×(u0-u)+w1×(u1-u)×(u1-u)＝w0×w1×(u0-u1)×(u0-u1)

当方差g最大时，可以认为此时前景和背景差异最大，此时的灰度t是最佳阈值sb：

sb＝w0×w1×(u1-u0)×(u0-u1)；

步骤2.5：对帧skin_j使用内核为3×3的方形进行2次形态学开运算(先腐蚀再膨胀)，得到帧sure_bg_j，二值形态开运算定义式如下：

其中，A为图像，B为结构元素即模板核；

步骤2.6：将帧Frame_j和帧sure_bg_j每个像素值进行二进制与运算，得到背景分割的手势帧frame_j；

步骤2.7：j＝j+1，跳转至步骤2.2，继续遍历G0；

步骤2.8：结束遍历G0，得到预处理后的手势帧数据集合G1，G1＝{frame₁,frame₂,…,frame_d,…,frame_(A×N)}，frame_d为Frame_d经过预处理后的帧数据信息，d∈[1,A×N]；

步骤2.9：对G1中的数据添加类别标签得到帧标签数据集合L，L＝{Label₁,Label₂,…,Label_N,…,Label_(A×N)}，Label_N为第N帧即frame_N对应的标签,，将L划分为训练集L1和测试集L2，满足len(L1):len(L2)＝4:1。

步骤3：使用卷积神经网络MobileNet架构和权重文件进行迁移学习，创建与训练模型M1，通过模型M1提取帧数据集合G1的特征，得到帧特征向量集合F0：

步骤3.1：构建使用预训练的权重、网络顶部没有完全连接层、帧输入维度为(224,224,3)的网络架构模型M1；

步骤3.2：M1模型通过深度可分离卷积的思路，将标准卷积conv分解成两个更小的操作为深度卷积depthwise和点卷积pointwise；

步骤3.3：将维度为H×W×C(长×宽×通道数)的输入帧分为C组，然后对每一组做3×3的卷积，收集每个组的特征即每个通道的特征；

步骤3.4：将步骤3.3中得到的每个通道的特征做1×1的卷积进行组合并输出至步骤3.3进行下一次的深度卷积操作；

步骤3.5：重复步骤3.3和步骤3.4的操作13次，即经过13次深度可分离卷积提取帧特征，深度可分离卷积计算量相当于将普通卷积的计算量压缩为:

其中，k为卷积核个数；

步骤3.6：使用M1模型提取手势帧数据集合G1的特征，得到手势帧特征向量集合F0，将F0划分为训练集F1和测试集F2，满足len(F1):len(F2)＝4:1。

步骤4：使用XGBoost作为分类模型对测试集进行分类，得到最终分类结果：

步骤4.1：设置XGBClassifier函数参数包括基分类器为树模型、CART树的最大深度为6、学习率为0.1、CART树的个数为60、目标函数为“mulit:softmax”和多分类个数为10，构建XGBoost模型M2；

步骤4.2：通过递归寻找最优的切分特征和切分点，对叶子节点的权值进行优化得到CART树，比如当前树结点是基于第k个特征值进行分裂的，设该特征值小于s的样本划分为左子树R1，大于s的样本划分为右子树R2，其公式如下：

R₁(k,s)＝{x|x^(k)≤s}

R₂(k,s)＝{x|x(^k)>s}

根据F1和L1构建训练第一棵CART树，拟合已经生成的前一棵CART树的残差，构建下一棵新的CART树，训练好具有10棵树的M2模型，定义每棵树的复杂度为：

其中，T为叶子节点的个数，||ω||为叶子节点向量的模，γ表示节点切分的难度，λ表示L2正则化系数；

步骤4.3：基于M2模型，对F2分类预测得到分类结果。

为了更好地了解步骤3和步骤4中构建并训练MobileNet模型和XGBoost模型的过程，如图4展示了基于迁移学习的手势分类方法模型架构图，其中“Conv/s2”表示步长为2的完全卷积层、“Conv dw/s1”表示步长为1的深度卷积层、“Conv/s1”表示步长为1的点卷积层，“Conv dw/s2”表示步长为2的深度卷积层、“Avg Pool/s1”表示步长为1的平均池化层、“CARTn”表示构建了n棵CART树，本发明中n＝60。

从手势视频中捕获13010张手势帧用于实验分类，训练集数量为10408张，测试集为2602张，使用卷积神经网络MobileNet的架构和权重训练手势数据集提取特征，将提取出的特征输入XGBoost模型中进行分类得到手势分类结果。改进的手势识别方法提高了手势分类的精确度，在多分类一共10个标签的手势分类中达到了97.80％的分类准确度。

表1手势图像分类性能实验结果

Bayes

KNN

Logistic

SVM

RF

XGBoost

本发明

准确率

63.45％

85.32％

82.59％

81.35％

92.51％

95.27％

97.80％

召回率

62.98％

84.86％

82.89％

80.89％

92.35％

95.23％

97.86％

表2变量说明表

本方法可与计算机系统结合，从而自动完成图像识别领域中的手势分类。

本发明创造性的提出了一种使用迁移学习的方法，调用MobileNet卷积神经网络架构和权重进行特征提取，然后使用提取的特征训练XGBoost模型，得到分类结果。

本发明提出的一种基于迁移学习的手势分类方法不但可以用于手势图像的分类，也可以用于其他事物图像的分类。

以上所述仅为本发明的实施例子而已，并不限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之类。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims

1.一种基于迁移学习的手势分类方法，其特征在于，包括如下步骤：

(1)将手势视频V转换为手势帧数据集合G0；具体步骤如下：

(1.3)如果i≤A，则跳转至步骤(1.4)，否则跳转至步骤(1.6)；

(1.5)i＝i+1，跳转至步骤(1.3)继续遍历V；

(1.6)结束遍历V，得到帧数据集合G0，G0＝{Frame₁,Frame₂,…,Frame_N,Frame_(N+1),…,Frame_(2×N),Frame_(2×N+1),…,Frame_(A×N)}，Frame_N表示第N个帧数据信息，(A×N)为帧Frame的数量，即帧标签总数量；

(2)通过高斯滤波方法、OTSU算法和图像与运算对G0分别进行去除噪声、二值化和背景分割处理，得到手势帧数据集合G1，为G1设置标签后得到帧标签数据集合L；具体步骤如下：

(2.2)如果j≤(A×N)，则跳转至步骤(2.3)，否则跳转至步骤(2.8)；

(2.7)j＝j+1，跳转至步骤(2.2)，继续遍历G0；

(2.9)对G1中的数据添加类别标签得到帧标签数据集合L，L＝{Label₁,Label₂,…,Label_N,…,Label_(A×N)}，Label_N为第N帧即frame_N对应的标签,，将L划分为训练集L1和测试集L2，满足len(L1):len(L2)＝4:1；

(3)使用MobileNet卷积神经网络架构和权重文件进行迁移学习，创建与训练模型M1；通过模型M1提取帧数据集合G1的特征，得到帧特征向量集合F0；具体步骤如下：

(3.6)使用M1模型提取手势帧数据集合G1的特征，得到手势帧特征向量集合F0，将F0划分为训练集F1和测试集F2，满足len(F1):len(F2)＝4:1；

(4)将XGBoost作为分类模型对测试集进行分类，得到最终分类结果；具体步骤如下：

(4.3)基于M2模型，对F2分类预测得到分类结果。