CN110390275B - 一种基于迁移学习的手势分类方法 - Google Patents
一种基于迁移学习的手势分类方法 Download PDFInfo
- Publication number
- CN110390275B CN110390275B CN201910597980.0A CN201910597980A CN110390275B CN 110390275 B CN110390275 B CN 110390275B CN 201910597980 A CN201910597980 A CN 201910597980A CN 110390275 B CN110390275 B CN 110390275B
- Authority
- CN
- China
- Prior art keywords
- frame
- gesture
- model
- video
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013526 transfer learning Methods 0.000 title claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 238000013145 classification model Methods 0.000 claims abstract description 7
- 238000013508 migration Methods 0.000 claims abstract description 6
- 230000005012 migration Effects 0.000 claims abstract description 6
- 230000009191 jumping Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 230000010339 dilation Effects 0.000 claims description 3
- 230000003628 erosive effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000012821 model calculation Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 235000011511 Diospyros Nutrition 0.000 description 1
- 244000236655 Diospyros kaki Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于迁移学习的手势分类方法,适用于手势图像分类问题。本发明步骤一、将手势视频V转换为手势帧数据集合G0;步骤二、通过高斯滤波方法、OTSU算法和图像与运算对G0分别进行去除噪声、二值化和背景分割处理,得到手势帧数据集合G1,为G1设置标签后得到帧标签数据集合L;步骤三、使用MobileNet卷积神经网络架构和权重文件进行迁移学习,创建与训练模型M1;步骤四、通过模型M1提取帧数据集合G1的特征,得到帧特征向量集合F0;步骤五、将XGBoost作为分类模型对测试集进行分类,得到最终分类结果。本发明将已经训练好的MobileNet卷积神经网络权重迁移至手势图像数据集进行特征提取,采用XGBoost作为分类模型,提升分类精确度的同时减少模型计算量。
Description
技术领域
本发明属于监督算法和图像识别技术领域,特别涉及一种基于迁移学习的手势分类方法。
背景技术
在面向手势分类的问题时,最近的文献有的只使用单一模型对图像进行自主学习特征并分类,例如:张江鑫,吴晓凤,徐欣晨.一种基于Faster R-CNN的手势检测和识别方法.中国专利公开号:CN107239731A,2017.10.10;程树英,林培杰,卢箫扬.一种基于XGBoost的静态手语识别系统.中国专利公开号:CN109086699A,2018.12.25;王威,邹婷,王新.一种基于D-MobileNet神经网络图像分类方法.中国专利公开号:CN 109214406A,2019.01.15。这类方法训练时需要消耗大量的时间。有的文献提出将提取特征和分类进行分段处理的改进方法,例如:丁世飞,侯艳路,张楠.一种基于卷积神经网络和随机森林的手写体数字识别方法.中国专利公开号:CN106991374A,2017.07.28。这类方法中CNN是自定义的网络架构,卷积深度不够,特征提取准确度较低。
金鹰,朱全银,胡荣林等人已有的研究基础包括:顾相平,金鹰.水下无线传感器网络信道研究[J].计算机与现代化,2011(10):120-122+125.;朱松豪,刘佳伟,罗青青,胡荣林.基于关联模型的图像分割[A].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会.第26届中国控制与决策会议论文集[C].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会:《控制与决策》编辑部,2014:5.;朱松豪,刘佳伟,胡荣林.一种图像分类的新方法[A].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会.第26届中国控制与决策会议论文集[C].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会:《控制与决策》编辑部,2014:6.;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.A NovelClassifier-independent Feature Selection Algorithm for ImbalancedDatasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The CaseStudy for Price Extracting of Mobile Phone Sell Online.2011,p:282-285;QuanyinZhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast basedon Dichotomy Backfilling and Disturbance Factor Algorithm.InternationalReview on Computers and Software,2011,Vol.6(6):1089-1093;朱全银,胡荣林等人申请、公开与授权的相关专利:朱全银,刘涛,严云洋,高尚兵等.一种基于OpenCV的建筑图纸标签信息检测方法.中国专利公开号:CN109002824A,2018.12.14;朱全银,许康,宗慧,冯万利等.一种基于Faster-RCNN模型的建筑构件提取方法.中国专利公开号:CN109002841A,2018.12.14;朱全银,于柿民,胡荣林,冯万利等.一种基于知识图谱的专家组合推荐方法.中国专利公开号:CN109062961A,2018.12.21;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。
迁移学习:
给定源域Ds={Xs,Fs(X)}和学习任务Ts,目标域DT={Xt,Ft(X)}和学习任务Tt,迁移学习旨在源域不同于目标域或学习任务Tt不同于学习任务Ts的条件下通过使用学习任务Ts和源域Ds={Xs,Fs(X)}所获取的知识来帮助学习目标的在目标域Dt的预测函数Ft(.)。
MobileNet:
MobileNets是为移动和嵌入式设备提出的高效卷积神经网络模型。MobileNets基于流线型架构(streamlined),使用深度可分离卷积(depthwise separableconvolutions,即Xception变体结构)来构建轻量级深度神经网络。
XGBoost:
XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。而所用到的树模型则是CART回归树模型。XGBoost算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。
CART决策树:
决策树是使用类似于一棵树的结构来表示类的划分,树的构建可以看成是变量(属性)选择的过程,内部节点表示树选择哪几个变量(属性)作为划分,每棵树的叶节点表示为一个类的标号,树的最顶层为根节点。CART决策树又称分类回归树,当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题。但需要注意的是,该算法是一个二叉树,即每一个非叶节点只能引伸出两个分支,所以当某个非叶节点是多水平(2个以上)的离散变量时,该变量就有可能被多次使用。
发明内容
发明目的:针对上述问题,本发明提供一种基于迁移学习的手势分类方法,基于已有的手势标签图像数据集,利用卷积神经网络MobileNet的迁移学习和XGBoost进行多标签手势图像有效分类;实现较高的分类准确度,并降低模型的计算复杂度,缩减从业者的工作时长,提高相关产品的运行效率。
技术方案:本发明提出一种基于迁移学习的手势分类方法,包括如下步骤:
(1)将手势视频V转换为手势帧数据集合G0;
(2)通过高斯滤波方法、OTSU算法和图像与运算对G0分别进行去除噪声、二值化和背景分割处理,得到手势帧数据集合G1,为G1设置标签后得到帧标签数据集合L;
(3)使用MobileNet卷积神经网络架构和权重文件进行迁移学习,创建与训练模型M1;通过模型M1提取帧数据集合G1的特征,得到帧特征向量集合F0;
(4)将XGBoost作为分类模型对测试集进行分类,得到最终分类结果。
进一步的,所述步骤(1)中将手势视频V转换为手势帧数据集合G0的具体步骤如下:
(1.1)定义V为手势视频数据集合,Video为单个视频信息集,V={Video1,Video2,…,Videoa,…,VideoA},Videoa为V中第a个视频信息数据,A为V中Video的数量即手势类型数量,变量a∈[1,A];
(1.2)定义N为每个Video转换的帧总数量,Frame为单个帧信息集,定义循环变量i用于遍历V,i∈[1,A],i赋初值为1,开始遍历V;
(1.3)如果i≤A,则跳转至步骤(1.4),否则跳转至步骤(1.6);
(1.4)定义count记录Videoi转换的帧数,当count=N时,得到N个Frame帧信息集;
(1.5)i=i+1,跳转至步骤(1.3)继续遍历V;
(1.6)结束遍历V,得到帧数据集合G0,G0={Frame1,Frame2,…,FrameN,Frame(N+1),…,Frame(2×N),Frame(2×N+1),…,Frame(A×N)},FrameN表示第N个帧数据信息,(A×N)为帧Frame的数量,即帧标签总数量。
进一步的,所述步骤(2)中得到手势帧数据集合G1,为G1设置标签后得到帧标签数据集合L的具体步骤如下:
(2.1)定义frame为Frame预处理后的单个帧信息集,定义循环变量j用来遍历G0,j∈[1,A×N],j赋初值为1,开始遍历G0;
(2.2)如果j≤(A×N),则跳转至步骤(2.3),否则跳转至步骤(2.8);
(2.3)读取帧Framej,将其分割为三通道帧,分别为明亮度yj、色调Crj和饱和度Cbj,通过高斯滤波方法对Crj通道帧进行滤波平滑处理,采用(3×3)的高斯内核与Crj进行卷积得到帧Cr1j;
(2.4)通过OTSU算法求帧阈值,对帧Cr1j进行二值化处理得到帧skinj;
(2.5)对帧skinj使用内核为3×3的方形进行2次形态学开运算(先腐蚀再膨胀),得到帧sure_bgj;
(2.6)将帧Framej和帧sure_bgj每个像素值进行二进制与运算,得到背景分割的手势帧framej;
(2.7)j=j+1,跳转至步骤(2.2),继续遍历G0;
(2.8)结束遍历G0,得到预处理后的手势帧数据集合G1,G1={frame1,frame2,…,framed,…,frame(A×N)},framed为Framed经过预处理后的帧数据信息,d∈[1,A×N];
(2.9)对G1中的数据添加类别标签得到帧标签数据集合L,L={Label1,Label2,…,LabelN,…,Label(A×N)},LabelN为第N帧即frameN对应的标签,,将L划分为训练集L1和测试集L2,满足len(L1):len(L2)=4:1。
进一步的,所述步骤(3)中创建与训练模型M1,通过模型M1提取帧数据集合G1的特征,得到帧特征向量集合F0的具体步骤如下:
(3.1)构建使用预训练的权重、网络顶部没有完全连接层、帧输入维度为(224,224,3)的网络架构模型M1;
(3.2)M1模型通过深度可分离卷积的方法,将标准卷积分解成两个更小的操作为深度卷积和点卷积;
(3.3)将维度为H×W×C(长×宽×通道数)的输入帧分为C组,然后对每一组做3×3的卷积,收集每个组的特征即每个通道的特征;
(3.4)将步骤(3.3)中得到的每个通道的特征做1×1的卷积进行组合并输出至步骤(3.3)进行下一次的深度卷积操作;
(3.5)重复步骤(3.3)和步骤(3.4)的操作13次,即经过13次深度可分离卷积提取帧特征;
(3.6)使用M1模型提取手势帧数据集合G1的特征,得到手势帧特征向量集合F0,将F0划分为训练集F1和测试集F2,满足len(F1):len(F2)=4:1。
进一步的,所述步骤(4)中将XGBoost作为分类模型对测试集进行分类,得到最终分类结果的具体步骤如下:
(4.1)设置XGBClassifier函数参数,包括:基分类器为树模型、CART树的最大深度为6、学习率为0.1、CART树的个数为60、目标函数为“mulit:softmax”和多分类个数为10,构建XGBoost模型M2;
(4.2)通过递归寻找最优的切分特征和切分点,对叶子节点的权值进行优化得到CART树,根据F1和L1构建训练第一棵CART树,拟合已经生成的前一棵CART树的残差,构建下一棵新的CART树,训练好具有10棵树的M2模型;
(4.3)基于M2模型,对F2分类预测得到分类结果。
本发明中的手势分类方法对传统的有监督手势分类有重要的作用和意义。在面对手势分类问题时,研究者们将特征提取与分类这两个部分通过两个不同的模型进行分段处理。本发明利用CNN较强的自主学习能力提取特征,提高特征提取的准确度,结合XGBoost算法自动地运用CPU的多线程进行并行计算和引入正则化项为特征分类。
本发明采用上述技术方案,具有以下有益效果:
本发明方法基于已有的手势标签图像数据集,利用卷积神经网络MobileNet的迁移学习和XGBoost进行多标签手势图像有效分类,具体描述如下:本发明通过迁移学习利用MobileNet卷积神经网络架构和权重提取特征,该算法基于已有的权重文件,能够在精准提取特征的同时节省重新构建网络架构的时间;利用XGBoost作为分类模型,将提取的特征输入XGBoost模型,利用XGBoost自动地运用CPU的多线程进行并行计算和引入正则化项,实现较高的分类准确度,并降低模型的计算复杂度,缩减从业者的工作时长,提高相关产品的运行效率。
附图说明
图1为本发明的总体流程图;
图2为具体实施例中视频预处理方法的具体流程图;
图3为具体实施例中图像预处理方法的具体流程图;
图4为具体实施例中基于迁移学习的手势分类方法模型架构图的具体流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1-图4所示,本发明所述的一种基于迁移学习的手势分类方法,包括如下步骤:
步骤1:将手势视频V转换为手势帧数据集合G0,具体的如图2所示:
步骤1.1:定义V为手势视频数据集合,Video为单个视频信息集,V={Video1,Video2,…,Videoa,…,VideoA},Videoa为V中第a个视频信息数据,A为V中Video的数量即手势类型数量,变量a∈[1,A];
步骤1.2:定义N为每个Video转换的帧总数量,Frame为单个帧信息集,定义循环变量i用于遍历V,i∈[1,A],i赋初值为1,开始遍历V;
步骤1.3:如果i≤A,则跳转至步骤1.4,否则跳转至步骤1.6;
步骤1.4:定义count记录Videoi转换的帧数,当count=N时,得到N个Frame帧信息集;
步骤1.5:i=i+1,跳转至步骤1.3继续遍历V;
步骤1.6:结束遍历V,得到帧数据集合G0,G0={Frame1,Frame2,…,FrameN,Frame(N+1),…,Frame(2×N),Frame(2×N+1),…,Frame(A×N)},FrameN表示第N个帧数据信息,(A×N)为帧Frame的数量,即帧标签总数量。
步骤2:通过高斯滤波方法、OTSU算法和图像与运算对G0分别进行去除噪声、二值化和背景分割处理,得到手势帧数据集合G1,为G1设置标签后得到帧标签数据集合L,具体的如图3所示:
步骤2.1:定义frame为Frame预处理后的单个帧信息集,定义循环变量j用来遍历G0,j∈[1,A×N],j赋初值为1开始遍历G0;
步骤2.2:如果j≤(A×N),则跳转至步骤2.3,否则跳转至步骤2.8;
步骤2.3:读取帧Framej,将其分割为三通道帧,分别为明亮度yj、色调Crj和饱和度Cbj,通过高斯滤波方法对Crj通道帧进行滤波平滑处理,采用(3×3)的高斯内核与Crj进行卷积得到帧Cr1j,要想得到一个高斯滤波器的模板,可以对高斯函数进行离散化,得到的高斯函数值作为模板的系数,二维高斯函数公式如下:
其中,(x,y)为点坐标,σ为标准差;
步骤2.4:通过OTSU算法求帧阈值,对帧Cr1j进行二值化处理得到帧skinj,记t为前景与背景的分割阈值,前景点数占图像比例为w0,平均灰度为u0,背景点数占图像比例为w1,平均灰度为u1,则图像的总平均灰度为:
u=w0×u0+w1×u1
前景和背景图象的方差为:
g=w0×(u0-u)×(u0-u)+w1×(u1-u)×(u1-u)=w0×w1×(u0-u1)×(u0-u1)
当方差g最大时,可以认为此时前景和背景差异最大,此时的灰度t是最佳阈值sb:
sb=w0×w1×(u1-u0)×(u0-u1);
步骤2.5:对帧skinj使用内核为3×3的方形进行2次形态学开运算(先腐蚀再膨胀),得到帧sure_bgj,二值形态开运算定义式如下:
其中,A为图像,B为结构元素即模板核;
步骤2.6:将帧Framej和帧sure_bgj每个像素值进行二进制与运算,得到背景分割的手势帧framej;
步骤2.7:j=j+1,跳转至步骤2.2,继续遍历G0;
步骤2.8:结束遍历G0,得到预处理后的手势帧数据集合G1,G1={frame1,frame2,…,framed,…,frame(A×N)},framed为Framed经过预处理后的帧数据信息,d∈[1,A×N];
步骤2.9:对G1中的数据添加类别标签得到帧标签数据集合L,L={Label1,Label2,…,LabelN,…,Label(A×N)},LabelN为第N帧即frameN对应的标签,,将L划分为训练集L1和测试集L2,满足len(L1):len(L2)=4:1。
步骤3:使用卷积神经网络MobileNet架构和权重文件进行迁移学习,创建与训练模型M1,通过模型M1提取帧数据集合G1的特征,得到帧特征向量集合F0:
步骤3.1:构建使用预训练的权重、网络顶部没有完全连接层、帧输入维度为(224,224,3)的网络架构模型M1;
步骤3.2:M1模型通过深度可分离卷积的思路,将标准卷积conv分解成两个更小的操作为深度卷积depthwise和点卷积pointwise;
步骤3.3:将维度为H×W×C(长×宽×通道数)的输入帧分为C组,然后对每一组做3×3的卷积,收集每个组的特征即每个通道的特征;
步骤3.4:将步骤3.3中得到的每个通道的特征做1×1的卷积进行组合并输出至步骤3.3进行下一次的深度卷积操作;
步骤3.5:重复步骤3.3和步骤3.4的操作13次,即经过13次深度可分离卷积提取帧特征,深度可分离卷积计算量相当于将普通卷积的计算量压缩为:
其中,k为卷积核个数;
步骤3.6:使用M1模型提取手势帧数据集合G1的特征,得到手势帧特征向量集合F0,将F0划分为训练集F1和测试集F2,满足len(F1):len(F2)=4:1。
步骤4:使用XGBoost作为分类模型对测试集进行分类,得到最终分类结果:
步骤4.1:设置XGBClassifier函数参数包括基分类器为树模型、CART树的最大深度为6、学习率为0.1、CART树的个数为60、目标函数为“mulit:softmax”和多分类个数为10,构建XGBoost模型M2;
步骤4.2:通过递归寻找最优的切分特征和切分点,对叶子节点的权值进行优化得到CART树,比如当前树结点是基于第k个特征值进行分裂的,设该特征值小于s的样本划分为左子树R1,大于s的样本划分为右子树R2,其公式如下:
R1(k,s)={x|x(k)≤s}
R2(k,s)={x|x(k)>s}
根据F1和L1构建训练第一棵CART树,拟合已经生成的前一棵CART树的残差,构建下一棵新的CART树,训练好具有10棵树的M2模型,定义每棵树的复杂度为:
其中,T为叶子节点的个数,||ω||为叶子节点向量的模,γ表示节点切分的难度,λ表示L2正则化系数;
步骤4.3:基于M2模型,对F2分类预测得到分类结果。
为了更好地了解步骤3和步骤4中构建并训练MobileNet模型和XGBoost模型的过程,如图4展示了基于迁移学习的手势分类方法模型架构图,其中“Conv/s2”表示步长为2的完全卷积层、“Conv dw/s1”表示步长为1的深度卷积层、“Conv/s1”表示步长为1的点卷积层,“Conv dw/s2”表示步长为2的深度卷积层、“Avg Pool/s1”表示步长为1的平均池化层、“CARTn”表示构建了n棵CART树,本发明中n=60。
从手势视频中捕获13010张手势帧用于实验分类,训练集数量为10408张,测试集为2602张,使用卷积神经网络MobileNet的架构和权重训练手势数据集提取特征,将提取出的特征输入XGBoost模型中进行分类得到手势分类结果。改进的手势识别方法提高了手势分类的精确度,在多分类一共10个标签的手势分类中达到了97.80%的分类准确度。
表1手势图像分类性能实验结果
Bayes | KNN | Logistic | SVM | RF | XGBoost | 本发明 | |
准确率 | 63.45% | 85.32% | 82.59% | 81.35% | 92.51% | 95.27% | 97.80% |
召回率 | 62.98% | 84.86% | 82.89% | 80.89% | 92.35% | 95.23% | 97.86% |
表2变量说明表
本方法可与计算机系统结合,从而自动完成图像识别领域中的手势分类。
本发明创造性的提出了一种使用迁移学习的方法,调用MobileNet卷积神经网络架构和权重进行特征提取,然后使用提取的特征训练XGBoost模型,得到分类结果。
本发明提出的一种基于迁移学习的手势分类方法不但可以用于手势图像的分类,也可以用于其他事物图像的分类。
以上所述仅为本发明的实施例子而已,并不限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之类。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。
Claims (1)
1.一种基于迁移学习的手势分类方法,其特征在于,包括如下步骤:
(1)将手势视频V转换为手势帧数据集合G0;具体步骤如下:
(1.1)定义V为手势视频数据集合,Video为单个视频信息集,V={Video1,Video2,…,Videoa,…,VideoA},Videoa为V中第a个视频信息数据,A为V中Video的数量即手势类型数量,变量a∈[1,A];
(1.2)定义N为每个Video转换的帧总数量,Frame为单个帧信息集,定义循环变量i用于遍历V,i∈[1,A],i赋初值为1,开始遍历V;
(1.3)如果i≤A,则跳转至步骤(1.4),否则跳转至步骤(1.6);
(1.4)定义count记录Videoi转换的帧数,当count=N时,得到N个Frame帧信息集;
(1.5)i=i+1,跳转至步骤(1.3)继续遍历V;
(1.6)结束遍历V,得到帧数据集合G0,G0={Frame1,Frame2,…,FrameN,Frame(N+1),…,Frame(2×N),Frame(2×N+1),…,Frame(A×N)},FrameN表示第N个帧数据信息,(A×N)为帧Frame的数量,即帧标签总数量;
(2)通过高斯滤波方法、OTSU算法和图像与运算对G0分别进行去除噪声、二值化和背景分割处理,得到手势帧数据集合G1,为G1设置标签后得到帧标签数据集合L;具体步骤如下:
(2.1)定义frame为Frame预处理后的单个帧信息集,定义循环变量j用来遍历G0,j∈[1,A×N],j赋初值为1,开始遍历G0;
(2.2)如果j≤(A×N),则跳转至步骤(2.3),否则跳转至步骤(2.8);
(2.3)读取帧Framej,将其分割为三通道帧,分别为明亮度yj、色调Crj和饱和度Cbj,通过高斯滤波方法对Crj通道帧进行滤波平滑处理,采用(3×3)的高斯内核与Crj进行卷积得到帧Cr1j;
(2.4)通过OTSU算法求帧阈值,对帧Cr1j进行二值化处理得到帧skinj;
(2.5)对帧skinj使用内核为3×3的方形进行2次形态学开运算(先腐蚀再膨胀),得到帧sure_bgj;
(2.6)将帧Framej和帧sure_bgj每个像素值进行二进制与运算,得到背景分割的手势帧framej;
(2.7)j=j+1,跳转至步骤(2.2),继续遍历G0;
(2.8)结束遍历G0,得到预处理后的手势帧数据集合G1,G1={frame1,frame2,…,framed,…,frame(A×N)},framed为Framed经过预处理后的帧数据信息,d∈[1,A×N];
(2.9)对G1中的数据添加类别标签得到帧标签数据集合L,L={Label1,Label2,…,LabelN,…,Label(A×N)},LabelN为第N帧即frameN对应的标签,,将L划分为训练集L1和测试集L2,满足len(L1):len(L2)=4:1;
(3)使用MobileNet卷积神经网络架构和权重文件进行迁移学习,创建与训练模型M1;通过模型M1提取帧数据集合G1的特征,得到帧特征向量集合F0;具体步骤如下:
(3.2)M1模型通过深度可分离卷积的方法,将标准卷积分解成两个更小的操作为深度卷积和点卷积;
(3.3)将维度为H×W×C(长×宽×通道数)的输入帧分为C组,然后对每一组做3×3的卷积,收集每个组的特征即每个通道的特征;
(3.4)将步骤(3.3)中得到的每个通道的特征做1×1的卷积进行组合并输出至步骤(3.3)进行下一次的深度卷积操作;
(3.5)重复步骤(3.3)和步骤(3.4)的操作13次,即经过13次深度可分离卷积提取帧特征;
(3.6)使用M1模型提取手势帧数据集合G1的特征,得到手势帧特征向量集合F0,将F0划分为训练集F1和测试集F2,满足len(F1):len(F2)=4:1;
(4)将XGBoost作为分类模型对测试集进行分类,得到最终分类结果;具体步骤如下:
(4.1)设置XGBClassifier函数参数,包括:基分类器为树模型、CART树的最大深度为6、学习率为0.1、CART树的个数为60、目标函数为“mulit:softmax”和多分类个数为10,构建XGBoost模型M2;
(4.2)通过递归寻找最优的切分特征和切分点,对叶子节点的权值进行优化得到CART树,根据F1和L1构建训练第一棵CART树,拟合已经生成的前一棵CART树的残差,构建下一棵新的CART树,训练好具有10棵树的M2模型;
(4.3)基于M2模型,对F2分类预测得到分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910597980.0A CN110390275B (zh) | 2019-07-04 | 2019-07-04 | 一种基于迁移学习的手势分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910597980.0A CN110390275B (zh) | 2019-07-04 | 2019-07-04 | 一种基于迁移学习的手势分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110390275A CN110390275A (zh) | 2019-10-29 |
CN110390275B true CN110390275B (zh) | 2023-05-26 |
Family
ID=68286128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910597980.0A Active CN110390275B (zh) | 2019-07-04 | 2019-07-04 | 一种基于迁移学习的手势分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390275B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179216B (zh) * | 2019-12-03 | 2023-03-28 | 中国地质大学(武汉) | 一种基于图像处理与卷积神经网络的作物病害识别方法 |
CN113071438B (zh) * | 2020-01-06 | 2023-03-24 | 北京地平线机器人技术研发有限公司 | 控制指令的生成方法和装置、存储介质、电子设备 |
CN111353600B (zh) * | 2020-02-20 | 2023-12-12 | 第四范式(北京)技术有限公司 | 一种异常行为检测方法及装置 |
CN111694643B (zh) * | 2020-05-12 | 2023-04-11 | 中国科学院计算技术研究所 | 一种面向图神经网络应用的任务调度执行系统及方法 |
CN111914613B (zh) * | 2020-05-21 | 2024-03-01 | 淮阴工学院 | 一种多目标跟踪及面部特征信息识别方法 |
CN111857334B (zh) * | 2020-07-02 | 2024-10-15 | 上海交通大学 | 人体手势字母的识别方法、装置、计算机设备及存储介质 |
CN112270233A (zh) * | 2020-10-20 | 2021-01-26 | 西安工程大学 | 一种基于迁移学习与Mobilenet网络的口罩分类方法 |
CN112464816A (zh) * | 2020-11-27 | 2021-03-09 | 南京特殊教育师范学院 | 基于二次迁移学习的地方手语识别方法、装置 |
CN115001937B (zh) * | 2022-04-11 | 2023-06-16 | 北京邮电大学 | 面向智慧城市物联网的故障预测方法及装置 |
CN117292404B (zh) * | 2023-10-13 | 2024-04-19 | 哈尔滨工业大学 | 一种高精度手势数据识别方法、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831404B (zh) * | 2012-08-15 | 2016-01-13 | 深圳先进技术研究院 | 手势检测方法及系统 |
US9224071B2 (en) * | 2012-11-19 | 2015-12-29 | Microsoft Technology Licensing, Llc | Unsupervised object class discovery via bottom up multiple class learning |
CN109086699A (zh) * | 2018-07-20 | 2018-12-25 | 福州大学 | 一种基于XGboost的静态手语识别系统 |
CN109272045A (zh) * | 2018-09-25 | 2019-01-25 | 华南农业大学 | 一种基于神经网络和迁移学习的水果图像分类方法及装置 |
-
2019
- 2019-07-04 CN CN201910597980.0A patent/CN110390275B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110390275A (zh) | 2019-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390275B (zh) | 一种基于迁移学习的手势分类方法 | |
US20170249547A1 (en) | Systems and Methods for Holistic Extraction of Features from Neural Networks | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN110222634B (zh) | 一种基于卷积神经网络的人体姿态识别方法 | |
CN107918772B (zh) | 基于压缩感知理论和gcForest的目标跟踪方法 | |
CN103984959A (zh) | 一种基于数据与任务驱动的图像分类方法 | |
Kokkinos | Highly accurate boundary detection and grouping | |
CN105718959B (zh) | 一种基于自编码的物体识别方法 | |
CN113554110B (zh) | 一种基于二值胶囊网络的脑电情绪识别方法 | |
CN109815920A (zh) | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 | |
CN111539444A (zh) | 一种修正式模式识别及统计建模的高斯混合模型方法 | |
CN109685065A (zh) | 试卷内容自动分类的版面分析方法、系统 | |
Miao et al. | Evolving convolutional neural networks by symbiotic organisms search algorithm for image classification | |
CN110909125A (zh) | 推文级社会媒体谣言检测方法 | |
CN112861718A (zh) | 一种轻量级特征融合人群计数方法及系统 | |
CN110991554B (zh) | 一种基于改进pca的深度网络图像分类方法 | |
CN109740481A (zh) | 基于跳跃连接的cnn与lstm结合的房颤信号分类方法 | |
Li et al. | Coarse-to-fine salient object detection based on deep convolutional neural networks | |
Chavan et al. | A convolutional fuzzy min-max neural network | |
Lei et al. | A novel dynamic fingerprint segmentation method based on fuzzy c-means and genetic algorithm | |
CN108052867B (zh) | 一种基于词袋模型的单样本人脸识别方法 | |
CN116884067B (zh) | 一种基于改进的隐式语义数据增强的微表情识别方法 | |
CN110399815B (zh) | 一种基于vgg16的cnn-svm手写签名识别方法 | |
Mishra et al. | Convolutional neural network method for effective plant disease prediction | |
CN113449712B (zh) | 一种基于改进Alexnet网络的羊脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20191029 Assignee: Huai'an Boyuan Intelligent Technology Co.,Ltd. Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY Contract record no.: X2023980046898 Denomination of invention: A Gesture Classification Method Based on Transfer Learning Granted publication date: 20230526 License type: Common License Record date: 20231114 |
|
EE01 | Entry into force of recordation of patent licensing contract |