CN105205449A - 基于深度学习的手语识别方法 - Google Patents

基于深度学习的手语识别方法 Download PDF

Info

Publication number
CN105205449A
CN105205449A CN201510523173.6A CN201510523173A CN105205449A CN 105205449 A CN105205449 A CN 105205449A CN 201510523173 A CN201510523173 A CN 201510523173A CN 105205449 A CN105205449 A CN 105205449A
Authority
CN
China
Prior art keywords
mrow
msup
coding network
sparse self
mfrac
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510523173.6A
Other languages
English (en)
Other versions
CN105205449B (zh
Inventor
韩红
焦李成
王伟
洪汉梯
张鼎
李阳阳
马文萍
王爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201510523173.6A priority Critical patent/CN105205449B/zh
Publication of CN105205449A publication Critical patent/CN105205449A/zh
Application granted granted Critical
Publication of CN105205449B publication Critical patent/CN105205449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于深度学习的手语识别方法。其步骤为:(1)划分数据库样本集;(2)采集图像块,(3)白化数据;(4)训练稀疏自编码网络;(5)获得卷积特征图;(6)获得池化特征图;(7)训练分类器;(8)测试分类结果。本发明用反向传导算法,训练稀疏自编码网络,使得本发明在处理复杂背景数据时提高了识别率,本发明选取稀疏自编码网络的权值作为卷积核,通过卷积,获得卷积特征图,将有监督学习和无监督学习结合起来,减少了手工标注标签的人力和物力,本发明采用最大池化方法,获得池化特征图,减小特征维度,减小了手语识别任务的复杂性。

Description

基于深度学习的手语识别方法
技术领域
本发明属于图像处理技术领域,更进一步涉及一种模式识别技术领域中的一种基于深度学习的手语识别方法。本发明可用于根据手势的变化模拟音节构成的人体手语识别和人与计算机之间的手语信息交换。
背景技术
人机交互技术的研究是计算机技术研究领域的重要组成部分。当人与人进行面对面的通讯时,包括口语及书面语等自然语言,也包括手语、表情、体势及口型等人体语言传递信息,因而研究人体语言的感知模型及其与自然语言的信息融合,对于提高计算机自然语言理解水平和加强人机信息交换的可实用性有重要意义。手语识别作为人体语言理解的一部分,有着非常重要的作用。一方面,它是虚拟现实人机交互的主要手段;另一方面它又是聋哑人利用计算机与正常人交流的辅助工具。每个手语是由一个手势序列组成,而每个手势是由手形变化序列组成。手语识别的主要任务是根据提取的待识别手语的特征,然后用分类器做分类,确定待识别手语的类别。根据手语输入介质的不同,手语识别系统可分为两种:基于摄象机(视觉)的手语识别系统和基于设备输入(如数据手套、铁笔、鼠标、位置跟踪器等)的手语识别系统。
目前,手语识别方法主要有基于模板匹配,神经网络,HMM,DTW等方法。由上述方法提取的特征可以用支持向量机等分类器进行识别,但这些方法的不足之处是提取的特征比较低级,提取特征受到复杂背景的影响很大,实现复杂,从而导致该方法在处理大量复杂背景数据时,因鲁棒性不强降低了手语识别的精度。
VanDenBerg等人在文献“CombiningRGBandToFCamerasforReal-time3DHandGestureInteraction”(in:ApplicationsofComputerVision(WACV),2011IEEEWorkshopon,IEEE,2011,pp.66-72.)中提出了一种利用彩色图和深度图进行手语识别的方法。该方法首先将手语图片的彩色图片和深度图片进行归一化和分割处理,然后用平均邻域边界最大化方法对数据进行降维,最后采用最近邻分类算法实现手语分类。该方法存在的不足之处是,图片数据背景要求比较单一,手语类别之间的差异性比较大,在处理复杂数据背景和复杂手语识别任务时精度比较低,在分类过程中单独采用有监督的方式,增加了手工标注标签的人力和物力。
广东中大讯通软件科技有限公司申请的专利“一种基于中值滤波和Hu矩向量的手语识别方法”(专利申请号:201110259106,公开号:CN102289666A)公开了一种基于中值滤波和Hu矩向量的手语识别方法。该方法首先对获取到的彩色图像进行归一化处理和中值滤波处理,然后提取处理后的手语图像的矩不变量得到匹配图像的特征向量,最后计算待匹配图像与手语标准图像的特征向量之间的欧氏距离从而识别手语,提高了手语识别的正确率。该方法存在的不足之处是,计算待测图像与标准图像特征向量之间的欧式距离实现分类的过程运算量太大,计算效率太低,不适用于大规模数据的处理。
发明内容
本发明的目的在于克服上述已有技术的不足,提出了一种基于深度学习的手语识别方法。本发明可以在处理复杂数据背景和复杂手语识别任务的情况下,实现手语识别,同时,本发明的计算效率高,可以用于大规模数据处理。
本发明实现的具体步骤如下:
(1)划分数据库样本集;
(1a)提取手语图像数据集中的手语图像,将所提取的手语图像调整成32×32像素的手语图像;
(1b)将调整后的所有手语图像均分为两部分,分别作为手语图像的训练样本和测试样本;
(2)采集图像块:
对训练样本的每一张手语图像随机采集10张图像块;
(3)白化数据:
对每一张采集的图像块进行白化处理,得到白化后的图像块;
(4)训练稀疏自编码网络:
(4a)将白化后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵;
(4b)采用正态分布函数,随机初始化稀疏自编码网络的权值和偏置;
(4c)采用反向传导算法,更新稀疏自编码网络权值和偏置,得到稀疏自编码网络的权值;
(5)获得卷积特征图;
(5a)将训练样本和测试样本作为卷积的输入矩阵;
(5b)按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核;
(5c)采用卷积公式,对输入矩阵进行卷积,得到输入样本和测试样本的卷积特征图;
(6)获得池化特征图;
采用最大池化方法,对训练样本和测试样本的卷积特征图进行池化处理,得到训练样本和测试样本的池化特征图;
(7)训练分类器;
用训练样本的池化特征图训练线性支持向量机分类器得到分类模型;
(8)测试分类效果;
用分类模型对测试样本的池化特征图进行分类,得到测试样本的分类结果。
与现有技术相比本发明具有以下优点:
第一,由于本发明采用反向传导算法,更新稀疏自编码网络权值和偏置,得到稀疏自编码网络的权值,充分利用了稀疏自编码网络的自我学习能力,得到抽象的分类特征,克服了现有技术在处理复杂数据背景和复杂手语识别任务时精度比较低的问题,使得本发明在处理手语类别之间差异性比较大的数据时提高了识别率。
第二,由于本发明按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核,通过卷积公式,获得训练样本和测试样本的卷积特征图,将有监督学习和无监督学习结合起来,克服了现有技术在分类过程中单独采用有监督的方式,增加了手工标注标签的人力和物力的问题,使得本发明处理数据的范围更广,节省人力物力。
第三,由于本发明采用最大池化方法,获得训练样本和测试样本池化特征图,克服了现有技术运算量大,计算效率低,不适用于大规模数据的处理的问题,使得本发明在处理大数据手语分类任务时,增加了特征的平移不变性,减小特征维度,减小了手语识别任务的复杂性。
附图说明
图1是本发明实现的流程图;
图2是本发明手语识别结果的混淆矩阵图。
具体实施方式
参照图1,对本发明做进一步的详细描述:
步骤1,划分数据库样本集;;
提取手语图像数据集中的手语图像,将所提取的手语图像调整成32×32像素的手语图像,将调整后的所有手语图像均分为两部分,分别作为训练样本和测试样本;
步骤2,采集图像块:
对训练样本的每一张手语图像随机采集10个图像块;
步骤3,白化数据;
对每一张采集的图像块进行白化处理,得到白化后的图像块,具体步骤如下:
第1步,按照下式,分别计算每个图像块中每一个像素的均值:
x ‾ = 1 m Σ i = 1 m x o i
其中,表示每个图像块中每一个像素的均值,m表示图像块的数目,此处m=600000,xo i表示第i个图像块,i∈[1,m],∈表示属于符号;
第2步,用每个图像块减去均值,得到去均值化图像块;
第3步,按照下式,计算图像块的奇异矩阵;
[ U , S , V ] = s v d ( 1 m Σ g = 1 m ( x g ) ( x g ) T )
其中,U表示图像块左奇异向量组成的矩阵,S表示图像块的奇异值元素组成的对角矩阵,V表示图像块的右奇异向量组成的矩阵,svd(·)表示奇异值分解函数,m表示输入图像块的数目,此处m=600000,xg表示第g张去均值化图像块,g∈[1,m],∈表示属于符号;
第4步,按照下式,对去均值化图像块进行去相关处理;
y = U × ( 1 S + ϵ ) × U T × x
其中,y表示去相关处理后的图像块,U表示图像块左奇异向量组成的矩阵,S表示图像块的奇异值元素组成的对角矩阵,ε表示规则化参数,ε初始化为0.01,T表示转置操作,x表示去均值化图像块;
步骤4,训练稀疏自编码网络:
(4a)将白化后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵,稀疏自编码网络共3层,第一层为输入层,第二层为隐藏层,隐藏层的神经元数目为400个,第三层为输出层;
(4b)采用正态分布函数,随机初始化稀疏自编码网络的权值和偏置,正态分布函数均值初始化为0,方差初始化为0.01;
(4c)采用反向传导算法,更新稀疏自编码网络权值和偏置,具体步骤如下:
第1步,按照下式,计算稀疏自编码网络的惩罚因子:
η = β Σ j = 1 s [ ρ l o g ρ ρ j + ( 1 - ρ ) l o g 1 - ρ 1 - ρ j ]
其中,η表示稀疏自编码网络的惩罚因子,β表示随机选取的惩罚因子权重,β初始化为0.1,ρ表示随机选取的稀疏性参数,ρ初始化为0.01,log表示以10为底的对数操作,ρj表示隐藏层第j个神经元的平均活跃度,j∈[1,s],∈表示属于符号,s表示稀疏自编码网络隐藏层神经元的数目,s=400;
第2步,计算每层稀疏自编码网络的输出矩阵:
按照下式,计算稀疏自编码网络输出层的输出矩阵:
a n = Σ t = 1 n 1 1 + e - ( w X + b )
其中,an表示稀疏自编码网络输出层的输出矩阵,n表示稀疏自编码网络的输出层,w表示第t层稀疏自编码网络的权值,t∈[1,N],∈表示属于符号,N表示稀疏自编码网络的层数,N=3,X表示稀疏自编码网络的输入矩阵,b表示稀疏自编码网络第t层的偏置,e(·)表示以自然数为底的指数操作;
按照下式,计算稀疏自编码网络隐藏层的输出矩阵:
a l = 1 1 + e - ( W X + B )
其中,al表示稀疏自编码网络隐藏层的输出矩阵,l表示稀疏自编码网络隐藏层,W表示稀疏自编码网络隐藏层的权值,x表示稀疏自编码网络的输入矩阵,B表示稀疏自编码网络隐藏层的偏置,e(·)表示以自然数为底的指数操作;
第3步,按照下式,计算稀疏自编码网络的代价函数:
J = [ 1 m Σ d = 1 m ( 1 2 ( a n - y d ) 2 ) ] + λ 2 Σ p = 1 k ( w p ) 2 + η
其中,J表示稀疏自编码网络的代价函数,an表示稀疏自编码网络输出层的输出矩阵,n表示稀疏自编码网络的输出层,yd表示稀疏自编码网络第d个目标矩阵,i∈[1,m],∈表示属于符号,m表示白化后的图像块数目,m=600000,λ表示权重衰减参数,λ初始化为0.01,wp表示稀疏自编码网络第p个权值,p∈[1,k],∈表示属于符号,k表示权值的数目,k=80000,η表示稀疏自编码网络的惩罚因子;
第4步,计算每层稀疏自编码网络神经元的残差:
按照下式,计算稀疏自编码网络输出层神经元的残差:
δn=-(y-an)an(1-an)
其中,δn表示稀疏自编码网络输出层神经元的残差,n表示稀疏自编码网络的输出层,y表示稀疏自编码网络的目标矩阵,an表示稀疏自编码网络输出层的输出矩阵;
按照下式,计算稀疏自编码网络隐藏层神经元的残差:
δ l = ( ( w l ) T δ n + β ( - ρ ρ j + 1 - ρ 1 - ρ j ) ) a l ( 1 - a l )
其中,δl表示稀疏自编码网络隐藏层神经元的残差,l表示稀疏自编码网络隐藏层,wl表示稀疏自编码网络隐藏层的权值,T表示转置操作,δn表示稀疏自编码网络输出层神经元的残差,n表示稀疏自编码网络输出层,β表示随即选取的惩罚因子权重,β初始化为0.1,ρ表示稀疏性参数,ρ初始化为0.01,ρj表示第j个稀疏自编码网络隐藏层神经元的平均活跃度,j∈[1,s],∈表示属于符号,s表示稀疏自编码网络隐藏层神经元的数目,s=400,al表示稀疏自编码网络隐藏层的输出矩阵;
第5步,计算稀疏自编码网络每层神经元的权值和偏置的偏导数:
按照下式,计算稀疏自编码网络每一层权值的偏导数:
∂ ∂ w h J = a h δ h + 1
其中,表示偏导数操作,J表示稀疏自编码网络的代价函数,wh表示稀疏自编码网络第h层的权值,h∈[1,N],∈表示属于符号,N表示稀疏自编码网络的层数,N=3,ah表示第h层稀疏自编码网络的输出矩阵,δh+1表示第h+1层稀疏自编码网络神经元残差;
按照下式,计算稀疏自编码网络每层偏置的偏导数:
∂ ∂ b h J = δ h + 1
其中,表示偏导数操作,J表示稀疏自编码网络代价函数,bh表示第h层神经元的偏置,h∈[1,N],∈表示属于符号,N表示稀疏自编码网络的层数,N=3,δh+1表示第h+1层稀疏自编码网络神经元的残差;
第6步,按照下式,更新疏自编码网络的权值:
w h = w h - α ∂ ∂ w h J
其中,wh表示稀疏自编码网络第h层神经元的权值,α表示稀疏自编码网络的学习率,α初始化为0.001,表示偏导数操作,J表示稀疏自编码网络的代价函数;
第7步,按照下式,更新疏自编码网络的偏置:
b h = b h - α ∂ ∂ b h J
其中,bh表示稀疏自编码网络第h层神经元的偏置,α表示稀疏自编码网络的学习率,α初始化为0.001,表示偏导数操作,J表示稀疏自编码网络的代价函数;
第8步,判断稀疏自编码网络的代价函数是否小于0.2,若是,得到训练好的稀疏自编码网络,否则,执行第1步;
得到稀疏自编码网络的权值;
步骤5,获得卷积特征图;
将将训练样本和测试样本作为卷积的输入矩阵,按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核,采用卷积公式,对输入矩阵进行卷积,得到训练样本和测试样本的卷积特征图,卷积公式如下:
Y=X*K
其中,Y表示卷积特征图,X表示输入矩阵,*表示卷积操作,K表示卷积核;
步骤6,获得池化特征图;
采用最大池化方法,对训练样本和测试样本的卷积特征图进行池化处理,得到训练样本和测试样本的池化特征图,具体步骤如下:
第1步,以步长为2个像素大小,将输入样本和测试样本的卷积特征图划分成多个池化区域;
第2步,从每个池化区域中各选取一个最大像素点;
第3步,按照池化区域在输入样本和测试样本的卷积特征图中的位置分布,将所有的最大像素点组成输入样本和测试样本的池化特征图。
步骤7,训练分类器;
用训练样本的池化特征图训练线性支持向量机分类器得到分类模型;
步骤8,测试分类效果;
用分类模型对测试样本的池化特征图进行分类,得到测试样本的分类结果。本发明的效果可以通过以下仿真实验进一步说明。
1.实验条件:
硬件平台为:IntelCore2DuoCPUE65502.33GHZ、2GBRAM
软件平台:vs2008MATLABR2009a
实验数据:本实验采用ASL手语图像数据库,包括24个手语,5个志愿者,每个志愿者每个手语图片样本数目为500张,实验样本图像背景复杂,不同志愿者的手语图像场景不同,光照影像不同。
2.实验内容与结果:
本发明首先将手语图像数据集每张图像调整成32×32像素大小,并均分为两部分,一部分作为训练样本,一部分作为测试样本,各30000张。对训练样本进行随机采样,每张图像采集10张10×10大小的图像块,并对图像小块进行一个白化处理,去图像之间的冗余和相关性。再利用这些图像小块去训练一个无监督的稀疏自编码神经网络,网络共3层,隐藏层神经元数目为400,用均值为0,方差为0,01的正态分布函数,随机初始化网络的权值,训练完成后的稀疏自编码神经网络的权值就是学习得到的手势图像不同结构特征。这些特征相当于一些边缘滤波器,这个特征是所有手势的结构特征,所以要利用这些特征对原始的手势图像进行一个滤波过程,提取出每一种手势所具有的相应的特征,于是把这些权值当做卷积核来对训练样本和测试样本进行一个卷积过程,这样就可以将手势的边缘特征提取出来。卷积之后的特征可以拿来做分类识别。但是特征维数太大,面临巨大的计算量的挑战。所以通过池化对这些特征进行一个聚合统计的过程,池化后的特征不仅具有很低的维度,而且还会改善结果,不容易过拟合。用训练样本的池化特征来训练支持向量机分类器分类模型,然后里用训练好的分类模型对待识别的测试样本进行分类识别。实验的结果表明,即使在手势种类繁多,光照不同,手势之间具有很大的相似性的情况下,本模型也能获得很高的准确率。由图2的最终分类结果混淆矩阵所示,本发明对于手语识别的分类结果可达到87%。

Claims (8)

1.一种基于深度学习的手语识别方法,包括如下步骤:
(1)划分数据库样本集;
(1a)提取手语图像数据集中的手语图像,将所提取的手语图像调整成32×32像素的手语图像;
(1b)将调整后的所有手语图像均分为两部分,分别作为手语图像的训练样本和测试样本;
(2)采集图像块:
对训练样本的每一张手语图像随机采集10张图像块;
(3)白化数据:
对每一张采集的图像块进行白化处理,得到白化后的图像块;
(4)训练稀疏自编码网络:
(4a)将白化后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵;
(4b)采用正态分布函数,随机初始化稀疏自编码网络的权值和偏置;
(4c)采用反向传导算法,更新稀疏自编码网络权值和偏置,得到稀疏自编码网络的权值;
(5)获得卷积特征图;
(5a)将训练样本和测试样本作为卷积的输入矩阵;
(5b)按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核;
(5c)采用卷积公式,对输入矩阵进行卷积,得到输入样本和测试样本的卷积特征图;
(6)获得池化特征图;
采用最大池化方法,对训练样本和测试样本的卷积特征图进行池化处理,得到训练样本和测试样本的池化特征图;
(7)训练分类器;
用训练样本的池化特征图训练线性支持向量机分类器得到分类模型;
(8)测试分类效果;
用分类模型对测试样本的池化特征图进行分类,得到测试样本的分类结果。
2.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(2)中所述从训练样本的每一张手语图像中随机采集的图像块的大小为10×10像素。
3.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(3)所述的对每一张采集的图像块进行白化处理是按照如下步骤进行的:
第1步,按照下式,分别计算每一张采集的图像块中每一个像素的均值:
x ‾ = 1 m Σ i = 1 m x o i
其中,表示每一张采集的图像块中每一个像素的均值,m表示图像块的数目,xo i表示第i个图像块,i∈[1,m],∈表示属于符号;
第2步,用每个图像块减去均值,得到去均值化图像块;
第3步,按照下式,计算图像块的奇异矩阵;
[ U , S , V ] = s v d ( 1 m Σ g = 1 m ( x g ) ( x g ) T )
其中,U表示图像块的左奇异向量组成的矩阵,S表示图像块的奇异值元素组成的对角矩阵,V表示图像块的右奇异向量组成的矩阵,svd(·)表示奇异值分解操作,m表示输入图像块的数目,xg表示第g张去均值化图像块,g∈[1,m],∈表示属于符号;
第4步,按照下式,对去均值化图像块进行去相关处理;
y = U × ( 1 S + ϵ ) × U T × x
其中,y表示去相关处理后的图像块,U表示图像块左奇异向量组成的矩阵,S表示图像块的奇异值元素组成的对角矩阵,ε表示规则化参数,ε的取值范围为0.01~0.1,T表示转置操作,x表示去均值化图像块。
4.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(4a)中所述的稀疏自编码网络共3层,第一层为输入层,第二层为隐藏层,隐藏层的神经元数目为400个,第三层为输出层。
5.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(4b)中所述的正态分布函数的均值为0,方差的随机取值范围为0.01~0.1。
6.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(4c)中反向传导算法的具体步骤如下:
第1步,按照下式,计算稀疏自编码网络的惩罚因子:
η = β Σ j = 1 s [ ρ l o g ρ ρ j + ( 1 - ρ ) l o g 1 - ρ 1 - ρ j ]
其中,η表示稀疏自编码网络的惩罚因子,β表示随机选取的惩罚因子权重,β的取值范围为0.1~0.5,ρ表示随机选取的稀疏性参数,ρ的取值范围为0.01~0.05,log表示以10为底的对数操作,ρj表示稀疏自编码网络隐藏层第j个神经元的平均活跃度,j∈[1,s],∈表示属于符号,s表示稀疏自编码网络隐藏层神经元的数目;
第2步,计算每层稀疏自编码网络的输出矩阵:
按照下式,计算稀疏自编码网络输出层的输出矩阵:
a n = Σ t = 1 n 1 1 + e - ( w X + b )
其中,an表示稀疏自编码网络输出层的输出矩阵,n表示稀疏自编码网络的输出层,w表示第t层稀疏自编码网络的权值,t∈[1,N],∈表示属于符号,N表示稀疏自编码网络的层数,X表示稀疏自编码网络的输入矩阵,b表示稀疏自编码网络第t层的偏置,e(·)表示以自然数为底的指数操作;
按照下式,计算稀疏自编码网络隐藏层的输出矩阵:
a l = 1 1 + e - ( W X + B )
其中,al表示稀疏自编码网络隐藏层的输出矩阵,l表示稀疏自编码网络隐藏层,W表示稀疏自编码网络隐藏层的权值,X表示稀疏自编码网络的输入矩阵,B表示稀疏自编码网络隐藏层的偏置,e(·)表示以自然数为底的指数操作;
第3步,按照下式,计算稀疏自编码网络的代价函数:
J = [ 1 m Σ d = 1 m ( 1 2 ( a n - y d ) 2 ) ] + λ 2 Σ p = 1 k ( w p ) 2 + η
其中,J表示稀疏自编码网络的代价函数,m表示白化后的图像块数目,an表示稀疏自编码网络输出层的输出矩阵,n表示稀疏自编码网络的输出层,yd表示稀疏自编码网络第d个目标矩阵,d∈[1,m],∈表示属于符号,λ表示随机选取的权重衰减参数,λ的取值范围为0.01~0.05,wp表示稀疏自编码网络第p个权值,p∈[1,k],∈表示属于符号,k表示权值的数目,η表示稀疏自编码网络的惩罚因子;
第4步,计算每层稀疏自编码网络神经元的残差:
按照下式,计算稀疏自编码网络输出层神经元的残差:
δn=-(y-an)an(1-an)
其中,δn表示稀疏自编码网络输出层神经元的残差,n表示稀疏自编码网络的输出层,y表示稀疏自编码网络的目标矩阵,an表示稀疏自编码网络输出层的输出矩阵;
按照下式,计算稀疏自编码网络隐藏层神经元的残差:
δ l = ( ( w l ) T δ n + β ( - ρ ρ j + 1 - ρ 1 - ρ j ) ) a l ( 1 - a l )
其中,δl表示稀疏自编码网络隐藏层神经元的残差,l表示稀疏自编码网络隐藏层,wl表示稀疏自编码网络隐藏层的权值,T表示转置操作,δn表示稀疏自编码网络输出层神经元的残差,n表示稀疏自编码网络输出层,β表示随机选取的惩罚因子权重,β的取值范围为0.1~0.5,ρ表示随机选取的稀疏性参数,ρ的取值范围为0.01~0.05,ρj表示稀疏自编码网络隐藏层第j个神经元的平均活跃度,j∈[1,s],∈表示属于符号,s表示稀疏自编码网络隐藏层神经元的数目,al表示稀疏自编码网络隐藏层的输出矩阵;
第5步,计算稀疏自编码网络每层神经元的权值和偏置的偏导数:
按照下式,计算稀疏自编码网络每一层权值的偏导数:
∂ ∂ w h J = a h δ h + 1
其中,表示偏导数操作,J表示稀疏自编码网络的代价函数,wh表示稀疏自编码网络第h层的权值,h∈[1,N],∈表示属于符号,N表示稀疏自编码网络的层数,ah表示第h层稀疏自编码网络的输出矩阵,δh+1表示第h+1层稀疏自编码网络神经元残差;
按照下式,计算稀疏自编码网络每层偏置的偏导数:
∂ ∂ b h J = δ h + 1
其中,表示偏导数操作,J表示稀疏自编码网络代价函数,bh表示第h层神经元的偏置,h∈[1,N],∈表示属于符号,N表示稀疏自编码网络的层数,δh+1表示第h+1层稀疏自编码网络神经元的残差;
第6步,按照下式,更新疏自编码网络的权值:
w h = w h - α ∂ ∂ w h J
其中,wh表示稀疏自编码网络第h层神经元的权值,α表示随机选取的稀疏自编码网络的学习率,α的取值范围为0.001~0.01,表示偏导数操作,J表示稀疏自编码网络的代价函数;
第7步,按照下式,更新疏自编码网络的偏置:
b h = b h - α ∂ ∂ b h J
其中,bh表示稀疏自编码网络第h层神经元的偏置,α表示随机选取的稀疏自编码网络的学习率,α的取值范围为0.001~0.01,表示偏导数操作,J表示稀疏自编码网络的代价函数;
第8步,判断稀疏自编码网络的代价函数是否小于0.2,若是,得到训练好的稀疏自编码网络,否则,执行第1步。
7.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(5c)中所述对输入矩阵进行卷积的卷积公式如下:
Y=R*K
其中,Y表示输入样本和测试样本的卷积特征图,R表示输入矩阵,*表示卷积操作,K表示卷积核。
8.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(6)中所述最大池化方法的具体步骤如下:
第1步,以步长为2个像素大小,将输入样本和测试样本的卷积特征图划分成多个池化区域;
第2步,从每个池化区域中各选取一个最大像素点;
第3步,按照池化区域在输入样本和测试样本的卷积特征图中的位置分布,将所有的最大像素点组成输入样本和测试样本的池化特征图。
CN201510523173.6A 2015-08-24 2015-08-24 基于深度学习的手语识别方法 Active CN105205449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510523173.6A CN105205449B (zh) 2015-08-24 2015-08-24 基于深度学习的手语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510523173.6A CN105205449B (zh) 2015-08-24 2015-08-24 基于深度学习的手语识别方法

Publications (2)

Publication Number Publication Date
CN105205449A true CN105205449A (zh) 2015-12-30
CN105205449B CN105205449B (zh) 2019-01-29

Family

ID=54953121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510523173.6A Active CN105205449B (zh) 2015-08-24 2015-08-24 基于深度学习的手语识别方法

Country Status (1)

Country Link
CN (1) CN105205449B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868706A (zh) * 2016-03-28 2016-08-17 天津大学 一种基于稀疏自编码的三维模型识别方法
CN105956529A (zh) * 2016-04-25 2016-09-21 福州大学 一种基于lstm型rnn的中国手语识别方法
CN105976027A (zh) * 2016-04-29 2016-09-28 北京比特大陆科技有限公司 数据处理方法和装置、芯片
CN106156744A (zh) * 2016-07-11 2016-11-23 西安电子科技大学 基于cfar检测与深度学习的sar目标检测方法
CN106326925A (zh) * 2016-08-23 2017-01-11 南京邮电大学 一种基于深度学习网络的苹果病变图像识别方法
CN107037878A (zh) * 2016-12-14 2017-08-11 中国科学院沈阳自动化研究所 一种基于手势的人机交互方法
CN107053168A (zh) * 2016-12-09 2017-08-18 南京理工大学 一种基于深度学习网络的目标识别方法及带电作业机器人
CN107563294A (zh) * 2017-08-03 2018-01-09 广州智慧城市发展研究院 一种基于自学习的指静脉特征提取方法及系统
CN107563567A (zh) * 2017-09-18 2018-01-09 河海大学 基于稀疏自编码的核极限学习机洪水预报方法
CN107742095A (zh) * 2017-09-23 2018-02-27 天津大学 基于卷积神经网络的汉语手语识别方法
CN108632551A (zh) * 2017-03-16 2018-10-09 南昌黑鲨科技有限公司 基于深度学习的视频录摄方法、装置及终端
CN108694408A (zh) * 2017-04-11 2018-10-23 西安邮电大学 一种基于深度稀疏滤波卷积神经网络的驾驶行为识别方法
CN109359519A (zh) * 2018-09-04 2019-02-19 杭州电子科技大学 一种基于深度学习的视频异常行为检测方法
CN110321390A (zh) * 2019-06-04 2019-10-11 上海电力学院 基于有监督和无监督算法结合的负荷曲线数据可视化方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318245A (zh) * 2014-10-20 2015-01-28 西安电子科技大学 基于稀疏深度网络的极化sar图像分类
CN104408469A (zh) * 2014-11-28 2015-03-11 武汉大学 基于图像深度学习的烟火识别方法及系统
CN104484682A (zh) * 2014-12-31 2015-04-01 中国科学院遥感与数字地球研究所 一种基于主动深度学习的遥感图像分类方法
CN104778671A (zh) * 2015-04-21 2015-07-15 重庆大学 一种基于sae和稀疏表示的图像超分辨率方法
CN104809469A (zh) * 2015-04-21 2015-07-29 重庆大学 一种面向服务机器人的室内场景图像分类方法
CN104834941A (zh) * 2015-05-19 2015-08-12 重庆大学 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318245A (zh) * 2014-10-20 2015-01-28 西安电子科技大学 基于稀疏深度网络的极化sar图像分类
CN104408469A (zh) * 2014-11-28 2015-03-11 武汉大学 基于图像深度学习的烟火识别方法及系统
CN104484682A (zh) * 2014-12-31 2015-04-01 中国科学院遥感与数字地球研究所 一种基于主动深度学习的遥感图像分类方法
CN104778671A (zh) * 2015-04-21 2015-07-15 重庆大学 一种基于sae和稀疏表示的图像超分辨率方法
CN104809469A (zh) * 2015-04-21 2015-07-29 重庆大学 一种面向服务机器人的室内场景图像分类方法
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法
CN104834941A (zh) * 2015-05-19 2015-08-12 重庆大学 基于计算机输入下的稀疏自编码的脱机手写体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王勇等: "基于稀疏自编码深度神经网络的林火图像分类", 《计算机应用与工程》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868706A (zh) * 2016-03-28 2016-08-17 天津大学 一种基于稀疏自编码的三维模型识别方法
CN105956529A (zh) * 2016-04-25 2016-09-21 福州大学 一种基于lstm型rnn的中国手语识别方法
CN105976027A (zh) * 2016-04-29 2016-09-28 北京比特大陆科技有限公司 数据处理方法和装置、芯片
CN106156744A (zh) * 2016-07-11 2016-11-23 西安电子科技大学 基于cfar检测与深度学习的sar目标检测方法
CN106156744B (zh) * 2016-07-11 2019-01-29 西安电子科技大学 基于cfar检测与深度学习的sar目标检测方法
CN106326925A (zh) * 2016-08-23 2017-01-11 南京邮电大学 一种基于深度学习网络的苹果病变图像识别方法
CN107053168A (zh) * 2016-12-09 2017-08-18 南京理工大学 一种基于深度学习网络的目标识别方法及带电作业机器人
CN107037878A (zh) * 2016-12-14 2017-08-11 中国科学院沈阳自动化研究所 一种基于手势的人机交互方法
CN108632551A (zh) * 2017-03-16 2018-10-09 南昌黑鲨科技有限公司 基于深度学习的视频录摄方法、装置及终端
CN108694408A (zh) * 2017-04-11 2018-10-23 西安邮电大学 一种基于深度稀疏滤波卷积神经网络的驾驶行为识别方法
CN107563294A (zh) * 2017-08-03 2018-01-09 广州智慧城市发展研究院 一种基于自学习的指静脉特征提取方法及系统
CN107563567A (zh) * 2017-09-18 2018-01-09 河海大学 基于稀疏自编码的核极限学习机洪水预报方法
CN107742095A (zh) * 2017-09-23 2018-02-27 天津大学 基于卷积神经网络的汉语手语识别方法
CN109359519A (zh) * 2018-09-04 2019-02-19 杭州电子科技大学 一种基于深度学习的视频异常行为检测方法
CN110321390A (zh) * 2019-06-04 2019-10-11 上海电力学院 基于有监督和无监督算法结合的负荷曲线数据可视化方法

Also Published As

Publication number Publication date
CN105205449B (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN105205449B (zh) 基于深度学习的手语识别方法
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
Lin et al. Transfer learning based traffic sign recognition using inception-v3 model
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN109543502B (zh) 一种基于深度多尺度神经网络的语义分割方法
CN107657279B (zh) 一种基于少量样本的遥感目标检测方法
CN112528928B (zh) 一种基于自注意力深度网络的商品识别方法
CN106570521B (zh) 多语言场景字符识别方法及识别系统
CN108898138A (zh) 基于深度学习的场景文本识别方法
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN106682569A (zh) 一种基于卷积神经网络的快速交通标识牌识别方法
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
Tereikovskyi et al. The method of semantic image segmentation using neural networks
CN113255557B (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN108830237A (zh) 一种人脸表情的识别方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN112686242B (zh) 一种基于多层聚焦注意力网络的细粒度图像分类方法
Zhao et al. Cbph-net: A small object detector for behavior recognition in classroom scenarios
CN113011243A (zh) 基于胶囊网络的面部表情分析方法
CN111126169B (zh) 基于正交化的图正则非负矩阵分解的人脸识别方法及系统
Sen et al. Face recognition using deep convolutional network and one-shot learning
Kale et al. Age, gender and ethnicity classification from face images with CNN-based features
CN108710836A (zh) 一种基于级联特征提取的唇部检测及读取方法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant