CN107742095A - 基于卷积神经网络的汉语手语识别方法 - Google Patents

基于卷积神经网络的汉语手语识别方法 Download PDF

Info

Publication number
CN107742095A
CN107742095A CN201710870990.8A CN201710870990A CN107742095A CN 107742095 A CN107742095 A CN 107742095A CN 201710870990 A CN201710870990 A CN 201710870990A CN 107742095 A CN107742095 A CN 107742095A
Authority
CN
China
Prior art keywords
gesture
layer
layers
sign language
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710870990.8A
Other languages
English (en)
Inventor
吕辰刚
鲍志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710870990.8A priority Critical patent/CN107742095A/zh
Publication of CN107742095A publication Critical patent/CN107742095A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于卷积神经网络的汉语手语识别方法,包括下列步骤:采集汉语手语的各类手势图,经手势分割和预处理获得多张手势样本;将采集到的手势样本数据集按5:1:1的比例分为训练集、验证集和测试集;搭建7层的卷积神经网络CNN模型,包含3层卷积层、2层池化层和1层全连接层,用该CNN模型训练集的手势特征,取每次批处理batchsize的图像数为200,通过最大池化选取每次卷积后的特征;在最后一次卷积层之后,通过Softmax函数进行特征向量的分类,分类结果与标签对比并更新模型的权值;对比每次迭代后验证集的准确率,与上一次的验证结果对比,若准确率下降则继续迭代,否则停止迭代。

Description

基于卷积神经网络的汉语手语识别方法
技术领域
本发明属于手势识别领域。
背景技术
目前手势识别方法主要分为两类,一是基于穿戴式设备的是被方法,虽然实时性较好,但是穿戴设备有价格昂贵,使用不太便利的缺点;另一类就是基于视觉系统的,这类方法通过传感器采集图像信息,然后进行图像的处理和识别过程,给使用者带来了很好的人机交互性,如何提高识别精度和减少识别时间是这类方法一直以来的难点。
近年来,随着计算机图形计算处理能力的显著提高,深度学习在语音识别、图像分类等领域取得了重大突破。深度学习利用多层非线性的深度神经网络对输入的图像或语音信息进行分类处理,能有效的自主提取特征,识别精度高。手语识别作为人机交互的重要组成,对听力障碍人群与计算机或者不懂手语人之间的交流有重要作用。
发明内容
本发明的目的是提供一种识别精度高的汉语手语识别方法。本发明通过卷积神经网络训练汉语手语模型,对汉语手语的实时识别。技术方案如下:
一种基于卷积神经网络的汉语手语识别方法,包括下列步骤:
步骤1,采集汉语手语的各类手势图,经手势分割和预处理获得多张手势样本。
步骤2,将采集到的手势样本数据集按5:1:1的比例分为训练集、验证集和测试集;
步骤3,搭建7层的卷积神经网络CNN模型,包含3层卷积层、2层池化层和1层全连接层,用该CNN模型训练集的手势特征,取每次批处理batchsize的图像数为200,通过最大池化选取每次卷积后的特征;
步骤4,在最后一次卷积层之后,通过Softmax函数进行特征向量的分类,分类结果与标签对比并更新模型的权值;
步骤5,对比每次迭代后验证集的准确率,与上一次的验证结果对比,若准确率下降则继续迭代,否则停止迭代。
附图说明
图1本发明采用的卷积神经网络结构图
图2输入的31类手势样本
具体实施方式
卷积神经网络网络结构主要由卷积层、池化层和全连接层组成。卷积层也是特征提取层,它通过利用不同的卷积核对输入的图像进行卷积操作来提取图像的不同特征,卷积操作使得卷积核的参数在图像的不同位置共享,可以大大降低模型的参量,减少训练的时间,而且提取的特征与出现的空间位置无关,其表达式如下:
其中,是第L层的第j个神经元;f(·)代表非线性激活函数函数,它有很多种常用函数,例如Sigmoid函数、双曲正切函数(tanh)、线性修正单元(ReLU)等;W是卷积核;*代表卷积操作;b是权重。
池化层也叫特征映射层,将每层网络上的多个特征映射为一个平面,和卷积层的操作类似,只是一个平面上的神经元权值相等,表达式如下:
down(·)是采样函数,若n*n代表核大小,则输出的特征图像大小是输入的1/n;f(·)一般采用sigmoid函数;是权重系数。
和LeNet-5结构相比,做了一些改进,在池化层,我们采用max-pooling从核大小中选取最大的值作为池化层保留值,相当于选取若干特征值中最大的,抛弃其他较弱的此类特征。这样的优势在于可以保证特征的位置与旋转不变形,强特征在哪个位置出现都能提取出来。另一处的改进在于全连接层中用Softmax分类器,通过不删除数据来减少数据中极值或者异常值的影响,它的表达式如下所示:
其中,K代表输出为K维的向量,P(y=j|x)表示y可以去K个不同值得概率。
取汉语手语中31种手势用作实验,通过Kinect采集手势图,经过手势分割和预处理过程,得到适合卷积神经网络输入的手势大小,每一类手势取4000张作为训练样本,取800张作为验证样本,另800张作为测试样本。总共173600张手势图构成数据集,包括124000张训练集、24800张验证集和24800张测试集。输入到上述结构的CNN网络中,经过了42次的迭代以后,用测试样本进行测试,得到了表1中各类手势的识别精度,平均的识别精度达到了96.23%。
经过上述结构的神经网络结构训练的模型,能将31类汉语手语分类开来,而且能达到很高的识别精度,满足汉语手语识别的应用要求。
表1用CNN分类的各手势精度

Claims (1)

1.一种基于卷积神经网络的汉语手语识别方法,包括下列步骤:
步骤1,采集汉语手语的各类手势图,经手势分割和预处理获得多张手势样本。
步骤2,将采集到的手势样本数据集按5:1:1的比例分为训练集、验证集和测试集;
步骤3,搭建7层的卷积神经网络CNN模型,包含3层卷积层、2层池化层和1层全连接层,用该CNN模型训练集的手势特征,取每次批处理batchsize的图像数为200,通过最大池化选取每次卷积后的特征;
步骤4,在最后一次卷积层之后,通过Softmax函数进行特征向量的分类,分类结果与标签对比并更新模型的权值;
步骤5,对比每次迭代后验证集的准确率,与上一次的验证结果对比,若准确率下降则继续迭代,否则停止迭代。
CN201710870990.8A 2017-09-23 2017-09-23 基于卷积神经网络的汉语手语识别方法 Pending CN107742095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710870990.8A CN107742095A (zh) 2017-09-23 2017-09-23 基于卷积神经网络的汉语手语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710870990.8A CN107742095A (zh) 2017-09-23 2017-09-23 基于卷积神经网络的汉语手语识别方法

Publications (1)

Publication Number Publication Date
CN107742095A true CN107742095A (zh) 2018-02-27

Family

ID=61236081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710870990.8A Pending CN107742095A (zh) 2017-09-23 2017-09-23 基于卷积神经网络的汉语手语识别方法

Country Status (1)

Country Link
CN (1) CN107742095A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063615A (zh) * 2018-07-20 2018-12-21 中国科学技术大学 一种手语识别方法及系统
CN109766559A (zh) * 2019-01-11 2019-05-17 沈阳舞指科技有限公司 一种手语识别翻译系统及其识别方法
CN110046544A (zh) * 2019-02-27 2019-07-23 天津大学 基于卷积神经网络的数字手势识别方法
CN110096991A (zh) * 2019-04-25 2019-08-06 西安工业大学 一种基于卷积神经网络的手语识别方法
CN110188732A (zh) * 2019-06-07 2019-08-30 吉林大学 一种基于卷积神经网络的静态手语识别方法
CN110414327A (zh) * 2019-06-18 2019-11-05 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机装置及存储介质
CN110705331A (zh) * 2018-07-09 2020-01-17 中国科学技术大学 一种手语识别方法及装置
CN112183430A (zh) * 2020-10-12 2021-01-05 河北工业大学 一种基于双神经网络的手语识别方法及装置
CN113591764A (zh) * 2021-08-09 2021-11-02 广州博冠信息科技有限公司 手势识别方法、装置、存储介质和电子设备
CN113807290A (zh) * 2021-09-24 2021-12-17 深圳蓝宝利电子有限公司 用于家用电器的感应开关及其工作方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992177A (zh) * 2015-06-12 2015-10-21 安徽大学 基于深层卷积神经网络的网络色情图像检测方法
CN105205449A (zh) * 2015-08-24 2015-12-30 西安电子科技大学 基于深度学习的手语识别方法
CN106650694A (zh) * 2016-12-30 2017-05-10 江苏四点灵机器人有限公司 一种以卷积神经网络作为特征提取器的人脸识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992177A (zh) * 2015-06-12 2015-10-21 安徽大学 基于深层卷积神经网络的网络色情图像检测方法
CN105205449A (zh) * 2015-08-24 2015-12-30 西安电子科技大学 基于深度学习的手语识别方法
CN106650694A (zh) * 2016-12-30 2017-05-10 江苏四点灵机器人有限公司 一种以卷积神经网络作为特征提取器的人脸识别方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705331A (zh) * 2018-07-09 2020-01-17 中国科学技术大学 一种手语识别方法及装置
CN109063615B (zh) * 2018-07-20 2021-03-09 中国科学技术大学 一种手语识别方法及系统
CN109063615A (zh) * 2018-07-20 2018-12-21 中国科学技术大学 一种手语识别方法及系统
CN109766559A (zh) * 2019-01-11 2019-05-17 沈阳舞指科技有限公司 一种手语识别翻译系统及其识别方法
CN109766559B (zh) * 2019-01-11 2023-09-05 沈阳舞指科技有限公司 一种手语识别翻译系统及其识别方法
CN110046544A (zh) * 2019-02-27 2019-07-23 天津大学 基于卷积神经网络的数字手势识别方法
CN110096991A (zh) * 2019-04-25 2019-08-06 西安工业大学 一种基于卷积神经网络的手语识别方法
CN110188732A (zh) * 2019-06-07 2019-08-30 吉林大学 一种基于卷积神经网络的静态手语识别方法
CN110188732B (zh) * 2019-06-07 2022-04-05 吉林大学 一种基于卷积神经网络的静态手语识别方法
CN110414327B (zh) * 2019-06-18 2023-06-23 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机装置及存储介质
CN110414327A (zh) * 2019-06-18 2019-11-05 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机装置及存储介质
CN112183430A (zh) * 2020-10-12 2021-01-05 河北工业大学 一种基于双神经网络的手语识别方法及装置
CN112183430B (zh) * 2020-10-12 2024-04-05 河北工业大学 一种基于双神经网络的手语识别方法及装置
CN113591764A (zh) * 2021-08-09 2021-11-02 广州博冠信息科技有限公司 手势识别方法、装置、存储介质和电子设备
CN113591764B (zh) * 2021-08-09 2024-06-07 广州博冠信息科技有限公司 手势识别方法、装置、存储介质和电子设备
CN113807290A (zh) * 2021-09-24 2021-12-17 深圳蓝宝利电子有限公司 用于家用电器的感应开关及其工作方法
CN113807290B (zh) * 2021-09-24 2024-04-09 深圳蓝宝利电子有限公司 用于家用电器的感应开关及其工作方法

Similar Documents

Publication Publication Date Title
CN107742095A (zh) 基于卷积神经网络的汉语手语识别方法
Cheng et al. Jointly network: a network based on CNN and RBM for gesture recognition
CN107832400B (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN105205449B (zh) 基于深度学习的手语识别方法
Angona et al. Automated Bangla sign language translation system for alphabets by means of MobileNet
CN112231477A (zh) 一种基于改进胶囊网络的文本分类方法
Han et al. Supervised threshold-based heart sound classification algorithm
CN104484644A (zh) 一种手势识别方法和装置
CN107491729A (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
Kothadiya et al. SIGNFORMER: deepvision transformer for sign language recognition
More et al. Sign language recognition using image processing
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
Mohiuddin et al. Unconstrained Bangla online handwriting recognition based on MLP and SVM
CN107590449A (zh) 一种基于加权特征谱融合的手势检测方法
CN108537109B (zh) 基于OpenPose的单目相机手语识别方法
CN110096991A (zh) 一种基于卷积神经网络的手语识别方法
CN103927555A (zh) 基于Kinect传感器的静态手语字母识别系统及方法
CN101604393B (zh) 一种用于联机手写汉字识别的汉字笔画特征提取方法
Han Residual learning based CNN for gesture recognition in robot interaction
Shashidhar et al. Indian sign language recognition using 2-d convolution neural network and graphical user interface
CN112073582B (zh) 基于触摸行为序列的智能手机使用情境识别方法
CN101604378A (zh) 一种用于联机手写汉字识别的汉字笔画特征串行提取方法
Rayeed et al. Bangla sign digits recognition using depth information
Kulkarni Dynamic sign language translating system using deep learning and natural language processing
CN109977777B (zh) 基于新型RF-Net模型的手势识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180227