CN105740823B - 基于深度卷积神经网络的动态手势轨迹识别方法 - Google Patents
基于深度卷积神经网络的动态手势轨迹识别方法 Download PDFInfo
- Publication number
- CN105740823B CN105740823B CN201610069836.6A CN201610069836A CN105740823B CN 105740823 B CN105740823 B CN 105740823B CN 201610069836 A CN201610069836 A CN 201610069836A CN 105740823 B CN105740823 B CN 105740823B
- Authority
- CN
- China
- Prior art keywords
- gesture track
- gesture
- point sequence
- convolutional neural
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012706 support-vector machine Methods 0.000 claims abstract description 16
- 230000002159 abnormal effect Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 230000007717 exclusion Effects 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 11
- 230000002441 reversible effect Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 230000002146 bilateral effect Effects 0.000 claims description 3
- 238000000546 chi-square test Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 abstract 2
- 238000001514 detection method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 11
- 238000011176 pooling Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 210000003128 head Anatomy 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 210000004087 cornea Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于深度卷积神经网络的动态手势轨迹识别方法,包括:采集原始输入的手势轨迹点序列进行预处理,检测手势轨迹点序列的异常点并排除;对预处理后的手势轨迹点序列进行边缘化处理,生成归一化手势轨迹图,利用已训练的深度卷积神经网络模型提取归一化手势轨迹图的深度特征;利用已训练的支持向量机识别出对应的手势轨迹点序列的形状类型;利用树形分类器依据手势轨迹点序列的形状类型划分未知方向类型;对识别出来的形状类型和方向类型进行融合,生成手势轨迹点序列的融合轨迹识别结果。本发明采用形状识别和方向识别,对手势轨迹点序列提供带有方向的动态手势识别服务,动态手势轨迹识别工作不受时空差异的影响、分类更加细致。
Description
技术领域
本发明涉及计算机视觉及模式识别技术领域,特别涉及一种基于深度卷积神经网络的动态手势轨迹识别方法。
背景技术
随着人工智能新技术和输入输出设备新工艺的不断涌现,人机交互技术正朝着智能自动化的方向快速迈进,由原来计算机为中心的机械交互技术发展成以人为中心的多通道多媒体的智能交互技术上来。这些新型人机交互技术摆脱了旧有机械交互的束缚,越来越得到广大受众的喜爱,如皮肤显示器、指纹或角膜识别安全防护、眼动交互仪等。
手势,作为人们常用的沟通方式是一种具有强大潜力的人机自然交互方式。从时间角度,手势可分为静态手势和动态手势。静态手势可以看成是动态手势的基元,在连续一段时间内构成动态手势。理论上,研究动态手势就是要在时空上建立精确的关联模型。然而,由于手的非刚性,手势的几何特征很难得到广义的精细量化。故通常学者限定动态手势识别为判定手心依时序的动态空间轨迹类别,即动态手势被定义为参数空间中的手势轨迹,识别便是对手部运动的时空轨迹的类型划分。
动态手势的时空特性引起的手势轨迹识别,在持续时间和空间幅度上,同一手势很难有精确的界限范围,不同手势也不能武断有相异的时段。很多时候,即使由同一个人在连续时间刻意保持一致地做相同手势,也不免存在上述两个方面的差异。这造成手势轨迹的非线性波动,但克服时空特性的不稳定性影响却必须予以考虑,使得这项任务变得十分艰巨。
动态手势识别的方法分为四种:
第一,基于模板匹配的方法:将已知的手势轨迹作模板,利用模板匹配算法对待测的手势轨迹进行分类,它的性能依赖模板库的多样性和丰富性。这种方法具有高精度,但同时大幅降低了速度。
第二,基于结构知识的方法:需要提取手势轨迹的边缘和区域特征作为输入,利用先前的几何特征模型对输入特征进行度量识别。由于动态手势时空特性,这种方法的几何特征不易建立。
第三,基于统计特征的方法:先利用统计学和机器学习原理对大量样本进行训练处理得到分类器,然后使用分类器对未知样本进行类型划分。这种方法比较常见,如隐马尔可夫模型、人工神经网络、支持向量机等,但存在各种不同的问题。
第四,基于有限状态机的方法:通过手势轨迹的有限状态机,实现对预定义轨迹的判断。这种方法难点在于构建有效的特征字典和有限状态机模型。
专利(申请号:201310585572.6;名称:一种基于隐马尔科夫模型自增量学习的动态手势识别方法)公开了一种识别手势操作人在摄像头前完成的动态手势操作,并能将识别后的手势数据用于旧模型的增量学习以调整模型参数中的技术方案,可以使旧模型能动态适应未来手势数据中产生的新变化,使得模型能不断随着手势数据的调整。但是该方案仍是基于隐马尔可夫模型,只对轨迹点序列组成的状态空间关系感兴趣,造成多种案例划分为同一类型,识别结果粗糙,不够精确。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种基于深度卷积神经网络的动态手势轨迹识别方法,采用形状识别和方向识别,对手势轨迹点序列提供带有方向的动态手势识别服务,由于层次性功能分解、卷积神经网络和树形分类器的作用,使得动态手势轨迹识别工作不受时空差异的影响、分类更加细致。
为了实现上述目的,本发明一方面的实施例提供一种基于深度卷积神经网络的动态手势轨迹识别方法,包括如下步骤:
步骤S1,采集原始输入的手势轨迹点序列,对所述手势轨迹点序列进行预处理,检测出所述手势轨迹点序列中的异常点,并进行排除;
步骤S2,对所述预处理后的手势轨迹点序列进行边缘化处理,生成归一化手势轨迹图,训练深度卷积神经网络,利用已训练的深度卷积神经网络模型提取所述归一化手势轨迹图的深度特征;
步骤S3,利用已训练的支持向量机对所述归一化手势轨迹图的深度特征进行类型划分,以识别出对应的手势轨迹点序列的形状类型;
步骤S4,利用树形分类器依据所述手势轨迹点序列的形状类型,构造出相同形状类型的不同方向的划分模型,对所述预处理后的手势轨迹点序列的多个主几何方向,依据不同方向的划分模型识别出对应的手势轨迹点序列的方向类型;
步骤S5,对识别出来的形状类型和方向类型进行融合,生成所述手势轨迹点序列的融合轨迹识别结果。
进一步,在所述步骤S1中,所述对手势轨迹点序列进行预处理,包括如下步骤:
计算所述手势轨迹点序列中相邻手势轨迹点对的欧氏距离,得到多组点对距离序列;
计算所述多组点对距离序列的平均距离和方差;
设所述多组点对距离序列服从正态分布,根据所述平均距离和方差构造卡方检验统计量,利用双边检验原理,在置信水平为0.05下求导出置信区间;
判断每组点对距离序列是否位于所述置信区间内,如果是,则判断该组点对距离序列对应的点位异常点,进行排除处理。
进一步,在所述步骤S2中,所述对预处理后的手势轨迹点序列进行边缘化处理,包括如下步骤:
对所述预处理后的多组点对距离序列进行遍历,查找所述预处理后的多组点对距离序列中的最大值;
以所述最大值为内圆半径,取所述手势轨迹点序列中的各点为中心的正方形,对该正方形的每个点设置数值,其中,同一点处的数值可叠加计算;
将数值大于2的各个点映射到手势轨迹图上,并利用3x3的中通卷积核对手势轨迹图进行平滑处理,再利用形态学的闭运算对所述手势轨迹图进行处理,将所述手势轨迹图归一化为预设尺寸,生成所述归一化手势轨迹图。
进一步,在所述步骤S2中,训练深度卷积神经网络模型,包括如下步骤:
利用深度卷积神经网络模型抽取所有样本的深度特征;
利用训练数据集的特征,结合线性支持向量机,对每种动态轨迹形状类型均训练一个线性支持向量机模型;
测试各个类型的线性支持向量机模型,根据测试结果判定预测率是否达标,若没有则将负样本的特征加入到相应的训练数据集中,返回上一步,直至预测率全部达标。
进一步,在所述步骤S2中,所述利用已训练的深度卷积神经网络模型提取所述归一化手势轨迹图的深度特征,包括如下步骤:
将所述归一化手势轨迹图作为样本输入至已训练的深度卷积神经网络模型中;
利用所述已训练的深度卷积神经网络模型对所述归一化手势轨迹图进行特征提取,以所述深度卷积神经网络的全连接层输出的特征元素,作为所述归一化手势轨迹图的深度特征。
进一步,在所述步骤S5中,所述树形分类器包括以下方向识别分支条件:用于判断左右运动的左右横段形条件、用于判断上下运动的上下竖段形条件、用于判断顺时针和逆时针运动的椭圆形条件、用于判断L状自上而下运动的L形条件和用于判断反L状自上而下运动的反L形条件。
进一步,在所述左右横段形条件下:将预处理后的手势轨迹点序列的首尾两点形成一个二维矢量,利用单位向量(1,0)对该二维矢量进行内积运算,如果内积结果大于0,则判断所述手势轨迹点序列为向右运动,否则为向左运动。
进一步,在所述上下竖段形条件下:将预处理后的手势轨迹点序列的首尾两点形成一个二维矢量,利用单位向量(0,1)对该二维矢量进行卷积操作,如果卷积结果大于0,则判断所述手势轨迹点序列为向上运动,否则为向下运动。
进一步,在所述椭圆形条件下:在预处理后的手势轨迹点序列中依次选取三个点,分别记为q0(x0,y0)、q1(x1,y1)和q2(x2,y2),判断f(q0,q1,q2)的结果,
其中,为q1点到q0点的向量,为向量的有向法向量,定义为s(x)为符号函数,
若f(q0,q1,q2)大于0,则判断所述手势轨迹点序列为顺时针运动,否则为逆时针运动。
根据本发明实施例的基于深度卷积神经网络的动态手势轨迹识别方法,以原始的带有噪音的手势轨迹点序列作为输入,先后通过预处理、深度特征提取、形状识别和方向识别得到手势轨迹的类型。本发明具有以下有益效果:
第一,提供形状识别和方向识别的功能划分。现有的隐马尔可夫模型或有限状态机通常只是对轨迹点序列组成的状态空间关系感兴趣,造成多种案例划分为同一类型。而本发明分解为形状和方向识别,从而使得工作更加具体细致。
第二,采用深度卷积神经网络模型提取手势轨迹点序列的深度特征。特征的构造不再依赖设计实现人员的单一经验,而是通过在大量数据中学习查找显著的特征。同时,卷积神经网络模型通过局域感受野、权值共享与降采样等技术方法的结合,对光照变化、位移、缩放和扭曲等方面,具有一定的鲁棒性,即容忍有轻微变化的模式或简单几何形变。此外,训练后的卷积神经网络模型以较小的计算代价提取待检区域的深度特征。
第三,利用树形分类器对手势轨迹点序列进行方向识别,从而弥补了基于计算机视觉处理方法的缺憾,不仅能够得到精确形状类型,还可以增加了方向的维度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于深度卷积神经网络的动态手势轨迹识别方法的流程图;
图2为根据本发明实施例的动态手势轨迹识别的框架图;
图3为根据本发明实施例的深度卷积神经网络的层次结构图;
图4为根据本发明实施例的深度卷积神经网络中C1和P2层的关联方法图;
图5为根据本发明实施例的线性支持向量机的训练流程图;
图6(a)至图6(h)为根据本发明实施例的8种动态手势轨迹的示例图;
图7为根据本发明实施例的树形分类器的层次架构图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明实施例提供一种基于深度卷积神经网络的动态手势轨迹识别方法,该方法通过对手势轨迹点序列的预处理后,对手势轨迹点序列进行形状和方向识别,融合识别结果,生成更加精细的动态手势类型判别结果。
如图1和图2所示,本发明实施例的基于深度卷积神经网络的动态手势轨迹识别方法,包括如下步骤:
步骤S1,采集原始输入的手势轨迹点序列,对手势轨迹点序列进行预处理,检测出手势轨迹点序列中的异常点,并进行排除。
由于原始输入的手势轨迹点序列中存在噪声,在对这些点序列进行特征提取前,需要滤除其中的异常点。本步骤利用手势运动的时空局部性原理,通过规定在一定的采样频率下相邻轨迹点对的距离不应超出一定范围,来检测出异常点,并进行排除。因手势的空间幅度存在差异性,所以上述选取的距离范围需要动态量化,不能简单的定义为固定区间。在本发明中,根据距离的一致性原则,轨迹点对的距离可以采用点对坐标的欧氏距离。
具体地,对手势轨迹点序列进行预处理,包括如下步骤:
首先,计算手势轨迹点序列中相邻手势轨迹点对的欧氏距离,得到多组点对距离序列。
其中,任意轨迹点对(p(xi,yi),p(xj,yj))的欧氏距离如下:
然后,计算多组点对距离序列的平均距离和方差等统计参数。
其次,设多组点对距离序列服从正态分布,根据平均距离和方差构造卡方检验统计量,利用双边检验原理,在置信水平为0.05下求导出置信区间。
需要说明的是,求导出的置信区间即为排除距离的动态范围。
最后,判断每组点对距离序列是否位于置信区间内,如果是,则判断该组点对距离序列对应的点位异常点,进行排除处理。
通过上述方式,可以将原始输入的手势轨迹点序列中的噪声滤除,达到平滑点序列的目的,并且可以够减少后续步骤的误判。
步骤S2,对预处理后的手势轨迹点序列进行边缘化处理,生成归一化手势轨迹图,训练深度卷积神经网络,利用已训练的深度卷积神经网络模型提取归一化手势轨迹图的深度特征。
由于手势轨迹点序列,如果只用直线连接会造成归一化断裂,或者由于手势时空差异导致出现严重边缘锐化现象,此时需要给定相邻轨迹点对间的边缘生成策略。即,将预处理后的手势轨迹点序列转化生成归一化手势轨迹图。
对预处理后的手势轨迹点序列进行边缘化处理,包括如下步骤:
首先,对预处理后的多组点对距离序列进行遍历,查找预处理后的多组点对距离序列中的最大值。
然后,以最大值为内圆半径,取手势轨迹点序列中的各点为中心的正方形,对该正方形的每个点设置数值,其中,同一点处的数值可叠加计算。
最后,将数值大于2的各个点映射到手势轨迹图上,并利用3x3的中通卷积核对手势轨迹图进行平滑处理,再利用形态学的闭运算对手势轨迹图进行处理,将手势轨迹图归一化为预设尺寸,生成归一化手势轨迹图。
在本发明的一个实施例中,预设尺寸为32x32。即,根据卷积神经网络结构的要求,将手势轨迹图归一化成32x32尺寸大小,生成归一化手势轨迹图。
为实现利用深度卷积申请网络模型对手势轨迹序列点的深度特征提取,首先需要训练深度卷积神经网络模型。
在深度特征提取中,深度卷积神经网络的训练分为两个步骤:第一,正向的参数初始化;第二,逆向的动态调整。
首先,训练深度网络的数据集,包括5个子集:左右横段形(对应左右运动)、上下竖段形(对应上下运动)、椭圆形(对应顺逆时针运动)、L形(对应自上而下L形运动)和反L形(对应自上而下反L形运动)。每个子集各有500个样本,该500个样本的要求是多样但无歧义。
图3为根据本发明实施例的深度卷积神经网络模型的层次结构图。
如图3所示,深度卷积神经网络模型依次为:输入层(input)、卷积层(convolution)、最大池化层(max pooling)、全连接层(full connected)和输出层(output)。
该深度卷积神经网络模型的基本参数如下:
输入层:32x32大小的单通道灰度图;
第一层卷积层(C1):5x5大小的卷积核,共16个;
第二层最大池化层(P2):2x2的核;
第三层卷积层(C3):3x3大小的卷积核,共32个;
第四层最大池化层(P4):2x2的核;
第五层卷积层(C5):3x3大小的卷积核,共64个;
第六层最大池化层(P6):2x2的核;
第七层卷积层(C7):2x2大小的卷积核,共90个;
第八层全连接层(F8):180维,将P6和C7的输出联合生成该层;
输出层:维数由训练动态手势轨迹的种类而定。
具体地,输出层的维数取决于子集的个数。由于本发明的深度网络的数据集包括5个子集,则输出层的维数为5。需要说明的是,在本发明方法中,输出层的使用仅限于参数训练。
在本发明的实施例中,卷积层(convolution)的操作,其数学形式下所示:
其中,xj和ci分别为第j个输入特征图和第i个输出特征图,当为第1层卷积操作时j仅能为0,表示原灰度图,kij表示第j个输入特征图和第i个输出特征图的卷积核,符号*指卷积运算,bi表示第i个输出特征图的偏置系数,r表示共享权重的局部区域。
需要说明的是,本卷积层的操作在隐藏神经元中使用了ReLU非线性函数,即c=max(0,x)。
在本发明的实施例中,卷积神经网络所有最大池化层的操作对应数学公式如下:
其中,为第i个输出特征图pi池的任意神经元。s×s为第i个输入特征图xi的非重叠局部关联块的尺寸。图4为C1层和P2层的关联方法示意图。其中,C1层为图3中左起第一个卷积层(convolution),P2为图3中左起第一个最大池化层(max pooling)。
在本发明的实施例中,卷积神经网络全连接层的操作对应数学公式如下:
其中,(x1,w1)和(x2,w2)分别为第6层最大池化层和第7层卷积层的神经元和相应权重。bi表示第i个输出特征元素fi的偏置系数。
在本发明的实施例中,卷积神经网络输出层(output)在n类输出的预测概率可以表示如下:
其中,表达了第j类输出的计算方法,x表示全连接层特征,ωj指的是第j类输出的权重序列,bj为相应的偏置系数。
图5为根据本发明实施例的线性支持向量机的训练流程图。
训练所需的数据集可以分为正样本数据集和负样本数据集,构造如下:
正样本数据集为每种形状类型2500个,共计12500个。负样本数据集为每种形状类型除自身外,其他形状类型的样本数据组织成为负样本。并且,
数据集又分为训练数据集和测试数据集:训练数据集为每种形状类型各500个;测试数据集则为每种形状类型2000个。
首先,利用深度卷积神经网络模型抽取所有样本的深度特征,并进行类型标记和存储;
然后,利用训练数据集的特征,结合线性支持向量机,对每种动态轨迹形状类型均训练一个线性支持向量机模型。
最后,测试各个类型的线性支持向量机模型,根据测试结果判定预测率是否达标,若没有则将负样本的特征加入到相应的训练数据集中,返回上一步,直至预测率全部达标,从而获得已训练的深度卷积神经网络模型。
利用已训练的深度卷积神经网络模型提取归一化手势轨迹图的深度特征,包括如下步骤:
首先,将归一化手势轨迹图作为样本输入至已训练的深度卷积神经网络模型中。
然后,利用已训练的深度卷积神经网络模型对归一化手势轨迹图进行特征提取,以深度卷积神经网络的全连接层(倒数第二层)输出的特征元素,作为归一化手势轨迹图的深度特征进行提取(即180维)。
本发明结合基于统计特征的方法和基于结构知识的方法的优点,将手势轨迹的类型判别层次化为形状识别和方向识别。下面结合步骤S3和步骤S4对形状识别和方向识别进行说明。
步骤S3,利用已训练的支持向量机对归一化手势轨迹图的深度特征进行类型划分,器输出类型,即可以识别为对应的手势轨迹点序列的形状类型。
步骤S4,利用树形分类器依据手势轨迹点序列的形状类型,构造出相同形状类型的不同方向的划分模型,对预处理后的手势轨迹点序列的多个主几何方向,依据不同方向的划分模型识别出对应的手势轨迹点序列的方向类型。
需要指出的是,方向识别需要在形状识别之后进行,即需要在已知手势轨迹点序列的形状类型情况下,对手势轨迹点序列的方向进行识别。
图6给出8种动态手势的示意图,包括向右运动(如图6(a)所示)、向左运动(如图6(b)所示)、向下运动(如图6(c)所示)、向上运动(如图6(d)所示)、顺时针椭圆运动(如图6(e)所示)、逆时针椭圆运动(如图6(f)所示)、L自上而下运动(如图6(g)所示)和反L自上而下运动(如图6(h)所示)。
在方向识别中,将手势轨迹点序列的几何基元归结为两种:通开状和闭合状。通开状典型的是左右上下等运动的轨迹图,闭合状则是绕着椭圆、矩形等闭合态几何形状运动的轨迹图。此外,还有可能是二者的结合体。
首先通过观察手势轨迹点走势,构造方向的树形分类器。然后利用树形分类器依据手势轨迹点序列的形状类型,构造出相同形状类型的不同方向的划分模型,对预处理后的手势轨迹点序列的多个主几何方向,依据不同方向的划分模型识别出对应的手势轨迹点序列的方向类型。即,对相同形状类型的不同方向,如左右、上下、顺时针或逆时针等。
图7为根据本发明实施例的树形分类器的层次架构图。该三层树形分类器是依据图6(a)至图6(h)中的8种动态手势构造而成。
如图7所示,树形分类器包括以下方向识别分支条件:用于判断左右运动的左右横段形条件、用于判断上下运动的上下竖段形条件、用于判断顺时针和逆时针运动的椭圆形条件、用于判断L状自上而下运动的L形条件和用于判断反L状自上而下运动的反L形条件。
需要说明的是,判断L状自上而下运动和判断反L状自上而下运动,均在步骤S3中的形状识别中完成。左右横段形、上下竖段形和椭圆形在步骤S4中完成。
在左右横段形条件下:将预处理后的手势轨迹点序列的首尾两点形成一个二维矢量,利用单位向量(1,0)对该二维矢量进行内积运算,如果内积结果大于0,则判断手势轨迹点序列为向右运动,否则为向左运动。
在上下竖段形条件下:将预处理后的手势轨迹点序列的首尾两点形成一个二维矢量,利用单位向量(0,1)对该二维矢量进行卷积操作,如果卷积结果大于0,则判断手势轨迹点序列为向上运动,否则为向下运动。
在椭圆形条件下:在预处理后的手势轨迹点序列中依次选取三个点,分别记为q0(x0,y0)、q1(x1,y1)和q2(x2,y2),判断f(q0,q1,q2)的结果,
其中,为q1点到q0点的向量,。为向量的有向法向量,定义为s(x)为符号函数,
若f(q0,q1,q2)大于0,则判断手势轨迹点序列为顺时针运动,否则为逆时针运动。
步骤S5,对识别出来的形状类型和方向类型进行融合,生成手势轨迹点序列的融合轨迹识别结果,包括:生成手势轨迹点序列的相应具体类型,如向右挥动、顺时针运动等。
需要说明的是,动态手势轨迹识别的类型可以由用户根据需求进行个性化定制,从而具有较广应用范围。
本发明采用形状识别和方向识别,不同于以往动态手势轨迹的识别方法,该方法结合基于统计特征和基于结构知识两种方法的优点,对手势轨迹点序列提供带有方向的动态手势识别服务。由于层次性功能分解、卷积神经网络和树形分类器的作用,使得动态手势轨迹识别工作不受时空差异的影响、分类更加细致,不仅能够具有隐马尔可夫模型和有限状态机的优点,即避免手势时空差异的影响,而且能够进一步精确地阐述手势轨迹点序列类型。现有技术没有应用方向识别步骤,导致仅能告诉用户或计算机,诸如水平运动、垂直运动、矩形闭合运动等方式。而本发明采用方向识别,从而可以识别诸如向右运动、向上运动、顺时针矩形闭合运动等更明确的运动方式。
根据本发明实施例的基于深度卷积神经网络的动态手势轨迹识别方法,以原始的带有噪音的手势轨迹点序列作为输入,先后通过预处理、深度特征提取、形状识别和方向识别得到手势轨迹的类型。本发明具有以下有益效果:
第一,提供形状识别和方向识别的功能划分。现有的隐马尔可夫模型或有限状态机通常只是对轨迹点序列组成的状态空间关系感兴趣,造成多种案例划分为同一类型。而本发明分解为形状和方向识别,从而使得工作更加具体细致。
第二,采用深度卷积神经网络模型提取手势轨迹点序列的深度特征。特征的构造不再依赖设计实现人员的单一经验,而是通过在大量数据中学习查找显著的特征。同时,卷积神经网络模型通过局域感受野、权值共享与降采样等技术方法的结合,对光照变化、位移、缩放和扭曲等方面,具有一定的鲁棒性,即容忍有轻微变化的模式或简单几何形变。此外,训练后的卷积神经网络模型以较小的计算代价提取待检区域的深度特征。
第三,利用树形分类器对手势轨迹点序列进行方向识别,从而弥补了基于计算机视觉处理方法的缺憾,不仅能够得到精确形状类型,还可以增加了方向的维度。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求极其等同限定。
Claims (9)
1.一种基于深度卷积神经网络的动态手势轨迹识别方法,其特征在于,包括如下步骤:
步骤S1,采集原始输入的手势轨迹点序列,对所述手势轨迹点序列进行预处理,检测出所述手势轨迹点序列中的异常点,并进行排除;
步骤S2,对所述预处理后的手势轨迹点序列进行边缘化处理,生成归一化手势轨迹图,训练深度卷积神经网络,利用已训练的深度卷积神经网络模型提取所述归一化手势轨迹图的深度特征;
步骤S3,利用已训练的支持向量机对所述归一化手势轨迹图的深度特征进行类型划分,以识别出对应的手势轨迹点序列的形状类型;
步骤S4,利用树形分类器依据所述手势轨迹点序列的形状类型,构造出相同形状类型的不同方向的划分模型,对所述预处理后的手势轨迹点序列的运动方向进行拟合,依据不同方向的划分模型识别出对应的手势轨迹点序列的运动方向类型;
步骤S5,对识别出来的形状类型和方向类型进行融合,生成所述手势轨迹点序列的融合轨迹识别结果。
2.如权利要求1所述的基于深度卷积神经网络的动态手势轨迹识别方法,其特征在于,在所述步骤S1中,所述对手势轨迹点序列进行预处理,包括如下步骤:
计算所述手势轨迹点序列中相邻手势轨迹点对的欧氏距离,得到多组点对距离序列;
计算所述多组点对距离序列的平均距离和方差;
设所述多组点对距离序列服从正态分布,根据所述平均距离和方差构造卡方检验统计量,利用双边检验原理,在显著性水平为0.05下求导出置信区间;
判断每组点对距离序列是否位于所述置信区间内,如果是,则判断该组点对距离序列对应的点位异常点,进行排除处理。
3.如权利要求1所述的基于深度卷积神经网络的动态手势轨迹识别方法,其特征在于,在所述步骤S2中,所述对预处理后的手势轨迹点序列进行边缘化处理,包括如下步骤:
对所述预处理后的多组点对距离序列进行遍历,查找所述预处理后的多组点对距离序列中的最大值;
以所述最大值为内切圆半径,以所述手势轨迹点序列中的各点为中心得到正方形,对该正方形中的每个手势轨迹点进行累加计值;
将数值大于2的各个点映射到手势轨迹图上,并利用3x3的中通卷积核对手势轨迹图进行平滑处理,再利用形态学的闭运算对所述手势轨迹图进行处理,将所述手势轨迹图归一化为预设尺寸,生成所述归一化手势轨迹图。
4.如权利要求1所述的基于深度卷积神经网络的动态手势轨迹识别方法,其特征在于,在所述步骤S2中,训练深度卷积神经网络模型,包括如下步骤:
利用深度卷积神经网络模型抽取所有样本的深度特征;
利用训练数据集的特征,结合线性支持向量机,对每种动态轨迹形状类型均训练一个线性支持向量机模型;
测试各个类型的线性支持向量机模型,根据测试结果判定预测率是否达标,若没有则将负样本的特征加入到相应的训练数据集中,返回上一步,直至预测率全部达标。
5.如权利要求1所述的基于深度卷积神经网络的动态手势轨迹识别方法,其特征在于,在所述步骤S2中,所述利用已训练的深度卷积神经网络模型提取所述归一化手势轨迹图的深度特征,包括如下步骤:
将所述归一化手势轨迹图作为样本输入至已训练的深度卷积神经网络模型中;
利用所述已训练的深度卷积神经网络模型对所述归一化手势轨迹图进行特征提取,以所述深度卷积神经网络的全连接层输出的特征元素,作为所述归一化手势轨迹图的深度特征。
6.如权利要求1所述的基于深度卷积神经网络的动态手势轨迹识别方法,其特征在于,在所述步骤S5中,所述树形分类器包括以下方向识别分支条件:用于判断左右运动的左右横段形条件、用于判断上下运动的上下竖段形条件、用于判断顺时针和逆时针运动的椭圆形条件、用于判断L状自上而下运动的L形条件和用于判断反L状自上而下运动的反L形条件。
7.如权利要求6所述的基于深度卷积神经网络的动态手势轨迹识别方法,其特征在于,
在所述左右横段形条件下:将预处理后的手势轨迹点序列的首尾两点形成一个二维矢量,利用单位向量(1,0)对该二维矢量进行内积运算,如果内积结果大于0,则判断所述手势轨迹点序列为向右运动,否则为向左运动。
8.如权利要求6所述的基于深度卷积神经网络的动态手势轨迹识别方法,其特征在于,
在所述上下竖段形条件下:将预处理后的手势轨迹点序列的首尾两点形成一个二维矢量,利用单位向量(0,1)对该二维矢量进行卷积操作,如果卷积结果大于0,则判断所述手势轨迹点序列为向上运动,否则为向下运动。
9.如权利要求6所述的基于深度卷积神经网络的动态手势轨迹识别方法,其特征在于,
在所述椭圆形条件下:在预处理后的手势轨迹点序列中依次选取三个点,分别记为q0(x0,y0)、q1(x1,y1)和q2(x2,y2),判断f(q0,q1,q2)的结果,
其中,为q1点到q0点的向量,为向量的有向法向量,定义为s(x)为符号函数,
若f(q0,q1,q2)大于0,则判断所述手势轨迹点序列为顺时针运动,否则为逆时针运动。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610069836.6A CN105740823B (zh) | 2016-02-01 | 2016-02-01 | 基于深度卷积神经网络的动态手势轨迹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610069836.6A CN105740823B (zh) | 2016-02-01 | 2016-02-01 | 基于深度卷积神经网络的动态手势轨迹识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105740823A CN105740823A (zh) | 2016-07-06 |
CN105740823B true CN105740823B (zh) | 2019-03-29 |
Family
ID=56241803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610069836.6A Expired - Fee Related CN105740823B (zh) | 2016-02-01 | 2016-02-01 | 基于深度卷积神经网络的动态手势轨迹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105740823B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485215B (zh) * | 2016-09-29 | 2020-03-06 | 西交利物浦大学 | 基于深度卷积神经网络的人脸遮挡检测方法 |
CN108228670A (zh) * | 2016-12-22 | 2018-06-29 | 航天信息股份有限公司 | 一种基于轨迹相似度的目标对象关系识别方法和系统 |
CN106951089A (zh) * | 2017-03-28 | 2017-07-14 | 深圳市石代科技有限公司 | 手势交互方法及系统 |
CN107024685A (zh) * | 2017-04-10 | 2017-08-08 | 北京航空航天大学 | 一种基于距离‑速度特征的手势识别方法 |
CN109214250A (zh) * | 2017-07-05 | 2019-01-15 | 中南大学 | 一种基于多尺度卷积神经网络的静态手势识别方法 |
CN107463878A (zh) * | 2017-07-05 | 2017-12-12 | 成都数联铭品科技有限公司 | 基于深度学习的人体行为识别系统 |
CN109271838B (zh) * | 2018-07-19 | 2020-11-03 | 重庆邮电大学 | 一种基于fmcw雷达的三参数特征融合手势识别方法 |
CN109343701A (zh) * | 2018-09-03 | 2019-02-15 | 电子科技大学 | 一种基于动态手势识别的智能人机交互方法 |
CN109522874B (zh) * | 2018-12-11 | 2020-08-21 | 中国科学院深圳先进技术研究院 | 人体动作识别方法、装置、终端设备及存储介质 |
CN111476058B (zh) * | 2019-01-23 | 2024-05-14 | 北京邮电大学 | 一种基于毫米波雷达的手势识别方法 |
CN111563401A (zh) * | 2019-02-14 | 2020-08-21 | 上海汽车集团股份有限公司 | 一种车载手势识别方法、系统、存储介质及电子设备 |
CN110348319B (zh) * | 2019-06-18 | 2021-05-04 | 武汉大学 | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 |
CN110765835A (zh) * | 2019-08-19 | 2020-02-07 | 中科院成都信息技术股份有限公司 | 一种基于边缘信息的手术视频流程识别方法 |
CN110569620B (zh) * | 2019-09-17 | 2022-11-11 | 哈尔滨千帆科技有限公司 | 一种混合模型的动态可视化系统及方法 |
CN110908581B (zh) * | 2019-11-20 | 2021-04-23 | 网易(杭州)网络有限公司 | 手势识别的方法及装置、计算机存储介质、电子设备 |
CN113449573A (zh) * | 2020-03-27 | 2021-09-28 | 华为技术有限公司 | 一种动态手势识别方法及设备 |
CN113419621B (zh) * | 2020-11-12 | 2023-05-02 | 浙江大学 | 异常行为检测、页面、手势处理方法、装置及电子设备 |
CN112231431B (zh) * | 2020-12-11 | 2021-03-23 | 江苏苏宁银行股份有限公司 | 一种异常地址识别方法、设备和计算机可读存储介质 |
CN116414289B (zh) * | 2023-06-12 | 2023-08-22 | 上海海栎创科技股份有限公司 | 一种基于触控芯片的手势识别系统及方法 |
CN116912861B (zh) * | 2023-07-24 | 2024-06-14 | 广州炫视智能科技有限公司 | 一种手绘几何图形的识别方法、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103513759A (zh) * | 2012-06-21 | 2014-01-15 | 富士通株式会社 | 手势轨迹识别方法和装置 |
CN104573621A (zh) * | 2014-09-30 | 2015-04-29 | 李文生 | 基于Chebyshev神经网络的动态手势学习和识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8582807B2 (en) * | 2010-03-15 | 2013-11-12 | Nec Laboratories America, Inc. | Systems and methods for determining personal characteristics |
-
2016
- 2016-02-01 CN CN201610069836.6A patent/CN105740823B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103513759A (zh) * | 2012-06-21 | 2014-01-15 | 富士通株式会社 | 手势轨迹识别方法和装置 |
CN104573621A (zh) * | 2014-09-30 | 2015-04-29 | 李文生 | 基于Chebyshev神经网络的动态手势学习和识别方法 |
Non-Patent Citations (4)
Title |
---|
A Convolutional Neural Network Hand Tracker;SJ Nowlan等;《Advances in Neural Information Processing Systems》;19951231;第901-908页 |
一种快速的动态手势学习和识别方法;李文生等;《南京大学学报(自然科学)》;20120731;第48卷(第4期);第421-427页 |
基于卷积神经网络的手势识别初探;蔡娟等;《计算机系统应用》;20150430;第24卷(第4期);第113-117页 |
基于神经网络运动轨迹识别系统;林梅燕等;《微计算机信息》;20100630;第26卷(第6-1期);第177-179页 |
Also Published As
Publication number | Publication date |
---|---|
CN105740823A (zh) | 2016-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105740823B (zh) | 基于深度卷积神经网络的动态手势轨迹识别方法 | |
Hasan et al. | RETRACTED ARTICLE: Static hand gesture recognition using neural networks | |
CN104834922B (zh) | 基于混合神经网络的手势识别方法 | |
Ibraheem et al. | Survey on various gesture recognition technologies and techniques | |
Calhoun et al. | Recognizing multi-stroke symbols | |
US20190318158A1 (en) | Multi-pose face feature point detection method based on cascade regression | |
CN109325454A (zh) | 一种基于YOLOv3的静态手势实时识别方法 | |
CN107103326A (zh) | 基于超像素聚类的协同显著性检测方法 | |
CN102708380B (zh) | 一种基于机器视觉的室内一般物体识别方法 | |
CN104834941A (zh) | 基于计算机输入下的稀疏自编码的脱机手写体识别方法 | |
Jambhale et al. | Gesture recognition using DTW & piecewise DTW | |
Mahmood et al. | A Comparative study of a new hand recognition model based on line of features and other techniques | |
CN107169117A (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN109993770A (zh) | 一种自适应时空学习与状态识别的目标跟踪方法 | |
AlKhuraym et al. | Arabic sign language recognition using lightweight cnn-based architecture | |
Berio et al. | Calligraphic stylisation learning with a physiologically plausible model of movement and recurrent neural networks | |
Liu et al. | A image segmentation algorithm based on differential evolution particle swarm optimization fuzzy c-means clustering | |
CN110610138A (zh) | 一种基于卷积神经网络的面部情感分析方法 | |
Cho et al. | Interpretation of deep temporal representations by selective visualization of internally activated nodes | |
Munasinghe | Dynamic hand gesture recognition using computer vision and neural networks | |
Dong et al. | Fusing multilevel deep features for fabric defect detection based NTV-RPCA | |
CN109886164B (zh) | 一种异常手势的识别与处理方法 | |
Mahmoud et al. | Towards an end-to-end isolated and continuous deep gesture recognition process | |
Priatama et al. | Hand gesture recognition using discrete wavelet transform and convolutional neural network | |
Xin et al. | Random part localization model for fine grained image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190329 Termination date: 20210201 |