CN103093196B - 一种基于手势的汉字交互输入与识别方法 - Google Patents

一种基于手势的汉字交互输入与识别方法 Download PDF

Info

Publication number
CN103093196B
CN103093196B CN201310012582.0A CN201310012582A CN103093196B CN 103093196 B CN103093196 B CN 103093196B CN 201310012582 A CN201310012582 A CN 201310012582A CN 103093196 B CN103093196 B CN 103093196B
Authority
CN
China
Prior art keywords
chinese character
gesture
vision
vector
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310012582.0A
Other languages
English (en)
Other versions
CN103093196A (zh
Inventor
王祎
樊鑫
李豪杰
罗钟铉
刘斌
贾棋
王智慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201310012582.0A priority Critical patent/CN103093196B/zh
Publication of CN103093196A publication Critical patent/CN103093196A/zh
Application granted granted Critical
Publication of CN103093196B publication Critical patent/CN103093196B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本发明属于计算机视觉和模式识别领域,涉及一种基于手势的汉字交互输入与识别方法。本发明能够让用户在不佩戴任何的硬件设备情况下,通过一个普通网络摄像头,用手作为媒介按照正规书写汉字和词组的规则与顺序来完成汉字的输入、识别与选择等功能。该发明突破了以往键盘输入、接触屏输入、语音输入汉字的局限,对使用者的限制较小,识别准确率较高,作为一种全新的输入方式,在人机界面、数字家庭、游戏与娱乐等领域有着很好的应用前景。

Description

一种基于手势的汉字交互输入与识别方法
技术领域
本发明属于计算机视觉和模式识别领域,涉及一种基于手势的汉字交互输入与识别方法。
背景技术
近二十年来借助于触摸屏幕(板)和手写笔的联机手写识别技术大大增加了汉字输入的实时性与交互性,已经被广泛地置于各种手机、便携计算机终端,用于文字记录、签名验证、图标标注等应用。但使用这种的输入方式,用户还是脱离不开硬件设备,并受到设备(触摸板(屏))的尺寸限制,不能完全达到自然、自由的人机交互目的。而随着计算机视觉技术的不断发展与完善,基于视觉的手势与人体动作的识别与跟踪技术的已成为新型人机交互接口中一个重要的研究方向。用户可以不携带任何硬件设备直接用最自然的手势和肢体语言等与计算机进行交流,例如在如三星、海信等品牌的电视机和微软基于Kinect的游戏中的基于手势的菜单选择和基于肢体动作的视频互动游戏等。
而利用单目视觉(一个摄像机或一个普通摄像头)实时获取人手形态与位置进行汉字的实时交互性输入与识别因成本低廉、实施容易,在数字家庭、游戏、娱乐、助残等领域具有较强的实际应用价值。国内完成类似目的工作有《手写虚拟汉字识别研究及其在多通道短信交互系统中的应用》,华南理工大学博士学位论文,2007年4月。该文所述方法主要通过跟踪食指在简单背景下小范围区域内识别手写汉字,对汉字的输入、选择等控制不能完全用手势进行,应用范围有限、给用户的交互体验感较差,此外该文仅利用了二维手写汉字的脱机图像特征,采用神经网络类分类方法进行汉字识别,存在着训练与识别阶段的存储和计算量较大、对于大汉字集识别效率底等缺点。
目前单目下基于手势汉字自然交互输入与识别方法的难点在于:
(1)有效手势区域的分割与识别。从视频图像中分割出人手部区域是手写汉字的基础。但在比较复杂的背景条件下,如人脸、人体或者其它非用于汉字输入的手部等肤色区域同时存在于视频之中的情况,对有效手势的正确分割与识别具有一定的难度。
(2)汉字输入与交互控制的设计。完全利用手势进行汉字的输入与在纸或触摸屏上书写不同,手势的运动轨迹是连续的,书写汉字过程中没有离开纸面或触摸屏面的动作,视频记录是整个汉字书写的手势轨迹,那么因此形成的汉字除了本身应具有的笔画之外,还多了一些笔画之间的过渡,以及用户无意识的手部动作的轨迹等,这给汉字的识别增加了难度。此外每个汉字的开始与结束也无法通过抬落笔进行判断,所以需要设计具有良好交互性的汉字输入与控制手势并对其进行跟踪识别。
(3)汉字的特征选取与分类器设计。对于复杂汉字在书写时可能出现部首之间的重叠、字体变形、字体以一定角度倾斜、旋转等,所以必须找到满足以上条件的汉字不变性特征作为汉字识别的基础。最后最重要的是设计一种计算复杂度较低的分类器才能保证在联机书写汉字时,在对复杂背景进行手势分割、有效手势识别后,利用汉字特征能快速的在大字集中进行正确检测出汉字,因此汉字特征选取与分类器的设计是整个系统能达到实时自然交互性目的关键。
发明内容
本发明提供一种单目视觉环境下利用手势进行汉字交互输入与识别方法。
本发明的技术方案如下:
一种基于手势的汉字交互输入与识别方法包括预处理部分和联机部分。
一、预处理部分
步骤1:建立视觉汉字特征向量库。
1-1确定待识别汉字范围形成总库RC,根据RC的规模按汉字在日常中的使用频度高低分为k个子字库{Rc0,...,Rck-1},在子库中为每个汉字编号:ci(ci∈Rcj,i=(0,...,n-1)),j=(0,...,k-1))。
1-2建立视觉汉字的方向边谱。
1-2-1在极坐标系下,令视觉汉字方向边的基准向量为集合其中为从原点起始水平向右的第0号方向边的基准向量,用极坐标表示为其中第一分量代表第0号方向边的基准向量的长度,第二分量代表其角度;其它15个方向边的基准向量计算规则如下公式:
d → 4 k + 2 = ( 2 , ( 2 k + 1 ) π / 4 ) , k ∈ [ 0 , . . . , 3 ] ; d → 4 k = ( 1 , kπ / 2 ) , k ∈ [ 0 , . . . , 3 ] ;
d → 1 = ( 3 / 2 , θ 1 = arccos ( 2 / 5 ) ) ; d → 3 = ( 5 / 2 , π / 2 - θ 1 ) ;
d → 5 = ( 5 / 2 , π / 2 + θ 1 ) ; d → 7 = ( 5 / 2 , π - θ 1 ) ;
d → 9 = ( 5 / 2 , π + θ 1 ) ; d → 11 = ( 5 / 2 , π 3 / 2 - θ 1 ) ;
d → 13 = ( 5 / 2 , π 3 / 2 + θ 1 ) ; d → 15 = ( 5 / 2,2 π - θ 1 )
1-2-2记录一个视觉汉字书写过程中的所有方向边,近似量化到这16个基准向量所在方向上,统计每个方向上的方向边的数量,并以增量二维标的形式存到DE={de0,...,de15}中,DE即为视觉汉字的方向边谱,其中dei代表第i个方向上的方向边累增坐标集合:dei={(x0,Y0),...,(xm-1,ym-1)};
例如在方向上:x0=1,y0=0,xm-1=mx0=m,ym-1=my0=0,m为该方向上方向边的数量。
1-3计算方向边谱的Hu矩作为视觉汉字的特征向量HC={hc0,...,hc6}。
1-4重复执行步骤1-2和1-3分别对{Rc0,...,Rck-1}中每个视觉汉字进行处理,为每个子汉字库构建视觉汉字的方向边谱库DeC={DeC0,...,DeCk-1},以及视觉汉字特征向量库HcC={HcC0,...,HcCk-1}。
步骤2:利用一种局部保形映射LPP(Locality Preserving Projections)算法进行维数约减,得到视觉汉字低维流形空间。主要通过训练HcC中的样本计算出一个显示的高维低维映射函数,将HcC中的高维视觉汉字特征向量的局部关系映射到隐含的低维特征子空间中,用于后续视觉汉字的识别过程。算法包括以下步骤:
2-1构造一个二维视觉汉字特征向量相似度矩阵G,横纵轴分别为视觉汉字特征向量编号。
2-1-1计算与每个视觉汉字特征向量HCi(i=0,...,n-1),相似度最高的l个特征向量HCj(j=0,...,l-1)。相似度计算采用公式:
2-1-2采用热核函数其中t为一常数。计算每对HCi与HCj之间的权重值gij(j=0,...,l-1),并且令gij=gji,gii=1。
2-2通过LPP的最小化目标函数过程推导和求得广义特征值的计算,得到高维低维映射矩阵W和高低维映射的显式表达式PT=WTQ(Q为高维特征向量,P为低维特征向量)。根据汉字的方向边谱的二维分布特性,我们选择低维流形为二维空间,因此W为2×7的矩阵。
2-3重复执行步骤2-1和2-2,为k个子汉字库分别训练k个低维流形空间:{Xlow0,...,Xlowk-1}。
步骤3:建立汉字语义联想数据库。通过汉语词汇语义为汉字之间建立关联,减少具有相关语义的汉字的输入量。在该库中每行有14个属性:第一个为汉字序号也是主键,后面依次为1个汉字字符,7个视觉汉字特征向量和5个按照语义概率大小排列的最有可能成词组的汉字序号。
步骤4:训练肤色模型。通过在各种环境光亮度下对多个人手肤色进行采样,训练肤色高斯模型。
二、联机部分,包括视频图像预处理、图像分割获得潜在手势区域、控制手势识别、控制手势跟踪、计算视觉汉字的特征向量和识别视觉汉字。
步骤5:视频图像预处理。对摄像机获得的一帧视频图像进行预处理,包括色彩平衡、图像去噪、肤色提取、二值化和形态学处理,生成一个二值图像,其中肤色的部分作为前景像素(值为1),非肤色的部分作为背景像素(值为0),最后得到肤色区域块集合。
步骤6:图像分割获得潜在手势区域。
6-1为二值图像中的肤色区域分别计算坐标轴向包围盒(AABB,Axis-alignedBounding Box)和中心坐标O(x,y)。
6-2保留AABB面积最大的n(n<=3)个肤色区域块为候选手势区域块。
6-3采用8临域搜索法对n个候选手势区域块进行轮廓搜索,得到n个轮廓像素点集合Pn
6-4采用Douglas-Peucker算法对Pn中的每个轮廓点集进行曲线拟合,得到n个逆时针排列的轮廓线段端点集合BPi(i<=n)。
步骤7:控制手势识别。根据候选手势区域块的三个几何特征进行控制手势识别。
7-1计算第一个几何特征:潜在手势区域的任意轴向包围盒(OBB,OrientedBounding Box)的长宽比例。这个比值能很好的反映手势的大体形状。
7-1-1采用二维的QuickHull算法计算BPi(i<=n)的凸包。
7-1-2计算凸包的任意轴向包围盒OBBi中心、主轴、尺寸以及其长短边长的比例。
7-2计算第二个几何特征:统计OBBi的内总像素与BPi中肤色区域中值为1像素数目之比,这个比率可以很好的反映出手势是闭合的还是张开的。
7-3计算第三个几何特征:潜在手势区域指尖点数目。
7-3-1计算潜在手势区域边缘点上的所有凸性凹陷的起点和终点以及谷底点。分别用二维坐标集合Vsta、Vend和Vmin来存储。
7-3-2去除噪声凸性凹陷。如果一个凸性凹陷的谷底深度小于阈值,则为噪声凸性凹陷。
7-3-3计算指尖集FTip。由于一个凸性凹陷的终点可以近似看成是相邻凸性凹陷的起点,这样前一个凹陷的终点和相邻凹陷的起点可能重合也可能存在很多距离相近的点,算法主要目的是去除这些重复或相近的点。
(1)复制Vsta给FTip。
(2)遍历Vend中所有凹陷的终点。如果某个终点离FTip中某个起点欧式距离小于阈值,则从Vend删除该点,否则把该点加入到FTip中,直到Vend中所有点被考察完。
7-4重复执行7-1到7-3直到BP中每一个候选手势区域块都被考察完毕,返回识别出的控制手势1的OBB包围盒信息OBB{O(x,y),V,length,width},O(x,y)为OBB的中心位置、向量V为主轴方向向量,(length,width)为包围盒的长度和宽度。
步骤8:控制手势跟踪。让操作者以手势1姿态在屏幕中心停留一秒以上,表示要开始视觉汉字的输入。
8-1在检测到手势1停留1秒以后,记下控制手势1的OBB包围盒信息TempOBB={O(x,y),V,length,width}。
8-2如果帧t+1只有一个控制手势1的OBB包围盒,则认为其包含的手势1区域为上一帧的控制手势1,跟踪到手势1的位置,更新TempOBB,转到步骤9。
8-3如果超过一个OBB存在,选择这些OBB中与前一帧TempOBB的距离最近的为当前被跟踪的手势1的OBB,并跟新TempOBB,舍弃其他的OBB包围盒,执行步骤9。
步骤9:计算视觉汉字的特征向量。主要通过获得手势的运动方向、拐点等信息构建视觉汉字特征向量,具体步骤如下:
9-1对于在时刻t0第一次检测出的第一种手势后,读取FTip集合,记指尖在当前帧的位置为S0,在tn时刻的位置为Sn
9-2在t1时刻把向量(S0,S1)作为边初始向量,然后随着时间进行不断判断:
(1)如果向量(St-1,St)与(St,St+1)之间锐角小于阈值γ1并且向量(S0,S1)与(S0,St+1)之间锐角小于阈值γ2,则认为手势正在进行一条方向边的书写,S0还是该边起点,继续跟踪指尖坐标确定终点。
(2)如果向量(St-1,St)与(St,St+1)之间锐角大于阈值γ1,则说明St为一拐点,为该方向边的终点,返回这条方向边的方向为(S0,St)的方向,执行9-3步骤。
(3)如果向量(St-1,St)与(St,St+1)之间锐角小于阈值γ1而向量(S0,S1)与(S0,St+1)之间锐角大于阈值γ2,则认为S0与St+1之间的边为一弧线,S0与St+1分别为起点与终点,连接S0和St+1形成该弧线段的直线逼近,返回该方向边,执行9-3步骤。
9-3利用与步骤1-2相同的方法更新该视觉汉字的方向边谱DE。
9-4令S0=St,从新重复步骤9-2和9-3,直到检测到第三种手势表示该视觉汉字书写完成,返回方向边谱DE。
9-5利用与步骤1-3相同方法,计算该视觉汉字的特征向量PC。
步骤10:识别视觉汉字。把步骤9中计算的视觉汉字特征向量PC依次代入在步骤2中训练好的高低维映射函数,进行汉字识别。
10-1计算Pi T=Wi TPC(初试时i=0,即选择第一个字库),其中Pi为该视觉汉字在低维流形坐标系i下的坐标。
10-2在视觉汉字低维流形坐标系i中以P为中心,半径r范围内采用菱形搜索法查找候选特征向量,记录其对应的汉字序号。
10-3如果半径r范围内不存在候选向量,则返回步骤10-1选择下一个映射函数,即下一个字库进行识别。
10-4如果半径r范围内存在候选向量,根据候选向量的汉字序号在步骤1-4中的汉字方向边谱库DeC中找到候选特征向量的汉字方向边谱,计算Pi与它们的方向边谱的相似度。
10-4-1如果某个候选视觉汉字与Pi的相似度小于阈值,则确定Pi序号为该候选汉字序号,把该汉字印刷体字符输出到显示界面上。
10-4-2否则把候选汉字按相似度从大到小排序在输出在显示界面上,等待用户自选确认汉字序号。
10-5如果所有映射函数计算完毕,没有候选向量,则显示无此汉字信息。
步骤11:汉字语义联想显示。对步骤10中确定的汉字序号,在汉字联想数据库中进行查找得到后续潜在视觉汉字集合,显示在界面联想汉字区。
所述步骤1到11中的视觉汉字指按照汉字标准书写规则下,包含汉字笔画以及笔画之间的过渡笔画的汉字。在利用单目摄像头获取手势运动轨迹形成的汉字时,与正常在纸张或触摸屏上书写汉字的过程中有所不同。正常书写笔画之间过渡时笔尖都是抬起的,而由视频获得的人手书写汉字的路径中很难判断什么时候人手是抬起或落下的,所以我们把一个汉字书写整个过程都记录下来,那么每个汉字就多了很多汉字笔画之间过渡,形成了视觉汉字。
所述步骤1-2中方向边谱为一个视觉汉字所有方向边在对应边方向上的累增坐标集合,可对视觉汉字的方向边数目和边方向等特征进行量化、统计和抽象。
所述步骤1-2-1中的方向边的离散化规则中标号为偶数的方向边基准向量的角度为均匀量化,而标号为奇数的是非均匀量化,即取原点与相邻两个偶数方向边基准向量之差向量的中点坐标连线为该方向的方向边基准向量。如此设计可在方向边谱所在坐标系中保证累增边的坐标能为整数。此外还可以对视觉汉字获取中由于人为书写习惯等因素的造成的笔画倾斜进行标准边方向量化,达到一定的容差能力。其中第0、4、8、12号方向的容差范围可为[-13.3°,13.3°];第1、5、9、13号方向的误差范围可为[-13.3°,9.2°];第3、7、11、15号方向的容差范围可为[-9.2°,13.3°];第2、6、10、14号方向的容差范围可为[-9.2°,9.2°]。误差范围中的正数度数为与标准量化方向成逆时针方向的夹角,反之为负。
所述步骤1-3中的Hu矩为七个不变矩,由二阶和三阶中心矩的线性组合构成,具有平移、旋转、尺度不变等特性,常用于图像、字符的识别中,因此视觉汉字的特征向量对于视觉汉字的方向边谱具有旋转、尺度不变等特性。而视觉汉字的方向边谱本身又不涉及汉字的笔画长度,具有尺度不变性(汉字大小无关)。对于汉字整体倾斜(旋转),方向边谱也会随之整体旋转,而整体几何拓扑关系保持不变,再加上对方向边的具有一定的容差能力,所以本发明构造的视觉汉字特征向量也具有平移、旋转、尺度不变等特性。
所述步骤2中的局部保形映射LPP(Locality Preserving Projections)算法是一种新形的基于流形学习思想的维数约简方法。它是非线性方法LaplacianEigenmap(LE)的线性近似,既可以解决传统线性方法难以保持原始数据非线性流形的缺点又解决了非线性方法难以获得新样本点低维投影的缺点。LPP算法有着明晰的投影矩阵,这个性质对于解决新样本的特征提取是非常重要的。
所述步骤4中的高斯肤色模型,是用正态分布来拟合皮肤颜色的概率密度分布的一种常用方法。
所述步骤5至步骤11中所述的手势坐标系为原点位于摄像机中心,X轴水平向右,Y周垂直向下,Z轴指向用户的一个局部坐标系。用户手势运动在这个三维坐标系内进行。
所述步骤6-2中轴向包围盒AABB,在二维坐标系中是一个矩形包围盒,四条边的方向分别与两个坐标轴一致。
所述步骤6-3中轮廓提取8临域搜索算法,是一种通过遍历当前考察点周围8个像素点进行轮廓查找的一种传统方法。
所述步骤6-4中的Douglas-Peucker是一种在曲线上取有限点,将其变为折线,并且能够在一定程度上保持原有的形状的经典曲线拟合方法。
所述步骤7-1中任意轴向包围盒OBB是一个矩形包围盒,但其四条边的方向分别与点集的最大分布方向和其垂直方向一致的包围盒,包围点集比AABB包围盒更紧密。
所述步骤7-1-1中QuickHull算法是一种基于分治思想的求二维点集的凸包的经典算法。
所述步骤7-3中的凸性凹陷指以凸包的每一条边起始点对应的肤色区域边界形成的凹陷区。
所述步骤8-1中的手势1为食指伸直其它四指收拢,为汉字输入手势。
所述步骤10-2中菱形搜索法一种块匹配算法,具有简单、鲁棒、高效的特点。在这里我们利用它可以对视觉汉字特征向量在低维空间中的坐标点周围区域快速查找到相似的其他特征向量坐标点。
本发明的有益效果是能够让用户在不佩戴任何的硬件设备情况下,通过一个普通网络摄像头,用手作为媒介按照正规书写汉字和词组的规则与顺序来完成汉字的输入、识别与选择等功能。该发明突破了以往键盘输入、接触屏输入、语音输入汉字的局限,对使用者的限制较小,识别准确率较高,作为一种全新的输入方式,在人机界面、数字家庭、游戏与娱乐等领域有很好的应用前景。
附图说明
图1基于手势的汉字交互性输入与识别总流程图。
图2实施系统显示界面。
图3离散方向边基准向量。
图4四个视觉汉字和对应的方向边谱。
图5几个视觉汉字在低维流形空间Xlow0中的位置示例。
图6(a)联机视频图像预处理和肤色提取后的一帧视频图像。
图6(b)联机视频图像预处理和肤色提取后的三个肤色块。
图6(c)联机视频图像预处理和肤色提取后对肤色区域进行分割缩放后得到的测试样本图像。
图7(a)控制手势1的OBB包围盒和凸包以及指尖点特征。
图7(b)控制手势2的OBB包围盒和凸包以及指尖点特征。
图7(c)控制手势3的OBB包围盒和凸包以及指尖点特征。
图8视觉汉字“上”在低维流型坐标空间Xlow0中的位置,在其邻域半径范围内有一个相似的视觉汉字特征点。
具体实施方式
本发明的实施系统由硬件和软件两部分组成。硬件部分由计算机主机、显示设备(投影屏幕、显示器或电视机)、摄像头组成。其中计算机可为普通的家用机,摄像头采用普通的网络摄像头(或笔记本自带的摄像头),分辨率为800*600以上,帧频25帧每秒以上。整个实施系统分中预处理部分包括搭建视觉汉字特征向量库、流形学习模块、汉字语义联想数据库、肤色模型等步骤;实时处理包括手势检测、手势跟踪、汉字识别与智能联想。图1为本发明实施系统的总流程图。图2为本发明实施系统显示界面分为三个区域,左半区为视觉汉字输入区、右半区为汉字识别结果、近似汉字与词组联想区。
本发明实施系统中定义的三种控制手势分别为:(1)手势1:食指伸直其它四指收拢,为汉字输入手势,只作用于视觉汉字输入区。(2)手势2:手掌平直,五指自然张开,在视觉汉字输入区表示结束汉字输入手势,在汉字显示与选择区为控制光标移动手势。(3)手势3:握拳。为选择确认手势,只作用于汉字显示与选择区。当系统在检测到控制手势之1、2、3其中一个之后并根据手势所处的区域进行系统控制。下面对本发明的实施系统中各步骤进行详细的说明。
一、预处理部分
1.建立视觉汉字特征向量库。
1-1选择字库。根据国家标准GB2312-80《信息交换用汉字编码字符集—基本集》一级字库为常用字,3755个,使用频率合计达99.7%。其中排序最前的140个汉字使用频率为50%,排序141-232的汉字为10%,排序233-380的为10%,排序382-500的为5.43%。我们选取一级汉字库为本实施系统的总字库,记为:RC,并按汉字的使用频率分为6个子字库{Rc0,...,Rc5}。
Rc0={ci|i=[0,139]};Rc1={ci|i=[140,499]};Rc2={ci|i=[500,999]};
Rc3={ci|i=[1000,1999]};Rc4={ci|i=[2000,2999]};Rc5={ci|i=[3000,3754]};
1-2为每个汉字编号,为5位编码:#####。第1位为所在子库序号0-5,后4位为在子库中的序号。例如00000表示第一个子库中第一个汉字,00139表示第一个子库中第140个汉字。53754表示第6个子库中最后一个汉字。
1-3计算视觉汉字的方向边谱。在预处理阶段,我们采用电脑数位板和压感笔代替人手手势获取视觉汉字方向边谱以保证训练数据的标准性,主要步骤:
1-3-1离散化方向边基准向量,见图3。
1-3-2设置方向边谱在离散二维欧式坐标系中最小单位刻度为10。
1-3-3把需要训练的汉字(宋体)打印出来,作为临摹页置于数位板上。让操作者使用压感笔严格遵守汉字规范书写笔画顺序进行对临摹页上的印刷体汉字进行临摹,并且保证书写过程中压感笔不离开数位版面。
1-3-4在书写过程中,通过采样笔尖的位移检测边的方向。如果两帧间笔尖位移的方向变化小于阈值15°时,则认为笔尖还在完成同一条边的书写,当笔尖位移方向改变超过15°时,则认为为当前边结束,连接起始与终点获得该方向边,更新方向边谱。
1-3-5更新起点为上一条边的终点,开始下一条边的计算。最终形成子汉字库{Rc0,...,Rc5}的汉字边方向谱库DeC={DeC0,...,DeC5}。表1为4个视觉汉字和其对应的边方向谱坐标表示,图4中的(a-d)分对应表1中的四个汉字对应的方向边谱图形表示。
表14个汉字和对应的视觉汉字的方向边谱坐标表示
1-3-6为DeC={DeC0,...,DeC5}中方向边谱分别计算其Hu矩,形成视觉汉字特征向量库HcC={HcC0,...,HcC5}。如表2为HcC0中的几个视觉汉字的特征向量。
表2HcC0中的几个视觉汉字的特征向量
2.流形学习模块。
2-1根据子字库大小,构造二维视觉汉字特征向量相似度矩阵G(表3为表2中的几个视觉汉字的相似度矩阵)。
表3表2中的几个视觉汉字的相似度矩阵
2-1-1计算与每个视觉汉字特征向量HCi相似度最高的l5个特征向量HCj
2-1-2计算每对HCi与HCj之间的权重值gij,并且令gij=gji,gii=1,热核函数中参数t=20。
2-2通过LPP的最小化目标函数过程推导和求得广义特征值的计算,得到高维低维映射矩阵W和高低维映射的显式表达式PT=WTQ(Q为7维、P为2维特征向量,W为2×7的矩阵)。
2-3重复步骤2-1和2-2为6个子汉字库分别训练6个低维流形空间{Xlow0,...,Xlow5},映射矩阵分为别:
W 0 = 0.18 0.13 0.44 0.09 0.54 0.53 0.39 - 0.02 0.46 - 0.20 - 0.09 - 0.24 - 0.34 0.74
W 1 = - 0.54 - 0.61 0.10 - 0.04 0.21 - 0.49 0.18 - 0.67 - 0.31 - 0.22 - 0.30 0.37 - 0.30 0.29
W 2 = 0.33 0.24 0.43 - 0.04 0.00 - 0.97 - 0.06 - 0.42 0.11 - 0.34 0.12 - 0.20 0.77 - 0.10
W 3 0.45 0.03 0.38 0.48 0.51 - 0.17 0.36 - 0.39 0.05 - 0.47 - 0.56 0.51 0.14 - 0.15
W 4 = 0.02 0.29 0.13 - 0.02 0.34 - 0.87 0.04 0.02 0.29 0.14 - 0.02 0.35 - 0.87 0.04
W 5 = 0.11 - 0.19 0.23 0.19 - 0.56 0.73 - 0.05 0.39 - 0.10 - 0.38 0.38 - 0.47 0.19 0.52
2-4量化6个低维流形空间{Xlow0,...,Xlow5}中的特征向量点坐标为整数单位,并用图像存储。根据实际计算得到纵坐标量化公式为y=[20×y],x=[10×x],符号[]表示取整。图5为低维流形空间Xlow0的图像表示。
3.建立汉字语义联想数据库。在该库中每行有14个属性:后面依次为1个汉字印刷体字符,7个视觉汉字特征向量和5个按照语义概率大小排列的最有可能成词组的汉字序号。汉字序号为主键。
4.训练肤色模型。通过在各种环境光亮度下对多个人手肤色进行采样,并把图像由RGB颜色空间转换到YCgCr空间,带入高斯模型得到,的到高斯肤色模型参数:M=[116.019,148.732]; C = 34.233 - 17.680 - 17.680 76.441 .
其中M为CgCr色度的均值和C为CgCr色度协方差矩阵。
二、实时处理部分
5.视频图像预处理。
5-1读取视频图像,分离出图像的RGB通道,统计各个颜色通道的色彩平均值记为(argR,argG,argB),并计算出整个色彩的平均值argI=(argR+argG+argB)/3。
5-2计算三个色彩的权值因子:aR=argI/argR,aG=argI/argG,aB=argI/argB,按照R=R*aR,G=G*aG,B=B*aB来计算新的颜色分量,得到色彩平衡后图像。
5-3采用高斯滤波进行图像平滑,高斯滤波模板大小为5×5。
5-4把图像从RGB颜色空间转换到YCrCb空间,并只保留色度信息CrCb。
5-5把每一个像素带入高斯肤色模型,确定肤色区域。把肤色的部分作为前景,像素值为1,把非肤色的部分作为背景,像素值为0,最后得到预处理后的二值图像。
如图6(a)和6(b)是步骤5之后的结果。
6.图像分割获得潜在手势区域。
6-1为二值图像中的肤色区域分别计算AABB包围盒和中心坐标O(x,y)。
6-2保留AABB面积最大的n(n<=3)个肤色区域块为候选手势区域块。
6-3以AABB最长变为单位边,扩展AABB为方形,再与同其中肤色块缩放到64*64分辨率的图像,成为候选手势区域块,如图6(c)。
6-4采用8临域搜索法对n个候选手势区域块进行轮廓搜索,得到n个轮廓像素点集合Pn
6-5采用Douglas-Peucker算法对Pn中的每个轮廓点集进行曲线拟合,得到n个逆时针排列的轮廓线段端点集合BP。
7.控制手势识别。
7-1本实施系统中的三种控制手势分别为:
(1)手势1:食指突出其他四指收拢,指尖数目为1,用于视觉汉字的输入。
(2)手势2:五指自然张开,指尖数目为5;视觉汉字输入结束与移动状态。
(3)手势3:握拳,指尖数目为0,视觉汉字输入结束与移动状态。
7-2采用二维的QuickHull算法计算BPi(i<=3)的凸包CHi,凸包顶点按逆时针顺序存储。
7-3计算BPi与凸包的交点集合,得到BPi中的凸点集CPi,也按逆时针顺序存储。
7-4构建CPi的协方差矩阵,计算协方差矩阵的两个正交的特征向量为方向包围盒OBBi方向,其中特征值较大的对应的特征向量方向为OBBi的主方向向Vi
7-5计算OBBi的长度length与宽度width,用结构OBBi={Oi(x,y),Vi,lengthi,widthi}保存,其中Oi(x,y)为当前肤色块在步骤6-1中所述的AABBi的中心。
7-6第一个几何特征为OBBi长宽比例:lenghti/widthi。三种手势第一个几何特征取值区间分别为[1,2]、[1.3,1.7]、[1,1.3],人脸区域(包括脖子区域,耳朵区域)的第一几何特征取值范围约为的为[1,1.4]。
7-7统计OBBi的内总像素与测试图像中的肤色区域中值为1像素数目之比,得到第二个几何特征。三种手势的二个几何特征取值区间分别为[1.5,2.2]、[1.7,3]、[4.5,5.5],人脸大约在[1,1.9]。
7-8按逆时针顺序依次考察位于CPi中任意两点间且属于BPi的点的曲率,找到局部极值最大的点,如果存在这样的点,计算其与对应凸包线段的距离,如果该距离大于OBBi包围盒短轴长度的0.1435倍,则该极值点记为谷底点,用Vmin来存储,否则不予记录。最后把所有谷底点对应的凸包线段端点按逆时针方向的分开存储,起始点存到Vsta集合和结束点存到Vend集合。
7-10复制Vsta给FTip。遍历Vend中所终点,如果某个终点离FTip中某个起点欧式距离小于阈值(OBB短轴的0.2倍),则从Vend删除该点,否则把该点加入到FTip中,直到Vend中所有点都被考察完。最终得到第三几何特征——指尖个数。三种手势第三个几何特征取值分别为1、5、0,人脸区域第三几何特征取值为0。
7-11通过7-6、7-7、7-10中三种几何特征结果可以有效对三种控制手势以及人脸部区域进行区分。
7-12重复执行7-2到7-11直到每一个候选手势区域块都被考察完毕,返回识别出的控制手势1的OBB包围盒信息。
8.控制手势跟踪。
8-1在检测到控制手势的第一帧,记下控制手势的OBB包围盒的中心位置、主轴方向以及尺寸于TempOBB={O(x,y),V,length,width}。
8-2在t+1,由步骤5、6、7后,得到控制手势的OBB包围盒。
8-3如果帧t+1只有一个控制手势的OBB包围盒,则认为其包含的手势区域为上一帧的控制手势,跟踪到手势的位置,更新TempOBB,转到步骤9。
8-4如果超过一个OBB存在,选择这些OBB中与前一帧TempOBB距离最近的为当前被跟踪的手势1的OBB,并跟新TempOBB,舍弃其他的OBB包围盒,执行步骤9。其中OBB包围盒之间的距离采用Hausdorff距离来计算。
9.跟踪第一种手势计算手势输入的视觉汉字的特征向量。主要通过获得手势的运动方向、拐点等信息构建视觉汉字特征向量,具体步骤如下。
9-1对于在时刻t0第一次检测出的第一种手势后,读取FTip集合,记指尖在当前帧的位置为S0,在tn时刻的位置为Sn。
9-2在t1时刻连接记录向量(S0,S1)作为边初始向量,然后随着时间进行不断判断:
(1)如果向量(St-1,St)与(St,St+1)之间锐角小于阈值γ1=15°并且向量(S0,S1)与(S0,St+1)之间锐角小于阈值γ2=10°,则认为手势正在进行一条方向边的书写,S0还是该边起点,继续跟踪指尖坐标确定终点。
(2)如果向量(St-1,St)与(St,St+1)之间锐角大于阈值γ1,则说明St为一拐点,为该方向边的终点,返回这条方向边的方向为(S0,St)的方向,执行9-3步骤。
(3)如果向量(St-1,St)与(St,St+1)之间锐角小于阈值γ1而向量(S0,S1)与(S0,St+1)之间锐角大于阈值γ2,则认为S0与St+1之间的边为一弧线,S0与St+1分别为起点与终点,连接S0和St+1形成该弧线段的直线逼近,返回该方向边,执行9-3步骤。
9-3利用与步骤1-2相同的方法更新该视觉汉字的方向边谱DE。
9-4令S0=St,从新重复步骤9-2和9-3,直到检测到第三种手势表示该视觉汉字书写完成,返回方向边谱DE。
9-5利用与步骤1-3相同方法,计算该视觉汉字的特征向量PC。
10.识别视觉汉字。把步骤9中计算的视觉汉字特征向量PC依次代入在步骤2中训练好的高低维映射函数,进行汉字识别。
10-1计算Pi T=Wi TPC(初始时i=0,即选择第一个字库),其中Pi为该视觉汉字在低维流形坐标系i下的坐标。
10-2在视觉汉字低维流形坐标系i中以P为中心,半径r5范围内采用菱形搜索法查找候选特征向量,记录其对应的汉字序号。如图8为汉字“上”在低维流型坐标系1下的位置以及其领域半径范围内的一个相似汉字点。
10-3如果半径r范围内不存在候选向量,则返回步骤10-1选择下一个映射函数,即下一个字库进行识别。
10-4如果半径r范围内存在候选向量,根据候选向量的汉字序号在步骤1-3-6中的汉字方向边谱库DeC中找到候选特征向量的汉字方向边谱,计算Pi与它们的方向边谱的相似度。
10-4-1如果某个候选视觉汉字与Pi的相似度小于阈值0.1,则确定Pi序号为该候选汉字序号,把该汉字印刷体字符输出到显示界面上。
10-4-2否则把候选汉字按相似度从大到小排序显示界面右部的汉字候选区中。
10-5如果所有映射函数计算完毕,没有候选向量,则显示无此汉字信息。
11.汉字语义联想显示。对步骤10中确定的汉字序号,在汉字联想数据库中进行查找得到后续潜在视觉汉字集合,显示在界面联想汉字区,如图2所示。

Claims (1)

1.一种基于手势的汉字交互输入与识别方法,其特征在于,该方法包括预处理部分和联机部分
一、预处理部分
步骤1:建立视觉汉字特征向量库;
1-1确定待识别汉字范围形成总库RC,根据RC的规模按汉字在日常中的使用频度高低分为k个子字库{Rc0,...,Rck-1},在子库中为每个汉字编号:ci(ci∈Rcj,i=(0,...,n-1)),j=(0,...,k-1));
1-2建立视觉汉字的方向边谱;
1-2-1在极坐标系下,令视觉汉字方向边的基准向量为集合其中为从原点起始水平向右的第0号方向边的基准向量,用极坐标表示为其中第一分量代表第0号方向边的基准向量的长度,第二分量代表其角度;其它15个方向边的基准向量计算规则如下公式:
d &RightArrow; 4 k + 2 = ( 2 , ( 2 k + 1 ) &pi; / 4 ) , k &Element; [ 0 , . . . , 3 ] ; d &RightArrow; 4 k = ( 1 , k&pi; / 2 ) , k &Element; [ 0 , . . . , 3 ] ;
d &RightArrow; 1 = ( 5 / 2 , &theta; 1 = arccos ( 2 / 5 ) ) ; d &RightArrow; 3 = ( 5 / 2 , &pi; / 2 - &theta; 1 ) ;
d &RightArrow; 5 = ( 5 / 2 , &pi; / 2 + &theta; 1 ) ; d &RightArrow; 7 = ( 5 / 2 , &pi; - &theta; 1 ) ;
d &RightArrow; 9 = ( 5 / 2 , &pi; + &theta; 1 ) ; d &RightArrow; 11 = ( 5 / 2 , &pi; 3 / 2 - &theta; 1 ) ;
d &RightArrow; 13 = ( 5 / 2 , &pi; 3 / 2 + &theta; 1 ) ; d &RightArrow; 15 = ( 5 / 2 , 2 &pi; - &theta; 1 )
1-2-2记录一个视觉汉字书写过程中的所有方向边,近似量化到这16个基准向量所在方向上,统计每个方向上的方向边的数量,并以增量二维标的形式存到DE={de0,...,de15}中,DE即为视觉汉字的方向边谱,其中dei代表第i个方向上的方向边累增坐标集合:dei={(x0,y0),…,(xm-1,ym-1)};
1-3计算方向边谱的Hu矩作为视觉汉字的特征向量HC={hc0,…,hc6};
1-4重复执行步骤1-2和1-3分别对{Rc0,...,Rck-1}中每个视觉汉字进行处理,为每个子汉字库构建视觉汉字的方向边谱库DeC={DeC0,...,DeCk-1},以及视觉汉字特征向量库HcC={HcC0,…,HcCk-1};
步骤2:利用一种局部保形映射LPP(Locality Preserving Projections)算法进行维数约减,得到视觉汉字低维流形空间;主要通过训练HcC中的样本计算出一个显示的高维低维映射函数,将HcC中的高维视觉汉字特征向量的局部关系映射到隐含的低维特征子空间中,用于后续视觉汉字的识别;算法主要包括以下步骤:
2-1构造一个二维视觉汉字特征向量相似度矩阵G,横纵轴为视觉汉字特征向量编号;
2-1-1计算与每个视觉汉字特征向量HCi(i=0,…,n-1),相似度最高的l个特征向量HCj(j=0,…,l-1);相似度计算采用公式:
2-1-2采用热核函数其中t为一常数;计算每对HCi与HCj之间的权重值gij(j=0,…,l-1),并且令gij=gji,gii=1;
2-2通过LPP的最小化目标函数过程推导和求得广义特征值的计算,得到高维低维映射矩阵W和高低维映射的显式表达式PT=WTQ,Q为高维特征向量,P为低维特征向量;
2-3重复执行步骤2-1和2-2,为k个子汉字库分别训练k个低维流形空间:{Xlow0,…,Xlowk-1};
步骤3:建立汉字语义联想数据库;通过汉语词汇语义为汉字之间建立关联,减少具有相关语义的汉字的输入量;在该库中每行有14个属性:第一个为汉字序号也是主键,后面依次为1个汉字字符,7个视觉汉字特征向量和5个按照语义出现概率大小排列的最有可能成词组的汉字序号;
步骤4:训练肤色模型;通过在各种环境光亮度下对多个人手肤色进行采样,训练肤色高斯模型;
二、联机部分,包括视频图像预处理、图像分割获得潜在手势区域、控制手势识别、控制手势跟踪、计算视觉汉字的特征向量和识别视觉汉字;
步骤5:视频图像预处理;对摄像机获得的一帧视频图像进行预处理,包括色彩平衡、图像去噪、肤色提取、二值化和形态学处理,生成一个二值图像,其中肤色的部分作为前景像素,值为1,非肤色的部分作为背景像素,值为0,最后得到肤色区域块集合;
步骤6:图像分割获得潜在手势区域;
6-1为二值图像中的肤色区域分别计算坐标轴向包围盒AABB(Axis-alignedBounding Box)和中心坐标O(x,y);
6-2保留AABB面积最大的n(n<=3)个肤色区域块为候选手势区域块;
6-3采用8临域搜索法对n个候选手势区域块进行轮廓搜索,得到n个轮廓像素点集合Pn
6-4采用Douglas-Peucker算法对Pn中的每个轮廓点集进行曲线拟合,得到n个逆时针排列的轮廓线段端点集合BPi(i<=n);
步骤7.控制手势识别;根据候选手势区域块的三个几何特征进行控制手势识别;
7-1计算第一个几何特征:潜在手势区域的任意轴向包围盒OBB(OrientedBounding Box)的长宽比例;这个比值能很好的反映手势的大体形状;
7-1-1采用二维的QuickHull算法计算BPi(i<=n)的凸包;
7-1-2计算凸包的任意轴向包围盒OBBi中心、主轴、尺寸以及其长短边长的比例;
7-2计算第二个几何特征:统计OBBi的内总像素与BPi中肤色区域中值为1像素数目之比,这个比率很好的反映出手势是闭合的还是张开的;
7-3计算第三个几何特征:潜在手势区域指尖点数目;
7-3-1计算潜在手势区域边缘点上的所有凸性凹陷的起点和终点以及谷底点;分别用二维坐标集合Vsta、Vend和Vmin来存储;
7-3-2去除噪声凸性凹陷;如果一个凸性凹陷的谷底深度小于阈值,则为噪声凸性凹陷;
7-3-3计算指尖集FTip;由于一个凸性凹陷的终点近似看成是相邻凸性凹陷的起点,这样前一个凹陷的终点和相邻凹陷的起点可能重合也可能存在很多距离相近的点,算法主要目的是去除这些重复或相近的点;
(1)复制Vsta给FTip;
(2)遍历Vend中所有凹陷的终点;如果某个终点离FTip中某个起点欧式距离小于阈值,则从Vend删除该点,否则把该点加入到FTip中,直到Vend中所有点被考察完;
7-4重复执行7-1到7-3直到BP中每一个候选手势区域块都被考察完毕,返回识别出的控制手势1的OBB包围盒信息OBB{O(x,y),V,length,width},O(x,y)为OBB的中心位置、向量V为主轴方向向量,(length,width)为包围盒的长度和宽度;
步骤8:控制手势跟踪;让操作者以手势1姿态在屏幕中心停留一秒以上,表示要开始视觉汉字的输入;手势1姿态是指食指伸直其它四指收拢;
8-1在检测到手势1停留1秒以后,记下控制手势1的OBB包围盒信息TempOBB={O(x,y),V,length,width};
8-2如果帧t+1只有一个控制手势1的OBB包围盒,则认为其包含的手势1区域为上一帧的控制手势1,跟踪到手势1的位置,更新TempOBB,转到步骤9;
8-3如果超过一个OBB存在,选择这些OBB中与前一帧TempOBB的距离最近的为当前被跟踪的手势1的OBB,并跟新TempOBB,舍弃其他的OBB包围盒,执行步骤9;
步骤9:计算视觉汉字的特征向量;主要通过获得手势的运动方向、拐点信息构建视觉汉字特征向量,具体步骤如下:
9-1对于在时刻t0第一次检测出的第一种手势后,读取FTip集合,记指尖在当前帧的位置为S0,在tn时刻的位置为Sn
9-2在t1时刻把向量(S0,S1)作为边初始向量,然后随着时间进行不断判断:
(1)如果向量(St-1,St)与(St,St+1)之间锐角小于阈值γ1并且向量(S0,S1)与(S0,St+1)之间锐角小于阈值γ2,则认为手势正在进行一条方向边的书写,S0还是该边起点,继续跟踪指尖坐标确定终点;
(2)如果向量(St-1,St)与(St,St+1)之间锐角大于阈值γ1,则说明St为一拐点,为该方向边的终点,返回这条方向边的方向为(S0,St)的方向,执行9-3步骤;
(3)如果向量(St-1,St)与(St,St+1)之间锐角小于阈值γ1而向量(S0,S1)与(S0,St+1)之间锐角大于阈值γ2,则认为S0与St+1之间的边为一弧线,S0与St+1分别为起点与终点,连接S0和St+1形成该弧线段的直线逼近,返回该方向边,执行9-3步骤;
9-3利用与步骤1-2相同的方法更新该视觉汉字的方向边谱DE;
9-4令S0=St,从新重复步骤9-2和9-3,直到检测到第三种手势表示该视觉汉字书写完成,返回方向边谱DE;
9-5利用与步骤1-3相同方法,计算该视觉汉字的特征向量PC;
步骤10:识别视觉汉字;把步骤9中计算的视觉汉字特征向量PC依次代入在步骤2中训练好的高低维映射函数,进行汉字识别;
10-1计算其中Pi为该视觉汉字在低维流形坐标系i下的坐标;初试时i=0,即选择第一个字库;
10-2在视觉汉字低维流形坐标系i中以P为中心,半径r范围内采用菱形搜索法查找候选特征向量,记录其对应的汉字序号;
10-3如果半径r范围内不存在候选向量,则返回步骤10-1选择下一个映射函数,即下一个字库进行识别;
10-4如果半径r范围内存在候选向量,根据候选向量的汉字序号在步骤1-4中的汉字方向边谱库DeC中找到候选特征向量的汉字方向边谱,计算Pi与它们的方向边谱的相似度;
10-4-1如果某个候选视觉汉字与Pi的相似度小于阈值,则确定Pi序号为该候选汉字序号,把该汉字印刷体字符输出到显示界面上;
10-4-2否则把候选汉字按相似度从大到小排序在输出在显示界面上,等待用户自选确认汉字序号;
10-5如果所有映射函数计算完毕,没有候选向量,则显示无此汉字信息;
步骤11.汉字语义联想显示;对步骤10中确定的汉字序号,在汉字联想数据库中进行查找得到后续潜在视觉汉字集合,显示在界面联想汉字区。
CN201310012582.0A 2013-01-14 2013-01-14 一种基于手势的汉字交互输入与识别方法 Expired - Fee Related CN103093196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310012582.0A CN103093196B (zh) 2013-01-14 2013-01-14 一种基于手势的汉字交互输入与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310012582.0A CN103093196B (zh) 2013-01-14 2013-01-14 一种基于手势的汉字交互输入与识别方法

Publications (2)

Publication Number Publication Date
CN103093196A CN103093196A (zh) 2013-05-08
CN103093196B true CN103093196B (zh) 2014-08-27

Family

ID=48205744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310012582.0A Expired - Fee Related CN103093196B (zh) 2013-01-14 2013-01-14 一种基于手势的汉字交互输入与识别方法

Country Status (1)

Country Link
CN (1) CN103093196B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598915B (zh) * 2014-01-24 2017-08-11 深圳奥比中光科技有限公司 一种手势识别方法与装置
CN104866084B (zh) 2014-02-25 2021-04-30 中兴通讯股份有限公司 手势识别方法、装置和系统
CN103914690B (zh) * 2014-04-11 2017-02-15 大连理工大学 一种基于射影不变量的形状匹配方法
CN105320248B (zh) * 2014-06-03 2018-12-07 深圳Tcl新技术有限公司 空中手势输入方法及装置
CN104951083A (zh) * 2015-07-21 2015-09-30 石狮市智诚通讯器材贸易有限公司 一种远距离手势输入法及输入系统
US10013603B2 (en) * 2016-01-20 2018-07-03 Myscript System and method for recognizing multiple object structure
EP3203412A1 (en) * 2016-02-05 2017-08-09 Delphi Technologies, Inc. System and method for detecting hand gestures in a 3d space
CN105787523B (zh) * 2016-04-05 2019-06-25 武汉大学 一种高光谱图像混合像元分解算法
CN106178496B (zh) * 2016-08-10 2020-04-10 合肥泰壤信息科技有限公司 一种基于体感和声音操作的游戏控制方法及系统
CN106484108A (zh) * 2016-09-30 2017-03-08 天津大学 基于双视点手势识别的汉字识别方法
CN107015645A (zh) * 2017-03-24 2017-08-04 广州幻境科技有限公司 一种基于手势的文字输入方法
CN115841137A (zh) * 2017-06-06 2023-03-24 格兰菲智能科技有限公司 一种用于对待量化数据进行定点化处理的方法及计算装置
CN115688877A (zh) * 2017-06-06 2023-02-03 格兰菲智能科技有限公司 一种用于对待量化数据进行定点化处理的方法及计算装置
CN107357428A (zh) * 2017-07-07 2017-11-17 京东方科技集团股份有限公司 基于手势识别的人机交互方法及装置、系统
CN109582201A (zh) * 2017-09-29 2019-04-05 京东方科技集团股份有限公司 电子写字板及其控制方法、存储介质
CN108960163B (zh) * 2018-07-10 2021-09-24 亮风台(上海)信息科技有限公司 手势识别方法、装置、设备和存储介质
CN109271023B (zh) * 2018-08-29 2020-09-01 浙江大学 一种基于三维对象外形轮廓徒手手势动作表达的选择方法
CN109359538B (zh) * 2018-09-14 2020-07-28 广州杰赛科技股份有限公司 卷积神经网络的训练方法、手势识别方法、装置及设备
CN110211171A (zh) * 2019-06-18 2019-09-06 华志微创医疗科技(北京)有限公司 从医学影像中提取病灶区域的方法及装置
CN112121280B (zh) * 2020-08-31 2022-04-01 浙江大学 一种心音盒的控制方法及控制系统
CN112540711B (zh) * 2020-11-30 2022-08-05 国机工业互联网研究院(河南)有限公司 一种在网页端选取三维空间物体的控制方法、装置及设备
CN113390370B (zh) * 2021-05-17 2023-01-13 珠海格力电器股份有限公司 一种对象检测方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007097548A1 (en) * 2006-02-20 2007-08-30 Cheol Woo Kim Method and apparatus for user-interface using the hand trace
CN102609734A (zh) * 2011-10-25 2012-07-25 北京新岸线网络技术有限公司 一种机器视觉的手写识别方法和系统

Also Published As

Publication number Publication date
CN103093196A (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN103093196B (zh) 一种基于手势的汉字交互输入与识别方法
Keysers et al. Multi-language online handwriting recognition
Tagougui et al. Online Arabic handwriting recognition: a survey
Bhattacharya et al. Direction code based features for recognition of online handwritten characters of Bangla
CN103455794B (zh) 一种基于帧融合技术的动态手势识别方法
Kausar et al. A survey on sign language recognition
CN102693025B (zh) 一种多点触摸交互系统的触摸手识别方法
CN105005769A (zh) 一种基于深度信息的手语识别方法
Zeng et al. Curvature bag of words model for shape recognition
CN102622225A (zh) 一种支持用户自定义手势的多点触控应用程序开发方法
Samanta et al. An HMM framework based on spherical-linear features for online cursive handwriting recognition
Mohiuddin et al. Unconstrained Bangla online handwriting recognition based on MLP and SVM
CN109359566A (zh) 利用手指特征进行层级分类的手势识别方法
CN112749646A (zh) 一种基于手势识别的交互式点读系统
CN108628455B (zh) 一种基于触摸屏手势识别的虚拟沙画绘制方法
Singh et al. Online handwritten Gurmukhi strokes dataset based on minimal set of words
Singh et al. A bilingual (Gurmukhi-Roman) online handwriting identification and recognition system
Cambuim et al. An efficient static gesture recognizer embedded system based on ELM pattern recognition algorithm
Sumpeno et al. Immersive hand gesture for virtual museum using leap motion sensor based on k-nearest neighbor
Kara et al. Sim-U-Sketch: A sketch-based interface for SimuLink
Jayaraman et al. Modular approach to recognition of strokes in Telugu script
Jung et al. On-line recognition of cursive Korean characters using graph representation
Chen Recognition and interpretation of multi-touch gesture interaction
Kane et al. A framework to plot and recognize hand motion trajectories towards development of non-tactile interfaces
Yang et al. Freely-drawn sketches interpretation using SVMs-chain modeling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140827

Termination date: 20220114