CN103093196B

CN103093196B - 一种基于手势的汉字交互输入与识别方法

Info

Publication number: CN103093196B
Application number: CN201310012582.0A
Authority: CN
Inventors: 王祎; 樊鑫; 李豪杰; 罗钟铉; 刘斌; 贾棋; 王智慧
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2013-01-14
Filing date: 2013-01-14
Publication date: 2014-08-27
Anticipated expiration: 2033-01-14
Also published as: CN103093196A

Abstract

本发明属于计算机视觉和模式识别领域，涉及一种基于手势的汉字交互输入与识别方法。本发明能够让用户在不佩戴任何的硬件设备情况下，通过一个普通网络摄像头，用手作为媒介按照正规书写汉字和词组的规则与顺序来完成汉字的输入、识别与选择等功能。该发明突破了以往键盘输入、接触屏输入、语音输入汉字的局限，对使用者的限制较小，识别准确率较高，作为一种全新的输入方式，在人机界面、数字家庭、游戏与娱乐等领域有着很好的应用前景。

Description

一种基于手势的汉字交互输入与识别方法

技术领域

本发明属于计算机视觉和模式识别领域，涉及一种基于手势的汉字交互输入与识别方法。

背景技术

近二十年来借助于触摸屏幕（板）和手写笔的联机手写识别技术大大增加了汉字输入的实时性与交互性，已经被广泛地置于各种手机、便携计算机终端，用于文字记录、签名验证、图标标注等应用。但使用这种的输入方式，用户还是脱离不开硬件设备，并受到设备(触摸板(屏))的尺寸限制，不能完全达到自然、自由的人机交互目的。而随着计算机视觉技术的不断发展与完善，基于视觉的手势与人体动作的识别与跟踪技术的已成为新型人机交互接口中一个重要的研究方向。用户可以不携带任何硬件设备直接用最自然的手势和肢体语言等与计算机进行交流，例如在如三星、海信等品牌的电视机和微软基于Kinect的游戏中的基于手势的菜单选择和基于肢体动作的视频互动游戏等。

而利用单目视觉(一个摄像机或一个普通摄像头)实时获取人手形态与位置进行汉字的实时交互性输入与识别因成本低廉、实施容易，在数字家庭、游戏、娱乐、助残等领域具有较强的实际应用价值。国内完成类似目的工作有《手写虚拟汉字识别研究及其在多通道短信交互系统中的应用》，华南理工大学博士学位论文，2007年4月。该文所述方法主要通过跟踪食指在简单背景下小范围区域内识别手写汉字，对汉字的输入、选择等控制不能完全用手势进行，应用范围有限、给用户的交互体验感较差，此外该文仅利用了二维手写汉字的脱机图像特征，采用神经网络类分类方法进行汉字识别，存在着训练与识别阶段的存储和计算量较大、对于大汉字集识别效率底等缺点。

目前单目下基于手势汉字自然交互输入与识别方法的难点在于：

(1)有效手势区域的分割与识别。从视频图像中分割出人手部区域是手写汉字的基础。但在比较复杂的背景条件下，如人脸、人体或者其它非用于汉字输入的手部等肤色区域同时存在于视频之中的情况，对有效手势的正确分割与识别具有一定的难度。

(2)汉字输入与交互控制的设计。完全利用手势进行汉字的输入与在纸或触摸屏上书写不同，手势的运动轨迹是连续的，书写汉字过程中没有离开纸面或触摸屏面的动作，视频记录是整个汉字书写的手势轨迹，那么因此形成的汉字除了本身应具有的笔画之外，还多了一些笔画之间的过渡，以及用户无意识的手部动作的轨迹等，这给汉字的识别增加了难度。此外每个汉字的开始与结束也无法通过抬落笔进行判断，所以需要设计具有良好交互性的汉字输入与控制手势并对其进行跟踪识别。

(3)汉字的特征选取与分类器设计。对于复杂汉字在书写时可能出现部首之间的重叠、字体变形、字体以一定角度倾斜、旋转等，所以必须找到满足以上条件的汉字不变性特征作为汉字识别的基础。最后最重要的是设计一种计算复杂度较低的分类器才能保证在联机书写汉字时，在对复杂背景进行手势分割、有效手势识别后，利用汉字特征能快速的在大字集中进行正确检测出汉字，因此汉字特征选取与分类器的设计是整个系统能达到实时自然交互性目的关键。

发明内容

本发明提供一种单目视觉环境下利用手势进行汉字交互输入与识别方法。

本发明的技术方案如下：

一种基于手势的汉字交互输入与识别方法包括预处理部分和联机部分。

一、预处理部分

步骤1：建立视觉汉字特征向量库。

1-1确定待识别汉字范围形成总库RC，根据RC的规模按汉字在日常中的使用频度高低分为k个子字库{Rc₀,...,Rc_k-1}，在子库中为每个汉字编号：c_i(c_i∈Rc_j,i=(0,...,n-1)),j=(0,...,k-1))。

1-2建立视觉汉字的方向边谱。

1-2-1在极坐标系下，令视觉汉字方向边的基准向量为集合其中为从原点起始水平向右的第0号方向边的基准向量，用极坐标表示为其中第一分量代表第0号方向边的基准向量的长度，第二分量代表其角度；其它15个方向边的基准向量计算规则如下公式：

{\overset{&RightArrow;}{d}}_{4 k + 2} = (\sqrt{2}, (2 k + 1) π / 4), k &Element; [0, . . ., 3]; {\overset{&RightArrow;}{d}}_{4 k} = (1, kπ / 2), k &Element; [0, . . ., 3];

{\overset{&RightArrow;}{d}}_{1} = (\sqrt{3} / 2, θ_{1} = \arccos (2 / \sqrt{5})); {\overset{&RightArrow;}{d}}_{3} = (\sqrt{5} / 2, π / 2 - θ_{1});

{\overset{&RightArrow;}{d}}_{5} = (\sqrt{5} / 2, π / 2 + θ_{1}); {\overset{&RightArrow;}{d}}_{7} = (\sqrt{5} / 2, π - θ_{1});

{\overset{&RightArrow;}{d}}_{9} = (\sqrt{5} / 2, π + θ_{1}); {\overset{&RightArrow;}{d}}_{11} = (\sqrt{5} / 2, π 3 / 2 - θ_{1});

{\overset{&RightArrow;}{d}}_{13} = (\sqrt{5} / 2, π 3 / 2 + θ_{1}); {\overset{&RightArrow;}{d}}_{15} = (\sqrt{5} / 2,2 π - θ_{1})

1-2-2记录一个视觉汉字书写过程中的所有方向边，近似量化到这16个基准向量所在方向上，统计每个方向上的方向边的数量，并以增量二维标的形式存到DE={de₀,...,de₁₅}中，DE即为视觉汉字的方向边谱，其中de_i代表第i个方向上的方向边累增坐标集合：de_i＝{(x₀,Y₀)，...,(x_m-1,y_m-1)}；

例如在方向上：x₀=1，y₀=0，x_m-1=mx₀=m，y_m-1=my₀=0，m为该方向上方向边的数量。

1-3计算方向边谱的Hu矩作为视觉汉字的特征向量HC={hc₀，...,hc₆}。

1-4重复执行步骤1-2和1-3分别对{Rc₀,...,Rc_k-1}中每个视觉汉字进行处理，为每个子汉字库构建视觉汉字的方向边谱库DeC={DeC₀,...,DeC_k-1}，以及视觉汉字特征向量库HcC={HcC₀，...,HcC_k-1}。

步骤2：利用一种局部保形映射LPP(Locality Preserving Projections)算法进行维数约减，得到视觉汉字低维流形空间。主要通过训练HcC中的样本计算出一个显示的高维低维映射函数，将HcC中的高维视觉汉字特征向量的局部关系映射到隐含的低维特征子空间中，用于后续视觉汉字的识别过程。算法包括以下步骤：

2-1构造一个二维视觉汉字特征向量相似度矩阵G，横纵轴分别为视觉汉字特征向量编号。

2-1-1计算与每个视觉汉字特征向量HCⁱ(i＝0，...,n-1)，相似度最高的l个特征向量HC^j(j=0，...,l-1)。相似度计算采用公式：

2-1-2采用热核函数其中t为一常数。计算每对HCⁱ与HC^j之间的权重值g_ij(j=0，...,l-1)，并且令g_ij＝g_ji，g_ii=1。

2-2通过LPP的最小化目标函数过程推导和求得广义特征值的计算，得到高维低维映射矩阵W和高低维映射的显式表达式P^T＝W^TQ(Q为高维特征向量，P为低维特征向量)。根据汉字的方向边谱的二维分布特性，我们选择低维流形为二维空间，因此W为2×7的矩阵。

2-3重复执行步骤2-1和2-2，为k个子汉字库分别训练k个低维流形空间：｛X_low0，...，X_lowk-1｝。

步骤3：建立汉字语义联想数据库。通过汉语词汇语义为汉字之间建立关联，减少具有相关语义的汉字的输入量。在该库中每行有14个属性：第一个为汉字序号也是主键，后面依次为1个汉字字符，7个视觉汉字特征向量和5个按照语义概率大小排列的最有可能成词组的汉字序号。

步骤4：训练肤色模型。通过在各种环境光亮度下对多个人手肤色进行采样，训练肤色高斯模型。

二、联机部分，包括视频图像预处理、图像分割获得潜在手势区域、控制手势识别、控制手势跟踪、计算视觉汉字的特征向量和识别视觉汉字。

步骤5：视频图像预处理。对摄像机获得的一帧视频图像进行预处理，包括色彩平衡、图像去噪、肤色提取、二值化和形态学处理，生成一个二值图像，其中肤色的部分作为前景像素(值为1)，非肤色的部分作为背景像素(值为0)，最后得到肤色区域块集合。

步骤6：图像分割获得潜在手势区域。

6-1为二值图像中的肤色区域分别计算坐标轴向包围盒(AABB,Axis-alignedBounding Box)和中心坐标O(x,y)。

6-2保留AABB面积最大的n(n<=3)个肤色区域块为候选手势区域块。

6-3采用8临域搜索法对n个候选手势区域块进行轮廓搜索，得到n个轮廓像素点集合P_n。

6-4采用Douglas-Peucker算法对P_n中的每个轮廓点集进行曲线拟合，得到n个逆时针排列的轮廓线段端点集合BP_i(i<=n)。

步骤7：控制手势识别。根据候选手势区域块的三个几何特征进行控制手势识别。

7-1计算第一个几何特征：潜在手势区域的任意轴向包围盒(OBB,OrientedBounding Box)的长宽比例。这个比值能很好的反映手势的大体形状。

7-1-1采用二维的QuickHull算法计算BP_i(i<=n)的凸包。

7-1-2计算凸包的任意轴向包围盒OBB_i中心、主轴、尺寸以及其长短边长的比例。

7-2计算第二个几何特征：统计OBB_i的内总像素与BP_i中肤色区域中值为1像素数目之比，这个比率可以很好的反映出手势是闭合的还是张开的。

7-3计算第三个几何特征：潜在手势区域指尖点数目。

7-3-1计算潜在手势区域边缘点上的所有凸性凹陷的起点和终点以及谷底点。分别用二维坐标集合Vsta、Vend和Vmin来存储。

7-3-2去除噪声凸性凹陷。如果一个凸性凹陷的谷底深度小于阈值，则为噪声凸性凹陷。

7-3-3计算指尖集FTip。由于一个凸性凹陷的终点可以近似看成是相邻凸性凹陷的起点，这样前一个凹陷的终点和相邻凹陷的起点可能重合也可能存在很多距离相近的点，算法主要目的是去除这些重复或相近的点。

(1)复制Vsta给FTip。

(2)遍历Vend中所有凹陷的终点。如果某个终点离FTip中某个起点欧式距离小于阈值，则从Vend删除该点，否则把该点加入到FTip中，直到Vend中所有点被考察完。

7-4重复执行7-1到7-3直到BP中每一个候选手势区域块都被考察完毕，返回识别出的控制手势1的OBB包围盒信息OBB{O(x,y),V,length,width},O(x,y)为OBB的中心位置、向量V为主轴方向向量，(length,width)为包围盒的长度和宽度。

步骤8：控制手势跟踪。让操作者以手势1姿态在屏幕中心停留一秒以上，表示要开始视觉汉字的输入。

8-1在检测到手势1停留1秒以后，记下控制手势1的OBB包围盒信息TempOBB={O(x,y),V,length,width}。

8-2如果帧t+1只有一个控制手势1的OBB包围盒，则认为其包含的手势1区域为上一帧的控制手势1，跟踪到手势1的位置，更新TempOBB，转到步骤9。

8-3如果超过一个OBB存在，选择这些OBB中与前一帧TempOBB的距离最近的为当前被跟踪的手势1的OBB，并跟新TempOBB，舍弃其他的OBB包围盒，执行步骤9。

步骤9：计算视觉汉字的特征向量。主要通过获得手势的运动方向、拐点等信息构建视觉汉字特征向量，具体步骤如下：

9-1对于在时刻t₀第一次检测出的第一种手势后，读取FTip集合，记指尖在当前帧的位置为S₀，在t_n时刻的位置为S_n。

9-2在t₁时刻把向量(S₀,S₁)作为边初始向量，然后随着时间进行不断判断：

(1)如果向量(S_t-1,S_t)与(S_t,S_t+1)之间锐角小于阈值γ₁并且向量(S₀,S₁)与(S₀,S_t+1)之间锐角小于阈值γ₂，则认为手势正在进行一条方向边的书写，S₀还是该边起点，继续跟踪指尖坐标确定终点。

(2)如果向量(S_t-1,S_t)与(S_t,S_t+1)之间锐角大于阈值γ₁，则说明S_t为一拐点，为该方向边的终点，返回这条方向边的方向为(S₀,S_t)的方向，执行9-3步骤。

(3)如果向量(S_t-1,S_t)与(S_t,S_t+1)之间锐角小于阈值γ₁而向量(S₀,S₁)与(S₀,S_t+1)之间锐角大于阈值γ₂，则认为S₀与S_t+1之间的边为一弧线，S₀与S_t+1分别为起点与终点，连接S₀和S_t+1形成该弧线段的直线逼近，返回该方向边，执行9-3步骤。

9-3利用与步骤1-2相同的方法更新该视觉汉字的方向边谱DE。

9-4令S₀=S_t，从新重复步骤9-2和9-3，直到检测到第三种手势表示该视觉汉字书写完成，返回方向边谱DE。

9-5利用与步骤1-3相同方法，计算该视觉汉字的特征向量PC。

步骤10：识别视觉汉字。把步骤9中计算的视觉汉字特征向量PC依次代入在步骤2中训练好的高低维映射函数，进行汉字识别。

10-1计算P_i ^T=W_i ^TPC(初试时i=0，即选择第一个字库)，其中P_i为该视觉汉字在低维流形坐标系i下的坐标。

10-2在视觉汉字低维流形坐标系i中以P为中心，半径r范围内采用菱形搜索法查找候选特征向量，记录其对应的汉字序号。

10-3如果半径r范围内不存在候选向量，则返回步骤10-1选择下一个映射函数，即下一个字库进行识别。

10-4如果半径r范围内存在候选向量，根据候选向量的汉字序号在步骤1-4中的汉字方向边谱库DeC中找到候选特征向量的汉字方向边谱，计算P_i与它们的方向边谱的相似度。

10-4-1如果某个候选视觉汉字与Pi的相似度小于阈值，则确定P_i序号为该候选汉字序号，把该汉字印刷体字符输出到显示界面上。

10-4-2否则把候选汉字按相似度从大到小排序在输出在显示界面上，等待用户自选确认汉字序号。

10-5如果所有映射函数计算完毕，没有候选向量，则显示无此汉字信息。

步骤11：汉字语义联想显示。对步骤10中确定的汉字序号，在汉字联想数据库中进行查找得到后续潜在视觉汉字集合，显示在界面联想汉字区。

所述步骤1到11中的视觉汉字指按照汉字标准书写规则下，包含汉字笔画以及笔画之间的过渡笔画的汉字。在利用单目摄像头获取手势运动轨迹形成的汉字时，与正常在纸张或触摸屏上书写汉字的过程中有所不同。正常书写笔画之间过渡时笔尖都是抬起的，而由视频获得的人手书写汉字的路径中很难判断什么时候人手是抬起或落下的，所以我们把一个汉字书写整个过程都记录下来，那么每个汉字就多了很多汉字笔画之间过渡，形成了视觉汉字。

所述步骤1-2中方向边谱为一个视觉汉字所有方向边在对应边方向上的累增坐标集合，可对视觉汉字的方向边数目和边方向等特征进行量化、统计和抽象。

所述步骤1-2-1中的方向边的离散化规则中标号为偶数的方向边基准向量的角度为均匀量化，而标号为奇数的是非均匀量化，即取原点与相邻两个偶数方向边基准向量之差向量的中点坐标连线为该方向的方向边基准向量。如此设计可在方向边谱所在坐标系中保证累增边的坐标能为整数。此外还可以对视觉汉字获取中由于人为书写习惯等因素的造成的笔画倾斜进行标准边方向量化，达到一定的容差能力。其中第0、4、8、12号方向的容差范围可为[-13.3°,13.3°]；第1、5、9、13号方向的误差范围可为[-13.3°,9.2°]；第3、7、11、15号方向的容差范围可为[-9.2°,13.3°]；第2、6、10、14号方向的容差范围可为[-9.2°,9.2°]。误差范围中的正数度数为与标准量化方向成逆时针方向的夹角，反之为负。

所述步骤1-3中的Hu矩为七个不变矩，由二阶和三阶中心矩的线性组合构成，具有平移、旋转、尺度不变等特性，常用于图像、字符的识别中，因此视觉汉字的特征向量对于视觉汉字的方向边谱具有旋转、尺度不变等特性。而视觉汉字的方向边谱本身又不涉及汉字的笔画长度，具有尺度不变性(汉字大小无关)。对于汉字整体倾斜(旋转)，方向边谱也会随之整体旋转，而整体几何拓扑关系保持不变，再加上对方向边的具有一定的容差能力，所以本发明构造的视觉汉字特征向量也具有平移、旋转、尺度不变等特性。

所述步骤2中的局部保形映射LPP(Locality Preserving Projections)算法是一种新形的基于流形学习思想的维数约简方法。它是非线性方法LaplacianEigenmap(LE)的线性近似，既可以解决传统线性方法难以保持原始数据非线性流形的缺点又解决了非线性方法难以获得新样本点低维投影的缺点。LPP算法有着明晰的投影矩阵，这个性质对于解决新样本的特征提取是非常重要的。

所述步骤4中的高斯肤色模型，是用正态分布来拟合皮肤颜色的概率密度分布的一种常用方法。

所述步骤5至步骤11中所述的手势坐标系为原点位于摄像机中心，X轴水平向右，Y周垂直向下，Z轴指向用户的一个局部坐标系。用户手势运动在这个三维坐标系内进行。

所述步骤6-2中轴向包围盒AABB，在二维坐标系中是一个矩形包围盒，四条边的方向分别与两个坐标轴一致。

所述步骤6-3中轮廓提取8临域搜索算法，是一种通过遍历当前考察点周围8个像素点进行轮廓查找的一种传统方法。

所述步骤6-4中的Douglas-Peucker是一种在曲线上取有限点，将其变为折线，并且能够在一定程度上保持原有的形状的经典曲线拟合方法。

所述步骤7-1中任意轴向包围盒OBB是一个矩形包围盒，但其四条边的方向分别与点集的最大分布方向和其垂直方向一致的包围盒，包围点集比AABB包围盒更紧密。

所述步骤7-1-1中QuickHull算法是一种基于分治思想的求二维点集的凸包的经典算法。

所述步骤7-3中的凸性凹陷指以凸包的每一条边起始点对应的肤色区域边界形成的凹陷区。

所述步骤8-1中的手势1为食指伸直其它四指收拢，为汉字输入手势。

所述步骤10-2中菱形搜索法一种块匹配算法，具有简单、鲁棒、高效的特点。在这里我们利用它可以对视觉汉字特征向量在低维空间中的坐标点周围区域快速查找到相似的其他特征向量坐标点。

本发明的有益效果是能够让用户在不佩戴任何的硬件设备情况下，通过一个普通网络摄像头，用手作为媒介按照正规书写汉字和词组的规则与顺序来完成汉字的输入、识别与选择等功能。该发明突破了以往键盘输入、接触屏输入、语音输入汉字的局限，对使用者的限制较小，识别准确率较高，作为一种全新的输入方式，在人机界面、数字家庭、游戏与娱乐等领域有很好的应用前景。

附图说明

图1基于手势的汉字交互性输入与识别总流程图。

图2实施系统显示界面。

图3离散方向边基准向量。

图4四个视觉汉字和对应的方向边谱。

图5几个视觉汉字在低维流形空间X_low0中的位置示例。

图6(a)联机视频图像预处理和肤色提取后的一帧视频图像。

图6(b)联机视频图像预处理和肤色提取后的三个肤色块。

图6(c)联机视频图像预处理和肤色提取后对肤色区域进行分割缩放后得到的测试样本图像。

图7(a)控制手势1的OBB包围盒和凸包以及指尖点特征。

图7(b)控制手势2的OBB包围盒和凸包以及指尖点特征。

图7(c)控制手势3的OBB包围盒和凸包以及指尖点特征。

图8视觉汉字“上”在低维流型坐标空间X_low0中的位置，在其邻域半径范围内有一个相似的视觉汉字特征点。

具体实施方式

本发明的实施系统由硬件和软件两部分组成。硬件部分由计算机主机、显示设备(投影屏幕、显示器或电视机)、摄像头组成。其中计算机可为普通的家用机，摄像头采用普通的网络摄像头(或笔记本自带的摄像头)，分辨率为800*600以上，帧频25帧每秒以上。整个实施系统分中预处理部分包括搭建视觉汉字特征向量库、流形学习模块、汉字语义联想数据库、肤色模型等步骤；实时处理包括手势检测、手势跟踪、汉字识别与智能联想。图1为本发明实施系统的总流程图。图2为本发明实施系统显示界面分为三个区域，左半区为视觉汉字输入区、右半区为汉字识别结果、近似汉字与词组联想区。

本发明实施系统中定义的三种控制手势分别为：(1)手势1：食指伸直其它四指收拢，为汉字输入手势，只作用于视觉汉字输入区。(2)手势2：手掌平直，五指自然张开，在视觉汉字输入区表示结束汉字输入手势，在汉字显示与选择区为控制光标移动手势。(3)手势3：握拳。为选择确认手势，只作用于汉字显示与选择区。当系统在检测到控制手势之1、2、3其中一个之后并根据手势所处的区域进行系统控制。下面对本发明的实施系统中各步骤进行详细的说明。

一、预处理部分

1.建立视觉汉字特征向量库。

1-1选择字库。根据国家标准GB2312-80《信息交换用汉字编码字符集—基本集》一级字库为常用字，3755个，使用频率合计达99.7%。其中排序最前的140个汉字使用频率为50%，排序141-232的汉字为10%，排序233-380的为10%，排序382-500的为5.43%。我们选取一级汉字库为本实施系统的总字库，记为：RC，并按汉字的使用频率分为6个子字库{Rc₀，...,Rc₅}。

Rc₀={c_i|i＝[0,139]}；Rc₁={c_i|i＝[140,499]}；Rc₂={c_i|i＝[500,999]}；

Rc₃={c_i|i＝[1000,1999]}；Rc₄={c_i|i＝[2000,2999]}；Rc₅={c_i|i＝[3000,3754]}；

1-2为每个汉字编号，为5位编码：#####。第1位为所在子库序号0-5，后4位为在子库中的序号。例如00000表示第一个子库中第一个汉字，00139表示第一个子库中第140个汉字。53754表示第6个子库中最后一个汉字。

1-3计算视觉汉字的方向边谱。在预处理阶段，我们采用电脑数位板和压感笔代替人手手势获取视觉汉字方向边谱以保证训练数据的标准性，主要步骤：

1-3-1离散化方向边基准向量，见图3。

1-3-2设置方向边谱在离散二维欧式坐标系中最小单位刻度为10。

1-3-3把需要训练的汉字(宋体)打印出来，作为临摹页置于数位板上。让操作者使用压感笔严格遵守汉字规范书写笔画顺序进行对临摹页上的印刷体汉字进行临摹，并且保证书写过程中压感笔不离开数位版面。

1-3-4在书写过程中，通过采样笔尖的位移检测边的方向。如果两帧间笔尖位移的方向变化小于阈值15°时，则认为笔尖还在完成同一条边的书写，当笔尖位移方向改变超过15°时，则认为为当前边结束，连接起始与终点获得该方向边，更新方向边谱。

1-3-5更新起点为上一条边的终点，开始下一条边的计算。最终形成子汉字库{Rc₀，...,Rc₅}的汉字边方向谱库DeC={DeC₀,...,DeC₅}。表1为4个视觉汉字和其对应的边方向谱坐标表示，图4中的(a-d)分对应表1中的四个汉字对应的方向边谱图形表示。

表14个汉字和对应的视觉汉字的方向边谱坐标表示

1-3-6为DeC={DeC₀,...,DeC₅}中方向边谱分别计算其Hu矩，形成视觉汉字特征向量库HcC={HcC₀，...,HcC₅}。如表2为HcC₀中的几个视觉汉字的特征向量。

表2HcC₀中的几个视觉汉字的特征向量

2.流形学习模块。

2-1根据子字库大小，构造二维视觉汉字特征向量相似度矩阵G（表3为表2中的几个视觉汉字的相似度矩阵）。

表3表2中的几个视觉汉字的相似度矩阵

2-1-1计算与每个视觉汉字特征向量HCⁱ相似度最高的l5个特征向量HC^j。

2-1-2计算每对HCⁱ与HC^j之间的权重值g_ij，并且令g_ij=g_ji,g_ii=1，热核函数中参数t=20。

2-2通过LPP的最小化目标函数过程推导和求得广义特征值的计算，得到高维低维映射矩阵W和高低维映射的显式表达式P^T＝W^TQ(Q为7维、P为2维特征向量，W为2×7的矩阵)。

2-3重复步骤2-1和2-2为6个子汉字库分别训练6个低维流形空间{X_low0，...,X_low5}，映射矩阵分为别：

W_{0} = [\begin{matrix} 0.18 & 0.13 & 0.44 & 0.09 & 0.54 & 0.53 & 0.39 \\ - 0.02 & 0.46 & - 0.20 & - 0.09 & - 0.24 & - 0.34 & 0.74 \end{matrix}]

W_{1} = [\begin{matrix} - 0.54 & - 0.61 & 0.10 & - 0.04 & 0.21 & - 0.49 & 0.18 \\ - 0.67 & - 0.31 & - 0.22 & - 0.30 & 0.37 & - 0.30 & 0.29 \end{matrix}]

W_{2} = [\begin{matrix} 0.33 & 0.24 & 0.43 & - 0.04 & 0.00 & - 0.97 & - 0.06 \\ - 0.42 & 0.11 & - 0.34 & 0.12 & - 0.20 & 0.77 & - 0.10 \end{matrix}]

W_{3} [\begin{matrix} 0.45 & 0.03 & 0.38 & 0.48 & 0.51 & - 0.17 & 0.36 \\ - 0.39 & 0.05 & - 0.47 & - 0.56 & 0.51 & 0.14 & - 0.15 \end{matrix}]

W_{4} = [\begin{matrix} 0.02 & 0.29 & 0.13 & - 0.02 & 0.34 & - 0.87 & 0.04 \\ 0.02 & 0.29 & 0.14 & - 0.02 & 0.35 & - 0.87 & 0.04 \end{matrix}]

W_{5} = [\begin{matrix} 0.11 & - 0.19 & 0.23 & 0.19 & - 0.56 & 0.73 & - 0.05 \\ 0.39 & - 0.10 & - 0.38 & 0.38 & - 0.47 & 0.19 & 0.52 \end{matrix}]

2-4量化6个低维流形空间{X_low0，...,X_low5}中的特征向量点坐标为整数单位，并用图像存储。根据实际计算得到纵坐标量化公式为y=[20×y]，x=[10×x]，符号[]表示取整。图5为低维流形空间X_low0的图像表示。

3.建立汉字语义联想数据库。在该库中每行有14个属性：后面依次为1个汉字印刷体字符，7个视觉汉字特征向量和5个按照语义概率大小排列的最有可能成词组的汉字序号。汉字序号为主键。

4.训练肤色模型。通过在各种环境光亮度下对多个人手肤色进行采样，并把图像由RGB颜色空间转换到YCgCr空间，带入高斯模型得到，的到高斯肤色模型参数：M=[116.019,148.732]；

C = [\begin{matrix} 34.233 & - 17.680 \\ - 17.680 & 76.441 \end{matrix}] .

其中M为CgCr色度的均值和C为CgCr色度协方差矩阵。

二、实时处理部分

5.视频图像预处理。

5-1读取视频图像，分离出图像的RGB通道，统计各个颜色通道的色彩平均值记为(argR,argG,argB)，并计算出整个色彩的平均值argI＝(argR+argG+argB)/3。

5-2计算三个色彩的权值因子：aR=argI/argR，aG＝argI/argG，aB＝argI/argB，按照R＝R*aR，G＝G*aG，B＝B*aB来计算新的颜色分量，得到色彩平衡后图像。

5-3采用高斯滤波进行图像平滑，高斯滤波模板大小为5×5。

5-4把图像从RGB颜色空间转换到YCrCb空间，并只保留色度信息CrCb。

5-5把每一个像素带入高斯肤色模型，确定肤色区域。把肤色的部分作为前景，像素值为1，把非肤色的部分作为背景，像素值为0，最后得到预处理后的二值图像。

如图6(a)和6(b)是步骤5之后的结果。

6.图像分割获得潜在手势区域。

6-1为二值图像中的肤色区域分别计算AABB包围盒和中心坐标O(x,y)。

6-3以AABB最长变为单位边，扩展AABB为方形，再与同其中肤色块缩放到64*64分辨率的图像，成为候选手势区域块，如图6(c)。

6-4采用8临域搜索法对n个候选手势区域块进行轮廓搜索，得到n个轮廓像素点集合P_n。

6-5采用Douglas-Peucker算法对P_n中的每个轮廓点集进行曲线拟合，得到n个逆时针排列的轮廓线段端点集合BP。

7.控制手势识别。

7-1本实施系统中的三种控制手势分别为：

(1)手势1：食指突出其他四指收拢，指尖数目为1，用于视觉汉字的输入。

(2)手势2：五指自然张开，指尖数目为5；视觉汉字输入结束与移动状态。

(3)手势3：握拳，指尖数目为0，视觉汉字输入结束与移动状态。

7-2采用二维的QuickHull算法计算BP_i(i<=3)的凸包CH_i，凸包顶点按逆时针顺序存储。

7-3计算BP_i与凸包的交点集合，得到BP_i中的凸点集CP_i，也按逆时针顺序存储。

7-4构建CP_i的协方差矩阵，计算协方差矩阵的两个正交的特征向量为方向包围盒OBB_i方向，其中特征值较大的对应的特征向量方向为OBB_i的主方向向V_i。

7-5计算OBB_i的长度length与宽度width，用结构OBB_i={O_i(x,y),V_i,length_i,width_i}保存，其中O_i(x,y)为当前肤色块在步骤6-1中所述的AABB_i的中心。

7-6第一个几何特征为OBB_i长宽比例：lenght_i/width_i。三种手势第一个几何特征取值区间分别为[1,2]、[1.3,1.7]、[1,1.3]，人脸区域(包括脖子区域，耳朵区域)的第一几何特征取值范围约为的为[1,1.4]。

7-7统计OBB_i的内总像素与测试图像中的肤色区域中值为1像素数目之比，得到第二个几何特征。三种手势的二个几何特征取值区间分别为[1.5,2.2]、[1.7,3]、[4.5,5.5]，人脸大约在[1,1.9]。

7-8按逆时针顺序依次考察位于CP_i中任意两点间且属于BP_i的点的曲率，找到局部极值最大的点，如果存在这样的点，计算其与对应凸包线段的距离，如果该距离大于OBB_i包围盒短轴长度的0.1435倍，则该极值点记为谷底点，用Vmin来存储，否则不予记录。最后把所有谷底点对应的凸包线段端点按逆时针方向的分开存储，起始点存到Vsta集合和结束点存到Vend集合。

7-10复制Vsta给FTip。遍历Vend中所终点，如果某个终点离FTip中某个起点欧式距离小于阈值(OBB短轴的0.2倍)，则从Vend删除该点，否则把该点加入到FTip中，直到Vend中所有点都被考察完。最终得到第三几何特征——指尖个数。三种手势第三个几何特征取值分别为1、5、0，人脸区域第三几何特征取值为0。

7-11通过7-6、7-7、7-10中三种几何特征结果可以有效对三种控制手势以及人脸部区域进行区分。

7-12重复执行7-2到7-11直到每一个候选手势区域块都被考察完毕，返回识别出的控制手势1的OBB包围盒信息。

8.控制手势跟踪。

8-1在检测到控制手势的第一帧，记下控制手势的OBB包围盒的中心位置、主轴方向以及尺寸于TempOBB={O(x,y),V,length,width}。

8-2在t+1，由步骤5、6、7后，得到控制手势的OBB包围盒。

8-3如果帧t+1只有一个控制手势的OBB包围盒，则认为其包含的手势区域为上一帧的控制手势，跟踪到手势的位置，更新TempOBB，转到步骤9。

8-4如果超过一个OBB存在，选择这些OBB中与前一帧TempOBB距离最近的为当前被跟踪的手势1的OBB，并跟新TempOBB，舍弃其他的OBB包围盒，执行步骤9。其中OBB包围盒之间的距离采用Hausdorff距离来计算。

9.跟踪第一种手势计算手势输入的视觉汉字的特征向量。主要通过获得手势的运动方向、拐点等信息构建视觉汉字特征向量，具体步骤如下。

9-1对于在时刻t₀第一次检测出的第一种手势后，读取FTip集合，记指尖在当前帧的位置为S₀，在t_n时刻的位置为_Sn。

9-2在t₁时刻连接记录向量(S₀,S₁)作为边初始向量，然后随着时间进行不断判断：

(1)如果向量(S_t-1,S_t)与(S_t,S_t+1)之间锐角小于阈值γ₁=15°并且向量(S₀,S₁)与(S₀,S_t+1)之间锐角小于阈值γ₂=10°，则认为手势正在进行一条方向边的书写，S₀还是该边起点，继续跟踪指尖坐标确定终点。

(2)如果向量(S_t-1,S_t)与(S_t,S_t+1)之间锐角大于阈值γ₁，则说明S_t为一拐点，为该方向边的终点，返回这条方向边的方向为(S₀，S_t)的方向，执行9-3步骤。

9-3利用与步骤1-2相同的方法更新该视觉汉字的方向边谱DE。

9-5利用与步骤1-3相同方法，计算该视觉汉字的特征向量PC。

10.识别视觉汉字。把步骤9中计算的视觉汉字特征向量PC依次代入在步骤2中训练好的高低维映射函数，进行汉字识别。

10-1计算P_i ^T=W_i ^TPC(初始时i=0，即选择第一个字库)，其中P_i为该视觉汉字在低维流形坐标系i下的坐标。

10-2在视觉汉字低维流形坐标系i中以P为中心，半径r5范围内采用菱形搜索法查找候选特征向量，记录其对应的汉字序号。如图8为汉字“上”在低维流型坐标系1下的位置以及其领域半径范围内的一个相似汉字点。

10-4如果半径r范围内存在候选向量，根据候选向量的汉字序号在步骤1-3-6中的汉字方向边谱库DeC中找到候选特征向量的汉字方向边谱，计算P_i与它们的方向边谱的相似度。

10-4-1如果某个候选视觉汉字与P_i的相似度小于阈值0.1，则确定P_i序号为该候选汉字序号，把该汉字印刷体字符输出到显示界面上。

10-4-2否则把候选汉字按相似度从大到小排序显示界面右部的汉字候选区中。

11.汉字语义联想显示。对步骤10中确定的汉字序号，在汉字联想数据库中进行查找得到后续潜在视觉汉字集合，显示在界面联想汉字区，如图2所示。

Claims

1.一种基于手势的汉字交互输入与识别方法，其特征在于，该方法包括预处理部分和联机部分

一、预处理部分

步骤1：建立视觉汉字特征向量库；

1-1确定待识别汉字范围形成总库RC，根据RC的规模按汉字在日常中的使用频度高低分为k个子字库{Rc₀,...,Rc_k-1}，在子库中为每个汉字编号：c_i(c_i∈Rc_j,i＝(0,...,n-1)),j＝(0,...,k-1))；

1-2建立视觉汉字的方向边谱；

{\overset{&RightArrow;}{d}}_{4 k + 2} = (\sqrt{2}, (2 k + 1) π / 4), k &Element; [0, . . ., 3];

{\overset{&RightArrow;}{d}}_{4 k} = (1, kπ / 2), k &Element; [0, . . ., 3];

{\overset{&RightArrow;}{d}}_{1} = (\sqrt{5} / 2, θ_{1} = \arccos (2 / \sqrt{5}));

{\overset{&RightArrow;}{d}}_{3} = (\sqrt{5} / 2, π / 2 - θ_{1});

{\overset{&RightArrow;}{d}}_{5} = (\sqrt{5} / 2, π / 2 + θ_{1});

{\overset{&RightArrow;}{d}}_{7} = (\sqrt{5} / 2, π - θ_{1});

{\overset{&RightArrow;}{d}}_{9} = (\sqrt{5} / 2, π + θ_{1});

{\overset{&RightArrow;}{d}}_{11} = (\sqrt{5} / 2, π 3 / 2 - θ_{1});

{\overset{&RightArrow;}{d}}_{13} = (\sqrt{5} / 2, π 3 / 2 + θ_{1});

{\overset{&RightArrow;}{d}}_{15} = (\sqrt{5} / 2, 2 π - θ_{1})

1-2-2记录一个视觉汉字书写过程中的所有方向边，近似量化到这16个基准向量所在方向上，统计每个方向上的方向边的数量，并以增量二维标的形式存到DE＝{de₀,...,de₁₅}中，DE即为视觉汉字的方向边谱，其中de_i代表第i个方向上的方向边累增坐标集合：de_i＝{(x₀,y₀),…,(x_m-1,y_m-1)}；

1-3计算方向边谱的Hu矩作为视觉汉字的特征向量HC＝{hc₀,…,hc₆}；

1-4重复执行步骤1-2和1-3分别对{Rc₀,...,Rc_k-1}中每个视觉汉字进行处理，为每个子汉字库构建视觉汉字的方向边谱库DeC＝{DeC₀,...,DeC_k-1},以及视觉汉字特征向量库HcC＝{HcC₀,…,HcC_k-1}；

步骤2：利用一种局部保形映射LPP(Locality Preserving Projections)算法进行维数约减，得到视觉汉字低维流形空间；主要通过训练HcC中的样本计算出一个显示的高维低维映射函数，将HcC中的高维视觉汉字特征向量的局部关系映射到隐含的低维特征子空间中，用于后续视觉汉字的识别；算法主要包括以下步骤：

2-1构造一个二维视觉汉字特征向量相似度矩阵G，横纵轴为视觉汉字特征向量编号；

2-1-1计算与每个视觉汉字特征向量HCⁱ(i＝0,…,n-1)，相似度最高的l个特征向量HC^j(j＝0,…,l-1)；相似度计算采用公式：

2-1-2采用热核函数其中t为一常数；计算每对HCⁱ与HC^j之间的权重值g_ij(j＝0,…,l-1)，并且令g_ij＝g_ji，g_ii＝1；

2-2通过LPP的最小化目标函数过程推导和求得广义特征值的计算，得到高维低维映射矩阵W和高低维映射的显式表达式P^T＝W^TQ，Q为高维特征向量，P为低维特征向量；

2-3重复执行步骤2-1和2-2，为k个子汉字库分别训练k个低维流形空间：{X_low0,…,X_lowk-1}；

步骤3：建立汉字语义联想数据库；通过汉语词汇语义为汉字之间建立关联，减少具有相关语义的汉字的输入量；在该库中每行有14个属性：第一个为汉字序号也是主键，后面依次为1个汉字字符，7个视觉汉字特征向量和5个按照语义出现概率大小排列的最有可能成词组的汉字序号；

步骤4：训练肤色模型；通过在各种环境光亮度下对多个人手肤色进行采样，训练肤色高斯模型；

二、联机部分，包括视频图像预处理、图像分割获得潜在手势区域、控制手势识别、控制手势跟踪、计算视觉汉字的特征向量和识别视觉汉字；

步骤5：视频图像预处理；对摄像机获得的一帧视频图像进行预处理，包括色彩平衡、图像去噪、肤色提取、二值化和形态学处理，生成一个二值图像，其中肤色的部分作为前景像素，值为1，非肤色的部分作为背景像素，值为0，最后得到肤色区域块集合；

步骤6：图像分割获得潜在手势区域；

6-1为二值图像中的肤色区域分别计算坐标轴向包围盒AABB(Axis-alignedBounding Box)和中心坐标O(x,y)；

6-2保留AABB面积最大的n(n<＝3)个肤色区域块为候选手势区域块；

6-3采用8临域搜索法对n个候选手势区域块进行轮廓搜索，得到n个轮廓像素点集合P_n；

6-4采用Douglas-Peucker算法对P_n中的每个轮廓点集进行曲线拟合，得到n个逆时针排列的轮廓线段端点集合BP_i(i<＝n)；

步骤7.控制手势识别；根据候选手势区域块的三个几何特征进行控制手势识别；

7-1计算第一个几何特征：潜在手势区域的任意轴向包围盒OBB(OrientedBounding Box)的长宽比例；这个比值能很好的反映手势的大体形状；

7-1-1采用二维的QuickHull算法计算BP_i(i<＝n)的凸包；

7-1-2计算凸包的任意轴向包围盒OBB_i中心、主轴、尺寸以及其长短边长的比例；

7-2计算第二个几何特征：统计OBB_i的内总像素与BP_i中肤色区域中值为1像素数目之比，这个比率很好的反映出手势是闭合的还是张开的；

7-3计算第三个几何特征：潜在手势区域指尖点数目；

7-3-1计算潜在手势区域边缘点上的所有凸性凹陷的起点和终点以及谷底点；分别用二维坐标集合Vsta、Vend和Vmin来存储；

7-3-2去除噪声凸性凹陷；如果一个凸性凹陷的谷底深度小于阈值，则为噪声凸性凹陷；

7-3-3计算指尖集FTip；由于一个凸性凹陷的终点近似看成是相邻凸性凹陷的起点，这样前一个凹陷的终点和相邻凹陷的起点可能重合也可能存在很多距离相近的点，算法主要目的是去除这些重复或相近的点；

(1)复制Vsta给FTip；

(2)遍历Vend中所有凹陷的终点；如果某个终点离FTip中某个起点欧式距离小于阈值，则从Vend删除该点，否则把该点加入到FTip中，直到Vend中所有点被考察完；

7-4重复执行7-1到7-3直到BP中每一个候选手势区域块都被考察完毕，返回识别出的控制手势1的OBB包围盒信息OBB{O(x,y),V,length,width},O(x,y)为OBB的中心位置、向量V为主轴方向向量，(length,width)为包围盒的长度和宽度；

步骤8：控制手势跟踪；让操作者以手势1姿态在屏幕中心停留一秒以上，表示要开始视觉汉字的输入；手势1姿态是指食指伸直其它四指收拢；

8-1在检测到手势1停留1秒以后，记下控制手势1的OBB包围盒信息TempOBB＝{O(x,y),V,length,width}；

8-2如果帧t+1只有一个控制手势1的OBB包围盒，则认为其包含的手势1区域为上一帧的控制手势1，跟踪到手势1的位置，更新TempOBB，转到步骤9；

8-3如果超过一个OBB存在，选择这些OBB中与前一帧TempOBB的距离最近的为当前被跟踪的手势1的OBB，并跟新TempOBB，舍弃其他的OBB包围盒，执行步骤9；

步骤9:计算视觉汉字的特征向量；主要通过获得手势的运动方向、拐点信息构建视觉汉字特征向量，具体步骤如下：

9-1对于在时刻t₀第一次检测出的第一种手势后，读取FTip集合，记指尖在当前帧的位置为S₀，在t_n时刻的位置为S_n；

(1)如果向量(S_t-1,S_t)与(S_t,S_t+1)之间锐角小于阈值γ₁并且向量(S₀,S₁)与(S₀,S_t+1)之间锐角小于阈值γ₂，则认为手势正在进行一条方向边的书写，S₀还是该边起点，继续跟踪指尖坐标确定终点；

(2)如果向量(S_t-1,S_t)与(S_t,S_t+1)之间锐角大于阈值γ₁，则说明S_t为一拐点，为该方向边的终点，返回这条方向边的方向为(S₀,S_t)的方向，执行9-3步骤；

(3)如果向量(S_t-1,S_t)与(S_t,S_t+1)之间锐角小于阈值γ₁而向量(S₀,S₁)与(S₀,S_t+1)之间锐角大于阈值γ₂，则认为S₀与S_t+1之间的边为一弧线，S₀与S_t+1分别为起点与终点，连接S₀和S_t+1形成该弧线段的直线逼近，返回该方向边，执行9-3步骤；

9-3利用与步骤1-2相同的方法更新该视觉汉字的方向边谱DE；

9-4令S₀＝S_t，从新重复步骤9-2和9-3，直到检测到第三种手势表示该视觉汉字书写完成，返回方向边谱DE；

9-5利用与步骤1-3相同方法，计算该视觉汉字的特征向量PC；

步骤10：识别视觉汉字；把步骤9中计算的视觉汉字特征向量PC依次代入在步骤2中训练好的高低维映射函数，进行汉字识别；

10-1计算其中P_i为该视觉汉字在低维流形坐标系i下的坐标；初试时i＝0，即选择第一个字库；

10-2在视觉汉字低维流形坐标系i中以P为中心，半径r范围内采用菱形搜索法查找候选特征向量，记录其对应的汉字序号；

10-3如果半径r范围内不存在候选向量，则返回步骤10-1选择下一个映射函数，即下一个字库进行识别；

10-4如果半径r范围内存在候选向量，根据候选向量的汉字序号在步骤1-4中的汉字方向边谱库DeC中找到候选特征向量的汉字方向边谱，计算P_i与它们的方向边谱的相似度；

10-4-1如果某个候选视觉汉字与P_i的相似度小于阈值，则确定P_i序号为该候选汉字序号，把该汉字印刷体字符输出到显示界面上；

10-4-2否则把候选汉字按相似度从大到小排序在输出在显示界面上，等待用户自选确认汉字序号；

10-5如果所有映射函数计算完毕，没有候选向量，则显示无此汉字信息；

步骤11.汉字语义联想显示；对步骤10中确定的汉字序号，在汉字联想数据库中进行查找得到后续潜在视觉汉字集合，显示在界面联想汉字区。