CN103076876B

CN103076876B - 基于视线跟踪与语音识别的字符输入装置和方法

Info

Publication number: CN103076876B
Application number: CN201210517734.8A
Authority: CN
Inventors: 何迪; 彭弘铭; 崔耀; 于明轩; 王军宁; 高静; 魏雯婷
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2012-11-22
Filing date: 2012-11-22
Publication date: 2016-02-10
Anticipated expiration: 2032-11-22
Also published as: CN103076876A

Abstract

基于视线跟踪与语音识别的字符输入装置和方法，本发明的装置包括头盔单元，ARM核单元，图像采集卡，语音识别模块，DSP核单元，场景图像处理模块，坐标转换模块，界面模块。本发明的方法在采集并处理眼图、场景图像和用户语音信号的基础上，先通过校准得到标定系数，再通过求解二维标定方程、坐标转换矩阵得到用户视线注视点在界面坐标系中的坐标值，最终获得期望输入的字符，并配合用户的语音信息，完成字符输入操作以及四则运算操作。本发明具有字符输入注视精度高，头部活动范围较大，操作简捷的优点。具备良好的实用性和可操作性。

Description

基于视线跟踪与语音识别的字符输入装置和方法

技术领域

本发明属于图像处理技术领域，更进一步涉及人机交互技术领域中基于视线跟踪与语音识别的字符输入装置和方法。本发明可用于人机交互技术领域中通过视线跟踪和语音识别，实现全键盘英文字符输入以及四则运算。

背景技术

人机交互(Human-ComputerInteraction，简写HCI)是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程。基于视线跟踪技术的人机交互方法是一种自然和谐的人机交互方式。现有的视线跟踪技术是在计算机屏幕上绘制键盘，通过视线跟踪系统分析并反馈用户注视的字符，由用户确定是否输入，从而实现人机交互。

北京理工大学拥有的专利技术“一种基于视线跟踪和P300脑电电位的字符输入装置”(专利申请号200910080852.5，授权公告号CN101515199)公开了一种基于视线跟踪和P300脑电电位的字符输入装置。该装置实质上根据用户视线确定候选字符集，控制字符集中所有字符键闪烁，激发P300脑电电位，根据电位产生时间和视线定位确定用户期望字符键，实现字符输入操作。该专利技术存在的两点不足：一是注视精度有限。该装置先检测用户虹膜，拟合虹膜的椭圆轮廓，再由椭圆参数计算瞳孔相对于眼角的偏移程度，因此眼图处理精度有限，导致了注视精度有限，不能一次定位到用户的期望字符键。二是需要计算出候选字符集合中每个可能字符为用户期望字符的概率，确定用户的空间域候选集，然后控制空间域候选集中字符随机闪烁，激发用户的P300脑电电位，采集并分析脑电电位信号来计算各可能字符为靶刺激的概率，确定时间域候选集，最后根据两个候选集联合计算出可能性最高的字符作为用户期望字符键，这就导致了字符输入过程、确认过程复杂。

上海交通大学蒋春燕的学位论文“视线跟踪技术研究及其在人机交互字符输入中的应用”(万方国内学位论文，2008年02月01日)，使用了一种单摄像机的视线检测字符输入方法，通过摄像机捕捉用户的虹膜中心，判断用户的视线盯视内容，再由系统做出相应的反馈和运行。该方法存在四点不足之处：一是先通过Canny边缘检测，确定了虹膜的边缘，再通过Hough变换检测虹膜并确定虹膜中心，该方法眼图处理精度不够，导致了视线注视精度有限；二是摄像机固定于显示器上，使用佩戴式标定帽上的三点作为参考点，通过提取三点的位置信息来规划摄像机的运动，用于补偿用户头部运动产生的影响，该方法对用户头部运动的补偿是有限的，这就导致了头部运动对精度的影响大；三是该方法要求用户盯视期望字符2s来完成字符输入，这必然会造成操作复杂，易引起用户视觉疲劳；四是该方法精度有限，在分辨率为1024*768的显示器上绘制了28个字符键，界面上每个字符键都比较大，只显示了有限的字符，这导致了人机交互功能的局限性。

华南理工大学申请的专利“视线跟踪方法及应用该方法的残疾人辅助系统”(专利申请号200810030010.4，公开号CN101344919A)，公开了一种视线跟踪方法及应用该方法的残疾人辅助系统。该系统将人眼注视屏幕四个区域的四种不同方向作为用户发出的四种控制信息，模拟键盘的四个方向键，来完成控制轮椅和控制计算机的简单操作。该专利申请存在的不足是，由于视线注视精度低，仅能利用视线输入四种控制信息，导致了人机交互功能的局限性。

山东大学申请的专利“一种基于视线跟踪的密码输入控制方法”(专利申请号201110067148.3，公开号CN102129554A)，公开了一种基于视线跟踪的密码输入控制方法。该方法首先处理人脸图像，提取人眼特征参数，再使用基于相似三角形的双光源视线跟踪实现从人眼特征参数到当前注视点位置的估计，最后根据注视点位置，利用时间门限及声音反馈来控制密码输入操作。该方法存在两点不足，一是从人脸图像中分割出来的瞳孔图像分辨率低导致瞳孔中心定位精度有限，并采用基于相似三角形的双光源视线跟踪标定方法，该方法实现的密码输入视线注视精度有限；二是该方法只限于用于密码输入，输入字符有限，这导致了人机交互功能的局限性。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种基于视线跟踪与语音识别的字符输入装置和方法，使得用户通过眼睛的注视和语音的确认完成字符的输入操作以及四则运算操作，所获得的视线跟踪字符输入注视精度高，头部活动范围较大，操作更加简捷。

本发明的具体思路是：本发明方法在采集并处理眼图、场景图像和用户语音信号的基础上，先通过校准得到标定系数，再通过求解二维标定方程、坐标转换矩阵得到用户视线注视点在界面坐标系中的坐标值，并配合用户的语音信号，完成字符输入操作以及四则运算操作。

为了实现上述目的，本发明的装置包括头盔单元，ARM核单元，图像采集卡，语音识别模块，DSP核单元，场景图像处理模块，坐标转换模块，界面模块。其中，头盔单元分别与ARM核单元、图像采集卡、语音识别模块单向连接；所述的ARM核单元与DSP核单元双向连接；图像采集卡与场景图像处理模块单向连接；场景图像处理模块与DSP核单元单向连接；坐标转换模块分别与DSP核单元、场景图像处理模块单向连接；语音识别模块与界面模块单向连接；界面模块与坐标转换模块双向连接；界面模块放置于用户正前方。

头盔单元，用于采集眼图、场景图像和用户语音信号。

ARM核单元，用于控制眼摄像机子单元采集眼图，控制DSP核处理眼图。

图像采集卡，用于控制场景摄像机采集场景图像。

语音识别模块，用于接收并分析用户语音信号，获得用户确认信息。

DSP核单元，包括眼图处理模块和标定模块，眼图处理模块用于处理眼图获得瞳孔-光斑矢量；标定模块用于获取二维标定方程组的标定系数，并利用该标定系数和瞳孔-光斑矢量获取用户视线注视点在场景图像坐标系中的坐标值。

场景图像处理模块，用于处理场景图像获得校准标志点和转换标志点在场景图像坐标系中的坐标值。

坐标转换模块，利用转换标志点在场景图像坐标系中的坐标值和转换标志点在界面坐标系中的坐标值，获取坐标转换矩阵，并使用该坐标转换矩阵和用户视线注视点在场景图像坐标系中的坐标值获得用户视线注视点在界面坐标系中的坐标值。

界面模块，用于创建两个界面视图，在一个界面视图中绘制9个校准标志点，在另一个界面视图中绘制由4个转换标志点和55个键组成的输入键盘，并使用用户视线注视点在界面坐标系中的坐标值和用户确认信息完成期望字符输入。

为了实现上述目的，本发明方法的具体步骤如下：

(1)绘制界面

1a)启动界面模块，创建两个界面视图；

1b)在一个界面视图中绘制9个坐标已知的均匀分布点，作为界面中的校准标志点；

1c)在另一个界面视图中绘制输入键盘：绘制任意4个坐标已知的点，作为界面中的转换标志点，按照电脑常用键盘的字符分布，划分出5行共55个边界值已知的分块区域，依次绘制英文字母键、数字键、标点符号键、运算符号键和常用功能键。

(2)采集眼图、场景图像

2a)头盔单元中眼摄像机单元采集红外LED光源照射下的用户左眼眼图；

2b)场景摄像机采集用户正前方场景图像。

(3)处理眼图

眼图处理模块采用阈值自适应的二次延展星射线法实时提取眼图的瞳孔中心和普尔钦光斑中心的坐标值，将瞳孔中心坐标值减去普尔钦光斑中心坐标值，获得瞳孔-光斑矢量值。

(4)处理场景图像

4a)构建场景图像坐标系：以步骤2b)采集的场景图像左上角的点为原点，以像素点在图像上的列号为X轴坐标值，以像素点在图像上的行号为Y轴坐标值，构建完成场景图像坐标系；

4b)场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法，得到步骤1b)中9个校准标志点在场景图像坐标系中的坐标值；

4c)场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法，得到步骤1c)中4个转换标志点在场景图像坐标系中的坐标值。

(5)判断校准标志点的个数

5a)统计当前用户确认成功后的校准标志点个数；

5b)若已校准的校准标志点个数小于9，则执行步骤(6)；

5c)若已校准的校准标志点个数等于9且步骤(7)未执行，则执行步骤(7)；

5d)若已校准的校准标志点个数等于9且步骤(7)已执行过，则执行步骤(8)。

(6)标志点校准

6a)语音识别模块接收到用户语音信号为“YES”，则表示当前标志点校准成功，返回步骤(2)，由界面模块对下一个校准标志点采集眼图；

6b)语音识别模块接收到用户语音信号为“NO”，则表示当前标志点校准失败，返回步骤(2)，由界面模块对当前校准标志点采集眼图。

(7)求解标定系数

标定模块将步骤4b)中9个校准标志点在场景图像坐标系的坐标值，以及步骤(3)中与校准标志点对应的瞳孔-光斑矢量值分别代入二维标定方程组，求解得到二维标定方程组的标定系数。

(8)获得用户视线注视点

8a)将步骤(3)中的用户视线注视点瞳孔-光斑矢量，以及步骤(7)中解得的标定系数分别代入二维标定方程组，求解得到用户视线注视点在场景图像坐标系中的坐标值；

8b)构建界面坐标系：以界面图像左上角的点为原点，以像素点在图像上的列号为X轴坐标值，以像素点在图像上的行号为Y轴坐标值，构建完成界面坐标系，获得4个转换标志点在界面坐标系的坐标值；

8c)将步骤4c)中4个转换标志点在场景图像坐标系的坐标值，以及在步骤8b)中界面坐标系的坐标值，代入跟踪方程，求解得到坐标转换矩阵；

8d)将步骤8a)获得的用户视线注视点在场景图像坐标系中的坐标值，以及步骤8c)中解得的坐标转换矩阵，代入跟踪方程，求解得到用户视线注视点在界面坐标系中的坐标值。

(9)完成期望字符输入

9a)界面模块检测步骤8d)的用户视线注视点在界面坐标系中的坐标值处于步骤1c)中的哪一个分块区域，由所确定的分块区域得知界面输入键盘上与之对应的键；

9b)语音识别模块接收到用户语音信号为“YES”，且当前输入键不为“Esc”时，则认为完成了当前期望字符的输入，返回执行步骤(2)，输入下一期望字符；

9c)语音识别模块接收到用户语音信号为“YES”，且当前输入键为“Esc”时，则执行步骤(10)；

9d)语音识别模块接收到用户语音信号为“NO”时，返回执行步骤(2)，重新输入期望字符。

(10)退出字符输入

本发明与现有技术相比具有如下优点：

第一，本发明利用了采用阈值自适应的二次延展星射线法处理眼图，精确定位了瞳孔中心，克服了现有技术由于眼图处理精度有限导致的注视精度较低的缺点，使得本发明提高了注视精度。

第二，本发明采用了场景图像处理模块和坐标转换模块，实现了用户注视点从场景图像坐标系到界面坐标系的转换，从而确定了用户注视的字符键，克服了现有技术头部运动对注视精度的影响，使得本发明提高了注视精度。

第三，本发明利用了语音识别技术，识别出用户的确认信息，克服了现有技术由于确认过程复杂、确认时间长导致用户易疲劳的缺点，使得本发明具备良好的易操作性，从而提高了字符输入速率。

第四，本发明在界面视图上绘制了由55个键组成的输入键盘，可以一次定位到用户期望字符键，克服了现有技术中人机交互功能局限的缺点，使得本发明能够实现全键盘英文字符输入以及四则运算，具有良好的实用性。

附图说明

图1为本发明装置的结构示意图；

图2为本发明方法的流程图；

图3为本发明界面输入键盘的示意图。

具体实施方式

下面结合附图1，对本发明的装置做进一步描述。

本发明基于视线跟踪与语音识别的字符输入装置，包括头盔单元，ARM核单元，图像采集卡，语音识别模块，DSP核单元，场景图像处理模块，坐标转换模块，界面模块；其中，头盔单元分别与ARM核单元、图像采集卡、语音识别模块单向连接，将采集到的眼图、场景图像、用户语音信号分别输出至ARM核单元、图像采集卡、语音识别模块；ARM核单元与DSP核单元双向连接，ARM核单元将未处理的眼图输出至DSP核单元，接收DSP核单元输入的处理过的眼图；图像采集卡与场景图像处理模块单向连接，图像采集卡将场景图像输出至场景图像处理模块；场景图像处理模块与DSP核单元单向连接，场景图像处理模块将校准标志点在场景图像坐标系中的坐标值输出至DSP核单元；坐标转换模块分别与DSP核单元、场景图像处理模块单向连接，分别接收DSP核单元输入的用户视线注视点在场景图像坐标系中的坐标值和场景图像处理模块输入的转换标志点在场景图像坐标系中的坐标值；语音识别模块与界面模块单向连接，语音识别模块将用户确认信息输出至界面模块；界面模块与坐标转换模块双向连接，界面模块将转换标志点在界面坐标系中的坐标值输出至坐标转换模块，接收坐标转换模块输入的用户视线注视点在界面坐标系中的坐标值；界面模块放置于用户正前方50～70cm处，使用户能清晰的看到界面模块。

头盔单元，用于采集眼图、场景图像和用户语音信号，所采集的眼图为用户注视界面视图中校准标志点或字符键时的眼睛图像，所采集的场景图像为用户正前方的图像场景，图像中要有界面视图的清晰成像，所采集的用户语音信号为用户说的“YES”或“NO”。

本发明装置中的头盔单元包括眼铝制支架、眼摄像机子单元、场景摄像机、语音采集麦克风。铝制支架固定于头盔正前方，眼摄像机子单元由摄像机、红外LED光源、红外反光板组成，装于铝制支架左侧，场景摄像机固定在铝制支架右侧，语音采集麦克风固定在头盔右侧。

图像采集卡，用于控制场景摄像机采集场景图像。

语音识别模块，基于MicrosoftSpeechSDK开发，用于接收并分析用户语音信号，首先创建识别引擎和识别上下文接口，然后设置识别消息，其中“YES”表示确认，“NO”表示否认，再依据识别消息创建听说式语法规则，完成语音识别的初始化，识别引擎侦听用户语音信号输入，截获并识别消息，激活听说式语法规则进行识别，获得用户确认信息。

场景图像处理模块，用于处理场景图像获得校准标志点或转换标志点在场景图像坐标系中的坐标值。

下面结合附图2，对本发明的方法做进一步描述，其步骤如下：

步骤1，绘制界面

启动界面模块，创建两个界面视图。其中一个视图中绘制有3行3列排列的9个坐标已知的均匀分布点，作为校准标志点。参照附图3，在另一个视图中绘制输入键盘。首先如附图3虚线上方所示，绘制任意4个坐标已知的点，作为转换标志点；然后如附图3虚线下方所示，按照电脑常用键盘的字符分布，划分出5行共55个边界值已知的分块区域，在各个分块区域上依次绘制英文字母键、数字键、标点符号键、运算符号键和常用功能键。

步骤2，采集眼图、场景图像

头盔单元中眼摄像机单元采集红外LED光源照射下的用户左眼眼图，本发明的实施例中，眼摄像机帧率为25帧/s，图像分别率为640x480。

场景摄像机采集用户正前方场景图像，本发明的实施例中场景摄像机帧率为25帧/s，图像分别率为720x576。

步骤3，处理眼图

眼图处理模块采用阈值自适应的二次延展星射线法实时提取眼图的瞳孔中心和普尔钦光斑中心的坐标值，将瞳孔中心坐标值减去普尔钦光斑中心坐标值，获得瞳孔-光斑矢量值，具体步骤如下：

第一步，眼图处理模块对图像进行高斯滤波预处理。

第二步，眼图处理模块使用灰度直方图求得最佳的灰度阈值对图像进行二值化分割，获取分割后的图像质心作为第一次粗定位瞳孔中心。

第三步，以第一次粗定位瞳孔中心为初始点，对眼图进行二次瞳孔粗定位。

第四步，对眼图进行自适应阈值二值化分割，求二值化图像的最大四连通区域，以该区域的中心值作为普尔钦斑中心。

第五步，使用二次延展星射线法求得瞳孔边界特征点，依据粗定位瞳孔中心坐标值筛选出合格的特征点，将特征点划分在6个不同区域，在每个区域随机取一特征点，若该区域中不存在特征点，则从其他区域选取，共取6个瞳孔边界特征点。

第六步，使用6个瞳孔边界特征点拟合椭圆。

第七步，计算所有特征点到拟合出来的椭圆的欧式距离，记录距离小于n个像素的特征点的个数，n表示误差范围，取值为1～5之间，当匹配点个数与总特征点个数的比率大于μ时，μ取值0.5～0.9之间，认为椭圆拟合成功，眼图处理完成，否则更改二次延展星射线法中的梯度阈值，执行本步骤的第五步。

步骤4，处理场景图像

构建场景图像坐标系：以步骤2采集的场景图像左上角的点为原点，以像素点在图像上的列号为X轴坐标值，以像素点在图像上的行号为Y轴坐标值，构建完成场景图像坐标系。

场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法，得到步骤1中9个校准标志点和4个转换标志点在场景图像坐标系中的坐标值，具体步骤如下：

第一步，场景图像处理模块处理头盔单元采集的包含标志点的图像样本，确定样本阈值范围、特征点所处的矩形区块的周长和面积的范围。

第二步，场景图像处理模块对当前帧场景图像进行高斯滤波和形态学开运算预处理。

第三步，在样本阈值范围内，场景图像处理模块对预处理过的图像进行二值化，再使用Hu矩匹配法检测各标志点所在的矩形区块的轮廓，计算各轮廓的周长和面积，筛选出符合本步骤第一步的周长和面积范围的轮廓，统计合格的轮廓个数，求各轮廓的最小外界矩形，获取各轮廓的中心坐标。

第四步，判断合格的轮廓个数是否等于标志点个数，如果是，则视为检测成功，将各轮廓中心坐标按照先行后列的顺序依次赋值给各标志点坐标，否则在样本阈值范围内更改阈值，执行本步骤的第三步。

第五步，若重复本步骤第三步10次后，仍没有检测成功，则选取上一帧场景图像的各标志点坐标值作为当前帧场景图像的各标志点坐标值。

步骤5，判断校准标志点的个数

统计当前用户确认成功后的校准标志点个数。若已校准的校准标志点个数小于9，表示9个校准标志点未全部校准，则执行步骤6；若已校准的校准标志点个数等于9且步骤7未执行，表示9个校准标志点已全部校准，但未获得标定系数，则执行步骤7；若已校准的校准标志点个数等于9且步骤7已执行过，表示9个校准标志点已全部校准，并已获得标定系数，则执行步骤8。

步骤6，标志点校准

若语音识别模块接收到用户语音信号为“YES”，则表示当前标志点校准成功，返回步骤2，由界面模块对下一个校准标志点采集眼图；若语音识别模块接收到用户语音信号为“NO”，则表示当前标志点校准失败，返回步骤2，由界面模块对当前校准标志点采集眼图。

步骤7，求解标定系数

标定模块将步骤4中9个校准标志点在场景图像坐标系的坐标值，以及步骤3中与校准标志点对应的瞳孔-光斑矢量值分别代入二维标定方程组，求解得到二维标定方程组的标定系数：

\{\begin{matrix} x_{s} = a_{0} + a_{1} x_{e} + a_{2} y_{e} + a_{3} x_{e} y_{e} + a_{4} x_{e}^{2} + a_{5} y_{e}^{2} \\ y_{s} = b_{0} + b_{1} x_{e} + b_{2} y_{e} + b_{3} x_{e} y_{e} + b_{4} x_{e}^{2} + b_{5} y_{e}^{2} \end{matrix}

其中，x_s和y_s分别表示场景图像坐标系中9个校准标志点的X轴和Y轴坐标值，表示待求解的标定系数，x_e和y_e分别表示与9个校准标志点对应的瞳孔-光斑矢量X轴和Y轴坐标值。

步骤8，获得用户视线注视点

首先，将步骤3中的用户视线注视点瞳孔-光斑矢量，以及步骤7中解得的标定系数a₀，a₁，a₂，a₃，a₄，a₅和b₀，b₁，b₂，b₃，b₄，b₅分别代入二维标定方程组，求解得到用户视线注视点在场景图像坐标系中的坐标值：

\{\begin{matrix} x_{s} = a_{0} + a_{1} x_{e} + a_{2} y_{e} + a_{3} x_{e} y_{e} + a_{4} x_{e}^{2} + a_{5} y_{e}^{2} \\ y_{s} = b_{0} + b_{1} x_{e} + b_{2} y_{e} + b_{3} x_{e} y_{e} + b_{4} x_{e}^{2} + b_{5} y_{e}^{2} \end{matrix}

其中，x_s和y_s分别表示待求的用户视线注视点在场景图像坐标系中X轴和Y轴坐标值，a₀，a₁，a₂，a₃，a₄，a₅和b₀，b₁，b₂，b₃，b₄，b₅表示已知的标定系数，x_e和y_e分别表示与待求用户视线注视点对应的瞳孔-光斑矢量X轴和Y轴坐标值。

其次，构建界面坐标系。以界面图像左上角的点为原点，以像素点在图像上的列号为X轴坐标值，以像素点在图像上的行号为Y轴坐标值，构建完成界面坐标系，获得4个转换标志点在界面坐标系的坐标值。

然后，将步骤4中4个转换标志点在场景图像坐标系的坐标值，以及在步骤8中界面坐标系的坐标值，代入跟踪方程，求解得到坐标转换矩阵：

X_c＝HX_s

X_c＝(x_c，y_c，1)^T

X_s＝(x_s，y_s，z_s)^T

其中，X_c与X_s分别表示4个转换标志点在界面坐标系与场景图像坐标系中点坐标向量，H为待求的坐标转换矩阵，x_c与y_c分别表示4个转换标志点在界面坐标系中点的X轴坐标值与Y轴坐标值，x_s与y_s分别表示4个转换标志点在场景图像坐标系中点的X轴坐标值与Y轴坐标值，z_s表示4个转换标志点在场景图像坐标系中点的Z轴坐标值，z_s＝x_s+y_s-1，c表示界面坐标系，s表示场景图像坐标系，T表示转置。

最后，将本步骤中获得的用户视线注视点在场景图像坐标系中的坐标值，以及解得的坐标转换矩阵H，代入跟踪方程，求解得到用户视线注视点在界面坐标系中的坐标值：

X_c＝HX_s

X_c＝(x_c，y_c，1)^T

X_s＝(x_s，y_s，z_s)^T

其中，X_c与X_s分别表示用户视线注视点在界面坐标系与场景图像坐标系中点坐标向量，H为上述已求得的坐标转换矩阵，x_c与y_c分别表示用户视线注视点在界面坐标系中点的X轴坐标值与Y轴坐标值，x_s与y_s分别表示用户视线注视点在场景图像坐标系中点的X轴坐标值与Y轴坐标值，z_s表示用户视线注视点在场景图像坐标系中点的Z轴坐标值，z_s＝x_s+y_s-1。

步骤9，完成期望字符输入

界面模块检测步骤8的用户视线注视点在界面坐标系中的坐标值处于输入键盘中的哪一个分块区域，由所确定的分块区域得知界面输入键盘上与之对应的键。当语音识别模块接收到用户语音信号为“YES”，且当前输入键不为“Esc”时，则认为完成了当前期望字符的输入，返回执行步骤2，输入下一期望字符；当语音识别模块接收到用户语音信号为“YES”，且当前输入键为“Esc”时，则执行步骤10；当语音识别模块接收到用户语音信号为“NO”时，返回执行步骤2，重新输入期望字符。

步骤10，退出字符输入。

Claims

1.一种基于视线跟踪与语音识别的字符输入方法，其具体步骤如下：

(1)绘制界面

1a)启动界面模块，创建两个界面视图；

1c)在另一个界面视图中绘制输入键盘：绘制任意4个坐标已知的点，作为界面中的转换标志点，按照电脑常用键盘的字符分布，划分出5行共55个边界值已知的分块区域，依次绘制英文字母键、数字键、标点符号键、运算符号键和常用功能键；

(2)采集眼图、场景图像

2b)场景摄像机采集用户正前方场景图像；

(3)处理眼图

眼图处理模块采用阈值自适应的二次延展星射线法实时提取眼图的瞳孔中心和普尔钦光斑中心的坐标值，将瞳孔中心坐标值减去普尔钦光斑中心坐标值，获得瞳孔-光斑矢量值；

(4)处理场景图像

4c)场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法，得到步骤1c)中4个转换标志点在场景图像坐标系中的坐标值；

(5)判断校准标志点的个数

5a)统计当前用户确认成功后的校准标志点个数；

5b)若已校准的校准标志点个数小于9，则执行步骤(6)；

5d)若已校准的校准标志点个数等于9且步骤(7)已执行过，则执行步骤(8)；

(6)标志点校准

6b)语音识别模块接收到用户语音信号为“NO”，则表示当前标志点校准失败，返回步骤(2)，由界面模块对当前校准标志点采集眼图；

(7)求解标定系数

标定模块将步骤4b)中9个校准标志点在场景图像坐标系的坐标值，以及步骤(3)中与校准标志点对应的瞳孔-光斑矢量值分别代入二维标定方程组，求解得到二维标定方程组的标定系数；

(8)获得用户视线注视点

所述的跟踪方程为矩阵形式，具体表达式如下：

X_c＝HX_s

X_c＝(x_c，y_c，1)^T

X_s＝(x_s，y_s，z_s)^T

其中，X_c与X_s分别表示界面坐标系与场景图像坐标系中点坐标向量，H为坐标转换矩阵，x_c与y_c分别表示界面坐标系中点的X轴坐标值与Y轴坐标值，x_s与y_s分别表示场景图像坐标系中点的X轴坐标值与Y轴坐标值，z_s表示场景图像坐标系中点的Z轴坐标值，z_s＝x_s+y_s-1，c表示界面坐标系，s表示场景图像坐标系，T表示转置操作；

8d)将步骤8a)获得的用户视线注视点在场景图像坐标系中的坐标值，以及步骤8c)中解得的坐标转换矩阵，代入跟踪方程，求解得到用户视线注视点在界面坐标系中的坐标值；

所述的跟踪方程为矩阵形式，具体表达式如下：

X_c＝HX_s

X_c＝(x_c，y_c，1)^T

X_s＝(x_s，y_s，z_s)^T

(9)完成期望字符输入

9d)语音识别模块接收到用户语音信号为“NO”时，返回执行步骤(2)，重新输入期望字符；

(10)退出字符输入。

2.根据权利要求1所述的基于视线跟踪与语音识别的字符输入方法，其特征在于，步骤(3)所述的阈值自适应的二次延展星射线法具体步骤如下：

第一步，眼图处理模块对图像进行高斯滤波预处理；

第二步，眼图处理模块使用灰度直方图求得最佳的灰度阈值对图像进行二值化分割，获取分割后的图像质心作为第一次粗定位瞳孔中心；

第三步，以第一次粗定位瞳孔中心为初始点，对眼图进行二次瞳孔粗定位；

第四步，对眼图进行自适应阈值二值化分割，求二值化图像的最大四连通区域，以该区域的中心值作为普尔钦斑中心；

第五步，使用二次延展星射线法求得瞳孔边界特征点，依据粗定位瞳孔中心坐标值筛选出合格的特征点，将特征点划分在6个不同区域，在每个区域随机取一特征点，若该区域中不存在特征点，则从其他区域选取，共取6个瞳孔边界特征点；

第六步，使用6个瞳孔边界特征点拟合椭圆；

3.根据权利要求1所述的基于视线跟踪与语音识别的字符输入方法，其特征在于，步骤4b)和步骤4c)所述的基于Hu矩匹配的轮廓特征识别法的具体步骤如下：

第一步，场景图像处理模块处理头盔单元采集的包含标志点的图像样本，确定样本阈值范围、特征点所处的矩形区块的周长和面积的范围；

第二步，场景图像处理模块对当前帧场景图像进行高斯滤波和形态学开运算预处理；

第三步，在样本阈值范围内，场景图像处理模块对预处理过的图像进行二值化，再使用Hu矩匹配法检测各标志点所在的矩形区块的轮廓，计算各轮廓的周长和面积，筛选出符合本步骤第一步的周长和面积范围的轮廓，统计合格的轮廓个数，求各轮廓的最小外界矩形，获取各轮廓的中心坐标；

第四步，判断合格的轮廓个数是否等于标志点个数，如果是，则视为检测成功，将各轮廓中心坐标按照先行后列的顺序依次赋值给各标志点坐标，否则在样本阈值范围内更改阈值，执行本步骤的第三步；

4.根据权利要求1所述的基于视线跟踪与语音识别的字符输入方法，其特征在于，步骤(7)、步骤8a)所述的二维标定方程组为：

\{\begin{matrix} x_{s} = a_{0} + a_{1} x_{e} + a_{2} y_{e} + a_{3} x_{e} y_{e} + a_{4} x_{e}^{2} + a_{5} y_{e}^{2} \\ y_{s} = b_{0} + b_{1} x_{e} + b_{2} y_{e} + b_{3} x_{e} y_{e} + b_{4} x_{e}^{2} + b_{5} y_{e}^{2} \end{matrix}

其中，x_s和y_s表示场景图像坐标系中点的X轴和Y轴坐标值，a₀，a₁，a₂，a₃，a₄，a₅和b₀，b₁，b₂，b₃，b₄，b₅表示标定系数，x_e和y_e分别表示瞳孔-光斑矢量X轴和Y轴坐标值。