CN103076876B - 基于视线跟踪与语音识别的字符输入装置和方法 - Google Patents

基于视线跟踪与语音识别的字符输入装置和方法 Download PDF

Info

Publication number
CN103076876B
CN103076876B CN201210517734.8A CN201210517734A CN103076876B CN 103076876 B CN103076876 B CN 103076876B CN 201210517734 A CN201210517734 A CN 201210517734A CN 103076876 B CN103076876 B CN 103076876B
Authority
CN
China
Prior art keywords
coordinate
point
scene image
interface
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210517734.8A
Other languages
English (en)
Other versions
CN103076876A (zh
Inventor
何迪
彭弘铭
崔耀
于明轩
王军宁
高静
魏雯婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian Univ
Original Assignee
Xidian Univ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian Univ filed Critical Xidian Univ
Priority to CN201210517734.8A priority Critical patent/CN103076876B/zh
Publication of CN103076876A publication Critical patent/CN103076876A/zh
Application granted granted Critical
Publication of CN103076876B publication Critical patent/CN103076876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

基于视线跟踪与语音识别的字符输入装置和方法,本发明的装置包括头盔单元,ARM核单元,图像采集卡,语音识别模块,DSP核单元,场景图像处理模块,坐标转换模块,界面模块。本发明的方法在采集并处理眼图、场景图像和用户语音信号的基础上,先通过校准得到标定系数,再通过求解二维标定方程、坐标转换矩阵得到用户视线注视点在界面坐标系中的坐标值,最终获得期望输入的字符,并配合用户的语音信息,完成字符输入操作以及四则运算操作。本发明具有字符输入注视精度高,头部活动范围较大,操作简捷的优点。具备良好的实用性和可操作性。

Description

基于视线跟踪与语音识别的字符输入装置和方法
技术领域
[0001] 本发明属于图像处理技术领域,更进一步涉及人机交互技术领域中基于视线跟踪 与语音识别的字符输入装置和方法。本发明可用于人机交互技术领域中通过视线跟踪和语 音识别,实现全键盘英文字符输入以及四则运算。
背景技术
[0002] 人机交互(Human-Computer Interaction,简写HCI)是指人与计算机之间使用某 种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。基于 视线跟踪技术的人机交互方法是一种自然和谐的人机交互方式。现有的视线跟踪技术是在 计算机屏幕上绘制键盘,通过视线跟踪系统分析并反馈用户注视的字符,由用户确定是否 输入,从而实现人机交互。
[0003] 北京理工大学拥有的专利技术"一种基于视线跟踪和P300脑电电位的字符输入 装置"(专利申请号200910080852. 5,授权公告号CN 101515199)公开了一种基于视线跟踪 和P300脑电电位的字符输入装置。该装置实质上根据用户视线确定候选字符集,控制字符 集中所有字符键闪烁,激发P300脑电电位,根据电位产生时间和视线定位确定用户期望字 符键,实现字符输入操作。该专利技术存在的两点不足:一是注视精度有限。该装置先检测 用户虹膜,拟合虹膜的椭圆轮廓,再由椭圆参数计算瞳孔相对于眼角的偏移程度,因此眼图 处理精度有限,导致了注视精度有限,不能一次定位到用户的期望字符键。二是需要计算出 候选字符集合中每个可能字符为用户期望字符的概率,确定用户的空间域候选集,然后控 制空间域候选集中字符随机闪烁,激发用户的P300脑电电位,采集并分析脑电电位信号来 计算各可能字符为靶刺激的概率,确定时间域候选集,最后根据两个候选集联合计算出可 能性最高的字符作为用户期望字符键,这就导致了字符输入过程、确认过程复杂。
[0004] 上海交通大学蒋春燕的学位论文"视线跟踪技术研究及其在人机交互字符输入中 的应用"(万方国内学位论文,2008年02月01日),使用了一种单摄像机的视线检测字符 输入方法,通过摄像机捕捉用户的虹膜中心,判断用户的视线盯视内容,再由系统做出相应 的反馈和运行。该方法存在四点不足之处:一是先通过Canny边缘检测,确定了虹膜的边 缘,再通过Hough变换检测虹膜并确定虹膜中心,该方法眼图处理精度不够,导致了视线注 视精度有限;二是摄像机固定于显示器上,使用佩戴式标定帽上的三点作为参考点,通过提 取三点的位置信息来规划摄像机的运动,用于补偿用户头部运动产生的影响,该方法对用 户头部运动的补偿是有限的,这就导致了头部运动对精度的影响大;三是该方法要求用户 盯视期望字符2s来完成字符输入,这必然会造成操作复杂,易引起用户视觉疲劳;四是该 方法精度有限,在分辨率为1024*768的显示器上绘制了 28个字符键,界面上每个字符键都 比较大,只显示了有限的字符,这导致了人机交互功能的局限性。
[0005] 华南理工大学申请的专利"视线跟踪方法及应用该方法的残疾人辅助系统"(专利 申请号200810030010. 4,公开号CN 101344919A),公开了一种视线跟踪方法及应用该方法 的残疾人辅助系统。该系统将人眼注视屏幕四个区域的四种不同方向作为用户发出的四种 控制信息,模拟键盘的四个方向键,来完成控制轮椅和控制计算机的简单操作。该专利申请 存在的不足是,由于视线注视精度低,仅能利用视线输入四种控制信息,导致了人机交互功 能的局限性。
[0006] 山东大学申请的专利"一种基于视线跟踪的密码输入控制方法"(专利申请号 201110067148. 3,公开号CN 102129554A),公开了一种基于视线跟踪的密码输入控制方法。 该方法首先处理人脸图像,提取人眼特征参数,再使用基于相似三角形的双光源视线跟踪 实现从人眼特征参数到当前注视点位置的估计,最后根据注视点位置,利用时间门限及声 音反馈来控制密码输入操作。该方法存在两点不足,一是从人脸图像中分割出来的瞳孔图 像分辨率低导致瞳孔中心定位精度有限,并采用基于相似三角形的双光源视线跟踪标定方 法,该方法实现的密码输入视线注视精度有限;二是该方法只限于用于密码输入,输入字符 有限,这导致了人机交互功能的局限性。
发明内容
[0007] 本发明的目的在于克服上述现有技术的不足,提供一种基于视线跟踪与语音识别 的字符输入装置和方法,使得用户通过眼睛的注视和语音的确认完成字符的输入操作以及 四则运算操作,所获得的视线跟踪字符输入注视精度高,头部活动范围较大,操作更加简 捷。
[0008] 本发明的具体思路是:本发明方法在采集并处理眼图、场景图像和用户语音信号 的基础上,先通过校准得到标定系数,再通过求解二维标定方程、坐标转换矩阵得到用户视 线注视点在界面坐标系中的坐标值,并配合用户的语音信号,完成字符输入操作以及四则 运算操作。
[0009] 为了实现上述目的,本发明的装置包括头盔单元,ARM核单元,图像采集卡,语音识 别模块,DSP核单元,场景图像处理模块,坐标转换模块,界面模块。其中,头盔单元分别与 ARM核单元、图像采集卡、语音识别模块单向连接;所述的ARM核单元与DSP核单元双向连 接;图像采集卡与场景图像处理模块单向连接;场景图像处理模块与DSP核单元单向连接; 坐标转换模块分别与DSP核单元、场景图像处理模块单向连接;语音识别模块与界面模块 单向连接;界面模块与坐标转换模块双向连接;界面模块放置于用户正前方。
[0010] 头盔单元,用于采集眼图、场景图像和用户语音信号。
[0011] ARM核单元,用于控制眼摄像机子单元采集眼图,控制DSP核处理眼图。
[0012] 图像采集卡,用于控制场景摄像机采集场景图像。
[0013] 语音识别模块,用于接收并分析用户语音信号,获得用户确认信息。
[0014] DSP核单元,包括眼图处理模块和标定模块,眼图处理模块用于处理眼图获得瞳 孔-光斑矢量;标定模块用于获取二维标定方程组的标定系数,并利用该标定系数和瞳 孔-光斑矢量获取用户视线注视点在场景图像坐标系中的坐标值。
[0015] 场景图像处理模块,用于处理场景图像获得校准标志点和转换标志点在场景图像 坐标系中的坐标值。
[0016] 坐标转换模块,利用转换标志点在场景图像坐标系中的坐标值和转换标志点在界 面坐标系中的坐标值,获取坐标转换矩阵,并使用该坐标转换矩阵和用户视线注视点在场 景图像坐标系中的坐标值获得用户视线注视点在界面坐标系中的坐标值。
[0017] 界面模块,用于创建两个界面视图,在一个界面视图中绘制9个校准标志点,在另 一个界面视图中绘制由4个转换标志点和55个键组成的输入键盘,并使用用户视线注视点 在界面坐标系中的坐标值和用户确认信息完成期望字符输入。
[0018] 为了实现上述目的,本发明方法的具体步骤如下:
[0019] (1)绘制界面
[0020] la)启动界面模块,创建两个界面视图;
[0021] Ib)在一个界面视图中绘制9个坐标已知的均匀分布点,作为界面中的校准标志 占 .
[0022] lc)在另一个界面视图中绘制输入键盘:绘制任意4个坐标已知的点,作为界面中 的转换标志点,按照电脑常用键盘的字符分布,划分出5行共55个边界值已知的分块区域, 依次绘制英文字母键、数字键、标点符号键、运算符号键和常用功能键。
[0023] (2)采集眼图、场景图像
[0024] 2a)头盔单元中眼摄像机单元采集红外LED光源照射下的用户左眼眼图;
[0025] 2b)场景摄像机采集用户正前方场景图像。
[0026] (3)处理眼图
[0027] 眼图处理模块采用阈值自适应的二次延展星射线法实时提取眼图的瞳孔中心和 普尔钦光斑中心的坐标值,将瞳孔中心坐标值减去普尔钦光斑中心坐标值,获得瞳孔-光 斑矢量值。
[0028] (4)处理场景图像
[0029] 4a)构建场景图像坐标系:以步骤2b)采集的场景图像左上角的点为原点,以像素 点在图像上的列号为X轴坐标值,以像素点在图像上的行号为Y轴坐标值,构建完成场景图 像坐标系;
[0030] 4b)场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法,得到步骤Ib)中9 个校准标志点在场景图像坐标系中的坐标值;
[0031] 4c)场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法,得到步骤Ic)中4 个转换标志点在场景图像坐标系中的坐标值。
[0032] (5)判断校准标志点的个数
[0033] 5a)统计当前用户确认成功后的校准标志点个数;
[0034] 5b)若已校准的校准标志点个数小于9,则执行步骤(6);
[0035] 5c)若已校准的校准标志点个数等于9且步骤(7)未执行,则执行步骤(7);
[0036] 5d)若已校准的校准标志点个数等于9且步骤(7)已执行过,则执行步骤(8)。
[0037] (6)标志点校准
[0038] 6a)语音识别模块接收到用户语音信号为"YES",则表示当前标志点校准成功,返 回步骤(2),由界面模块对下一个校准标志点采集眼图;
[0039] 6b)语音识别模块接收到用户语音信号为"N0",则表示当前标志点校准失败,返 回步骤(2),由界面模块对当前校准标志点采集眼图。
[0040] (7)求解标定系数
[0041] 标定模块将步骤4b)中9个校准标志点在场景图像坐标系的坐标值,以及步骤(3) 中与校准标志点对应的瞳孔-光斑矢量值分别代入二维标定方程组,求解得到二维标定方 程组的标定系数。
[0042] (8)获得用户视线注视点
[0043] 8a)将步骤(3)中的用户视线注视点瞳孔-光斑矢量,以及步骤(7)中解得的标定 系数分别代入二维标定方程组,求解得到用户视线注视点在场景图像坐标系中的坐标值;
[0044] 8b)构建界面坐标系:以界面图像左上角的点为原点,以像素点在图像上的列号 为X轴坐标值,以像素点在图像上的行号为Y轴坐标值,构建完成界面坐标系,获得4个转 换标志点在界面坐标系的坐标值;
[0045] 8c)将步骤4c)中4个转换标志点在场景图像坐标系的坐标值,以及在步骤8b)中 界面坐标系的坐标值,代入跟踪方程,求解得到坐标转换矩阵;
[0046] 8d)将步骤8a)获得的用户视线注视点在场景图像坐标系中的坐标值,以及步骤 8c)中解得的坐标转换矩阵,代入跟踪方程,求解得到用户视线注视点在界面坐标系中的坐 标值。
[0047] (9)完成期望字符输入
[0048] 9a)界面模块检测步骤8d)的用户视线注视点在界面坐标系中的坐标值处于步骤 Ic)中的哪一个分块区域,由所确定的分块区域得知界面输入键盘上与之对应的键;
[0049] 9b)语音识别模块接收到用户语音信号为"YES",且当前输入键不为"Esc"时,则 认为完成了当前期望字符的输入,返回执行步骤(2),输入下一期望字符;
[0050] 9c)语音识别模块接收到用户语音信号为"YES",且当前输入键为"Esc"时,则执 行步骤(10);
[0051] 9d)语音识别模块接收到用户语音信号为"N0"时,返回执行步骤(2),重新输入期 望字符。
[0052] (10)退出字符输入
[0053] 本发明与现有技术相比具有如下优点:
[0054] 第一,本发明利用了采用阈值自适应的二次延展星射线法处理眼图,精确定位了 瞳孔中心,克服了现有技术由于眼图处理精度有限导致的注视精度较低的缺点,使得本发 明提尚了注视精度。
[0055] 第二,本发明采用了场景图像处理模块和坐标转换模块,实现了用户注视点从场 景图像坐标系到界面坐标系的转换,从而确定了用户注视的字符键,克服了现有技术头部 运动对注视精度的影响,使得本发明提高了注视精度。
[0056] 第三,本发明利用了语音识别技术,识别出用户的确认信息,克服了现有技术由于 确认过程复杂、确认时间长导致用户易疲劳的缺点,使得本发明具备良好的易操作性,从而 提高了字符输入速率。
[0057] 第四,本发明在界面视图上绘制了由55个键组成的输入键盘,可以一次定位到用 户期望字符键,克服了现有技术中人机交互功能局限的缺点,使得本发明能够实现全键盘 英文字符输入以及四则运算,具有良好的实用性。
附图说明
[0058] 图1为本发明装置的结构示意图;
[0059] 图2为本发明方法的流程图;
[0060] 图3为本发明界面输入键盘的示意图。
具体实施方式
[0061] 下面结合附图1,对本发明的装置做进一步描述。
[0062] 本发明基于视线跟踪与语音识别的字符输入装置,包括头盔单元,ARM核单元,图 像采集卡,语音识别模块,DSP核单元,场景图像处理模块,坐标转换模块,界面模块;其中, 头盔单元分别与ARM核单元、图像采集卡、语音识别模块单向连接,将采集到的眼图、场景 图像、用户语音信号分别输出至ARM核单元、图像采集卡、语音识别模块;ARM核单元与DSP 核单元双向连接,ARM核单元将未处理的眼图输出至DSP核单元,接收DSP核单元输入的处 理过的眼图;图像采集卡与场景图像处理模块单向连接,图像采集卡将场景图像输出至场 景图像处理模块;场景图像处理模块与DSP核单元单向连接,场景图像处理模块将校准标 志点在场景图像坐标系中的坐标值输出至DSP核单元;坐标转换模块分别与DSP核单元、场 景图像处理模块单向连接,分别接收DSP核单元输入的用户视线注视点在场景图像坐标系 中的坐标值和场景图像处理模块输入的转换标志点在场景图像坐标系中的坐标值;语音 识别模块与界面模块单向连接,语音识别模块将用户确认信息输出至界面模块;界面模块 与坐标转换模块双向连接,界面模块将转换标志点在界面坐标系中的坐标值输出至坐标转 换模块,接收坐标转换模块输入的用户视线注视点在界面坐标系中的坐标值;界面模块放 置于用户正前方50~70cm处,使用户能清晰的看到界面模块。
[0063] 头盔单元,用于采集眼图、场景图像和用户语音信号,所采集的眼图为用户注视界 面视图中校准标志点或字符键时的眼睛图像,所采集的场景图像为用户正前方的图像场 景,图像中要有界面视图的清晰成像,所采集的用户语音信号为用户说的"YES"或"N0"。
[0064] 本发明装置中的头盔单元包括眼铝制支架、眼摄像机子单元、场景摄像机、语音采 集麦克风。铝制支架固定于头盔正前方,眼摄像机子单元由摄像机、红外LED光源、红外反 光板组成,装于铝制支架左侧,场景摄像机固定在铝制支架右侧,语音采集麦克风固定在头 盔右侧。
[0065] ARM核单元,用于控制眼摄像机子单元采集眼图,控制DSP核处理眼图。
[0066] 图像采集卡,用于控制场景摄像机采集场景图像。
[0067] 语音识别模块,基于Microsoft Speech SDK开发,用于接收并分析用户语音信号, 首先创建识别引擎和识别上下文接口,然后设置识别消息,其中"YES"表示确认,"N0"表示 否认,再依据识别消息创建听说式语法规则,完成语音识别的初始化,识别引擎侦听用户语 音信号输入,截获并识别消息,激活听说式语法规则进行识别,获得用户确认信息。
[0068] DSP核单元,包括眼图处理模块和标定模块,眼图处理模块用于处理眼图获得瞳 孔-光斑矢量;标定模块用于获取二维标定方程组的标定系数,并利用该标定系数和瞳 孔-光斑矢量获取用户视线注视点在场景图像坐标系中的坐标值。
[0069] 场景图像处理模块,用于处理场景图像获得校准标志点或转换标志点在场景图像 坐标系中的坐标值。
[0070] 坐标转换模块,利用转换标志点在场景图像坐标系中的坐标值和转换标志点在界 面坐标系中的坐标值,获取坐标转换矩阵,并使用该坐标转换矩阵和用户视线注视点在场 景图像坐标系中的坐标值获得用户视线注视点在界面坐标系中的坐标值。
[0071] 界面模块,用于创建两个界面视图,在一个界面视图中绘制9个校准标志点,在 另一个界面视图中绘制由4个转换标志点和55个键组成的输入键盘,并使用用户视线注视 点在界面坐标系中的坐标值和用户确认信息完成期望字符输入。
[0072] 下面结合附图2,对本发明的方法做进一步描述,其步骤如下:
[0073] 步骤1,绘制界面
[0074] 启动界面模块,创建两个界面视图。其中一个视图中绘制有3行3列排列的9个 坐标已知的均匀分布点,作为校准标志点。参照附图3,在另一个视图中绘制输入键盘。首 先如附图3虚线上方所示,绘制任意4个坐标已知的点,作为转换标志点;然后如附图3虚 线下方所示,按照电脑常用键盘的字符分布,划分出5行共55个边界值已知的分块区域,在 各个分块区域上依次绘制英文字母键、数字键、标点符号键、运算符号键和常用功能键。
[0075] 步骤2,采集眼图、场景图像
[0076] 头盔单元中眼摄像机单元采集红外LED光源照射下的用户左眼眼图,本发明的实 施例中,眼摄像机帧率为25帧/s,图像分别率为640x480。
[0077] 场景摄像机采集用户正前方场景图像,本发明的实施例中场景摄像机帧率为25 帧/s,图像分别率为720x576。
[0078] 步骤3,处理眼图
[0079] 眼图处理模块采用阈值自适应的二次延展星射线法实时提取眼图的瞳孔中心和 普尔钦光斑中心的坐标值,将瞳孔中心坐标值减去普尔钦光斑中心坐标值,获得瞳孔-光 斑矢量值,具体步骤如下:
[0080] 第一步,眼图处理模块对图像进行高斯滤波预处理。
[0081] 第二步,眼图处理模块使用灰度直方图求得最佳的灰度阈值对图像进行二值化分 害J,获取分割后的图像质心作为第一次粗定位瞳孔中心。
[0082] 第三步,以第一次粗定位瞳孔中心为初始点,对眼图进行二次瞳孔粗定位。
[0083] 第四步,对眼图进行自适应阈值二值化分割,求二值化图像的最大四连通区域,以 该区域的中心值作为普尔钦斑中心。
[0084] 第五步,使用二次延展星射线法求得瞳孔边界特征点,依据粗定位瞳孔中心坐标 值筛选出合格的特征点,将特征点划分在6个不同区域,在每个区域随机取一特征点,若该 区域中不存在特征点,则从其他区域选取,共取6个瞳孔边界特征点。
[0085] 第六步,使用6个瞳孔边界特征点拟合椭圆。
[0086] 第七步,计算所有特征点到拟合出来的椭圆的欧式距离,记录距离小于η个像素 的特征点的个数,η表示误差范围,取值为1~5之间,当匹配点个数与总特征点个数的比 率大于μ时,μ取值0.5~0.9之间,认为椭圆拟合成功,眼图处理完成,否则更改二次延 展星射线法中的梯度阈值,执行本步骤的第五步。
[0087] 步骤4,处理场景图像
[0088] 构建场景图像坐标系:以步骤2采集的场景图像左上角的点为原点,以像素点在 图像上的列号为X轴坐标值,以像素点在图像上的行号为Y轴坐标值,构建完成场景图像坐 标系。
[0089] 场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法,得到步骤1中9个校准 标志点和4个转换标志点在场景图像坐标系中的坐标值,具体步骤如下:
[0090] 第一步,场景图像处理模块处理头盔单元采集的包含标志点的图像样本,确定样 本阈值范围、特征点所处的矩形区块的周长和面积的范围。
[0091] 第二步,场景图像处理模块对当前帧场景图像进行高斯滤波和形态学开运算预处 理。
[0092] 第三步,在样本阈值范围内,场景图像处理模块对预处理过的图像进行二值化,再 使用Hu矩匹配法检测各标志点所在的矩形区块的轮廓,计算各轮廓的周长和面积,筛选出 符合本步骤第一步的周长和面积范围的轮廓,统计合格的轮廓个数,求各轮廓的最小外界 矩形,获取各轮廓的中心坐标。
[0093] 第四步,判断合格的轮廓个数是否等于标志点个数,如果是,则视为检测成功,将 各轮廓中心坐标按照先行后列的顺序依次赋值给各标志点坐标,否则在样本阈值范围内更 改阈值,执行本步骤的第三步。
[0094] 第五步,若重复本步骤第三步10次后,仍没有检测成功,则选取上一帧场景图像 的各标志点坐标值作为当前帧场景图像的各标志点坐标值。
[0095] 步骤5,判断校准标志点的个数
[0096] 统计当前用户确认成功后的校准标志点个数。若已校准的校准标志点个数小于9, 表示9个校准标志点未全部校准,则执行步骤6 ;若已校准的校准标志点个数等于9且步骤 7未执行,表示9个校准标志点已全部校准,但未获得标定系数,则执行步骤7 ;若已校准的 校准标志点个数等于9且步骤7已执行过,表示9个校准标志点已全部校准,并已获得标定 系数,则执行步骤8。
[0097] 步骤6,标志点校准
[0098] 若语音识别模块接收到用户语音信号为"YES",则表示当前标志点校准成功,返 回步骤2,由界面模块对下一个校准标志点采集眼图;若语音识别模块接收到用户语音信 号为"N0",则表示当前标志点校准失败,返回步骤2,由界面模块对当前校准标志点采集眼 图。
[0099] 步骤7,求解标定系数
[0100] 标定模块将步骤4中9个校准标志点在场景图像坐标系的坐标值,以及步骤3中 与校准标志点对应的瞳孔-光斑矢量值分别代入二维标定方程组,求解得到二维标定方程 组的标定系数:
Figure CN103076876BD00111
[0102] 其中,xdP y 3分别表示场景图像坐标系中9个校准标志点的X轴和Y轴坐标值, 表示待求解的标定系数,xdP y <3分别表示与9个校准标志点对应的瞳孔-光斑矢量X轴和 Y轴坐标值。
[0103] 步骤8,获得用户视线注视点
[0104] 首先,将步骤3中的用户视线注视点瞳孔-光斑矢量,以及步骤7中解得的标定系 数a。,a!,a 2, a3, a4, a# b。,b!,b2, b3, b4,135分别代入二维标定方程组,求解得到用户视线注 视点在场景图像坐标系中的坐标值:
Figure CN103076876BD00121
[0106] 其中,xJP y s分别表示待求的用户视线注视点在场景图像坐标系中X轴和Y轴坐 标值,a。,a2, a3, a4, a# b。,bp b2, b3, b4, b5表示已知的标定系数,X e和y 6分别表示与待 求用户视线注视点对应的瞳孔-光斑矢量X轴和Y轴坐标值。
[0107] 其次,构建界面坐标系。以界面图像左上角的点为原点,以像素点在图像上的列号 为X轴坐标值,以像素点在图像上的行号为Y轴坐标值,构建完成界面坐标系,获得4个转 换标志点在界面坐标系的坐标值。
[0108] 然后,将步骤4中4个转换标志点在场景图像坐标系的坐标值,以及在步骤8中界 面坐标系的坐标值,代入跟踪方程,求解得到坐标转换矩阵:
[0109] Xc=HXs
[0110] Xc= (X c,yc,1)τ
[0111] Xs= (x s,ys,zs)T
[0112] 其中,X。与Xj别表示4个转换标志点在界面坐标系与场景图像坐标系中点坐 标向量,H为待求的坐标转换矩阵,X。与y。分别表示4个转换标志点在界面坐标系中点的 X轴坐标值与Y轴坐标值,13与y 3分别表示4个转换标志点在场景图像坐标系中点的X轴 坐标值与Y轴坐标值,Zs表示4个转换标志点在场景图像坐标系中点的Z轴坐标值,z s = xs+ys-l,c表示界面坐标系,s表示场景图像坐标系,T表示转置。
[0113] 最后,将本步骤中获得的用户视线注视点在场景图像坐标系中的坐标值,以及解 得的坐标转换矩阵H,代入跟踪方程,求解得到用户视线注视点在界面坐标系中的坐标值:
[0114] Xc=HXs
[0115] Xc= (X c,yc,1)τ
[0116] Xs= (x s,ys,zs)T
[0117] 其中,X。与X s分别表示用户视线注视点在界面坐标系与场景图像坐标系中点坐标 向量,H为上述已求得的坐标转换矩阵,X。与y。分别表示用户视线注视点在界面坐标系中 点的X轴坐标值与Y轴坐标值,^与y 3分别表示用户视线注视点在场景图像坐标系中点的 X轴坐标值与Y轴坐标值,zs表示用户视线注视点在场景图像坐标系中点的Z轴坐标值,z s =Xs+Ys-Io
[0118] 步骤9,完成期望字符输入
[0119] 界面模块检测步骤8的用户视线注视点在界面坐标系中的坐标值处于输入键盘 中的哪一个分块区域,由所确定的分块区域得知界面输入键盘上与之对应的键。当语音识 别模块接收到用户语音信号为"YES",且当前输入键不为"Esc"时,则认为完成了当前期望 字符的输入,返回执行步骤2,输入下一期望字符;当语音识别模块接收到用户语音信号为 "YES",且当前输入键为"Esc"时,则执行步骤10 ;当语音识别模块接收到用户语音信号为 "N0"时,返回执行步骤2,重新输入期望字符。
[0120] 步骤10,退出字符输入。

Claims (4)

1. 一种基于视线跟踪与语音识别的字符输入方法,其具体步骤如下: (1) 绘制界面 la)启动界面板块,创建两个界面视图; 化)在一个界面视图中绘制9个坐标已知的均匀分布点,作为界面中的校准标志点; Ic)在另一个界面视图中绘制输入键盘:绘制任意4个坐标已知的点,作为界面中的转 换标志点,按照电脑常用键盘的字符分布,划分出5行共55个边界值已知的分块区域,依次 绘制英文字母键、数字键、标点符号键、运算符号键和常用功能键; (2) 采集眼图、场景图像 2a)头盎单元中眼摄像机单元采集红外L邸光源照射下的用户左眼眼图; 2b)场景摄像机采集用户正前方场景图像; (3) 处理眼图 眼图处理模块采用阔值自适应的二次延展星射线法实时提取眼图的瞳孔中屯、和普尔 钦光斑中屯、的坐标值,将瞳孔中屯、坐标值减去普尔钦光斑中屯、坐标值,获得瞳孔-光斑矢 量值; (4) 处理场景图像 4a)构建场景图像坐标系步骤2b)采集的场景图像左上角的点为原点,W像素点在 图像上的列号为X轴坐标值,W像素点在图像上的行号为Y轴坐标值,构建完成场景图像坐 标系; 4b)场景图像处理模块采用基于化矩匹配的轮廓特征识别法,得到步骤化)中9个校 准标志点在场景图像坐标系中的坐标值; 4c)场景图像处理模块采用基于化矩匹配的轮廓特征识别法,得到步骤Ic)中4个转 换标志点在场景图像坐标系中的坐标值; (5) 判断校准标志点的个数 5a)统计当前用户确认成功后的校准标志点个数; 5b)若已校准的校准标志点个数小于9,则执行步骤化); 5c)若已校准的校准标志点个数等于9且步骤(7)未执行,则执行步骤(7); 5d)若已校准的校准标志点个数等于9且步骤(7)已执行过,则执行步骤(8); (6) 标志点校准 6a)语音识别模块接收到用户语音信号为"YES",则表示当前标志点校准成功,返回步 骤(2),由界面模块对下一个校准标志点采集眼图; 6b)语音识别模块接收到用户语音信号为"N0",则表示当前标志点校准失败,返回步 骤(2),由界面模块对当前校准标志点采集眼图; (7) 求解标定系数 标定模块将步骤4b)中9个校准标志点在场景图像坐标系的坐标值,W及步骤(3)中 与校准标志点对应的瞳孔-光斑矢量值分别代入二维标定方程组,求解得到二维标定方程 组的标定系数; (8) 获得用户视线注视点 8a)将步骤(3)中的用户视线注视点瞳孔-光斑矢量,W及步骤(7)中解得的标定系数 分别代入二维标定方程组,求解得到用户视线注视点在场景图像坐标系中的坐标值; 8b)构建界面坐标系:W界面图像左上角的点为原点,W像素点在图像上的列号为X轴 坐标值,W像素点在图像上的行号为Y轴坐标值,构建完成界面坐标系,获得4个转换标志 点在界面坐标系的坐标值; 8c)将步骤4c)中4个转换标志点在场景图像坐标系的坐标值,W及在步骤8b)中界面 坐标系的坐标值,代入跟踪方程,求解得到坐标转换矩阵; 所述的跟踪方程为矩阵形式,具体表达式如下: Xc=HXsXc=(Xc,y。,ΐ)τ Xs= (X s' Ys,Zs)T 其中,X。与Xg分别表示界面坐标系与场景图像坐标系中点坐标向量,H为坐标转换矩 阵,X。与y。分别表示界面坐标系中点的X轴坐标值与Y轴坐标值,XS与yS分别表示场景图 像坐标系中点的X轴坐标值与Y轴坐标值,Zg表示场景图像坐标系中点的Z轴坐标值,Zg= x,+y,-l,C表示界面坐标系,S表示场景图像坐标系,T表示转置操作; 8d)将步骤8a)获得的用户视线注视点在场景图像坐标系中的坐标值,W及步骤8c) 中解得的坐标转换矩阵,代入跟踪方程,求解得到用户视线注视点在界面坐标系中的坐标 值; 所述的跟踪方程为矩阵形式,具体表达式如下: Xc=HXs Xc=(Xc,y。,ι)τ Xs= (X s,Ys,Zs)T 其中,X。与Xg分别表示界面坐标系与场景图像坐标系中点坐标向量,H为坐标转换矩 阵,X。与y。分别表示界面坐标系中点的X轴坐标值与Y轴坐标值,XS与yS分别表示场景图 像坐标系中点的X轴坐标值与Y轴坐标值,Zg表示场景图像坐标系中点的Z轴坐标值,Zg= x,+y,-l,C表示界面坐标系,S表示场景图像坐标系,T表示转置操作; (9) 完成期望字符输入 9a)界面模块检测步骤8d)的用户视线注视点在界面坐标系中的坐标值处于步骤Ic) 中的哪一个分块区域,由所确定的分块区域得知界面输入键盘上与之对应的键; 9b)语音识别模块接收到用户语音信号为"YES",且当前输入键不为"Esc"时,则认为 完成了当前期望字符的输入,返回执行步骤(2),输入下一期望字符; 9c)语音识别模块接收到用户语音信号为"YES",且当前输入键为"Esc"时,则执行步 骤(10); 9d)语音识别模块接收到用户语音信号为"NO"时,返回执行步骤(2),重新输入期望字 符; (10) 退出字符输入。
2.根据权利要求1所述的基于视线跟踪与语音识别的字符输入方法,其特征在于,步 骤(3)所述的阔值自适应的二次延展星射线法具体步骤如下: 第一步,眼图处理模块对图像进行高斯滤波预处理; 第二步,眼图处理模块使用灰度直方图求得最佳的灰度阔值对图像进行二值化分割, 获取分割后的图像质屯、作为第一次粗定位瞳孔中屯、; 第Ξ步,W第一次粗定位瞳孔中屯、为初始点,对眼图进行二次瞳孔粗定位; 第四步,对眼图进行自适应阔值二值化分割,求二值化图像的最大四连通区域,W该区 域的中屯、值作为普尔钦斑中屯、; 第五步,使用二次延展星射线法求得瞳孔边界特征点,依据粗定位瞳孔中屯、坐标值筛 选出合格的特征点,将特征点划分在6个不同区域,在每个区域随机取一特征点,若该区域 中不存在特征点,则从其他区域选取,共取6个瞳孔边界特征点; 第六步,使用6个瞳孔边界特征点拟合楠圆; 第屯步,计算所有特征点到拟合出来的楠圆的欧式距离,记录距离小于η个像素的特 征点的个数,η表示误差范围,取值为1~5之间,当匹配点个数与总特征点个数的比率大 于μ时,μ取值0.5~0.9之间,认为楠圆拟合成功,眼图处理完成,否则更改二次延展星 射线法中的梯度阔值,执行本步骤的第五步。
3. 根据权利要求1所述的基于视线跟踪与语音识别的字符输入方法,其特征在于,步 骤4b)和步骤4c)所述的基于化矩匹配的轮廓特征识别法的具体步骤如下: 第一步,场景图像处理模块处理头盎单元采集的包含标志点的图像样本,确定样本阔 值范围、特征点所处的矩形区块的周长和面积的范围; 第二步,场景图像处理模块对当前帖场景图像进行高斯滤波和形态学开运算预处理; 第Ξ步,在样本阔值范围内,场景图像处理模块对预处理过的图像进行二值化,再使用Hu矩匹配法检测各标志点所在的矩形区块的轮廓,计算各轮廓的周长和面积,筛选出符合 本步骤第一步的周长和面积范围的轮廓,统计合格的轮廓个数,求各轮廓的最小外界矩形, 获取各轮廓的中屯、坐标; 第四步,判断合格的轮廓个数是否等于标志点个数,如果是,则视为检测成功,将各轮 廓中屯、坐标按照先行后列的顺序依次赋值给各标志点坐标,否则在样本阔值范围内更改阔 值,执行本步骤的第Ξ步; 第五步,若重复本步骤第Ξ步10次后,仍没有检测成功,则选取上一帖场景图像的各 标志点坐标值作为当前帖场景图像的各标志点坐标值。
4. 根据权利要求1所述的基于视线跟踪与语音识别的字符输入方法,其特征在于,步 骤(7)、步骤8a)所述的二维标定方程组为:
Figure CN103076876BC00041
其中,X,和y,表示场景图像坐标系中点的X轴和Y轴坐标值,a。,曰1,曰2,曰3,曰4,曰5和b。,bi,bz,bs,b4,bg表示标定系数,X。和y。分别表示瞳孔-光斑矢量X轴和Y轴坐标值。
CN201210517734.8A 2012-11-22 2012-11-22 基于视线跟踪与语音识别的字符输入装置和方法 Active CN103076876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210517734.8A CN103076876B (zh) 2012-11-22 2012-11-22 基于视线跟踪与语音识别的字符输入装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210517734.8A CN103076876B (zh) 2012-11-22 2012-11-22 基于视线跟踪与语音识别的字符输入装置和方法

Publications (2)

Publication Number Publication Date
CN103076876A CN103076876A (zh) 2013-05-01
CN103076876B true CN103076876B (zh) 2016-02-10

Family

ID=48153434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210517734.8A Active CN103076876B (zh) 2012-11-22 2012-11-22 基于视线跟踪与语音识别的字符输入装置和方法

Country Status (1)

Country Link
CN (1) CN103076876B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI562007B (zh) * 2013-11-15 2016-12-11 Utechzone Co Ltd
CN103690146A (zh) * 2013-12-13 2014-04-02 重庆大学 新型眼动仪
US9804753B2 (en) * 2014-03-20 2017-10-31 Microsoft Technology Licensing, Llc Selection using eye gaze evaluation over time
CN103927014A (zh) * 2014-04-21 2014-07-16 广州杰赛科技股份有限公司 一种字符输入方法及装置
CN104317392B (zh) * 2014-09-25 2018-02-27 联想(北京)有限公司 一种信息控制方法及电子设备
DE102015219121A1 (de) * 2015-10-02 2017-04-06 Carl Zeiss Microscopy Gmbh Mikroskopsteuerungsverfahren und Mikroskop
CN105353906B (zh) * 2015-10-21 2018-08-28 业成光电(深圳)有限公司 轨迹预测系统及轨迹预测方法
US9990921B2 (en) * 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
US20170344112A1 (en) * 2016-05-31 2017-11-30 Fove, Inc. Gaze detection device
CN110248254A (zh) * 2019-06-11 2019-09-17 Oppo广东移动通信有限公司 显示控制方法及相关产品
CN112578904A (zh) * 2020-11-17 2021-03-30 北京津发科技股份有限公司 一种针对移动终端的人机交互测试装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344919A (zh) * 2008-08-05 2009-01-14 华南理工大学 视线跟踪方法及应用该方法的残疾人辅助系统
CN101515199A (zh) * 2009-03-24 2009-08-26 北京理工大学 一种基于视线跟踪和p300脑电电位的字符输入装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6659611B2 (en) * 2001-12-28 2003-12-09 International Business Machines Corporation System and method for eye gaze tracking using corneal image mapping

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344919A (zh) * 2008-08-05 2009-01-14 华南理工大学 视线跟踪方法及应用该方法的残疾人辅助系统
CN101515199A (zh) * 2009-03-24 2009-08-26 北京理工大学 一种基于视线跟踪和p300脑电电位的字符输入装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于DM6446的人脸检测与跟踪系统设计;蒲东兵、张雪、翟畅、马志强;《信息技术》;20110430(第4期);第114页第2栏第1段、第115页第2栏第1段第1-4行、第115页第2栏第3段 *
用于人机交互的头戴式视线跟踪方法研究;龚秀峰;《万方数据企业知识服务平台 》;20101029;第2章第18页第1-2段、第19页第1段、第20页第1段及图2.6、图2.7 *
眼动跟踪技术的研究与优化实现;刘涛;《中国优秀硕士学位论文全文数据库信息科技辑》;20110715(第7期);第3章第19页第3-4段、第20页第4-6段、第3章第3.2节及图3.1、 *

Also Published As

Publication number Publication date
CN103076876A (zh) 2013-05-01

Similar Documents

Publication Publication Date Title
CN103076876B (zh) 基于视线跟踪与语音识别的字符输入装置和方法
CN107609383B (zh) 3d人脸身份认证方法与装置
CN104933344B (zh) 基于多生物特征模态的移动终端用户身份认证装置及方法
CN105574518B (zh) 人脸活体检测的方法和装置
CN107341473B (zh) 手掌特征识别方法、手掌特征识别设备、及存储介质
CN108921100B (zh) 一种基于可见光图像与红外图像融合的人脸识别方法及系统
CN103761519A (zh) 一种基于自适应校准的非接触式视线追踪方法
CN104123543A (zh) 一种基于人脸识别的眼球运动识别方法
CN103324284A (zh) 基于人脸和眼部检测的鼠标控制方法
CN105760841B (zh) 一种身份识别方法及系统
CN105741326B (zh) 一种基于聚类融合的视频序列的目标跟踪方法
CN103218605A (zh) 一种基于积分投影与边缘检测的快速人眼定位方法
CN104038799A (zh) 一种面向立体电视的手势操控方法
CN106814853A (zh) 一种基于机器学习的眼控跟踪方法
CN107480716A (zh) 一种结合eog和视频的扫视信号识别方法及系统
CN103927014A (zh) 一种字符输入方法及装置
CN109299659A (zh) 一种基于rgb相机和深度学习的人体姿态识别方法与系统
CN107145226A (zh) 眼控人机交互系统及方法
CN109785325A (zh) 一种基于深度学习的多模态医学影像的方法
CN102509283A (zh) 一种基于dsp的面向视神经假体的目标感知与编码方法
Zhu et al. Near infrared hand vein image acquisition and ROI extraction algorithm
CN203885510U (zh) 一种基于红外检测技术的驾驶员疲劳检测系统
CN103345754B (zh) 基于皮层神经元视觉方向响应的图像边缘检测方法
CN111241505A (zh) 一种终端设备及其登录验证方法、计算机存储介质
CN107480635B (zh) 一种基于双模态分类模型融合的扫视信号识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
C06 Publication
SE01 Entry into force of request for substantive examination
C10 Entry into substantive examination
CB03 Change of inventor or designer information

Inventor after: He Di

Inventor after: Peng Hongming

Inventor after: Cui Yao

Inventor after: Yu Mingxuan

Inventor after: Wang Junning

Inventor after: Gao Jing

Inventor after: He di, Peng Hongming, Cui Yao, Yu Mingxuan, Wang Junning, Gao Jing, Wei Wenting

Inventor before: Wang Junning

Inventor before: Cui Yao

Inventor before: Yu Mingxuan

Inventor before: He Di

Inventor before: Gao Jing

Inventor before: Wang Junning Cui Yao on what Wei Wenting diaco Mingxuan

COR Change of bibliographic data
GR01 Patent grant
C14 Grant of patent or utility model