CN103076876B - 基于视线跟踪与语音识别的字符输入装置和方法 - Google Patents

基于视线跟踪与语音识别的字符输入装置和方法 Download PDF

Info

Publication number
CN103076876B
CN103076876B CN201210517734.8A CN201210517734A CN103076876B CN 103076876 B CN103076876 B CN 103076876B CN 201210517734 A CN201210517734 A CN 201210517734A CN 103076876 B CN103076876 B CN 103076876B
Authority
CN
China
Prior art keywords
coordinate
point
scene image
coordinate system
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210517734.8A
Other languages
English (en)
Other versions
CN103076876A (zh
Inventor
何迪
彭弘铭
崔耀
于明轩
王军宁
高静
魏雯婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201210517734.8A priority Critical patent/CN103076876B/zh
Publication of CN103076876A publication Critical patent/CN103076876A/zh
Application granted granted Critical
Publication of CN103076876B publication Critical patent/CN103076876B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

基于视线跟踪与语音识别的字符输入装置和方法,本发明的装置包括头盔单元,ARM核单元,图像采集卡,语音识别模块,DSP核单元,场景图像处理模块,坐标转换模块,界面模块。本发明的方法在采集并处理眼图、场景图像和用户语音信号的基础上,先通过校准得到标定系数,再通过求解二维标定方程、坐标转换矩阵得到用户视线注视点在界面坐标系中的坐标值,最终获得期望输入的字符,并配合用户的语音信息,完成字符输入操作以及四则运算操作。本发明具有字符输入注视精度高,头部活动范围较大,操作简捷的优点。具备良好的实用性和可操作性。

Description

基于视线跟踪与语音识别的字符输入装置和方法
技术领域
本发明属于图像处理技术领域,更进一步涉及人机交互技术领域中基于视线跟踪与语音识别的字符输入装置和方法。本发明可用于人机交互技术领域中通过视线跟踪和语音识别,实现全键盘英文字符输入以及四则运算。
背景技术
人机交互(Human-ComputerInteraction,简写HCI)是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。基于视线跟踪技术的人机交互方法是一种自然和谐的人机交互方式。现有的视线跟踪技术是在计算机屏幕上绘制键盘,通过视线跟踪系统分析并反馈用户注视的字符,由用户确定是否输入,从而实现人机交互。
北京理工大学拥有的专利技术“一种基于视线跟踪和P300脑电电位的字符输入装置”(专利申请号200910080852.5,授权公告号CN101515199)公开了一种基于视线跟踪和P300脑电电位的字符输入装置。该装置实质上根据用户视线确定候选字符集,控制字符集中所有字符键闪烁,激发P300脑电电位,根据电位产生时间和视线定位确定用户期望字符键,实现字符输入操作。该专利技术存在的两点不足:一是注视精度有限。该装置先检测用户虹膜,拟合虹膜的椭圆轮廓,再由椭圆参数计算瞳孔相对于眼角的偏移程度,因此眼图处理精度有限,导致了注视精度有限,不能一次定位到用户的期望字符键。二是需要计算出候选字符集合中每个可能字符为用户期望字符的概率,确定用户的空间域候选集,然后控制空间域候选集中字符随机闪烁,激发用户的P300脑电电位,采集并分析脑电电位信号来计算各可能字符为靶刺激的概率,确定时间域候选集,最后根据两个候选集联合计算出可能性最高的字符作为用户期望字符键,这就导致了字符输入过程、确认过程复杂。
上海交通大学蒋春燕的学位论文“视线跟踪技术研究及其在人机交互字符输入中的应用”(万方国内学位论文,2008年02月01日),使用了一种单摄像机的视线检测字符输入方法,通过摄像机捕捉用户的虹膜中心,判断用户的视线盯视内容,再由系统做出相应的反馈和运行。该方法存在四点不足之处:一是先通过Canny边缘检测,确定了虹膜的边缘,再通过Hough变换检测虹膜并确定虹膜中心,该方法眼图处理精度不够,导致了视线注视精度有限;二是摄像机固定于显示器上,使用佩戴式标定帽上的三点作为参考点,通过提取三点的位置信息来规划摄像机的运动,用于补偿用户头部运动产生的影响,该方法对用户头部运动的补偿是有限的,这就导致了头部运动对精度的影响大;三是该方法要求用户盯视期望字符2s来完成字符输入,这必然会造成操作复杂,易引起用户视觉疲劳;四是该方法精度有限,在分辨率为1024*768的显示器上绘制了28个字符键,界面上每个字符键都比较大,只显示了有限的字符,这导致了人机交互功能的局限性。
华南理工大学申请的专利“视线跟踪方法及应用该方法的残疾人辅助系统”(专利申请号200810030010.4,公开号CN101344919A),公开了一种视线跟踪方法及应用该方法的残疾人辅助系统。该系统将人眼注视屏幕四个区域的四种不同方向作为用户发出的四种控制信息,模拟键盘的四个方向键,来完成控制轮椅和控制计算机的简单操作。该专利申请存在的不足是,由于视线注视精度低,仅能利用视线输入四种控制信息,导致了人机交互功能的局限性。
山东大学申请的专利“一种基于视线跟踪的密码输入控制方法”(专利申请号201110067148.3,公开号CN102129554A),公开了一种基于视线跟踪的密码输入控制方法。该方法首先处理人脸图像,提取人眼特征参数,再使用基于相似三角形的双光源视线跟踪实现从人眼特征参数到当前注视点位置的估计,最后根据注视点位置,利用时间门限及声音反馈来控制密码输入操作。该方法存在两点不足,一是从人脸图像中分割出来的瞳孔图像分辨率低导致瞳孔中心定位精度有限,并采用基于相似三角形的双光源视线跟踪标定方法,该方法实现的密码输入视线注视精度有限;二是该方法只限于用于密码输入,输入字符有限,这导致了人机交互功能的局限性。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种基于视线跟踪与语音识别的字符输入装置和方法,使得用户通过眼睛的注视和语音的确认完成字符的输入操作以及四则运算操作,所获得的视线跟踪字符输入注视精度高,头部活动范围较大,操作更加简捷。
本发明的具体思路是:本发明方法在采集并处理眼图、场景图像和用户语音信号的基础上,先通过校准得到标定系数,再通过求解二维标定方程、坐标转换矩阵得到用户视线注视点在界面坐标系中的坐标值,并配合用户的语音信号,完成字符输入操作以及四则运算操作。
为了实现上述目的,本发明的装置包括头盔单元,ARM核单元,图像采集卡,语音识别模块,DSP核单元,场景图像处理模块,坐标转换模块,界面模块。其中,头盔单元分别与ARM核单元、图像采集卡、语音识别模块单向连接;所述的ARM核单元与DSP核单元双向连接;图像采集卡与场景图像处理模块单向连接;场景图像处理模块与DSP核单元单向连接;坐标转换模块分别与DSP核单元、场景图像处理模块单向连接;语音识别模块与界面模块单向连接;界面模块与坐标转换模块双向连接;界面模块放置于用户正前方。
头盔单元,用于采集眼图、场景图像和用户语音信号。
ARM核单元,用于控制眼摄像机子单元采集眼图,控制DSP核处理眼图。
图像采集卡,用于控制场景摄像机采集场景图像。
语音识别模块,用于接收并分析用户语音信号,获得用户确认信息。
DSP核单元,包括眼图处理模块和标定模块,眼图处理模块用于处理眼图获得瞳孔-光斑矢量;标定模块用于获取二维标定方程组的标定系数,并利用该标定系数和瞳孔-光斑矢量获取用户视线注视点在场景图像坐标系中的坐标值。
场景图像处理模块,用于处理场景图像获得校准标志点和转换标志点在场景图像坐标系中的坐标值。
坐标转换模块,利用转换标志点在场景图像坐标系中的坐标值和转换标志点在界面坐标系中的坐标值,获取坐标转换矩阵,并使用该坐标转换矩阵和用户视线注视点在场景图像坐标系中的坐标值获得用户视线注视点在界面坐标系中的坐标值。
界面模块,用于创建两个界面视图,在一个界面视图中绘制9个校准标志点,在另一个界面视图中绘制由4个转换标志点和55个键组成的输入键盘,并使用用户视线注视点在界面坐标系中的坐标值和用户确认信息完成期望字符输入。
为了实现上述目的,本发明方法的具体步骤如下:
(1)绘制界面
1a)启动界面模块,创建两个界面视图;
1b)在一个界面视图中绘制9个坐标已知的均匀分布点,作为界面中的校准标志点;
1c)在另一个界面视图中绘制输入键盘:绘制任意4个坐标已知的点,作为界面中的转换标志点,按照电脑常用键盘的字符分布,划分出5行共55个边界值已知的分块区域,依次绘制英文字母键、数字键、标点符号键、运算符号键和常用功能键。
(2)采集眼图、场景图像
2a)头盔单元中眼摄像机单元采集红外LED光源照射下的用户左眼眼图;
2b)场景摄像机采集用户正前方场景图像。
(3)处理眼图
眼图处理模块采用阈值自适应的二次延展星射线法实时提取眼图的瞳孔中心和普尔钦光斑中心的坐标值,将瞳孔中心坐标值减去普尔钦光斑中心坐标值,获得瞳孔-光斑矢量值。
(4)处理场景图像
4a)构建场景图像坐标系:以步骤2b)采集的场景图像左上角的点为原点,以像素点在图像上的列号为X轴坐标值,以像素点在图像上的行号为Y轴坐标值,构建完成场景图像坐标系;
4b)场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法,得到步骤1b)中9个校准标志点在场景图像坐标系中的坐标值;
4c)场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法,得到步骤1c)中4个转换标志点在场景图像坐标系中的坐标值。
(5)判断校准标志点的个数
5a)统计当前用户确认成功后的校准标志点个数;
5b)若已校准的校准标志点个数小于9,则执行步骤(6);
5c)若已校准的校准标志点个数等于9且步骤(7)未执行,则执行步骤(7);
5d)若已校准的校准标志点个数等于9且步骤(7)已执行过,则执行步骤(8)。
(6)标志点校准
6a)语音识别模块接收到用户语音信号为“YES”,则表示当前标志点校准成功,返回步骤(2),由界面模块对下一个校准标志点采集眼图;
6b)语音识别模块接收到用户语音信号为“NO”,则表示当前标志点校准失败,返回步骤(2),由界面模块对当前校准标志点采集眼图。
(7)求解标定系数
标定模块将步骤4b)中9个校准标志点在场景图像坐标系的坐标值,以及步骤(3)中与校准标志点对应的瞳孔-光斑矢量值分别代入二维标定方程组,求解得到二维标定方程组的标定系数。
(8)获得用户视线注视点
8a)将步骤(3)中的用户视线注视点瞳孔-光斑矢量,以及步骤(7)中解得的标定系数分别代入二维标定方程组,求解得到用户视线注视点在场景图像坐标系中的坐标值;
8b)构建界面坐标系:以界面图像左上角的点为原点,以像素点在图像上的列号为X轴坐标值,以像素点在图像上的行号为Y轴坐标值,构建完成界面坐标系,获得4个转换标志点在界面坐标系的坐标值;
8c)将步骤4c)中4个转换标志点在场景图像坐标系的坐标值,以及在步骤8b)中界面坐标系的坐标值,代入跟踪方程,求解得到坐标转换矩阵;
8d)将步骤8a)获得的用户视线注视点在场景图像坐标系中的坐标值,以及步骤8c)中解得的坐标转换矩阵,代入跟踪方程,求解得到用户视线注视点在界面坐标系中的坐标值。
(9)完成期望字符输入
9a)界面模块检测步骤8d)的用户视线注视点在界面坐标系中的坐标值处于步骤1c)中的哪一个分块区域,由所确定的分块区域得知界面输入键盘上与之对应的键;
9b)语音识别模块接收到用户语音信号为“YES”,且当前输入键不为“Esc”时,则认为完成了当前期望字符的输入,返回执行步骤(2),输入下一期望字符;
9c)语音识别模块接收到用户语音信号为“YES”,且当前输入键为“Esc”时,则执行步骤(10);
9d)语音识别模块接收到用户语音信号为“NO”时,返回执行步骤(2),重新输入期望字符。
(10)退出字符输入
本发明与现有技术相比具有如下优点:
第一,本发明利用了采用阈值自适应的二次延展星射线法处理眼图,精确定位了瞳孔中心,克服了现有技术由于眼图处理精度有限导致的注视精度较低的缺点,使得本发明提高了注视精度。
第二,本发明采用了场景图像处理模块和坐标转换模块,实现了用户注视点从场景图像坐标系到界面坐标系的转换,从而确定了用户注视的字符键,克服了现有技术头部运动对注视精度的影响,使得本发明提高了注视精度。
第三,本发明利用了语音识别技术,识别出用户的确认信息,克服了现有技术由于确认过程复杂、确认时间长导致用户易疲劳的缺点,使得本发明具备良好的易操作性,从而提高了字符输入速率。
第四,本发明在界面视图上绘制了由55个键组成的输入键盘,可以一次定位到用户期望字符键,克服了现有技术中人机交互功能局限的缺点,使得本发明能够实现全键盘英文字符输入以及四则运算,具有良好的实用性。
附图说明
图1为本发明装置的结构示意图;
图2为本发明方法的流程图;
图3为本发明界面输入键盘的示意图。
具体实施方式
下面结合附图1,对本发明的装置做进一步描述。
本发明基于视线跟踪与语音识别的字符输入装置,包括头盔单元,ARM核单元,图像采集卡,语音识别模块,DSP核单元,场景图像处理模块,坐标转换模块,界面模块;其中,头盔单元分别与ARM核单元、图像采集卡、语音识别模块单向连接,将采集到的眼图、场景图像、用户语音信号分别输出至ARM核单元、图像采集卡、语音识别模块;ARM核单元与DSP核单元双向连接,ARM核单元将未处理的眼图输出至DSP核单元,接收DSP核单元输入的处理过的眼图;图像采集卡与场景图像处理模块单向连接,图像采集卡将场景图像输出至场景图像处理模块;场景图像处理模块与DSP核单元单向连接,场景图像处理模块将校准标志点在场景图像坐标系中的坐标值输出至DSP核单元;坐标转换模块分别与DSP核单元、场景图像处理模块单向连接,分别接收DSP核单元输入的用户视线注视点在场景图像坐标系中的坐标值和场景图像处理模块输入的转换标志点在场景图像坐标系中的坐标值;语音识别模块与界面模块单向连接,语音识别模块将用户确认信息输出至界面模块;界面模块与坐标转换模块双向连接,界面模块将转换标志点在界面坐标系中的坐标值输出至坐标转换模块,接收坐标转换模块输入的用户视线注视点在界面坐标系中的坐标值;界面模块放置于用户正前方50~70cm处,使用户能清晰的看到界面模块。
头盔单元,用于采集眼图、场景图像和用户语音信号,所采集的眼图为用户注视界面视图中校准标志点或字符键时的眼睛图像,所采集的场景图像为用户正前方的图像场景,图像中要有界面视图的清晰成像,所采集的用户语音信号为用户说的“YES”或“NO”。
本发明装置中的头盔单元包括眼铝制支架、眼摄像机子单元、场景摄像机、语音采集麦克风。铝制支架固定于头盔正前方,眼摄像机子单元由摄像机、红外LED光源、红外反光板组成,装于铝制支架左侧,场景摄像机固定在铝制支架右侧,语音采集麦克风固定在头盔右侧。
ARM核单元,用于控制眼摄像机子单元采集眼图,控制DSP核处理眼图。
图像采集卡,用于控制场景摄像机采集场景图像。
语音识别模块,基于MicrosoftSpeechSDK开发,用于接收并分析用户语音信号,首先创建识别引擎和识别上下文接口,然后设置识别消息,其中“YES”表示确认,“NO”表示否认,再依据识别消息创建听说式语法规则,完成语音识别的初始化,识别引擎侦听用户语音信号输入,截获并识别消息,激活听说式语法规则进行识别,获得用户确认信息。
DSP核单元,包括眼图处理模块和标定模块,眼图处理模块用于处理眼图获得瞳孔-光斑矢量;标定模块用于获取二维标定方程组的标定系数,并利用该标定系数和瞳孔-光斑矢量获取用户视线注视点在场景图像坐标系中的坐标值。
场景图像处理模块,用于处理场景图像获得校准标志点或转换标志点在场景图像坐标系中的坐标值。
坐标转换模块,利用转换标志点在场景图像坐标系中的坐标值和转换标志点在界面坐标系中的坐标值,获取坐标转换矩阵,并使用该坐标转换矩阵和用户视线注视点在场景图像坐标系中的坐标值获得用户视线注视点在界面坐标系中的坐标值。
界面模块,用于创建两个界面视图,在一个界面视图中绘制9个校准标志点,在另一个界面视图中绘制由4个转换标志点和55个键组成的输入键盘,并使用用户视线注视点在界面坐标系中的坐标值和用户确认信息完成期望字符输入。
下面结合附图2,对本发明的方法做进一步描述,其步骤如下:
步骤1,绘制界面
启动界面模块,创建两个界面视图。其中一个视图中绘制有3行3列排列的9个坐标已知的均匀分布点,作为校准标志点。参照附图3,在另一个视图中绘制输入键盘。首先如附图3虚线上方所示,绘制任意4个坐标已知的点,作为转换标志点;然后如附图3虚线下方所示,按照电脑常用键盘的字符分布,划分出5行共55个边界值已知的分块区域,在各个分块区域上依次绘制英文字母键、数字键、标点符号键、运算符号键和常用功能键。
步骤2,采集眼图、场景图像
头盔单元中眼摄像机单元采集红外LED光源照射下的用户左眼眼图,本发明的实施例中,眼摄像机帧率为25帧/s,图像分别率为640x480。
场景摄像机采集用户正前方场景图像,本发明的实施例中场景摄像机帧率为25帧/s,图像分别率为720x576。
步骤3,处理眼图
眼图处理模块采用阈值自适应的二次延展星射线法实时提取眼图的瞳孔中心和普尔钦光斑中心的坐标值,将瞳孔中心坐标值减去普尔钦光斑中心坐标值,获得瞳孔-光斑矢量值,具体步骤如下:
第一步,眼图处理模块对图像进行高斯滤波预处理。
第二步,眼图处理模块使用灰度直方图求得最佳的灰度阈值对图像进行二值化分割,获取分割后的图像质心作为第一次粗定位瞳孔中心。
第三步,以第一次粗定位瞳孔中心为初始点,对眼图进行二次瞳孔粗定位。
第四步,对眼图进行自适应阈值二值化分割,求二值化图像的最大四连通区域,以该区域的中心值作为普尔钦斑中心。
第五步,使用二次延展星射线法求得瞳孔边界特征点,依据粗定位瞳孔中心坐标值筛选出合格的特征点,将特征点划分在6个不同区域,在每个区域随机取一特征点,若该区域中不存在特征点,则从其他区域选取,共取6个瞳孔边界特征点。
第六步,使用6个瞳孔边界特征点拟合椭圆。
第七步,计算所有特征点到拟合出来的椭圆的欧式距离,记录距离小于n个像素的特征点的个数,n表示误差范围,取值为1~5之间,当匹配点个数与总特征点个数的比率大于μ时,μ取值0.5~0.9之间,认为椭圆拟合成功,眼图处理完成,否则更改二次延展星射线法中的梯度阈值,执行本步骤的第五步。
步骤4,处理场景图像
构建场景图像坐标系:以步骤2采集的场景图像左上角的点为原点,以像素点在图像上的列号为X轴坐标值,以像素点在图像上的行号为Y轴坐标值,构建完成场景图像坐标系。
场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法,得到步骤1中9个校准标志点和4个转换标志点在场景图像坐标系中的坐标值,具体步骤如下:
第一步,场景图像处理模块处理头盔单元采集的包含标志点的图像样本,确定样本阈值范围、特征点所处的矩形区块的周长和面积的范围。
第二步,场景图像处理模块对当前帧场景图像进行高斯滤波和形态学开运算预处理。
第三步,在样本阈值范围内,场景图像处理模块对预处理过的图像进行二值化,再使用Hu矩匹配法检测各标志点所在的矩形区块的轮廓,计算各轮廓的周长和面积,筛选出符合本步骤第一步的周长和面积范围的轮廓,统计合格的轮廓个数,求各轮廓的最小外界矩形,获取各轮廓的中心坐标。
第四步,判断合格的轮廓个数是否等于标志点个数,如果是,则视为检测成功,将各轮廓中心坐标按照先行后列的顺序依次赋值给各标志点坐标,否则在样本阈值范围内更改阈值,执行本步骤的第三步。
第五步,若重复本步骤第三步10次后,仍没有检测成功,则选取上一帧场景图像的各标志点坐标值作为当前帧场景图像的各标志点坐标值。
步骤5,判断校准标志点的个数
统计当前用户确认成功后的校准标志点个数。若已校准的校准标志点个数小于9,表示9个校准标志点未全部校准,则执行步骤6;若已校准的校准标志点个数等于9且步骤7未执行,表示9个校准标志点已全部校准,但未获得标定系数,则执行步骤7;若已校准的校准标志点个数等于9且步骤7已执行过,表示9个校准标志点已全部校准,并已获得标定系数,则执行步骤8。
步骤6,标志点校准
若语音识别模块接收到用户语音信号为“YES”,则表示当前标志点校准成功,返回步骤2,由界面模块对下一个校准标志点采集眼图;若语音识别模块接收到用户语音信号为“NO”,则表示当前标志点校准失败,返回步骤2,由界面模块对当前校准标志点采集眼图。
步骤7,求解标定系数
标定模块将步骤4中9个校准标志点在场景图像坐标系的坐标值,以及步骤3中与校准标志点对应的瞳孔-光斑矢量值分别代入二维标定方程组,求解得到二维标定方程组的标定系数:
x s = a 0 + a 1 x e + a 2 y e + a 3 x e y e + a 4 x e 2 + a 5 y e 2 y s = b 0 + b 1 x e + b 2 y e + b 3 x e y e + b 4 x e 2 + b 5 y e 2
其中,xs和ys分别表示场景图像坐标系中9个校准标志点的X轴和Y轴坐标值,表示待求解的标定系数,xe和ye分别表示与9个校准标志点对应的瞳孔-光斑矢量X轴和Y轴坐标值。
步骤8,获得用户视线注视点
首先,将步骤3中的用户视线注视点瞳孔-光斑矢量,以及步骤7中解得的标定系数a0,a1,a2,a3,a4,a5和b0,b1,b2,b3,b4,b5分别代入二维标定方程组,求解得到用户视线注视点在场景图像坐标系中的坐标值:
x s = a 0 + a 1 x e + a 2 y e + a 3 x e y e + a 4 x e 2 + a 5 y e 2 y s = b 0 + b 1 x e + b 2 y e + b 3 x e y e + b 4 x e 2 + b 5 y e 2
其中,xs和ys分别表示待求的用户视线注视点在场景图像坐标系中X轴和Y轴坐标值,a0,a1,a2,a3,a4,a5和b0,b1,b2,b3,b4,b5表示已知的标定系数,xe和ye分别表示与待求用户视线注视点对应的瞳孔-光斑矢量X轴和Y轴坐标值。
其次,构建界面坐标系。以界面图像左上角的点为原点,以像素点在图像上的列号为X轴坐标值,以像素点在图像上的行号为Y轴坐标值,构建完成界面坐标系,获得4个转换标志点在界面坐标系的坐标值。
然后,将步骤4中4个转换标志点在场景图像坐标系的坐标值,以及在步骤8中界面坐标系的坐标值,代入跟踪方程,求解得到坐标转换矩阵:
Xc=HXs
Xc=(xc,yc,1)T
Xs=(xs,ys,zs)T
其中,Xc与Xs分别表示4个转换标志点在界面坐标系与场景图像坐标系中点坐标向量,H为待求的坐标转换矩阵,xc与yc分别表示4个转换标志点在界面坐标系中点的X轴坐标值与Y轴坐标值,xs与ys分别表示4个转换标志点在场景图像坐标系中点的X轴坐标值与Y轴坐标值,zs表示4个转换标志点在场景图像坐标系中点的Z轴坐标值,zs=xs+ys-1,c表示界面坐标系,s表示场景图像坐标系,T表示转置。
最后,将本步骤中获得的用户视线注视点在场景图像坐标系中的坐标值,以及解得的坐标转换矩阵H,代入跟踪方程,求解得到用户视线注视点在界面坐标系中的坐标值:
Xc=HXs
Xc=(xc,yc,1)T
Xs=(xs,ys,zs)T
其中,Xc与Xs分别表示用户视线注视点在界面坐标系与场景图像坐标系中点坐标向量,H为上述已求得的坐标转换矩阵,xc与yc分别表示用户视线注视点在界面坐标系中点的X轴坐标值与Y轴坐标值,xs与ys分别表示用户视线注视点在场景图像坐标系中点的X轴坐标值与Y轴坐标值,zs表示用户视线注视点在场景图像坐标系中点的Z轴坐标值,zs=xs+ys-1。
步骤9,完成期望字符输入
界面模块检测步骤8的用户视线注视点在界面坐标系中的坐标值处于输入键盘中的哪一个分块区域,由所确定的分块区域得知界面输入键盘上与之对应的键。当语音识别模块接收到用户语音信号为“YES”,且当前输入键不为“Esc”时,则认为完成了当前期望字符的输入,返回执行步骤2,输入下一期望字符;当语音识别模块接收到用户语音信号为“YES”,且当前输入键为“Esc”时,则执行步骤10;当语音识别模块接收到用户语音信号为“NO”时,返回执行步骤2,重新输入期望字符。
步骤10,退出字符输入。

Claims (4)

1.一种基于视线跟踪与语音识别的字符输入方法,其具体步骤如下:
(1)绘制界面
1a)启动界面模块,创建两个界面视图;
1b)在一个界面视图中绘制9个坐标已知的均匀分布点,作为界面中的校准标志点;
1c)在另一个界面视图中绘制输入键盘:绘制任意4个坐标已知的点,作为界面中的转换标志点,按照电脑常用键盘的字符分布,划分出5行共55个边界值已知的分块区域,依次绘制英文字母键、数字键、标点符号键、运算符号键和常用功能键;
(2)采集眼图、场景图像
2a)头盔单元中眼摄像机单元采集红外LED光源照射下的用户左眼眼图;
2b)场景摄像机采集用户正前方场景图像;
(3)处理眼图
眼图处理模块采用阈值自适应的二次延展星射线法实时提取眼图的瞳孔中心和普尔钦光斑中心的坐标值,将瞳孔中心坐标值减去普尔钦光斑中心坐标值,获得瞳孔-光斑矢量值;
(4)处理场景图像
4a)构建场景图像坐标系:以步骤2b)采集的场景图像左上角的点为原点,以像素点在图像上的列号为X轴坐标值,以像素点在图像上的行号为Y轴坐标值,构建完成场景图像坐标系;
4b)场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法,得到步骤1b)中9个校准标志点在场景图像坐标系中的坐标值;
4c)场景图像处理模块采用基于Hu矩匹配的轮廓特征识别法,得到步骤1c)中4个转换标志点在场景图像坐标系中的坐标值;
(5)判断校准标志点的个数
5a)统计当前用户确认成功后的校准标志点个数;
5b)若已校准的校准标志点个数小于9,则执行步骤(6);
5c)若已校准的校准标志点个数等于9且步骤(7)未执行,则执行步骤(7);
5d)若已校准的校准标志点个数等于9且步骤(7)已执行过,则执行步骤(8);
(6)标志点校准
6a)语音识别模块接收到用户语音信号为“YES”,则表示当前标志点校准成功,返回步骤(2),由界面模块对下一个校准标志点采集眼图;
6b)语音识别模块接收到用户语音信号为“NO”,则表示当前标志点校准失败,返回步骤(2),由界面模块对当前校准标志点采集眼图;
(7)求解标定系数
标定模块将步骤4b)中9个校准标志点在场景图像坐标系的坐标值,以及步骤(3)中与校准标志点对应的瞳孔-光斑矢量值分别代入二维标定方程组,求解得到二维标定方程组的标定系数;
(8)获得用户视线注视点
8a)将步骤(3)中的用户视线注视点瞳孔-光斑矢量,以及步骤(7)中解得的标定系数分别代入二维标定方程组,求解得到用户视线注视点在场景图像坐标系中的坐标值;
8b)构建界面坐标系:以界面图像左上角的点为原点,以像素点在图像上的列号为X轴坐标值,以像素点在图像上的行号为Y轴坐标值,构建完成界面坐标系,获得4个转换标志点在界面坐标系的坐标值;
8c)将步骤4c)中4个转换标志点在场景图像坐标系的坐标值,以及在步骤8b)中界面坐标系的坐标值,代入跟踪方程,求解得到坐标转换矩阵;
所述的跟踪方程为矩阵形式,具体表达式如下:
Xc=HXs
Xc=(xc,yc,1)T
Xs=(xs,ys,zs)T
其中,Xc与Xs分别表示界面坐标系与场景图像坐标系中点坐标向量,H为坐标转换矩阵,xc与yc分别表示界面坐标系中点的X轴坐标值与Y轴坐标值,xs与ys分别表示场景图像坐标系中点的X轴坐标值与Y轴坐标值,zs表示场景图像坐标系中点的Z轴坐标值,zs=xs+ys-1,c表示界面坐标系,s表示场景图像坐标系,T表示转置操作;
8d)将步骤8a)获得的用户视线注视点在场景图像坐标系中的坐标值,以及步骤8c)中解得的坐标转换矩阵,代入跟踪方程,求解得到用户视线注视点在界面坐标系中的坐标值;
所述的跟踪方程为矩阵形式,具体表达式如下:
Xc=HXs
Xc=(xc,yc,1)T
Xs=(xs,ys,zs)T
其中,Xc与Xs分别表示界面坐标系与场景图像坐标系中点坐标向量,H为坐标转换矩阵,xc与yc分别表示界面坐标系中点的X轴坐标值与Y轴坐标值,xs与ys分别表示场景图像坐标系中点的X轴坐标值与Y轴坐标值,zs表示场景图像坐标系中点的Z轴坐标值,zs=xs+ys-1,c表示界面坐标系,s表示场景图像坐标系,T表示转置操作;
(9)完成期望字符输入
9a)界面模块检测步骤8d)的用户视线注视点在界面坐标系中的坐标值处于步骤1c)中的哪一个分块区域,由所确定的分块区域得知界面输入键盘上与之对应的键;
9b)语音识别模块接收到用户语音信号为“YES”,且当前输入键不为“Esc”时,则认为完成了当前期望字符的输入,返回执行步骤(2),输入下一期望字符;
9c)语音识别模块接收到用户语音信号为“YES”,且当前输入键为“Esc”时,则执行步骤(10);
9d)语音识别模块接收到用户语音信号为“NO”时,返回执行步骤(2),重新输入期望字符;
(10)退出字符输入。
2.根据权利要求1所述的基于视线跟踪与语音识别的字符输入方法,其特征在于,步骤(3)所述的阈值自适应的二次延展星射线法具体步骤如下:
第一步,眼图处理模块对图像进行高斯滤波预处理;
第二步,眼图处理模块使用灰度直方图求得最佳的灰度阈值对图像进行二值化分割,获取分割后的图像质心作为第一次粗定位瞳孔中心;
第三步,以第一次粗定位瞳孔中心为初始点,对眼图进行二次瞳孔粗定位;
第四步,对眼图进行自适应阈值二值化分割,求二值化图像的最大四连通区域,以该区域的中心值作为普尔钦斑中心;
第五步,使用二次延展星射线法求得瞳孔边界特征点,依据粗定位瞳孔中心坐标值筛选出合格的特征点,将特征点划分在6个不同区域,在每个区域随机取一特征点,若该区域中不存在特征点,则从其他区域选取,共取6个瞳孔边界特征点;
第六步,使用6个瞳孔边界特征点拟合椭圆;
第七步,计算所有特征点到拟合出来的椭圆的欧式距离,记录距离小于n个像素的特征点的个数,n表示误差范围,取值为1~5之间,当匹配点个数与总特征点个数的比率大于μ时,μ取值0.5~0.9之间,认为椭圆拟合成功,眼图处理完成,否则更改二次延展星射线法中的梯度阈值,执行本步骤的第五步。
3.根据权利要求1所述的基于视线跟踪与语音识别的字符输入方法,其特征在于,步骤4b)和步骤4c)所述的基于Hu矩匹配的轮廓特征识别法的具体步骤如下:
第一步,场景图像处理模块处理头盔单元采集的包含标志点的图像样本,确定样本阈值范围、特征点所处的矩形区块的周长和面积的范围;
第二步,场景图像处理模块对当前帧场景图像进行高斯滤波和形态学开运算预处理;
第三步,在样本阈值范围内,场景图像处理模块对预处理过的图像进行二值化,再使用Hu矩匹配法检测各标志点所在的矩形区块的轮廓,计算各轮廓的周长和面积,筛选出符合本步骤第一步的周长和面积范围的轮廓,统计合格的轮廓个数,求各轮廓的最小外界矩形,获取各轮廓的中心坐标;
第四步,判断合格的轮廓个数是否等于标志点个数,如果是,则视为检测成功,将各轮廓中心坐标按照先行后列的顺序依次赋值给各标志点坐标,否则在样本阈值范围内更改阈值,执行本步骤的第三步;
第五步,若重复本步骤第三步10次后,仍没有检测成功,则选取上一帧场景图像的各标志点坐标值作为当前帧场景图像的各标志点坐标值。
4.根据权利要求1所述的基于视线跟踪与语音识别的字符输入方法,其特征在于,步骤(7)、步骤8a)所述的二维标定方程组为:
x s = a 0 + a 1 x e + a 2 y e + a 3 x e y e + a 4 x e 2 + a 5 y e 2 y s = b 0 + b 1 x e + b 2 y e + b 3 x e y e + b 4 x e 2 + b 5 y e 2
其中,xs和ys表示场景图像坐标系中点的X轴和Y轴坐标值,a0,a1,a2,a3,a4,a5和b0,b1,b2,b3,b4,b5表示标定系数,xe和ye分别表示瞳孔-光斑矢量X轴和Y轴坐标值。
CN201210517734.8A 2012-11-22 2012-11-22 基于视线跟踪与语音识别的字符输入装置和方法 Expired - Fee Related CN103076876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210517734.8A CN103076876B (zh) 2012-11-22 2012-11-22 基于视线跟踪与语音识别的字符输入装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210517734.8A CN103076876B (zh) 2012-11-22 2012-11-22 基于视线跟踪与语音识别的字符输入装置和方法

Publications (2)

Publication Number Publication Date
CN103076876A CN103076876A (zh) 2013-05-01
CN103076876B true CN103076876B (zh) 2016-02-10

Family

ID=48153434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210517734.8A Expired - Fee Related CN103076876B (zh) 2012-11-22 2012-11-22 基于视线跟踪与语音识别的字符输入装置和方法

Country Status (1)

Country Link
CN (1) CN103076876B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201518979A (zh) * 2013-11-15 2015-05-16 Utechzone Co Ltd 手持式眼控接目裝置、及密碼輸入裝置、方法以及電腦可讀取記錄媒體及電腦程式產品
CN103690146A (zh) * 2013-12-13 2014-04-02 重庆大学 新型眼动仪
US9804753B2 (en) * 2014-03-20 2017-10-31 Microsoft Technology Licensing, Llc Selection using eye gaze evaluation over time
CN103927014A (zh) * 2014-04-21 2014-07-16 广州杰赛科技股份有限公司 一种字符输入方法及装置
US9727136B2 (en) * 2014-05-19 2017-08-08 Microsoft Technology Licensing, Llc Gaze detection calibration
CN104317392B (zh) * 2014-09-25 2018-02-27 联想(北京)有限公司 一种信息控制方法及电子设备
DE102015219121A1 (de) * 2015-10-02 2017-04-06 Carl Zeiss Microscopy Gmbh Mikroskopsteuerungsverfahren und Mikroskop
CN105353906B (zh) * 2015-10-21 2018-08-28 业成光电(深圳)有限公司 轨迹预测系统及轨迹预测方法
US9990921B2 (en) * 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
US20170344112A1 (en) * 2016-05-31 2017-11-30 Fove, Inc. Gaze detection device
WO2019123425A1 (en) * 2017-12-22 2019-06-27 Telefonaktiebolaget Lm Ericsson (Publ) Gaze-initiated voice control
CN108427926A (zh) * 2018-03-16 2018-08-21 西安电子科技大学 一种视线跟踪系统中的瞳孔定位方法
CN110857067B (zh) * 2018-08-24 2023-04-07 上海汽车集团股份有限公司 一种人车交互装置和人车交互方法
CN109727231A (zh) * 2018-12-17 2019-05-07 江苏鸿祺生物科技有限公司 一种用于识别检测椭球型软胶囊的外观不规则缺陷的自比对检测方法
CN110248254A (zh) * 2019-06-11 2019-09-17 Oppo广东移动通信有限公司 显示控制方法及相关产品
CN110412257B (zh) * 2019-07-22 2022-05-03 深圳市预防宝科技有限公司 一种结合人工标定与星射线算法的试纸块定位方法
CN112578904B (zh) * 2020-11-17 2021-12-14 北京津发科技股份有限公司 一种针对移动终端的人机交互测试装置
CN113276113A (zh) * 2021-05-17 2021-08-20 南京航空航天大学 一种面向空间机械臂在轨操作的视线定位和语音控制系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344919A (zh) * 2008-08-05 2009-01-14 华南理工大学 视线跟踪方法及应用该方法的残疾人辅助系统
CN101515199A (zh) * 2009-03-24 2009-08-26 北京理工大学 一种基于视线跟踪和p300脑电电位的字符输入装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6659611B2 (en) * 2001-12-28 2003-12-09 International Business Machines Corporation System and method for eye gaze tracking using corneal image mapping

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344919A (zh) * 2008-08-05 2009-01-14 华南理工大学 视线跟踪方法及应用该方法的残疾人辅助系统
CN101515199A (zh) * 2009-03-24 2009-08-26 北京理工大学 一种基于视线跟踪和p300脑电电位的字符输入装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于DM6446的人脸检测与跟踪系统设计;蒲东兵、张雪、翟畅、马志强;《信息技术》;20110430(第4期);第114页第2栏第1段、第115页第2栏第1段第1-4行、第115页第2栏第3段 *
用于人机交互的头戴式视线跟踪方法研究;龚秀峰;《万方数据企业知识服务平台 》;20101029;第2章第18页第1-2段、第19页第1段、第20页第1段及图2.6、图2.7 *
眼动跟踪技术的研究与优化实现;刘涛;《中国优秀硕士学位论文全文数据库信息科技辑》;20110715(第7期);第3章第19页第3-4段、第20页第4-6段、第3章第3.2节及图3.1、 *

Also Published As

Publication number Publication date
CN103076876A (zh) 2013-05-01

Similar Documents

Publication Publication Date Title
CN103076876B (zh) 基于视线跟踪与语音识别的字符输入装置和方法
CN108921100B (zh) 一种基于可见光图像与红外图像融合的人脸识别方法及系统
CN107341473B (zh) 手掌特征识别方法、手掌特征识别设备、及存储介质
CN105574518B (zh) 人脸活体检测的方法和装置
CN108595008B (zh) 基于眼动控制的人机交互方法
CN104933344B (zh) 基于多生物特征模态的移动终端用户身份认证装置及方法
CN103218605B (zh) 一种基于积分投影与边缘检测的快速人眼定位方法
CN104123543B (zh) 一种基于人脸识别的眼球运动识别方法
CN110221699B (zh) 一种前置摄像头视频源的眼动行为识别方法
CN106709450A (zh) 一种指纹图像识别方法及系统
CN103761519A (zh) 一种基于自适应校准的非接触式视线追踪方法
CN103324284A (zh) 基于人脸和眼部检测的鼠标控制方法
CN104821010A (zh) 基于双目视觉的人手三维信息实时提取方法及系统
CN112348851B (zh) 移动目标追踪系统及混合现实手术辅助系统
CN112022346B (zh) 一种全自动静脉穿刺识别一体机器人的控制方法
Guo et al. Optimization of visual information presentation for visual prosthesis
CN103927014A (zh) 一种字符输入方法及装置
CN107145226A (zh) 眼控人机交互系统及方法
CN105741326B (zh) 一种基于聚类融合的视频序列的目标跟踪方法
Wu et al. Appearance-based gaze block estimation via CNN classification
CN112732092A (zh) 基于双视图多尺度卷积神经网络的表面肌电信号识别方法
CN104898971B (zh) 一种基于视线跟踪技术的鼠标指针控制方法及系统
CN109634407B (zh) 一种基于多模人机传感信息同步采集与融合的控制方法
CN109766559B (zh) 一种手语识别翻译系统及其识别方法
CN110032270B (zh) 一种基于手势识别的人机交互方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: He Di

Inventor after: Peng Hongming

Inventor after: Cui Yao

Inventor after: Yu Mingxuan

Inventor after: Wang Junning

Inventor after: Gao Jing

Inventor after: Wei Wenting

Inventor before: Wang Junning

Inventor before: Cui Yao

Inventor before: Yu Mingxuan

Inventor before: He Di

Inventor before: Gao Jing

Inventor before: Wei Wenting

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160210

Termination date: 20211122