CN100449468C - 基于视觉跟踪与语音识别的鼠标系统 - Google Patents

基于视觉跟踪与语音识别的鼠标系统 Download PDF

Info

Publication number
CN100449468C
CN100449468C CNB2007100399967A CN200710039996A CN100449468C CN 100449468 C CN100449468 C CN 100449468C CN B2007100399967 A CNB2007100399967 A CN B2007100399967A CN 200710039996 A CN200710039996 A CN 200710039996A CN 100449468 C CN100449468 C CN 100449468C
Authority
CN
China
Prior art keywords
mouse
light spot
module
speech recognition
phonetic order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2007100399967A
Other languages
English (en)
Other versions
CN101038523A (zh
Inventor
赵子健
刘允才
郁生阳
仝明磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CNB2007100399967A priority Critical patent/CN100449468C/zh
Publication of CN101038523A publication Critical patent/CN101038523A/zh
Application granted granted Critical
Publication of CN100449468C publication Critical patent/CN100449468C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种基于视觉跟踪与语音识别的鼠标系统,属于计算机技术领域。本发明中,摄像头通过检测跟踪红外标志物的光斑图像,动态跟踪光斑在摄像头成像平面上的位置移动,然后通过光标定位子模块将光斑在图像上的运动转换为鼠标光标在显示桌面上的运动,并将鼠标的位置信息传递给信息反馈模块;信息反馈模块通过计算机显示器将鼠标驱动模块传来的鼠标光标的位置表示出来,并给用户相应的信息提示;语音指令处理模块通过与计算机主机相连接的麦克风接收用户发出的语音指令,通过语音识别子模块对输入语音信号进行识别,由分类结果激发并驱动相应的鼠标事件响应。本发明结构简单,使用方便,通用性强,为计算机系统提供方便的人机接口。

Description

基于视觉跟踪与语音识别的鼠标系统
技术领域
本发明是一种计算机技术领域的鼠标系统,具体是一种基于视觉跟踪与语音识别的鼠标系统。
背景技术
在传统的计算机系统中,传统键盘、鼠标是最主要的输入输出设备,目前大部分计算机系统采用的人机交互模式为:键盘鼠标->显示器->键盘鼠标,即操作人员是通过键盘、鼠标给计算机输入有关信息及提示请示,而计算机通过显示器给人提供大量相关信息及提示请示等。目前大部分计算机操作系统及应用软件都是基于这种人机交互模式开发的。虽然这种人机交互的模式可以满足计算机用户的日常业务需要,但是在不少情况下使用传统的鼠标键盘作为输入输出设备是不合适的,例如残障人士使用的计算机系统就不宜用传统的鼠标键盘,还有大部分多媒体娱乐设备也不方便使用传统的鼠标键盘作为输入输出设备。目前也出现了不少专用的输入输出设备,例如汉字手写板、力矩球、数据手套和三维鼠标等。但是这些设备有以下不足之处:构造复杂,价格昂贵,只适于专门领域应用,通用性不强,无法与传统的鼠标键盘兼容。
经对现有技术文献的检索发现,专利申请号为00134143.X名称为“视窗的光标视觉点选方法及装置”,该技术提出了一种方便的鼠标控制方法,主要是使用瞳孔的相对移动信息控制鼠标光标在桌面上的相对位置移动的方法,其瞳孔跟踪方法主要是通过定位框动态跟踪的方法确定瞳孔的相对位移量。由于鼠标位置定位是相对定位的方法,故而鼠标光标的定位受噪声扰动的影响比较大,鲁棒性不强。在进一步的检索中,尚未见有报道过有那种基于视觉跟踪技术的鲁棒的鼠标系统。
发明内容
本发明针对现有技术的问题和不足,提出了一种基于视觉跟踪与语音识别的鼠标系统。本发明通过摄像头可以实时跟踪检测红外发光标志物的移动,并以此控制鼠标光标的位置,通过麦克风接收语音指令,从而为计算机系统提供方便友好的人机接口。
本发明是通过以下技术方案实现的,本发明包括:鼠标驱动模块,信息反馈模块和语音指令处理模块;鼠标驱动模块由摄像头、红外发光标志物以及光标定位子模块构成,摄像头通过检测跟踪红外标志物的光斑图像,可以动态跟踪光斑在摄像头成像平面上的位置移动,然后通过光标定位子模块将光斑在图像上的运动转换为鼠标光标在显示桌面上的运动,并将鼠标的位置信息传递给信息反馈模块;信息反馈模块通过计算机显示器将鼠标驱动模块传来的鼠标光标的位置表示出来,并给用户相应的信息提示;语音指令处理模块由麦克风及语音识别子模块组成,当信息反馈模块显示鼠标光标到达用户的感兴趣位置时,语音指令处理模块通过与计算机主机相连接的麦克风接收用户发出的语音指令,通过语音识别子模块对输入语音信号进行识别,由分类结果激发并驱动相应的鼠标事件响应(左键单击、右键单击、左键双击)。
所述鼠标驱动模块中的光标定位子模块,其输入信息为摄像头图像,分辨率H×W,显示器分辨率L×M,红外标志物光斑位置坐标(a,b),输出为鼠标光标位置(A,B)。该光标定位子模块可以将红外发光标志物的运动转化为鼠标光标在显示桌面上的运动,其传递函数为:
A = L H ( H - a )
B = M W ( W - b )
所述语音指令处理模块中的语音识别子模块,其输入为麦克风接收到语音信号的线性预测系数(LPCC),输出为语音指令的分类识别结果,分类结果可以驱动相应的操作系统资源实现相应的鼠标事件响应(左键单击、右键单击、左键双击)。
与现有技术相比,本发明系统结构简单、容易实现,抗噪声干扰,鲁棒性强,鼠标定位误差小于2个像素,语音指令的识别率则高达到90%。与现有技术相比,使用设备器材购买方便、价格低廉;本发明系统使用方便通用性强,不仅可以单独使用,还可以配合传统的鼠标键盘一起使用。
附图说明
图1为本发明组成示意图。
图2为本发明系统流程框图。
具体实施方式
下面结合附图对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例包括:鼠标驱动模块,信息反馈模块和语音指令处理模块;所述鼠标驱动模块由红外发光标志物1、摄像头2、红外滤光片3以及光标定位子模块组成,信息反馈模块由连接在计算机主机5上显示器6组成,语音指令处理模块由连接在计算机主机上麦克风4及语音识别子模块组成。其中光标定位、语音识别两个子模块都是计算机主机5上的应用模块。鼠标驱动模块由装有红外滤光片3的摄像头2、红外发光标志物1以及光标定位子模块构成,摄像头2通过检测跟踪红外标志物1的光斑图像,可以动态跟踪光斑在摄像头成像平面上的位置移动,然后通过光标定位子模块将光斑在图像上的运动转换为鼠标光标在显示桌面上的运动,并将鼠标的位置信息传递给信息反馈模块;信息反馈模块通过计算机显示器6将鼠标驱动模块传来的鼠标光标的位置表示出来,并给用户相应的信息提示;当信息反馈模块显示鼠标光标到达用户的感兴趣位置时,语音指令处理模块通过与计算机主机5相连接的麦克风4接收用户发出的语音指令,通过语音识别子模块对输入语音信号进行识别,由分类结果激发并驱动相应的鼠标事件响应(左键单击、右键单击、左键双击)。
如图2所示,本实施例首先使用麦克风4采集用户使用的所有指令语音信号,提取这些语音信号的线性预测系数(LPCC)存储到计算机主机5的磁盘上,作为标准语音样本。然后,用户手持红外发光标志物1在摄像头2可视范围内移动,鼠标驱动模块中摄像头2的镜头上装有红外滤光片3,只能感应红外标志物1发出的光,采用自适应阈值分割的方法进行红外光斑检测,通过求重心的方法获取红外光斑的图像位置坐标。得知前一帧图像上红外光斑的位置坐标,以此为基准在一个较小的图像坐标范围内检测后一帧图像的红外光斑位置,从而实现红外光斑的动态跟踪,光标定位子模块将红外发光标志物1的位置移动转化为鼠标光标在显示桌面上的运动。信息反馈模块将通过鼠标驱动模块得到的鼠标光标位置显示在显示器6上。通常用户通过观察显示器6上的鼠标光标的移动,判断是否要发出语音指令;语音指令处理模块当接收到麦克风4采集的语音信号后,语音识别子模块将输入语音指令以最近邻法分类(以标准语音样本为分类中心)并以分类结果驱动鼠标事件响应。
通过使用本实施例的鼠标系统在装有Windows XP操作系统的计算机上面进行常规鼠标操作(鼠标左键单击;鼠标右键单击;鼠标左键双击)100次,测得本发明的语音指令正确执行率大于86%,鼠标定位误差为1.6个像素,由这两项指标可以看出本实施例具有鲁棒、精确的良好特性。

Claims (4)

1、一种基于视觉跟踪与语音识别的鼠标系统,其特征在于,包括:鼠标驱动模块、信息反馈模块和语音指令处理模块;鼠标驱动模块由摄像头、红外发光标志物以及光标定位子模块构成,摄像头通过自适应阈值分割的方法进行红外发光标志物的红外光斑检测,通过求重心的方法获取红外光斑的图像位置坐标,然后以前一帧图像上红外光斑的位置坐标为基准,在一个较小的图像坐标范围内检测后一帧图像的红外光斑位置,从而实现跟踪红外发光标志物的光斑图像,动态跟踪红外光斑在摄像头成像平面上的位置移动,然后通过光标定位子模块将红外光斑在图像上的运动转换为鼠标光标在显示桌面上的运动,并将鼠标的位置信息传递给信息反馈模块,信息反馈模块通过计算机显示器将鼠标驱动模块传来的鼠标光标的位置表示出来,并给用户相应的信息提示;语音指令处理模块由麦克风及语音识别子模块组成,当信息反馈模块显示鼠标光标到达用户的感兴趣位置时,语音指令处理模块通过与计算机主机相连接的麦克风接收用户发出的语音指令,语音识别子模块根据语音信号提取出的线性预测系数,再通过最近相邻分类方法进行识别和分类并得出分类结果后,由分类结果激发并驱动相应的鼠标事件响应。
2、根据权利要求1所述的基于视觉跟踪与语音识别的鼠标系统,其特征是,所述语音指令处理模块中的语音识别子模块,其输入为麦克风接收到语音信号的线性预测系数,输出为语音指令的分类识别结果,分类结果驱动相应的操作系统资源实现相应的鼠标事件响应,包括左键单击、右键单击、左键双击。
3、根据权利要求1所述的基于视觉跟踪与语音识别的鼠标系统,其特征是,所述麦克风采集用户使用的所有指令语音信号,提取这些语音信号的线性预测系数存储到计算机主机的磁盘上,作为标准语音样本。
4、根据权利要求1所述的基于视觉跟踪与语音识别的鼠标系统,其特征是,所述鼠标驱动模块中,红外发光标志物在摄像头可视范围内移动,摄像头的镜头上装有红外滤光片,只能感应红外发光标志物发出的光。
CNB2007100399967A 2007-04-26 2007-04-26 基于视觉跟踪与语音识别的鼠标系统 Expired - Fee Related CN100449468C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007100399967A CN100449468C (zh) 2007-04-26 2007-04-26 基于视觉跟踪与语音识别的鼠标系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100399967A CN100449468C (zh) 2007-04-26 2007-04-26 基于视觉跟踪与语音识别的鼠标系统

Publications (2)

Publication Number Publication Date
CN101038523A CN101038523A (zh) 2007-09-19
CN100449468C true CN100449468C (zh) 2009-01-07

Family

ID=38889457

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100399967A Expired - Fee Related CN100449468C (zh) 2007-04-26 2007-04-26 基于视觉跟踪与语音识别的鼠标系统

Country Status (1)

Country Link
CN (1) CN100449468C (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4745316B2 (ja) * 2007-11-07 2011-08-10 シャープ株式会社 表示システムおよび指示位置の検出方法
CN101887316A (zh) * 2010-07-28 2010-11-17 郭小卫 一种鼠标获取指示信息的方法及应用该方法的鼠标
WO2012063247A1 (en) * 2010-11-12 2012-05-18 Hewlett-Packard Development Company, L . P . Input processing
CN102693022A (zh) * 2011-12-12 2012-09-26 苏州科雷芯电子科技有限公司 视觉跟踪与语音识别的鼠标系统
CN102662475A (zh) * 2012-04-18 2012-09-12 华南理工大学 一种基于计算机视觉的新型鼠标及交互方法
CN102945672B (zh) * 2012-09-29 2013-10-16 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
CN103870149B (zh) * 2012-12-18 2017-08-29 联想(北京)有限公司 数据处理方法及电子设备
CN103902023A (zh) * 2012-12-25 2014-07-02 苏州薇思雨软件科技有限公司 一种声控新型鼠标
CN103294196A (zh) * 2013-05-15 2013-09-11 陈创举 一种头控鼠标
CN104714630B (zh) * 2013-12-12 2017-12-29 联想(北京)有限公司 手势识别方法、系统和计算机
CN104731549B (zh) * 2015-04-09 2017-12-19 安徽咪鼠科技有限公司 一种基于鼠标的语音识别人机交互方法
CN106383603A (zh) * 2016-09-23 2017-02-08 安徽声讯信息技术有限公司 一种基于语音鼠标的语音控制系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2242590A (en) * 1989-11-22 1991-10-02 Marconi Gec Ltd Visual tracking apparatus
JPH07234694A (ja) * 1994-02-21 1995-09-05 N T T Data Tsushin Kk 自動受付装置
CN1357862A (zh) * 2000-12-06 2002-07-10 英业达股份有限公司 视窗的光标视觉点选方法及装置
US20040133381A1 (en) * 2003-01-02 2004-07-08 Ping-Ho Chen Control scheme for spatial and level searching of a panoramic stabilized periscope
CN1760892A (zh) * 2004-10-12 2006-04-19 刘本林 用于计算机人机界面的一种首标装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2242590A (en) * 1989-11-22 1991-10-02 Marconi Gec Ltd Visual tracking apparatus
JPH07234694A (ja) * 1994-02-21 1995-09-05 N T T Data Tsushin Kk 自動受付装置
CN1357862A (zh) * 2000-12-06 2002-07-10 英业达股份有限公司 视窗的光标视觉点选方法及装置
US20040133381A1 (en) * 2003-01-02 2004-07-08 Ping-Ho Chen Control scheme for spatial and level searching of a panoramic stabilized periscope
CN1760892A (zh) * 2004-10-12 2006-04-19 刘本林 用于计算机人机界面的一种首标装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
视觉跟踪技术综述. 侯志强,韩崇昭.自动化学报,第32卷第4期. 2006
视觉跟踪技术综述. 侯志强,韩崇昭.自动化学报,第32卷第4期. 2006 *

Also Published As

Publication number Publication date
CN101038523A (zh) 2007-09-19

Similar Documents

Publication Publication Date Title
CN100449468C (zh) 基于视觉跟踪与语音识别的鼠标系统
Naglot et al. Real time sign language recognition using the leap motion controller
Stiefmeier et al. Combining motion sensors and ultrasonic hands tracking for continuous activity recognition in a maintenance scenario
CN102024151B (zh) 手势动作识别模型的训练方法和手势动作识别方法
US20080111710A1 (en) Method and Device to Control Touchless Recognition
US20120062729A1 (en) Relative position-inclusive device interfaces
US8259092B2 (en) Method for writing motion and trajectory recognition and writing apparatus and recognizing system
CN102103409A (zh) 基于运动轨迹识别的人机交互方法及装置
Munich et al. Visual input for pen-based computers
CN1530876A (zh) 笔迹轨线识别系统和方法
WO2018018624A1 (zh) 一种可穿戴设备的手势输入方法及可穿戴设备
CN101869484A (zh) 具有触摸屏的医疗诊断装置及其操控方法
CN108804971A (zh) 一种图像识别系统、增强现实显示设备和图像识别方法
KR101467295B1 (ko) 필기 정렬이 가능한 정보 입력 장치 및 방법
Rahman et al. An automated navigation system for blind people
JP7091745B2 (ja) 表示端末、プログラム、情報処理システム及び方法
Swapna et al. Hand gesture recognition system for numbers using thresholding
CN101609364B (zh) 一种遥控计算机的输入信息识别装置及使用方法
KR100379909B1 (ko) 바코드인식 및 마우스기능을 구비한 컴퓨터입력장치
CN111079754A (zh) 一种基于增强现实眼镜的信息显示方法
CN116070173B (zh) 一种跨模态任务指令理解的指读方法及系统
KR20050047314A (ko) 전자칠판의 펜 마우스 인식 방법 및 시스템
Yang et al. UltraDigit: An ultrasound signal‐based in‐air digit input system via transfer learning
Van Wyk et al. A multimodal gesture-based virtual interactive piano system using computer vision and a motion controller
CN215932585U (zh) 一种屏幕书写装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090107

Termination date: 20110426