CN1285994C

CN1285994C - 人机交互方法及装置

Info

Publication number: CN1285994C
Application number: CN 200410025125
Authority: CN
Inventors: 赵其杰; 屠大维; 高达明; 王仁三
Original assignee: University of Shanghai for Science and Technology
Current assignee: Shanghai University; University of Shanghai for Science and Technology
Priority date: 2004-06-11
Filing date: 2004-06-11
Publication date: 2006-11-22
Anticipated expiration: 2024-06-11
Also published as: CN1584791A

Abstract

本发明涉及一种人机交互方法及装置，其人机交互方法是用户通过视觉、语音以及命令按钮交互通道与计算机进行交流；其人机交互装置由计算机显示器，CCD摄像机，以及与其相连接的摄像机镜头、图像采集卡，声卡、麦克风和扬声器，辅助光源，PLC，操作按钮和连接的家用电器组成。本发明可以满足不同用户的需要，特别是能满足老年人，残障人士或计算机知识贫乏的用户对计算机使用的需要。

Description

人机交互方法及装置

所属领域：

本发明涉及一种人机交互方法及装置，用于实现与计算机进行交流。

背景技术：

传统的人和计算机的交互方式是通过鼠标、键盘等向计算机输入信息，计算机通过显示器的图形用户界面向用户输出信息。这样的交互通道需要用户学习、主动适应机器。另外对于一些特殊的用户，如残障人士、老年人和文化层次比较低的用户，键盘、鼠标这样的交互通道很难满足他们的需求。很多情况下，用户并不需要做复杂的工作，他们只希望通过自然方便的操作实现一些功能，如上网、看电影等。美国佛吉尼亚(Virginia)大学于1989年推出的Erica系统(发表在期刊：IEEE Trans.OnSystems，Man，and Cybernetics，Vol.19，No.6，1989，PP1527-1534)直接利用眼睛与计算机交流，帮助一些只能控制眼睛肌肉的残疾人学习、生活和娱乐。但是Erica系统工作过程中要求用户眼睛注视屏幕某一对话框2秒钟，然后提示用户，再注视2秒种表示要执行该对话框对应的任务，不同用户的反应能力不同，设置固定的交互时间使得交互过程不够自然。语音也是交互中最常使用的交互通道之一，比如IBM公司的IBM ViaVoice和微软公司的Microsoft speech SDK等语音识别技术可以进行连续语音识别和语音合成，对简单的句子或词汇其识别准确率较高，但是不同用户言语中的方言、发音清晰度、周围环境噪音的干扰等对语音识别的准确率都有一定的影响，另外，汉语中的同音字或同音的词汇也是语音识别中的一个影响因素，使得单独的语音通道的普及应用受到一定的限制。本发明是将用户与计算机之间的视觉、语音、手动等多种交互方式集成在一起，既可以满足不同用户的需要，又可以在实现自然、自由人机交互的同时，弥补各种交互方式的不足，提高交互的可靠性。

发明内容：

本发明的目的在于提供一种人机交互方法及装置，充分利用视觉、语音以及简单的手动操作(命令按钮)的优点，克服单独一种交互方法在人机交互中的不足，通过几种交互方法的协作实现人和计算机的自然和谐的交流。

为了实现上述目的，本发明采取如下技术方案：

一种人机交互方法，其特征在于人机交互步骤为：

a.辅助光源在用户眼睛上形成普尔钦斑点，用户的脸部由摄像机镜头摄取图像、CCD摄像机将图像经图像采集卡采集到计算机的内存中；

b.在计算机中，用图像处理的方法确定出瞳孔和普尔钦斑点的位置关系，从而判断出用户的视线在屏幕上所注视的对话框，并激活对话框；

c.计算机通过声卡和扬声器提示用户当前的任务状态；

d.用户通过麦克风、声卡向计算机发出语音命令确定或取消激活的任务，或者，通过按下表示任务确定的按钮、或任务取消按钮，配合视觉通道完成对应的任务；用户通过麦克风、声卡向计算机发送命令来启动/暂停视觉通道的工作，或者通过视觉通道按钮、PLC向计算机发送命令启动/暂停视觉通道和语音通道的工作，实现视觉、语音和命令按钮通道的协作。

一种用于上述的人机交互方法的装置，包括显示屏幕，连接于显示屏幕的计算机、PLC、摄像头、麦克风、扬声器、辅助光源和操作按钮，其特征在于显示屏和摄像头放置用户脸部前方，辅助光源对准用户眼睛照射，麦克风和扬声器安置在用户附近，操作按钮安置在用户能手触及处；摄像头连接在CCD摄像机上，CCD摄像机的输出经图像采集卡连接计算机输入口；麦克风和扬声器通过声卡连接计算机，计算机还连接辅助光源和PLC，操作按钮通过计算机及PLC控制家用电器。

本发明与现有技术相比，具有如下显而易见的突出的实质性特点和显著优点：本发明通过几种人机交互效应通道的协作，克服了单纯视觉通道交互过程中存在的不自然性和不可靠性，通过简单的关键词识别和模板技术，克服了语音交互中的环境噪音干扰和提高了识别准确率。通过视觉、语音、命令按钮3种通道的协调配合，可以灵活的满足不同用户的需要，特别对于那些老年人，残障人士或计算机知识贫乏的用户，这种交互方法能很好的帮助他们，实现一种自然的人机对话过程。

附图说明

图1是本发明一个实施例的人机交互装置结构框图。

图2是图1示例中屏幕显示界面任务示意图。

具体实施方式

本发明的一个优选实施例如下：参见图1和图2，本人机交互方法是：

1.交互信息的输入：(1)在用户前方固定位置放置一近红外光源和CCD摄像机。近红外光源在用户眼睛角膜上形成高亮度反射点，即普尔钦斑点，CCD摄像机捕获脸部图像，经图像处理确定两眼普尔钦斑点位置坐标，当眼睛注视显示屏上不同方位的对话框时，眼球发生转动，对眼睛部位图像进行二值化图像处理确定瞳孔位置相对普尔钦斑点的偏移，根据该偏移量确定眼睛的视线方向，并激活眼睛盯视方向所对应的对话框，实现视觉通道的信息输入；(2)语音信号经过麦克风和声卡输入到计算机的内存中，利用计算机端的语音识别软件将音频信号处理为具有一定语意的文本信息，为了提高识别的准确率、减少环境噪音等的影响，用模板的方式将一些常用的关键词存入模板中，语音识别过程中只对模板中的关键词汇进行识别，提高了识别的准确率。利用语音处理软件将计算机端的文本信息处理为音频信号通过输出设备输出，实现语音合成功能；(3)若干按钮接在PLC的输入端，PLC通过串口RS-232与PC实现通信，并在PLC和PC端分别编写通信程序，当触发某个按钮时，将改变PLC端程序中某些寄存器的值，寄存器的不同值及其组合代表要实现一定的任务信息，经过PC和PLC的通信将任务信息输入到计算机端，实现命令按钮的信息输入。

2.交互信息的输出：(1)计算机显示器的视频输出；(2)计算机控制下的声音输出。

3.系统工作过程：系统启动后，3种交互方法同时工作，当用户通过眼睛注视并激活屏幕上的某个对话框时，该对话框开始闪烁，等待用户的响应，并用语音提示用户选择了“×××任务”以及实现该任务的方法，此时如果用户发出“确定”、“是”等简单的语音命令或按下某个代表“确定”、“是”的按钮，则计算机按照用户的选择执行该对话框代表的任务，用户也可以发出“取消”、“不是”等简单的语音命令或按下某个代表“取消”、“不是”的按钮，结束本次对话。当用户不希望视线输入通道工作时，只需发出“视觉暂停”语音命令或按下代表“视觉暂停”的按钮，则计算机不再响应用户的视觉输入，直到用户重新发出“启动视觉”的命令计算机才再次响应用户的视觉输入信息，同样可以通过按钮来启动和暂停语音通道的工作。

参见图1，本人机交互装置包括显示屏幕2，连接于显示屏幕2的计算机3、PLC11、摄像头4、麦克风8、扬声器9、轴助光源10和操作按钮12、13、14，显示屏2和摄像头4放置用户1脸部前方，辅助光源10对准用户1眼睛照射，麦克风8和扬声器9安置在用户1附近，操作按钮12、13、14安置在用户1能手触及处：摄像头4连接在CCD摄像机5上，CCD摄像机5的输出经图像采集卡6连接计算机3输入口；麦克风8和扬声器9通过声卡7连接计算机3，计算机3还连接辅助光源10和PLC11，操作按钮12、13、14通过PLC11控制家用电器15、16、17。

本人机交互装置的工作原理：参见图1和图2，系统开始工作后，用户1注视屏幕2时，辅助光源10在用户1的眼睛角膜上形成一个反射点(普尔钦斑点)，用户1的脸部图像经物镜4、CCD摄像机5和图像采集卡6采集到计算机3的内存中，由于普尔钦斑点亮度最大，用图像处理的方法很容易确定出普尔钦斑点在脸部图像中的位置。当用户1的眼睛注视屏幕2上不同的对话框时，表现为眼球转动引起瞳孔位置的变化，而普尔钦斑点的位置不变，对眼部图像进行图像处理确定了瞳孔位置相对普尔钦斑点的偏移量，就可以判断出眼睛注视的对话框，并激活该对话框。如图2中，如果用户1注视的是“台灯”对话框，则该对话框开始闪烁，计算机3通过声卡7向扬声器9输出“您要开灯吗？”的提示信息，如果用户通过麦克风8、声卡7向计算机3发出“是”的语音命令或按下确定按钮12，则计算机3根据语音识别软件和所建立的模板(本实例采用了Microsoft speech SDK语音识别技术和XML语言创建了用户语音模板)内的关键词识别出用户的语音命令或确定按钮12对应的PLC11中表示确定信息的寄存器的值，并通过串口RS-232向PLC11发送一个开灯命令，PLC11打开台灯15，否则如果用户通过麦克风8、声卡7向计算机3发出“不是”的语音命令或按下取消按钮13，则结束本次对话。用同样的方法可以实现对电视16、电扇17等的操作。如果用户1激活了“电影”对话框，此时不希望视觉通道工作，则可以通过麦克风8、声卡7向计算机3发出“视觉暂停”的语音命令，使视觉通道暂时停止工作，同样可以通过按下按钮14改变PLC11中表示关闭或启动通道信息的寄存器的值，启动或关闭语音和视觉通道的工作。

Claims

1.一种人机交互方法，其特征在于人机交互步骤为：

a.辅助光源(10)在用户(1)眼睛上形成普尔钦斑点，用户(1)的脸部由摄像机镜头(4)摄取图像、CCD摄像机(5)将图像经图像采集卡(6)采集到计算机(3)的内存中；

b.在计算机(3)中，用图像处理的方法确定出瞳孔和普尔钦斑点的位置关系，从而判断出用户(1)的视线在屏幕(2)上所注视的对话框，并激活对话框；

c.计算机(3)通过声卡(7)和扬声器(9)提示用户(1)当前的任务状态；

d.用户(1)通过麦克风(8)、声卡(7)向计算机(3)发出语音命令确定或取消激活的任务，或者，通过按下表示任务确定的按钮(12)、或任务取消按钮(13)，配合视觉通道完成对应的任务；用户(1)通过麦克风(8)、声卡(7)向计算机(3)发送命令来启动/暂停视觉通道的工作，或者通过视觉通道开关按钮(14)、PLC(11)向计算机发送命令启动/暂停视觉通道和语音通道的工作，实现视觉、语音和命令按钮通道的协作。

2.一种用于权利要求1所述的人机交互方法的装置，包括显示屏幕(2)，连接于显示屏幕(2)的计算机(3)、PLC(11)、摄像头(4)、麦克风(8)、扬声器(9)、辅助光源(10)和操作按钮(12、13、14)，其特征在于显示屏幕(2)和摄像头(4)放置用户(1)脸部前方，辅助光源(10)对准用户(1)眼睛照射，麦克风(8)和扬声器(9)安置在用户(10)附近，操作按钮(12、13、14)安置在用户(1)能手触及处；摄像头(4)连接在CCD摄像机(5)上，CCD摄像机(5)的输出经图像采集卡(6)连接计算机(3)输入口；麦克风(8)和扬声器(9)通过声卡(7)连接计算机(3)，计算机(3)还连接辅助光源(10)和PLC(11)，操作按钮(12、13、14)通过计算机(3)及PLC(11)控制家用电器(15、16、17)。