CN101446859B

CN101446859B - 一种基于机器视觉的输入方法及其系统

Info

Publication number: CN101446859B
Application number: CN 200810240719
Authority: CN
Inventors: 黄通兵
Original assignee: Individual
Current assignee: Beijing Qixin Yiwei Information Technology Co Ltd
Priority date: 2008-12-23
Filing date: 2008-12-23
Publication date: 2012-12-12
Anticipated expiration: 2028-12-23
Also published as: CN101446859A

Abstract

本发明提供一种基于机器视觉的输入方法及其系统，该方法包括：捕捉和/或采集目标信号；存储并获取该目标信号的特征点；依据第一预置规则将所述目标信号的特征点转化为光标信号，以及依据第二预置规则执行相应的操作；该方法能够简单、方便、且更快捷地输入使用者需要的指令。

Description

一种基于机器视觉的输入方法及其系统

技术领域

本发明涉及信号转换技术领域，更具体地，涉及一种基于机器视觉的输入方法以及一种基于机器视觉的输入系统。

背景技术

随着科学技术的高度发展，计算机已经成为人们生活工作的必要设备，计算机包括主机以及键盘、鼠标等周边设备。随着人们对计算机的依赖程度的加深，通过鼠标和键盘进行的繁重的计算机输入操作导致了大量问题的产生，例如敲击键盘导致的手指肌肉劳损，或常见的鼠标手病等等。而现有技术中为改进鼠标和键盘引进的辅助输入设备造价均比较昂贵，且对于特殊用户来说使用很不方便，特别地，这些设备还不能够随时随地独立使用。例如，对于可能由于安全卫生等原因而不能用双手接触计算机的医生、护士们来说，若使用这些改进的辅助输入设备还需要其他人的帮助。

如中国专利公开号为CN101038523A的专利文献公开了一种基于视觉跟踪与语音识别的鼠标系统，包括鼠标驱动模块、信息反馈模块和语音指令处理模块；鼠标驱动模块由摄像头、红外发光标志物以及光标定位子模块构成，摄像头通过检测跟踪红外标志物的光斑图像，动态跟踪光斑在摄像头成像平面上的位置移动，然后通过光标定位子模块将光斑在图像上的运动转换为鼠标光标在显示桌面上的运动，并将鼠标的位置信息传递给信息反馈模块；信息反馈模块通过计算机显示器将鼠标驱动模块传来的鼠标光标的位置表示出来，并给用户相应的信息指示；语音指令处理模块由麦克风及语音识别子模块组成，当信息反馈模块显示鼠标光标到达用户的感兴趣位置时，语音指令处理模块通过与计算机主机相连接的麦克风接收用户发出的语音指令，通过语音识别子模块对输入语音信号进行识别，由分类结果激发并驱动相应的鼠标事件响应。该发明通过摄像头实时跟踪检测红外发光标志物的移动，以此控制鼠标光标的位置，通过麦克风接收语音指令，从而为计算机系统提供方便友好的人机接口。但其需要额外的辅助红外线装置，通过移动光斑实现对光标的控制，这一过程对身体不便的特殊人士来说并不方便。

再如，中国专利公开号CN1357862A的专利文献公开了一种视窗的光标视觉点选装置，利用眼球的移动作为操作电脑光标移动的依据，包含：一影像摄取装置，对使用者的外型进行定位辨识而取得使用者的瞳孔的位置，并且修定一参考用的定位框，同时输出该瞳孔与该定位框的相对位置的信息；一电脑，通过一接口与该摄像摄取装置沟通，依据该瞳孔与该定位框间的相对位置变化量，而动态调整该光标与电脑视窗间的相对位置。该装置能够让操作者无需移动鼠标即可任意操作光标，避免鼠标和键盘间切换操作的不便，但该技术方案是根据操作者瞳孔的移动定位光标，使得操作者的眼部活动受到限制，容易造成操作者眼睛的疲劳，带来使用上的不便。

总之，目前本领域的技术人员需要迫切解决的一个技术问题就是：如何能够简单、且更方便、快捷地输入使用者需要的指令。

发明内容

本发明的目的是提供一种能够简单、且更方便、快捷地输入使用者需要的指令的基于机器视觉的输入系统以及一种基于机器视觉的输入方法。

为实现上述目的，本发明公开了一种基于机器视觉的输入方法，包括：

捕捉和/或采集使用者的面部图像信号，包括使用者面部的多个采样点；

存储所述面部图像信号并获取其特征点；

根据第一预置规则将所述特征点转化为光标信号，以及依据第二预置规则执行相应的操作；其中，

所述第一预置规则为：采用检测算法分析所述特征点是否与设定值相应，若是，将该图像信号转化为光标信号；

所述第二预置规则为：响应特定特征点生成包含期望功能键的菜单界面，通过所述菜单界面执行相应的操作。

其中，所述特征点为静态的图像信息，包括：由所述面部图像信号的多个采样点中提取的使用者的人脸轮廓或五官轮廓、预置的易于识别的特殊采样点集合，或上述信息的分别的归一化处理结果。

其中，所述特征点为动态的图像信息，包括：由所述面部图像信号的多个采样点中提取的使用者的人脸轮廓或五官轮廓或其归一化处理结果的变化、预置的易于识别的特殊采样点集合或其归一化处理结果的变化。

其中，所述变化包括横向、纵向的移动产生的距离变化，以及以采样点中某个参考点为基准的转动产生的角度变化。

其中，所述特征点包括眼球的转动。

其中，所述捕捉和/或采集使用者的面部图像信号的步骤通过使使用者的人脸在信号采集范围内停留一定的时间长度或者使用者人脸的移动或转动来实现。

其中，所述检测算法包括人脸检测算法和运动检测算法。

本发明的技术方案还提供了一种基于机器视觉的输入方法的实现系统，包括：

面部图像信号获取单元：用于捕捉和/或采集使用者的面部图像信号，包括使用者面部的多个采样点；

特征点提取单元，用于存储所述面部图像信号并获取其特征点；

光标信号获取单元及操作单元，用于根据第一预置规则将所述特征点转化为光标信号，以及依据第二预置规则执行相应的操作。

与现有技术相比，本发明具有以下优点：

首先，本发明通过在计算机内部建立或指定一图像数据库，对采集或捕捉到的目标图像的信号进行分析，判断该目标图像的信号的特征点是否与光标信号转换的标准相匹配，若匹配，则将其转换为光标信号，执行相应于鼠标的任何操作，本发明无需增加任何的辅助设备，操作简单，快捷；

其次，本发明对所采集的信号进行分析，在判断其为符合预置要求的目标信号后才进一步执行使用者期望的操作指令，这一过程为使用者提供了一定程度的保护，使得本发明可以应用于特殊的识别系统中；

再者，本发明通过检测算法将采集的目标信号转换为光标信号，以及在转换之前进行误差修正和降低噪声的处理，使得目标信号的转换能够符合要求，并且能够减少出错率；

最后，本发明通过提前建立语音数据库，以将语音信号转换为操作指令并执行相应操作的方式为特殊的使用者提供方便。

附图说明

图1是本发明的基于机器视觉的输入方法实施例一的流程图；

图2是本发明的基于机器视觉的输入方法实施例二的流程图；

图3是图2中的具体操作的第一界面的示例性示意图；

图4是图2中具体操作的辅助菜单的示例性示意图；

图5是本发明的基于机器视觉的输入系统的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的核心构思在于，对获取的目标信号进行分析以获取该目标信号的特征点，并对该特征点进行修正或噪声处理，进而利用检测算法将所述的目标信号转换为光标信号执行相应的指令操作。

实施例一

图1为本发明的基于机器视觉的输入方法实施例一的流程图，如图1所示，基于机器视觉的输入方法的主要步骤包括：

步骤101：捕捉和/或采集目标信号，其中，该处目标信号可以是图像信号，包括静态图像信号和动态图像信号，例如人脸图像信号；也可以是特定的语音信号；

在具体实施例中，可通过以下子步骤获取所述目标信号；

子步骤1011：获取一包括所述目标信号的特征信息的数据库，所述特征信息可以是通用人脸特征信息，例如通用人脸轮廓特征信息或通用人脸肤色特征信息，也可以是特定的语音信息，如包含各种指令的语音信号，当然，该数据库可以使用现有技术中的任何一个数据库，可以同时包括不同的图像和语音信息，也可以是使用者新建立的专用于个人的数据库，本发明不对此数据库进行限定；

子步骤1012：捕捉或采集信号，该处可以通过计算机增加一摄像头进行采集人脸图像，以及任何一个可以用于采集图像的装置都可以在此使用；

当然，需要进行说明的是，若使用者使用的是语音数据库，可以通过增加一话筒，其它任何可以接受并输入语音的设备都可以在此使用，本发明不对此进行限定；

子步骤1013：判断所述信号与所述特征信息是否相符，若所述采集/捕捉的信号与本实施例中的数据库中所包含的特征信息匹配，执行步骤102，即存储并获取所述信号的特征点，若否，结束，或重复执行步骤1012的操作，即重新捕捉或采集信号，例如，若人脸图像信号与通用人脸轮廓特征信息匹配(如Yale B数据库中设定的人脸图像的特征信息)或通用人脸肤色信息相符，则该人脸图像信号为目标信号；

在本步骤的操作中，当数据库中存储的人脸特征信息为某个特定使用者的个人信息时，所述系统判断所述采集的信号与数据库特征信息不匹配时，可以选择关机或不执行后续步骤的方式保护计算机不被非法用户使用；当数据库中存储的人脸特征信息为多个使用者的分别的识别性的特征信息时，所述系统可以判断并识别分别的使用者，并选择执行不同的操作，如切换到该使用者首选的使用界面等；

步骤102：存储并获取该目标信号的特征点，在本实施例中，可以先存储所述目标信号，再进行分析并提取所述目标信号的特征点，也可以上述的两个动作同时进行，对于该处的动作先后顺序本实施例中不做限定；

其中，所述特征点可以是静态的图像信息，例如从多个采样点中提取的人脸轮廓或五官轮廓，也可以是预置的易于识别的特殊采样点：手的五指、手纹、光照较亮的皮肤、较突出的面部器官等等，可以是对采集的图像信息所提取的特征点进行的归一化处理的结果，例如对较突出的某个面部器官周围的多个采样点进行求平均、或进行误差修正的结果，另外，还可以是对面部五官进行识别后构建的精确的3D线框模型；或这些静态信息的变化的识别、跟踪等，例如人脸轮廓的变化、特殊采样点或其归一化结果的变化或3D线框模型的变化；所述变化可以是由横向、纵向的移动产生的距离变化，也可以是由以某参考点为基准的转动产生的角度变化；所述特征点的获取方式可以是人脸在信号采集范围内停留一定的时间长度，也可以是人脸的移动或转动，例如人脸整体的横向或纵向的移动或额头、鼻子、下巴或眼球的转动；

需要说明的是，对于语音信息，本实施例中采取输入一包括相应于指令信息的语音信号的方式。这些语音信号可以是“双击”、“上翻页”、“粘贴”等指令，在本步骤的操作中，对所述采集的语音信息采取提取特征点的方式实现与数据库中的语音指令的匹配；

步骤103：依据第一预置规则将所述目标信号的特征点转化为光标信号，以及依据第二预置规则执行相应的操作；

其中，所述第一预置规则为：采用检测算法分析所述特征点是否与设定值相应，若是，将该目标信号转化为光标信号；

在实际应用过程中，以人脸图像检测为例，所述的检测算法可以是确定人脸轮廓的人脸检测算法，例如基于haar小波变换的边缘检测-肤色检测等；也可以是精确追踪人脸面部轮廓的变化的运动检测算法，例如，使用帧间差分和金字塔迭代Lucas-Kanade的光流法等等；

所述设定值可以是任意的预先设定的特征点类型，且可以通过用户/使用者自己来改变；所述将目标信号转化为光标信号的过程可以是将所述人脸轮廓、多个采样点或其归一化结果、3D线框模型的位置或移动通过计算机接口转化为光标信号的过程；

所述第二预置规则为相应于所有鼠标和键盘操作的命令程序，包括鼠标左键、右键、中键的单击、双击，鼠标按下并拖拽，滚轮、上翻页、下翻页等，还包括键盘的字母、符号、系统指令的输入命令程序，此外通过对程序的扩展，还可以是其他用户设定的系统操作指令，例如，开启浏览器等；所述执行操作的方式可以是通过软件生成一个响应特定特征点的包含期望功能键的菜单界面，以获取这些特定特征点的方式通过该菜单界面执行期望的操作，也可以是其他可实现的方式。

在本实施例中，优选的实现方式还可以为，对所述特征点进行修正或降低噪声，进而再执行步骤103，这样可以避免采集到的目标信号在转换为光标信号的过程中转换速度较慢的现象，以及降低光标信号转换的错误率。例如，当所述设定值为人脸面部特定采样点的移动时，所述修正方法可以是：提高采样点的数量，对通过检测算法得到的多个采样点中的每一个的移动量进行平均处理，获得移动量的平均值，这样可以降低个别错误采样点的误差；也可以是动态剔除错误采样点；当所述设定值为人脸轮廓时，可以采用噪音消除算法降低噪声：在操作者头部移动到某些位置时，当人脸轮廓特征信号比较强烈，即超过一定阀值时，系统会重新计算正确的采样区域，增加区域内的采样点，而将区域外的采样点删除。

本实施例的最主要的优点是通过检测算法将所述采集的目标信号转换为光标信号，以及采用修正特征点的方式进一步提高目标信号转换为光标信号的转换率，可以更快捷、更方便地实现用户的指令操作。

实施例二

结合图2、图3、以及图4对本发明的基于机器视觉的输入方法进行具体说明，在本实施例中，基于机器视觉的输入方法的具体操作步骤如下所述：

当使用者通过摄像头采集图像时，如图3所示为本实施例中用于采集并转换目标信号的第一界面，

步骤A01：采集人脸图像，计算机上配置的图像捕捉装置-视频摄像设备会通过已储存在软件中的通用人脸面部特征信息自动识别操作者的面孔；当操作者轻轻的左右上下转动头部，摄像头会自动采集操作者的面部图像；

步骤A02：通过基于haar小波变换的边缘检测-肤色检测等检测算法确定视频图像中人脸轮廓的当前位置；

步骤A03：然后在检测到的人脸图像区域内通过使用帧间差分或金字塔迭代lucas-kanade的光流法等运动检测算法精确跟踪人脸面部轮廓的移动；

步骤A04：对所获得的移动信号进行误差修正与噪声降低(比如提高采样点数量，对移动数据进行平均处理，这样可以降低个别错误采样点的误差，此外，动态剔除错误采样点也可以提高精度，还可以采用噪声消除算法降低噪声)，提高处理精度，以便得到高精度的移动信号；

步骤A05：处理后的脸部的移动信号通过计算机操作系统接口转化为鼠标光标的移动，例如，微软windows系统提供的mouse_event api函数即可通过输入坐标的方式对光标进行移动；特定的移动信号可以通过软件激活一个包含期望的所有鼠标和键盘指令的功能键的菜单界面，这样，操作者即可通过眼球、鼻子、额头、下巴的转动或面部的整体移动来产生移动信号轻松的控制计算机。

在本实施例中，打开计算机后，软件自动弹出一个包括多个设置功能块和图像摄取窗口的第一界面，如图3所示，操作者通过将面部朝向计算机屏幕任意位置处停留一个预置可调的时间长度(该时间长度可以在第一界面进行设置)，如0.8s，即可在光标旁激活一个辅助菜单，如图4所示，该辅助菜单可以包括所有的鼠标指令的功能键，如鼠标左键、右键、中键的单击、双击，鼠标按下并拖拽，滚轮等，还可以包括屏幕键盘，实现字母、符号和系统指令的输入命令；操作者可以通过使光标在辅助菜单中与期望的操作对应的功能键处停留一个预置可调的时间长度(该时间长度可以在第一界面中设置，在本实施例中是0.8s)来实现期望的操作，如鼠标的单击、或者翻页，或者改由键盘输入，这种执行方式为直接执行方式；操作者还可以采用选择执行方式：操作者先通过图4所示的辅助菜单选择期望的操作命令，然后将光标停留在特定位置固定时间间隔，本发明的系统即在此位置执行先前选择的操作命令；此外，通过对软件程序的扩展，还可以在辅助菜单上设置操作者期望的快捷功能键，如开启网页等等。

以上对本发明实施例中的基于机器视觉的输入方法进行了详细描述；但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

实施例三

如图5所示的根据本发明的基于机器视觉的输入系统包括：

目标信号获取单元501，用于捕捉或采集目标信号，所述目标信号可以是图像信号，包括静态图像信号和动态图像信号，例如人脸图像信号；也可以是特定的语音信号；

其中，所述目标信号获取单元的子单元包括：

数据库获取子单元5011，用于获取一包括所述目标信号的特征信息的数据库，所述数据库获取单元获取的特征信息可以是通用人脸特征信息；

信号获取子单元5012，用于捕捉或采集信号，可以是能够获取图像和语音信号的任何设备，包括摄像设备和录音设备；

分析子单元5013，用于判断所述信号与所述特征信息是否相符，若是，存储所述信号，若否，结束或重复所述捕捉或采集信号。例如，若人脸图像信号与通用人脸轮廓特征信息或通用人脸肤色信息相符，分析单元判断该人脸图像信号为目标信号；

其中，所述分析子单元5013进一步包括：界面选择单元，用于依据存储的信号选择相应的操作界面；其中，所述存储的信号即为目标信号；

特征点提取单元502，用于存储并获取该目标信号的特征点，所述单元获取的特征点可以是静态的图像信息，也可以是这些静态信息的变化；

光标信号获取及操作单元503，用于依据第一预置规则将所述目标信号的特征点转化为光标信号，以及依据第二预置规则执行相应的操作；所述第一预置规则为：采用检测算法分析所述特征点是否与第二设定值相应，若是，将该目标信号转化为光标信号；所述第二预置规则为相应于所有鼠标和键盘操作的命令程序；

所述系统还包括：对所述特征点进行修正或降低噪声的噪声消除单元；例如，当所述设定值为人脸面部特定采样点的移动时，所述单元提高采样点的数量以降低个别错误采样点的误差；所述单元也可以动态剔除错误采样点；所述单元还可以采用噪音消除算法降低噪音。

本发明的基于机器视觉的输入系统具有的优点如下：

1、设备简单；由于采用了较先进的计算机图像处理算法，大大简化了周边硬件设备，只需要一台普通的多媒体计算机，并配置一台普通的视频摄像设备(如普通家用的用于网络视频聊天的摄像头，很便宜)即可满足该系统的正常运作。

2、输入精度高；采用独特的图像处理算法，可以在输入较低低图像采样的信号时(如输入320X240像素的低分辨率视频信号)也能完全满足对高分辨率(如1280X800的宽屏显示设备)的计算机显示设备的鼠标光标的准确定位。

3、使用方便；不需要额外的辅助设备，操作者无需佩戴任何设备或标志，只需要像常规使用计算机一样，保持面部或其他特征部位或物体位于摄像设备拾取范围内。操作环境为普通的环境光强度即可，对环境光没有特殊的要求，不需要额外的照明或指示光源。通过软件模拟实现所有的普通鼠标操作，包括鼠标左键、右键、中键的单击、双击，鼠标按下并拖拽，滚轮等，如微软windows操作系统提供的mouse_event api函数即可通过输入坐标的方式对光标进行移动。

在不需要任何额外硬件设备的前提下，通过软件模拟实现键盘的快速字母、符号、系统指令输入。

4、应用范围广；此外，本发明的方法及其系统还可以对计算机操作者的面孔进行安全识别，阻止非法操作者对计算机进行操作。可以通过判断计算机操作者和摄像头的距离，向计算机输入不同的信号，实现显示屏幕上画面大小、远近变化，或实现虚拟实景交互，甚至模拟压感笔触，让操作者可以实现带压感的计算机绘画、毛笔字书写等等。

综上所述，计算机操作者使用本发明的系统，能够完全或部分告别对传统鼠标、键盘等输入设备的依赖。

需要说明的是，本说明书中的实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于机器视觉的输入方法，其特征在于，包括：

采集使用者的面部图像信号，包括使用者面部的多个采样点；

存储所述面部图像信号并获取其特征点；

根据特征点类型对特征点进行修正或降低噪声；

根据第一预置规则将所述修正或降低噪声后的特征点通过计算机操作系统接口转化为光标信号，以及依据第二预置规则执行相应的操作；其中，

所述第二预置规则为：当光标停止的时间超过预置阈值时，在光标旁激活包含期望功能键的菜单界面，当光标在所述菜单界面上的功能键处停止的时间超过预置阈值时，执行与所述功能键相应的操作；

其中，所述修正或降低噪声的过程包括：提高采样点的数量；动态剔除错误采样点；当特征点数量超过一定阀值时，重新计算正确的采样区域，增加区域内的采样点而将区域外的采样点删除。

2.如权利要求1所述的基于机器视觉的输入方法，其特征在于，所述特征点为静态的图像信息，包括：由所述面部图像信号的多个采样点中提取的使用者的人脸轮廓或五官轮廓、预置的易于识别的特殊采样点集合，或上述信息的分别的归一化处理结果。

3.如权利要求1所述的基于机器视觉的输入方法，其特征在于，所述特征点为动态的图像信息，包括：由所述面部图像信号的多个采样点中提取的使用者的人脸轮廓或五官轮廓或所述人脸轮廓或五官轮廓的归一化处理结果的变化、预置的易于识别的特殊采样点集合或其归一化处理结果的变化。

4.如权利要求3所述的基于机器视觉的输入方法，其特征在于，所述变化包括横向、纵向的移动产生的距离变化，以及以采样点中某个参考点为基准的转动产生的角度变化。

5.如权利要求3或4所述的基于机器视觉的输入方法，其特征在于，所述特征点包括眼球的转动。

6.如权利要求1-4中任意一项所述的基于机器视觉的输入方法，其特征在于，所述采集使用者的面部图像信号的步骤通过使使用者的人脸在信号采集范围内停留一定的时间长度或者使用者人脸的移动或转动来实现。

7.如权利要求5所述的基于机器视觉的输入方法，其特征在于，所述采集使用者的面部图像信号的步骤通过使使用者的人脸在信号采集范围内停留一定的时间长度或者使用者人脸的移动或转动来实现。

8.如权利要求1所述的基于机器视觉的输入方法，其特征在于，所述检测算法包括人脸检测算法和运动检测算法。

9.如权利要求1所述的基于机器视觉的输入方法的实现系统，其特征在于，包括：

面部图像信号获取单元：用于采集使用者的面部图像信号，包括使用者面部的多个采样点；