CN103294198B - 一种基于移动终端的人机交互方法及系统 - Google Patents

一种基于移动终端的人机交互方法及系统 Download PDF

Info

Publication number
CN103294198B
CN103294198B CN201310196722.4A CN201310196722A CN103294198B CN 103294198 B CN103294198 B CN 103294198B CN 201310196722 A CN201310196722 A CN 201310196722A CN 103294198 B CN103294198 B CN 103294198B
Authority
CN
China
Prior art keywords
mobile terminal
eyes
eyeball
picture
control command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310196722.4A
Other languages
English (en)
Other versions
CN103294198A (zh
Inventor
宋展
郑丹青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310196722.4A priority Critical patent/CN103294198B/zh
Publication of CN103294198A publication Critical patent/CN103294198A/zh
Application granted granted Critical
Publication of CN103294198B publication Critical patent/CN103294198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明适用于通信领域,提供了基于移动终端的人机交互方法,包括:控制移动终端的摄像头,并通过摄像头实时采集用户面部画面;通过采集到的用户面部画面检测双眼位置;根据检测到的双眼位置提取搜索窗口,并初始化搜索窗口;在搜索窗口中确定双眼眼球的位置,并通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态;根据检测到的双眼的开合状态,发送相应的控制命令给移动终端以实现对应操作。本发明还提供基于移动终端的人机交互系统。本发明所提供的基于移动终端的人机交互及系统可以实现通过眨眼来控制移动终端的操作,进而提高用户的体验。

Description

一种基于移动终端的人机交互方法及系统
技术领域
本发明涉及通信领域,尤其涉及一种基于移动终端的人机交互方法及系统。
背景技术
目前,现有的人机交互系统,不管是触摸屏还是按键型都需要有手的介入,才能实现各项功能选择。以阅读手机电子书为例,如果手机是触摸屏手机,则用户需要用手滑动或者点击触摸屏来实现上下页的翻页阅读,如果手机是按键型手机,则用户需要按上下键来实现上下页的翻页阅读,这些操作和功能的选择都离不开手,久而久之,不免会让用户感到枯燥乏味。
而且,虽然目前许多软件也有自动翻页功能,但是需要预先设定翻页间隔时间,由于每页的内容量不同,每个人的阅读速度也不同,预设翻页间隔时间内没看完页面内容就翻页或者在预设翻页间隔时间之前看完而等待翻页,这些无疑都会影响用户的正常阅读,进而导致影响用户的体验。
因此,亟需设计一种操作简单而且全新的用户体验模式,进而达到丰富人机交互形式的效果,增加用户的体验乐趣。
发明内容
有鉴于此,本发明实施例的目的在于提供一种基于移动终端的人机交互方法及系统,旨在解决现有技术中均需要用手来操作完成人机交互的单一模式。
本发明实施例是这样实现的,一种基于移动终端的人机交互方法,所述人机交互方法包括:
控制移动终端的摄像头,并通过所述摄像头实时采集用户面部画面;
通过采集到的用户面部画面检测双眼位置;
根据检测到的双眼位置提取搜索窗口,并初始化所述搜索窗口;
在所述搜索窗口中确定双眼眼球的位置,并通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态;
根据检测到的所述双眼的开合状态,发送相应的控制命令给所述移动终端以实现对应操作。
优选的,所述根据检测到的双眼位置提取搜索窗口的步骤具体包括:
根据眼球有近似圆的特征,利用估计近似圆中心的方法估计眼球的中心;
根据眼球的中心获得眼球的近似外接矩形;
根据所述近似外接矩形以及双眼的位置分别为双眼建立矩形框作为搜索窗口。
优选的,所述通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态的步骤具体包括:
在所述搜索窗口中对图象的各个局部区域进行域值估计;
选取这些局部域值中的最小值,并利用所述最小值对图像的整体区域进行二值化;
根据眼球区域深色像素连通域的高度判断双眼的开合状态。
优选的,所述根据眼球区域深色像素连通域的高度判断双眼的开合状态的步骤具体包括:
记录前n帧图象中眼球区域深色像素连通域的高度的最大值;
若当前帧图象中眼球区域深色像素连通域的高度大于所述最大值的预设倍数时,则判定眼睛为张开,以及若当前帧图象中眼球区域深色像素连通域的高度不大于所述最大值的预设倍数时,则判定眼睛为闭合。
优选的,所述根据检测到的所述双眼的开合状态,发送相应的控制命令给所述移动终端以实现对应操作的步骤具体包括:
若检测到左眼张开及右眼闭合,则发送向下翻页或向下翻图片的控制命令给所述移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼闭合及右眼张开,则发送向上翻页或向上翻图片的控制命令给所述移动终端以实现向上翻页操作或向上翻图片操作;
或者
若检测到左眼闭合及右眼张开,则发送向下翻页或向下翻图片的控制命令给所述移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼张开及右眼闭合,则发送向上翻页或向上翻图片的控制命令给所述移动终端以实现向上翻页操作或向上翻图片操作。
优选的,所述根据检测到的所述双眼的开合状态,发送相应的控制命令给所述移动终端以实现对应操作的步骤具体还包括:
若检测到左眼张开及右眼闭合,则发送接电话的控制命令给所述移动终端以实现自动接听来电,若检测到左眼闭合及右眼张开,则发送挂电话的控制命令给所述移动终端以实现自动挂断来电;
或者
若检测到左眼闭合及右眼张开,则发送接电话的控制命令给所述移动终端以实现自动接听来电,若检测到左眼张开及右眼闭合,则发送挂电话的控制命令给所述移动终端以实现自动挂断来电。
另一方面,本发明还提供一种基于移动终端的人机交互系统,所述基于移动终端的人机交互系统包括:
采集模块,用于控制移动终端的摄像头,并通过所述摄像头实时采集用户面部画面;
检测模块,用于通过采集到的用户面部画面检测双眼位置;
提取模块,用于根据检测到的双眼位置提取搜索窗口,并初始化所述搜索窗口;
判断模块,用于在所述搜索窗口中确定双眼眼球的位置,并通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态;
发送模块,用于根据检测到的所述双眼的开合状态,发送相应的控制命令给所述移动终端以实现对应操作。
优选的,所述提取模块包括:
估计子模块,用于根据眼球有近似圆的特征,利用估计近似圆中心的方法估计眼球的中心;
获取子模块,用于根据眼球的中心获得眼球的近似外接矩形;
建窗子模块,用于根据所述近似外接矩形以及双眼的位置分别为双眼建立矩形框作为搜索窗口。
优选的,所述判断模块包括:
域值估计子模块,用于在所述搜索窗口中对图象的各个局部区域进行域值估计;
二值化子模块,用于选取这些局部域值中的最小值,并利用所述最小值对图像的整体区域进行二值化;
高度判断子模块,用于根据眼球区域深色像素连通域的高度判断双眼的开合状态。
优选的,所述高度判断子模块具体用于:
记录前n帧图象中眼球区域深色像素连通域的高度的最大值;
若当前帧图象中眼球区域深色像素连通域的高度大于所述最大值的预设倍数时,则判定眼睛为张开,以及若当前帧图象中眼球区域深色像素连通域的高度不大于所述最大值的预设倍数时,则判定眼睛为闭合。
优选的,所述发送模块具体用于:
若检测到左眼张开及右眼闭合,则发送向下翻页或向下翻图片的控制命令给所述移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼闭合及右眼张开,则发送向上翻页或向上翻图片的控制命令给所述移动终端以实现向上翻页操作或向上翻图片操作;
或者
若检测到左眼闭合及右眼张开,则发送向下翻页或向下翻图片的控制命令给所述移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼张开及右眼闭合,则发送向上翻页或向上翻图片的控制命令给所述移动终端以实现向上翻页操作或向上翻图片操作。
优选的,所述发送模块具体还用于:
若检测到左眼张开及右眼闭合,则发送接电话的控制命令给所述移动终端以实现自动接听来电,若检测到左眼闭合及右眼张开,则发送挂电话的控制命令给所述移动终端以实现自动挂断来电;
或者
若检测到左眼闭合及右眼张开,则发送接电话的控制命令给所述移动终端以实现自动接听来电,若检测到左眼张开及右眼闭合,则发送挂电话的控制命令给所述移动终端以实现自动挂断来电。
在本发明实施例中,本发明提供的技术方案,通过移动终端的摄像头实时采集用户面部图像,通过所提出的识别算法实时的检测人眼的眨眼动作,以特定的眨眼动作来激活相应的移动终端控制信号,进而控制移动终端的若干操作,如电子书的翻页、图片和网页浏览等操作,无需手指的介入也无需额外的设备即可轻松操作移动终端,具有操作简单、便利且硬件成本低的优点,本发明提供的技术方案提供了一种全新的用户体验模式,进而达到丰富人机交互形式的效果,增加了用户的体验乐趣。
附图说明
图1为本发明一实施方式中基于移动终端的人机交互方法流程图;
图2为本发明一实施方式中图1所示的步骤S13的具体实现方法流程图;
图3为本发明一实施方式中图1所示的步骤S14的具体实现方法流程图;
图4为本发明一实施方式中图3所示的步骤S143的具体实现方法流程图;
图5为本发明一实施方式中基于移动终端的人机交互系统的结构示意图;
图6为本发明一实施方式中图5所示的提取模块的结构示意图;以及
图7为本发明一实施方式中图5所示的判断模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明具体实施方式提供了一种基于移动终端的人机交互方法,主要包括如下步骤:
S11、控制移动终端的摄像头,并通过所述摄像头实时采集用户面部画面;
S12、通过采集到的用户面部画面检测双眼位置;
S13、根据检测到的双眼位置提取搜索窗口,并初始化所述搜索窗口;
S14、在所述搜索窗口中确定双眼眼球的位置,并通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态;
S15、根据检测到的所述双眼的开合状态,发送相应的控制命令给所述移动终端以实现对应操作。
本发明所提供的一种基于移动终端的人机交互方法,通过移动终端的摄像头实时采集用户面部图像,通过所提出的识别算法实时的检测人眼的眨眼动作,以特定的眨眼动作来激活相应的移动终端控制信号,进而控制移动终端的若干操作,如电子书的翻页、图片和网页浏览等操作,无需手指的介入也无需额外的设备即可轻松操作移动终端,具有操作简单、便利且硬件成本低的优点,本发明提供的技术方案提供了一种全新的用户体验模式,进而达到丰富人机交互形式的效果,增加了用户的体验乐趣。
以下将对本发明所提供的一种基于移动终端的人机交互方法进行详细说明。
请参阅图1,为本发明一实施方式中基于移动终端的人机交互方法流程图。
在步骤S11中,控制移动终端的摄像头,并通过摄像头实时采集用户面部画面。
在本实施方式中,移动终端为具有视频处理能力和摄像头的终端设备,例如手机、电脑、个人数字助理(PersonalDigitalAssistant,PDA)、电视等,通过眨眼动作来实现对手机屏幕内容,或者电脑屏幕内容,或者个人数字助理屏幕内容,亦或者电视屏幕内容进行相关操作。
在本实施方式中,移动终端的摄像头一般为前置摄像头,利用移动终端的前置摄像头实时采集用户面部画面,前置摄像头的像素只需满足普通的130万像素即可,不需要是高分辨率的摄像头,也不需要红外光源,亦不需要头戴式设备。在本实施方式中,移动终端的前置摄象头所拍摄的人脸视频将实时显示在移动终端的屏幕左上角,这样一来,用户可以看见人眼检测及眨眼判别的效果,当检测到眨眼时,视频图象上将显示blink字样(图像分辨率为width×height)。
在步骤S12中,通过采集到的用户面部画面检测双眼位置。
在本实施方式中,通过采集到的用户面部画面检测双眼位置的步骤具体包括:利用Haar检测法检测双眼的Haar特征,并根据所述双眼的Haar特征对双眼位置进行定位。在本实施方式中,普通用户在使用手机等终端设备时,一般操作距离较近,人眼与摄像头之间的距离一般保持在10到50厘米之间,在这个范围内人脸会占据大部分的摄像头画面,因此本发明不涉及到复杂的人脸检测阶段,而可以直接在人脸图像中进行眼睛的定位检测。
在本实施方式中,是以双眼的haar特征作为检测样本,当视频图象只拍摄到单只人眼的时候,将检测不到人眼。而上下翻页命令的判断也是需要对双眼的开合状态进行分别判定的。在本发明实施方式中,利用haar特征对双眼位置进行检测,对于旋转、亮度和头部姿态的变化具有很好的鲁棒性,且检测效果比较稳定,特别是在光线比较暗淡的情况下,仍然有较理想的检测效果。
除此之外,在本发明实施方式中,通过采集到的用户面部画面检测双眼位置的步骤的目的是找出眼睛所在的大致区域,并不要求十分精确的范围,因此本步骤可采用的方法具有很多选择性,例如本步骤具体还可以通过利用直方图投影检测法,或者帧差法,或者模板匹配检测法对双眼位置进行定位来实现,在此就不一一展开叙述。在本实施方式中,考虑到移动终端的运算能力有限,因此,本发明优先采用了高效的Haar检测法检测双眼的Haar特征,并根据所述双眼的Haar特征对双眼位置进行定位。
在步骤S13中,根据检测到的双眼位置提取搜索窗口,并初始化搜索窗口。
在本实施方式中,根据检测到的双眼位置提取搜索窗口的步骤具体包括步骤S131-S133,如图2所示,在步骤S131中,根据眼球有近似圆的特征,利用估计近似圆中心的方法估计眼球的中心;在步骤S132中,根据眼球的中心获得眼球的近似外接矩形;在步骤S133中,根据所述近似外接矩形以及双眼的位置分别为双眼建立矩形框作为搜索窗口。
在本实施方式中,初始化搜索窗口的主要目的是缩小检测范围,减少计算量,根据步骤S12中得到的双眼位置矩形框(高为eyesheight,宽为eyeswidth)建立一个宽为w、高为h的矩形框Rect作为搜索窗口,其中h=eyesheight+height/5,w=eyeswidth+width/5,若矩形框Rect超出图像范围时,则将超出部分滤除,进而保证搜索范围不超出图像大小,然后获取的下一帧图像就在此搜索窗口中定位眼睛。在本实施方式中,由于看电子书或者浏览图片、网页时,人的脸部几乎占据整个图像,头部的姿态变化也不大,因此,只有在头部姿态变化较大时才需更新搜索窗口。
在步骤S14中,在搜索窗口中确定双眼眼球的位置,并通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态。
在本实施方式中,通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态的步骤具体包括步骤S141-S143,如图3所示,在步骤S141中,在所述搜索窗口中对图象的各个局部区域进行域值估计;在步骤S142中,选取这些局部域值中的最小值,并利用所述最小值对图像的整体区域进行二值化;在步骤S143中,根据眼球区域深色像素连通域的高度判断双眼的开合状态。
在本实施方式中,由于眼球周围区域图象的特征是颜色深浅分明,除了眼球之外,睫毛和眉毛都是黑色,且其他部分都是淡色,但是,如果利用一般的二值化方法,二值化后眉毛和眼球会同时被划为黑色,在眼球的近似外接矩形定位不准的情况下,可能会出现将眉毛区域误判为眼球的情况。因此,在本发明的实施方式中,是利用动态深色域值的方法,且能够去除眉毛因数的干扰,详细来说,即在对图象的各个局部区域进行域值估计后,取这些局部域值中的最小值,利用这个最小值再对整体进行二值化,由于眉毛的颜色比眼球淡,所以二值化后将只剩下眼球区域的连通域为黑色,然后再根据眼球区域黑色连通域的高度来判断眼睛的开合状态。
在本实施方式中,根据眼球区域深色像素连通域的高度判断双眼的开合状态的步骤S143具体包括步骤S1431-S1432,如图4所示,在步骤S1431中,记录前n帧图象中眼球区域深色像素连通域的高度的最大值;在步骤S1432中,若当前帧图象中眼球区域深色像素连通域的高度大于所述最大值的预设倍数时,则判定眼睛为张开,以及若当前帧图象中眼球区域深色像素连通域的高度不大于所述最大值的预设倍数时,则判定眼睛为闭合。举例来说,如果n值取5,预设倍数取0.4时,当系统检测到人眼,首先将前5帧图象中眼球区域深色像素(即为黑象素)连通域的高度的最大值记录为maxheight,若当前帧图象中眼球区域深色像素(即为黑象素)连通域的高度大于0.4maxheight,则判定眼睛为张开,相反地,若当前帧图象中眼球区域深色像素(即为黑象素)连通域的高度不大于0.4maxheight,则判定眼睛为闭合。
在步骤S15中,根据检测到的双眼的开合状态,发送相应的控制命令给移动终端以实现对应操作。
在本实施方式中,当用户利用移动终端看电子书,或者浏览网页,或者浏览图片时,可以根据检测到的双眼的开合状态发送相应的控制命令给移动终端以自动实现向上翻页,或者向下翻页,或者向上翻图片,或者向下翻图片等具体操作。
举例来说,根据检测到的双眼的开合状态,发送相应的控制命令给移动终端以实现对应操作的步骤具体包括:
若检测到左眼张开及右眼闭合,则发送向下翻页或向下翻图片的控制命令给移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼闭合及右眼张开,则发送向上翻页或向上翻图片的控制命令给移动终端以实现向上翻页操作或向上翻图片操作;
或者
若检测到左眼闭合及右眼张开,则发送向下翻页或向下翻图片的控制命令给移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼张开及右眼闭合,则发送向上翻页或向上翻图片的控制命令给移动终端以实现向上翻页操作或向上翻图片操作。
除此之外,在本实施方式中,当用户利用移动终端接听或者挂断电话时,可以根据检测到的双眼的开合状态发送相应的控制命令给移动终端以自动实现接听或者挂断电话的具体操作。
举例来说,根据检测到的双眼的开合状态,发送相应的控制命令给移动终端以实现对应操作的步骤具体还包括:
若检测到左眼张开及右眼闭合,则发送接电话的控制命令给移动终端以实现自动接听来电,若检测到左眼闭合及右眼张开,则发送挂电话的控制命令给移动终端以实现自动挂断来电;
或者
若检测到左眼闭合及右眼张开,则发送接电话的控制命令给移动终端以实现自动接听来电,若检测到左眼张开及右眼闭合,则发送挂电话的控制命令给移动终端以实现自动挂断来电。
本发明所提供的一种基于移动终端的人机交互方法,通过移动终端的摄像头实时采集用户面部图像,通过所提出的识别算法实时的检测人眼的眨眼动作,以特定的眨眼动作来激活相应的移动终端控制信号,进而控制移动终端的若干操作,如电子书的翻页、图片和网页浏览等操作,无需手指的介入也无需额外的设备即可轻松操作移动终端,具有操作简单、便利且硬件成本低的优点,本发明提供的技术方案提供了一种全新的用户体验模式,进而达到丰富人机交互形式的效果,增加了用户的体验乐趣。
本发明所提供的一种基于移动终端的人机交互方法,不需在使用者身上装载/穿戴任何设备,不会给使用者造成不便;使用的眼睛定位算法具有精确稳定的优点,而且对旋转、线性亮度改变和尺度都具有较好的鲁棒性,能够适应环境的变化。本发明所提供的一种基于移动终端的人机交互方法具有适用范围广的优点,具体适用于阅读电子书,浏览网页和图片,来电的接听与挂断,以及简单的游戏互动操作。
本发明具体实施方式还提供一种基于移动终端的人机交互系统10,主要包括:
采集模块101,用于控制移动终端的摄像头,并通过所述摄像头实时采集用户面部画面;
检测模块102,用于通过采集到的用户面部画面检测双眼位置;
提取模块103,用于根据检测到的双眼位置提取搜索窗口,并初始化所述搜索窗口;
判断模块104,用于在所述搜索窗口中确定双眼眼球的位置,并通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态;
发送模块105,用于根据检测到的所述双眼的开合状态,发送相应的控制命令给所述移动终端以实现对应操作。
本发明所提供的基于移动终端的人机交互系统10,通过移动终端的摄像头实时采集用户面部图像,通过所提出的识别算法实时的检测人眼的眨眼动作,以特定的眨眼动作来激活相应的移动终端控制信号,进而控制移动终端的若干操作,如电子书的翻页、图片和网页浏览等操作,无需手指的介入也无需额外的设备即可轻松操作移动终端,具有操作简单、便利且硬件成本低的优点,本发明提供的技术方案提供了一种全新的用户体验模式,进而达到丰富人机交互形式的效果,增加了用户的体验乐趣。
以下将对本发明所提供的一种基于移动终端的人机交互系统10进行详细说明。
请参阅图5,所示为本发明一实施方式中基于移动终端的人机交互系统10的结构示意图。在本实施方式中,基于移动终端的人机交互系统10包括采集模块101、检测模块102、提取模块103、判断模块104以及发送模块105。在本实施方式中,移动终端为具有视频处理能力和摄像头的终端设备,例如手机、电脑、个人数字助理(PersonalDigitalAssistant,PDA)、电视等,通过眨眼动作来实现对手机屏幕内容,或者电脑屏幕内容,或者个人数字助理屏幕内容,亦或者电视屏幕内容进行相关操作。
采集模块101,用于控制移动终端的摄像头,并通过摄像头实时采集用户面部画面。
在本实施方式中,移动终端的摄像头一般为前置摄像头,利用移动终端的前置摄像头实时采集用户面部画面,前置摄像头的像素只需满足普通的130万像素即可,不需要是高分辨率的摄像头,也不需要红外光源,亦不需要头戴式设备。在本实施方式中,移动终端的前置摄象头所拍摄的人脸视频将实时显示在移动终端的屏幕左上角,这样一来,用户可以看见人眼检测及眨眼判别的效果,当检测到眨眼时,视频图象上将显示blink字样(图像分辨率为width×height)。
检测模块102,用于通过采集到的用户面部画面检测双眼位置。
在本实施方式中,检测模块102具体用于利用Haar检测法检测双眼的Haar特征,并根据所述双眼的Haar特征对双眼位置进行定位。在本实施方式中,普通用户在使用手机等终端设备时,一般操作距离较近,人眼与摄像头之间的距离一般保持在10到50厘米之间,在这个范围内人脸会占据大部分的摄像头画面,因此本发明不涉及到复杂的人脸检测阶段,而可以直接在人脸图像中进行眼睛的定位检测。
在本实施方式中,是以双眼的haar特征作为检测样本,当视频图象只拍摄到单只人眼的时候,将检测不到人眼。而上下翻页命令的判断也是需要对双眼的开合状态进行分别判定的。在本发明实施方式中,利用haar特征对双眼位置进行检测,对于旋转、亮度和头部姿态的变化具有很好的鲁棒性,且检测效果比较稳定,特别是在光线比较暗淡的情况下,仍然有较理想的检测效果。
除此之外,在本发明实施方式中,通过采集到的用户面部画面检测双眼位置的步骤的目的是找出眼睛所在的大致区域,并不要求十分精确的范围,因此检测模块102可采用的方法具有很多选择性,例如检测模块102具体还可以通过利用直方图投影检测法,或者帧差法,或者模板匹配检测法对双眼位置进行定位来实现,在此就不一一展开叙述。在本实施方式中,考虑到移动终端的运算能力有限,因此,检测模块102优先采用了高效的Haar检测法检测双眼的Haar特征,并根据所述双眼的Haar特征对双眼位置进行定位。
提取模块103,用于根据检测到的双眼位置提取搜索窗口,并初始化搜索窗口。
在本实施方式中,提取模块103具体包括估计子模块1031、获取子模块1032以及建窗子模块1033,如图6所示,估计子模块1031,用于根据眼球有近似圆的特征,利用估计近似圆中心的方法估计眼球的中心;获取子模块1032,用于根据眼球的中心获得眼球的近似外接矩形;建窗子模块1033,用于根据所述近似外接矩形以及双眼的位置分别为双眼建立矩形框作为搜索窗口。
在本实施方式中,初始化搜索窗口的主要目的是缩小检测范围,减少计算量,根据检测模块102得到的双眼位置矩形框(高为eyesheight,宽为eyeswidth)建立一个宽为w、高为h的矩形框Rect作为搜索窗口,其中h=eyesheight+height/5,w=eyeswidth+width/5,若矩形框Rect超出图像范围时,则将超出部分滤除,进而保证搜索范围不超出图像大小,然后获取的下一帧图像就在此搜索窗口中定位眼睛。在本实施方式中,由于看电子书或者浏览图片、网页时,人的脸部几乎占据整个图像,头部的姿态变化也不大,因此,只有在头部姿态变化较大时才需更新搜索窗口。
判断模块104,用于在所述搜索窗口中确定双眼眼球的位置,并通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态。
在本实施方式中,判断模块104具体包括域值估计子模块1041、二值化子模块1042以及高度判断子模块1043,如图7所示,域值估计子模块1041,用于在所述搜索窗口中对图象的各个局部区域进行域值估计;二值化子模块1042,用于选取这些局部域值中的最小值,并利用所述最小值对图像的整体区域进行二值化;高度判断子模块1043,用于根据眼球区域深色像素连通域的高度判断双眼的开合状态。
在本实施方式中,由于眼球周围区域图象的特征是颜色深浅分明,除了眼球之外,睫毛和眉毛都是黑色,且其他部分都是淡色,但是,如果利用一般的二值化方法,二值化后眉毛和眼球会同时被划为黑色,在眼球的近似外接矩形定位不准的情况下,可能会出现将眉毛区域误判为眼球的情况。因此,在本发明的实施方式中,是利用动态深色域值的方法,且能够去除眉毛因数的干扰,详细来说,即在对图象的各个局部区域进行域值估计后,取这些局部域值中的最小值,利用这个最小值再对整体进行二值化,由于眉毛的颜色比眼球淡,所以二值化后将只剩下眼球区域的连通域为黑色,然后再根据眼球区域黑色连通域的高度来判断眼睛的开合状态。
高度判断子模块1043具体用于:记录前n帧图象中眼球区域深色像素连通域的高度的最大值;若当前帧图象中眼球区域深色像素连通域的高度大于所述最大值的预设倍数时,则判定眼睛为张开,以及若当前帧图象中眼球区域深色像素连通域的高度不大于所述最大值的预设倍数时,则判定眼睛为闭合。
举例来说,如果n值取5,预设倍数取0.4时,当系统检测到人眼,首先将前5帧图象中眼球区域深色像素(即为黑象素)连通域的高度的最大值记录为maxheight,若当前帧图象中眼球区域深色像素(即为黑象素)连通域的高度大于0.4×maxheight,则判定眼睛为张开,相反地,若当前帧图象中眼球区域深色像素(即为黑象素)连通域的高度不大于0.4×maxheight,则判定眼睛为闭合。
发送模块105,用于根据检测到的所述双眼的开合状态,发送相应的控制命令给所述移动终端以实现对应操作。
在本实施方式中,当用户利用移动终端看电子书,或者浏览网页,或者浏览图片时,发送模块105可以根据检测到的双眼的开合状态发送相应的控制命令给移动终端以自动实现向上翻页,或者向下翻页,或者向上翻图片,或者向下翻图片等具体操作。
举例来说,发送模块105具体用于:
若检测到左眼张开及右眼闭合,则发送向下翻页或向下翻图片的控制命令给移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼闭合及右眼张开,则发送向上翻页或向上翻图片的控制命令给移动终端以实现向上翻页操作或向上翻图片操作;
或者
若检测到左眼闭合及右眼张开,则发送向下翻页或向下翻图片的控制命令给移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼张开及右眼闭合,则发送向上翻页或向上翻图片的控制命令给移动终端以实现向上翻页操作或向上翻图片操作。
除此之外,在本实施方式中,当用户利用移动终端接听或者挂断电话时,发送模块105可以根据检测到的双眼的开合状态发送相应的控制命令给移动终端以自动实现接听或者挂断电话的具体操作。
举例来说,发送模块105具体还用于:
若检测到左眼张开及右眼闭合,则发送接电话的控制命令给移动终端以实现自动接听来电,若检测到左眼闭合及右眼张开,则发送挂电话的控制命令给移动终端以实现自动挂断来电;
或者
若检测到左眼闭合及右眼张开,则发送接电话的控制命令给移动终端以实现自动接听来电,若检测到左眼张开及右眼闭合,则发送挂电话的控制命令给移动终端以实现自动挂断来电。
本发明所提供的一种基于移动终端的人机交互系统10,通过移动终端的摄像头实时采集用户面部图像,通过所提出的识别算法实时的检测人眼的眨眼动作,以特定的眨眼动作来激活相应的移动终端控制信号,进而控制移动终端的若干操作,如电子书的翻页、图片和网页浏览等操作,无需手指的介入也无需额外的设备即可轻松操作移动终端,具有操作简单、便利且硬件成本低的优点,本发明提供的技术方案提供了一种全新的用户体验模式,进而达到丰富人机交互形式的效果,增加了用户的体验乐趣。
本发明所提供的一种基于移动终端的人机交互系统10,不需在使用者身上装载/穿戴任何设备,不会给使用者造成不便;使用的眼睛定位算法具有精确稳定的优点,而且对旋转、线性亮度改变和尺度都具有较好的鲁棒性,能够适应环境的变化。本发明所提供的一种基于移动终端的人机交互系统10具有适用范围广的优点,具体适用于阅读电子书,浏览网页和图片,来电的接听与挂断,以及简单的游戏互动操作。
在本发明实施例中,本发明提供的技术方案,通过移动终端的摄像头实时采集用户面部图像,通过所提出的识别算法实时的检测人眼的眨眼动作,以特定的眨眼动作来激活相应的移动终端控制信号,进而控制移动终端的若干操作,如电子书的翻页、图片和网页浏览等操作,无需手指的介入也无需额外的设备即可轻松操作移动终端,具有操作简单、便利且硬件成本低的优点,本发明提供的技术方案提供了一种全新的用户体验模式,进而达到丰富人机交互形式的效果,增加了用户的体验乐趣。
值得注意的是,上述实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于移动终端的人机交互方法,其特征在于,所述人机交互方法包括:
控制移动终端的摄像头,并通过所述摄像头实时采集用户面部画面,将所述摄像头拍摄的人脸视频实时显示在所述移动终端的屏幕上;
通过采集到的用户面部画面检测双眼位置;
根据检测到的双眼位置提取搜索窗口,并初始化所述搜索窗口;
在所述搜索窗口中确定双眼眼球的位置,并通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态;
根据检测到的所述双眼的开合状态,发送相应的控制命令给所述移动终端以实现对应操作。
2.如权利要求1所述的基于移动终端的人机交互方法,其特征在于,所述根据检测到的双眼位置提取搜索窗口的步骤具体包括:
根据眼球有近似圆的特征,利用估计近似圆中心的方法估计眼球的中心;
根据眼球的中心获得眼球的近似外接矩形;
根据所述近似外接矩形以及双眼的位置分别为双眼建立矩形框作为搜索窗口。
3.如权利要求1所述的基于移动终端的人机交互方法,其特征在于,所述通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态的步骤具体包括:
在所述搜索窗口中对图象的各个局部区域进行域值估计;
选取这些局部域值中的最小值,并利用所述最小值对图像的整体区域进行二值化;
根据眼球区域深色像素连通域的高度判断双眼的开合状态。
4.如权利要求3所述的基于移动终端的人机交互方法,其特征在于,所述根据眼球区域深色像素连通域的高度判断双眼的开合状态的步骤具体包括:
记录前n帧图象中眼球区域深色像素连通域的高度的最大值;
若当前帧图象中眼球区域深色像素连通域的高度大于所述最大值的预设倍数时,则判定眼睛为张开,以及若当前帧图象中眼球区域深色像素连通域的高度不大于所述最大值的预设倍数时,则判定眼睛为闭合。
5.如权利要求1所述的基于移动终端的人机交互方法,其特征在于,所述根据检测到的所述双眼的开合状态,发送相应的控制命令给所述移动终端以实现对应操作的步骤具体包括:
若检测到左眼张开及右眼闭合,则发送向下翻页或向下翻图片的控制命令给所述移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼闭合及右眼张开,则发送向上翻页或向上翻图片的控制命令给所述移动终端以实现向上翻页操作或向上翻图片操作;
或者
若检测到左眼闭合及右眼张开,则发送向下翻页或向下翻图片的控制命令给所述移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼张开及右眼闭合,则发送向上翻页或向上翻图片的控制命令给所述移动终端以实现向上翻页操作或向上翻图片操作。
6.如权利要求1所述的基于移动终端的人机交互方法,其特征在于,所述根据检测到的所述双眼的开合状态,发送相应的控制命令给所述移动终端以实现对应操作的步骤具体还包括:
若检测到左眼张开及右眼闭合,则发送接电话的控制命令给所述移动终端以实现自动接听来电,若检测到左眼闭合及右眼张开,则发送挂电话的控制命令给所述移动终端以实现自动挂断来电;
或者
若检测到左眼闭合及右眼张开,则发送接电话的控制命令给所述移动终端以实现自动接听来电,若检测到左眼张开及右眼闭合,则发送挂电话的控制命令给所述移动终端以实现自动挂断来电。
7.一种基于移动终端的人机交互系统,其特征在于,所述基于移动终端的人机交互系统包括:
采集模块,用于控制移动终端的摄像头,并通过所述摄像头实时采集用户面部画面,将所述摄像头拍摄的人脸视频实时显示在所述移动终端的屏幕上;
检测模块,用于通过采集到的用户面部画面检测双眼位置;
提取模块,用于根据检测到的双眼位置提取搜索窗口,并初始化所述搜索窗口;
判断模块,用于在所述搜索窗口中确定双眼眼球的位置,并通过检测眼球区域深色像素连通域的高度来判断双眼的开合状态;
发送模块,用于根据检测到的所述双眼的开合状态,发送相应的控制命令给所述移动终端以实现对应操作。
8.如权利要求7所述的基于移动终端的人机交互系统,其特征在于,所述提取模块包括:
估计子模块,用于根据眼球有近似圆的特征,利用估计近似圆中心的方法估计眼球的中心;
获取子模块,用于根据眼球的中心获得眼球的近似外接矩形;
建窗子模块,用于根据所述近似外接矩形以及双眼的位置分别为双眼建立矩形框作为搜索窗口。
9.如权利要求7所述的基于移动终端的人机交互系统,其特征在于,所述判断模块包括:
域值估计子模块,用于在所述搜索窗口中对图象的各个局部区域进行域值估计;
二值化子模块,用于选取这些局部域值中的最小值,并利用所述最小值对图像的整体区域进行二值化;
高度判断子模块,用于根据眼球区域深色像素连通域的高度判断双眼的开合状态。
10.如权利要求9所述的基于移动终端的人机交互系统,其特征在于,所述高度判断子模块具体用于:
记录前n帧图象中眼球区域深色像素连通域的高度的最大值;
若当前帧图象中眼球区域深色像素连通域的高度大于所述最大值的预设倍数时,则判定眼睛为张开,以及若当前帧图象中眼球区域深色像素连通域的高度不大于所述最大值的预设倍数时,则判定眼睛为闭合。
11.如权利要求7所述的基于移动终端的人机交互系统,其特征在于,所述发送模块具体用于:
若检测到左眼张开及右眼闭合,则发送向下翻页或向下翻图片的控制命令给所述移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼闭合及右眼张开,则发送向上翻页或向上翻图片的控制命令给所述移动终端以实现向上翻页操作或向上翻图片操作;
或者
若检测到左眼闭合及右眼张开,则发送向下翻页或向下翻图片的控制命令给所述移动终端以实现向下翻页操作或向下翻图片操作,若检测到左眼张开及右眼闭合,则发送向上翻页或向上翻图片的控制命令给所述移动终端以实现向上翻页操作或向上翻图片操作。
12.如权利要求7所述的基于移动终端的人机交互系统,其特征在于,所述发送模块具体还用于:
若检测到左眼张开及右眼闭合,则发送接电话的控制命令给所述移动终端以实现自动接听来电,若检测到左眼闭合及右眼张开,则发送挂电话的控制命令给所述移动终端以实现自动挂断来电;
或者
若检测到左眼闭合及右眼张开,则发送接电话的控制命令给所述移动终端以实现自动接听来电,若检测到左眼张开及右眼闭合,则发送挂电话的控制命令给所述移动终端以实现自动挂断来电。
CN201310196722.4A 2013-05-23 2013-05-23 一种基于移动终端的人机交互方法及系统 Active CN103294198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310196722.4A CN103294198B (zh) 2013-05-23 2013-05-23 一种基于移动终端的人机交互方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310196722.4A CN103294198B (zh) 2013-05-23 2013-05-23 一种基于移动终端的人机交互方法及系统

Publications (2)

Publication Number Publication Date
CN103294198A CN103294198A (zh) 2013-09-11
CN103294198B true CN103294198B (zh) 2018-05-11

Family

ID=49095219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310196722.4A Active CN103294198B (zh) 2013-05-23 2013-05-23 一种基于移动终端的人机交互方法及系统

Country Status (1)

Country Link
CN (1) CN103294198B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104571858B (zh) * 2014-12-22 2019-05-14 深圳市金立通信设备有限公司 一种终端
CN105334961A (zh) * 2015-10-27 2016-02-17 惠州Tcl移动通信有限公司 一种基于眼球追踪的移动终端控制方法及移动终端
CN105260027A (zh) * 2015-11-04 2016-01-20 上海斐讯数据通信技术有限公司 一种人机交互的系统及方法
CN105867605A (zh) * 2015-12-15 2016-08-17 乐视致新电子科技(天津)有限公司 虚拟现实头盔的功能菜单翻页方法、装置及头盔
CN105607810B (zh) * 2015-12-30 2019-08-16 努比亚技术有限公司 皮套窗口信息生成方法和装置
CN106454112A (zh) * 2016-11-21 2017-02-22 上海斐讯数据通信技术有限公司 一种拍摄方法及系统
CN107273729A (zh) * 2017-05-26 2017-10-20 郴州金通信息科技有限公司 用于终端的眼纹交互方法及控制装置
CN107479713A (zh) * 2017-08-18 2017-12-15 湖州靖源信息技术有限公司 一种移动设备的人机交互方法及移动设备
CN107918491B (zh) * 2017-11-30 2021-06-01 深圳市星野信息技术有限公司 基于眼睛闭合度检测技术的人机交互方法
CN107977622B (zh) * 2017-11-30 2021-10-26 西安科锐盛创新科技有限公司 基于瞳孔特征的眼睛状态检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950200A (zh) * 2010-09-21 2011-01-19 浙江大学 基于摄像头的眼球控制游戏地图和角色移动的方法和装置
CN102193621A (zh) * 2010-03-17 2011-09-21 三星电子(中国)研发中心 基于视觉的交互式电子设备控制系统及其控制方法
CN102799277A (zh) * 2012-07-26 2012-11-28 深圳先进技术研究院 一种基于眨眼动作的人机交互方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2042969A1 (en) * 2007-09-28 2009-04-01 Alcatel Lucent Method for determining user reaction with specific content of a displayed page.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193621A (zh) * 2010-03-17 2011-09-21 三星电子(中国)研发中心 基于视觉的交互式电子设备控制系统及其控制方法
CN101950200A (zh) * 2010-09-21 2011-01-19 浙江大学 基于摄像头的眼球控制游戏地图和角色移动的方法和装置
CN102799277A (zh) * 2012-07-26 2012-11-28 深圳先进技术研究院 一种基于眨眼动作的人机交互方法及系统

Also Published As

Publication number Publication date
CN103294198A (zh) 2013-09-11

Similar Documents

Publication Publication Date Title
CN103294198B (zh) 一种基于移动终端的人机交互方法及系统
CN102799277B (zh) 一种基于眨眼动作的人机交互方法及系统
CN104685462B (zh) 用于图像辨识的自适应阈值处理
CN102970411B (zh) 基于人脸检测的智能手机锁屏解锁控制方法及智能手机
CN105072327B (zh) 一种防闭眼的人像拍摄处理的方法和装置
CN110083202A (zh) 与近眼显示器的多模交互
CN105204351B (zh) 空调机组的控制方法及装置
CN107251096A (zh) 图像捕获装置和方法
CN103885589A (zh) 眼动追踪方法及装置
CN108259758B (zh) 图像处理方法、装置、存储介质和电子设备
CN109076159A (zh) 电子设备及其操作方法
WO2015041642A1 (en) A method, apparatus, and system for displaying a graphical user interface
CN101201695A (zh) 一种基于眼部区域运动特征提取与跟踪的鼠标系统
CN103442169A (zh) 操纵图像采集设备的拍摄功能的方法和图像采集设备
CN102830800B (zh) 利用手势识别控制数字标牌的方法和系统
CN106412420B (zh) 一种互动拍照实现方法
CN111259757B (zh) 一种基于图像的活体识别方法、装置及设备
CN102945077A (zh) 一种图片查看方法、装置及智能终端
CN109947243B (zh) 基于触摸手检测的智能电子设备手势捕获与识别技术
CN101650627B (zh) 电子设备及其操作控制方法
CN104063041B (zh) 一种信息处理方法及电子设备
CN109426342B (zh) 基于增强现实的文档阅读方法和装置
CN108184012A (zh) 一种辅助自拍的方法及装置
CN108388467A (zh) 一种界面显示的方法、装置和设备
CN109960406B (zh) 基于双手手指之间动作的智能电子设备手势捕获与识别技术

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant