CN115562500B - 一种眼动控制智能手机的方法 - Google Patents
一种眼动控制智能手机的方法 Download PDFInfo
- Publication number
- CN115562500B CN115562500B CN202211514332.2A CN202211514332A CN115562500B CN 115562500 B CN115562500 B CN 115562500B CN 202211514332 A CN202211514332 A CN 202211514332A CN 115562500 B CN115562500 B CN 115562500B
- Authority
- CN
- China
- Prior art keywords
- action
- user
- eye
- mobile phone
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72406—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by software upgrading or downloading
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明公开一种眼动控制智能手机的方法,让手机页面根据眼睛关注点位置自动滑动,代替手指上下轻划手机屏幕的操作;眼睛关注点位置落在左右固定区域并稳定,代替手指左右快划手机屏幕的操作;眼睛关注点位置由下部区域移至上部区域或由上部区域移至下部区域,代替手指上下快划手机屏幕的操作;保持眼睛一睁一闭;代替手指点击屏幕的操作。本发明的步骤包括:用手机的前置摄像头拍摄图像;对获取的每一帧图像,预测人眼在屏幕上的关注点位置以及眼睛的睁闭状态;确定用户正在执行的动作;将动作信号传输到动作实施端;动作实施端接收信号并执行动作。本发明在完全不使用双手的情况下,仅仅依靠眼睛实现了对智能手机的操作。
Description
技术领域
本发明涉及眼动控制的人机交互领域,具体的为一种眼动控制智能手机的方法。
背景技术
当今信息化社会,一方面,随着智能手机的出现以及普及,涉及人们生活各方面的手机软件不断被开发,给人们的生活带来了极大便利,人们每天在手机上花费大量时间来进行工作交流,社交,娱乐,购物等。另一方面,随着计算机视觉与机器学习技术的不断发展,针对手机等移动设备的人眼关注点跟踪方法逐渐发展起来并取得优异的成功。这些方法根据手机前置摄像头捕捉到的眼睛图像、眼角坐标、头部移动角度等信息,可以精确预测出人眼在手机屏幕上的关注点位置,即人的眼动信息。在这种情况下,一种更加智能化的手机操作方式——基于眼动信息的手机操控技术应运而生并且受到越来越多的关注。眼控手机操作以智能化的方式操作智能手机,进一步推动了人类社会智能化脚步,具有非常重要的研究价值。
现存的眼控手机操控方法并非只依赖于眼动信息,它们往往需要结合简单的手部动作来共同操控手机。这些方法通过结合手机用户的眼动信息,简化了用户需要的手部操作,用户只需要执行非常简单的手部操作就可以实现手机操控。例如,Rivu 等人提出的GazeButton (Rivu, Sheikh, Yasmeen Abdrabou, Thomas Mayer, Ken Pfeuffer, andFlorian Alt. "GazeButton: enhancing buttons with eye gaze interactions." InProceedings of the 11th ACM Symposium on Eye Tracking Research &Applications, pp. 1-7. 2019.) 方法利用眼动信息和手点击按钮来操控平板。该方法在屏幕上设置了一个按钮,如果用户在观看屏幕上内容的同时按下该按钮,就表示用户点击了其观看的位置。使用这种方式,用户可以使用大拇指轻松地点击到在屏幕上的任意位置;Kong等人提出的EyeMU (Kong, Andy, Karan Ahuja, Mayank Goel, and ChrisHarrison. "EyeMU Interactions: Gaze+ IMU Gestures on Mobile Devices." InProceedings of the 2021 International Conference on Multimodal Interaction,pp. 577-585. 2021.)方法利用眼动信息和简单的手部移动来共同操控手机。该方法首先通过目光估计算法来确定人眼在手机屏幕上关注的内容,然后通过用手左右晃动、前后移动手机来对该内容进行操作,如用户可以通过将手机拉近来进入用户正在盯着的一条信息,通过将手机拉远来关闭该信息。EyeMU方法通过结合眼动信息和8个手部动作,几乎可以实现手机浏览所需的所有操作。以上两种方法利用眼动信息,在不同程度上简化了用户使用手机时所需的手部操作,使用户可以实现更简便有效的手机操作。
然而,这些方法在操控手机时仍然需要用手执行简单的动作,眼动信息在这些方法中只是起到定位或选中的作用:一方面,需要用手执行动作的手机操控仍然不是最便利的,用户在使用手机时仍然需要不断用手执行重复性的点击或晃动动作,这种人力消耗其实是可以避免的;另一方面,目前的眼控+手动操作方式,在当用户的双手都被占用或者用户因疾病无法移动时,就会失去作用。
发明内容
本发明的目的是提供一种眼动控制智能手机的方法,在用户观看手机时,根据手机前置摄像头捕捉到的用户眼睛的动作以及目光移动,自动滑动或切换手机页面到用户想观看的内容,从而解放用户的双手。
本发明实现一种眼动控制智能手机的方法,解决其技术问题所采用的技术方案包括以下步骤:
一种眼动控制智能手机的方法,包括以下步骤:
1)利用智能手机的前置摄像头拍摄用户图像,动作检测端根据拍摄的用户图像获取用户的眼睛在智能手机屏幕上的关注点位置以及用户的眼睛睁闭状态;
2)所述动作检测端根据用户的眼睛在智能手机屏幕上的关注点位置以及用户的眼睛睁闭状态,确定用户想要执行的动作;
3)所述动作检测端将用户想要执行的动作定义成信号,并将所述信号经过云服务器传输到动作实施端;
4)所述动作实施端根据接收到的信号,操作智能手机的页面;
所述动作检测端、所述动作实施端均为web app应用,嵌入手机或者软件;
所述动作检测端、所述动作实施端均通过通信协议连接于所述云服务器。
优选的,步骤1)的实现过程为:
1.1)智能手机的前置摄像头以固定频率获取多帧用户图像;
1.2)所述动作检测端对获取的每帧用户图像均使用MediaPipe Face Mesh人脸关键点检测模型检测出人脸和人脸上的特征点,根据人脸上的特征点的位置来确定包括用户的头部角度、脸部面积、左右眼睛的上下眼皮坐标、左右眼睛的眼角坐标信息;其中用户的头部角度信息包括头部的俯仰、偏航和翻滚角度;根据左右眼睛的眼角坐标信息从用户图像上抠取左、右眼睛的图像;
1.3)所述动作检测端将获取用户的头部角度、脸部面积、左右眼睛的上下眼皮坐标以及左、右眼睛的图像,输入到预先训练好的深度神经网络模型中,预测出用户的眼睛在智能手机屏幕上的关注点位置;所述动作检测端根据左右眼睛的上下眼皮坐标,判断用户的眼睛睁闭状态。
优选的,步骤1.3)中所述动作检测端将获取的左、右眼睛的图像尺寸均修改为128×128像素,并分别输入到预先训练好的深度神经网络模型中,并将左、右眼睛的图像的输出串联在一起,得到一个10维的眼部图像特征;所述动作检测端将头部的俯仰、偏航和翻滚角度,脸部面积,左右眼睛的眼角坐标信息组合在一起,经过三个全连接层,得到一个16维的特征;最后,将眼部图像特征与特征串联在一起,再次经过三个全连接层,获得用户眼睛在智能手机屏幕上的关注点位置;
所述动作检测端连续收集
n个左眼睛的上下眼皮坐标之间的距离,取这
n个值的中值作为用户左眼睛睁开时上下眼皮的标准距离,当小于的50%,则认为用户的左眼睛处于闭上的状态;当大于的80%,则认为用户的左眼睛处于睁开的状态;如果处于的50%到80%之间,则无法确定用户左眼睛当前所处状态;
所述动作检测端连续收集
m个右眼睛的上下眼皮坐标之间的距离,取这
m个的中值作为用户右眼睛睁开时上下眼皮的标准距离,当小于的50%,则认为用户的右眼睛处于闭上的状态;当大于的80%,则认为用户的右眼睛处于睁开的状态;如果处于的50%到80%之间,则无法确定用户右眼睛当前所处状态。
优选的,如果所述动作检测端根据连续两帧用户图像获取的用户眼睛在智能手机屏幕上的关注点位置之间的距离小于设定的阈值,则认为关注点位置不变;其中设定的阈值为智能手机屏幕尺寸的5%,从而有效抑制关注点位置不断轻微抖动。
优选的,步骤2)的实现过程为:
关注点位置直接落在智能手机屏幕的上下区域,所述动作检测端认为用户想要执行的动作为向上下滑动手机页面;所述动作检测端将向上滑动手机页面的动作定义为信号1,向下滑动手机页面的动作定义为信号2;所述动作检测端将信号1或2发送给所述云服务器;
关注点位置在智能手机屏幕的左右区域停留一段时间,所述动作检测端认为用户想要执行的动作为向左右切换手机页面;同时所述动作检测端将向右切换手机页面的动作定义为信号3,向左切换手机页面的动作定义为信号4;所述动作检测端将信号3或4发送给所述云服务器;
关注点位置在智能手机屏幕上快速上下移动,所述动作检测端认为用户想要执行的动作为向上下切换手机页面;同时所述动作检测端将向上切换手机页面的动作定义为信号5,向下切换手机页面的动作定义为信号6;所述动作检测端将信号5或6发送给所述云服务器;
所述动作检测端还根据用户的眼睛睁闭状态获取用户想要执行的动作:
用户的眼睛一睁一闭,所述动作检测端认为用户想要执行的动作为进入下一页面或者进入上一页面;同时所述动作检测端将进入下一页面的动作定义为信号7,进入上一页面的动作定义为信号8;所述动作检测端将信号7或8发送给所述云服务器。
优选的,关于关注点位置直接落在智能手机屏幕的上下区域:将智能手机屏幕从上到下均分成上、中、下部三个区域,当关注点位置直接落在下部区域时,所述动作检测端将信号1发送给所述云服务器,所述云服务器将信号1发送至所述动作实施端,所述动作实施端上滑手机页面,将下部区域的内容移动至中部区域;当关注点位置落在上部区域时,所述动作检测端将信号2发送给所述云服务器,所述云服务器将信号2发送至所述动作实施端,所述动作实施端下滑手机页面,将上部区域的内容移动至中部区域;
关于关注点位置在智能手机屏幕的左右区域停留一段时间:将智能手机屏幕从左到右按1:3:1的比例分成左、中、右部区域,当关注点位置停留在左部区域超过1s时,所述动作检测端将信号3发送给所述云服务器,所述云服务器将信号3发送至所述动作实施端,所述动作实施端向右切换手机页面;当关注点位置停留在右部区域超过1s时,所述动作检测端将信号4发送给所述云服务器,所述云服务器将信号4发送至所述动作实施端,所述动作实施端向左切换手机页面;
关于关注点位置在智能手机屏幕上快速上下移动:在智能手机屏幕的右侧划分出一个1/5屏幕宽度的操作区域,并且从上到下将所述操作区域均分为①,②,③三个区域,当关注点位置由③区域快速移动至①区域,所述动作检测端将信号5发送给所述云服务器,所述云服务器将信号5发送至所述动作实施端,动作实施端向上切换手机页面;当关注点位置由①区域快速移动至③区域,所述动作检测端将信号6发送给所述云服务器,所述云服务器将信号6发送至所述动作实施端,动作实施端向下切换手机页面;其中快速指的是在2s时间内;
关于用户的眼睛睁闭状态:当关注点位置落在智能手机屏幕上的一个按钮上,同时闭上右眼,左眼保持睁开时,所述动作检测端将信号7发送给所述云服务器,所述云服务器将信号7发送至所述动作实施端,所述动作实施端进入该按钮所代表的下一手机页面;当关注点位置落在智能手机屏幕的一个按钮上,同时闭上左眼,右眼保持睁开时,所述动作检测端将信号8发送给所述云服务器,所述云服务器将信号8发送至所述动作实施端,所述动作实施端进入该按钮所代表的上一手机页面。
优选的,所述动作检测端、所述动作实施端均通过websocket握手协议连接于所述云服务器。
有益效果:
本发明具有以下有益效果:
1)本发明通过用户的眼动信息和眼睛动作来操控智能手机,设计基于眼睛的动作来代替用户在使用手机时常做的上下滑动手机页面、左右切换手机页面、上下切换手机页面、进入下一手机页面或者进入上一手机页面操作。
2)用户可以仅仅依靠眼睛就完成对智能手机的操作,在浏览手机时不再需要使用大拇指不断滑动或点击手机屏幕,并且在用户双手都被占用时仍可以操控智能手机;进一步,即使是因疾病而无法移动的病人,也可以通过本发明正常操作智能手机。
3)设定阈值,从而有效抑制关注点位置不断轻微抖动,提高操控准确率。
附图说明
图1为本发明眼动控制智能手机的方法流程图;
图2为本发明通过MediaPipe Face Mesh获取的人脸网格示例图;
图3为本发明的关注点位置检测算法流程图;
图4为本发明的基于用户眼睛关注点位置和眼睛睁闭状态的智能手机控制示意图;
图5为本发明的信号通信方式的示意图;
图6为本发明的基于用户眼睛关注点位置和眼睛睁闭状态的软件控制示意图。
具体实施方式
下面将结合附图和具体实施案例对本发明进一步详细说明,所举实例只用于解释本发明,并不限定本发明的使用范围。
图1展示了本发明公开的基于眼控的智能手机操作方法流程图,基于眼控的智能手机操作方法具体实施过程如下:
步骤一:人眼关注点位置和人眼状态确定。
此步骤的目的是根据手机前置摄像头捕捉到的人脸图像,来确定用户眼睛在手机屏幕上的关注点位置以及用户眼睛的睁闭状态,如图1所示,其具体过程如下:
101:手机前置摄像头以30帧/秒的速度捕捉人脸图像;
102:对于捕捉到的每一帧图像,使用谷歌的MediaPipe Face Mesh对图像进行人脸检测,检测出人脸的具有468个特征点的人脸网格,如图2所示;
103:根据MediaPipe Face Mesh 检测到的人脸网格,首先找到左、右眼睛的位置,从人脸图像中截取左、右眼睛图像,然后从人脸网格中提取出脸部面积,头部的俯仰、偏航和翻滚角度,左、右眼睛眼角坐标,以及左、右眼睛上下眼皮坐标等信息;
104:将收集到的左、右眼睛图像尺寸修改为128×128像素,分别输入到一组卷积层中,如图3所示,并获得一个5维的眼睛特征,将左、右眼睛特征串联在一起,组成一个10维的眼睛特征,然后将脸部面积,头部的俯仰、偏航和翻滚角度,左右眼睛眼角坐标等信息串联起来,经过3个全连接层,得到一个16维的特征向量,将与串联在一起,并经过3个全连接层,最终获得一个2维的人眼关注点位置坐标。
将左右眼睛对应的上下眼皮坐标的y轴相减,其最大值即为左右眼睛上下眼皮之间的距离。考虑到不同用户的眼睛大小不同,本发明设计一个相对阈值来自适应地判断每个用户的眼睛睁闭状态。以左眼为例,从前置摄像头刚开始捕捉到用户的左眼开始,本发明连续收集500个的值,取这500个值的中值作为用户左眼睁开时上下眼皮的标准距离。在之后的检测过程中,当用户左眼上下眼皮之间的距离小于的50%,则认为用户的左眼处于闭上的状态;当用户左眼上下眼皮之间的距离大于的80%,则认为用户的左眼处于睁开的状态;如果用户左眼上下眼皮之间的距离处于的50%到80%之间,则无法确定用户眼睛当前所处状态。
经过以上步骤,即可确定用户眼睛在手机屏幕上的关注点位置以及用户眼睛的睁闭状态。
步骤二:动作确定
本发明设计了4组基于用户眼睛关注点和眼睛状态的智能手机操控动作,图4详细展示了每一组的两个动作:
第一组:根据用户眼睛在手机屏幕上的关注点位置自动上下滑动手机页面。手机上最常见的信息展示方式是将内容从上到下排列,用户在浏览这类页面时需要上下轻划手机以观看更多内容。针对这种情况,本发明将手机屏幕从上到下均分成上、中、下三部分。如图4中的(a)所示,当用户在屏幕上的关注点落在下部区域时,表示用户希望观看下部区域的内容,此时,本发明自动上滑手机页面,将下部区域的内容移至中部区域,让用户可以更好地观看其想看的内容,同时新的内容会被上移至页面的下部区域,实现了内容的自动播放。同理,如图4中的(b)所示,当用户在屏幕上的关注点落在上部区域时,本发明自动向下滑动手机页面,将上部区域的页面内容移动至中部区域。
第二组:眼睛凝视固定区域一段时间以左右切换手机页面。手机软件有时会将信息左右排列(如相册,各种软件中的照片浏览功能等),用户在浏览时需要左右快划手机屏幕以左右切换手机页面。针对这种情况,本发明从左到右按1:3:1的比例将手机屏幕分成左、中、右三部分。如图4中的(c)所示,当用户凝视左部区域超过1s时,即用户眼睛在手机屏幕上的关注点落在左部区域超过1s时,表示用户希望观看左部区域内容,此时,本发明自动向右切换手机页面;同理,如图4中的(d)所示,当用户眼睛在屏幕上的关注点落在右部区域超过1s时,本发明自动向左切换手机页面。
第三组:眼睛关注点快速上下移动以上下切换手机页面。除了文本和图片,短视频已经成为手机上另一种最常见的信息播放方式,因此很多软件都配备有短视频播放功能(如抖音、淘宝、微信、QQ等),观看短视频时,用户需要上下快划手机屏幕以上下切换短视频页面。针对这种情况,本发明在屏幕右侧划分出一个1/5屏幕宽度的操作区域,并且从上到下将该操作区域均分为①,②,③三个区域。如图4中的(e)所示,当用户的眼睛关注点在操作区域内快速从下向上移动,即关注点在2s之内从③区域移动到①区域时,本发明认为用户在执行向上切换页面的动作,自动切换到下一条短视频页面;当用户的眼睛关注点在操作区域中快速从上向下移动,即关注点在2s内从①区域移动到③区域,如图4中的(f)所示,则认为用户在执行向下切换页面的动作,本发明自动切换到上一条短视频。
第四组:保持眼睛一闭一睁以点击进入下一级或点击返回上一级手机页面。当用户的眼睛关注点落在手机屏幕的一个按钮上,同时闭上右眼,左眼保持睁开时,如图4中的(g)所示,本发明自动进入该按钮所代表的下一级页面。当用户闭上左眼,同时保持右眼睁开时,如图4中的(h)所示,本发明自动返回当前页面的上一级页面。
本发明根据用户眼睛在手机屏幕上的关注点的位置以及用户眼睛的睁闭状态确定用户当前执行的动作的具体方式如下:
对于第一组动作,在从上到下排列信息的手机页面中,一旦检测到用户目光落在手机的下(上)部,本发明可立刻确定当前需要执行的动作为向上(下)滑动手机页面。
对于第二组动作,在需要左右切换页面以浏览更多内容的场景下,以向左切换页面动作为例,从首次关注点的位置落到屏幕左部区域时开始计数,之后每200ms判断一次关注点位置是否还在左部区域内,如果连续5次都判断出关注点位置在左部区域内,即认为用户想要向右切换手机页面,如果5次内检测到关注点位置不在左部区域,即认为向右切换手机页面失败;向左切换页面的动作检测方式类似,从首次关注点位置落到屏幕右部区域时开始计数,之后每200ms进行一次判断,如果5次判断关注点位置都在右部区域,即认为用户想要向左切换页面。
对于第三组动作,在短视频浏览场景下,以向下切换页面动作为例,从首次关注点位置落到③区域时开始计数,之后每200ms判断一次关注点位置是否还在操作区域内以及在①②③三个区域的哪个中,如果在10次判断内并包括10次,关注点位置都在操作区域中,并且最终到达①区域,则认为用户想要向上切换手机页面;如果关注点位置落在了操作区域之外,或者10次判断结束之后仍然没有出现在①区域,则认为用户向上切换页面失败;向下切换页面的动作检测方式类似,从关注点位置首次出现在①区域开始计数,之后每200ms进行一次判断,如果在10次判断内关注点位置一直在操作区域中,并且到达了③区域,则认为用户想要向下切换手机页面。
对于第四组动作,其具体判定方法如下:在检测到用户右眼处于闭上、左眼处于睁开的状态时,确定当前帧用户关注点位置a,此时即确定用户在执行点击位置a处按钮以进入下一级页面的动作。在任意页面,当检测到用户左眼处于闭上、右眼处于睁开的状态时,即确定用户在执行返回上一级页面的动作。
步骤三:动作信号传输
本发明设计一种包含两个前端和一个后端的通信方式,两个前端分别是动作检测端和动作实施端,一个后端为云服务器;所述动作检测端、所述动作实施端均为web app网络应用,均嵌入手机或者软件;
其中动作检测端封装了本发明具体实施方式的步骤一与步骤二中涉及的所有算法,包括人眼关注点检测、眼睛状态检测、以及动作确定算法;图5展示了本发明的通信方式,本发明使用数字信号1~8表示上述8个动作。如图5所示,动作检测端检测到用户当前正在执行的动作之后,将动作信号通过云服务器传输给动作实施端。
步骤四:动作实施
动作实施端在接收到动作信号之后,在手机软件或手机上实施相应动作,对手机页面做出相应的改变,以满足用户的浏览需求。
具体的,动作实施端web app和动作检测端web app均嵌入软件或者智能手机,智能手机的前置摄像头将捕捉到的用户图像输入动作检测端web app,动作检测端web app输出信号并通过通信协议发送至云服务器,云服务器接收到信号之后,再通过通信协议发送动作实施端web app,动作实施端web app接收信号后对手机页面进行操作。
图6在一个新闻浏览软件和短视频播放软件上展示了本发明的应用示例,其中图6中的(a)-(f)展示了本发明在一个新闻浏览软件上的眼控操作过程,具体过程如下:
在观看一个新闻主页面时,当用户观看完中部内容,目光移动到新闻主页面的下部时,新闻主页面自动上滑,将下部的内容移动到屏幕中部,如图6中的(a)-(b)所示;当用户对一条新闻感兴趣时,用户看向该新闻,即眼睛关注点位置落在该新闻上,闭上右眼,同时保持左眼睁开,执行点击进入该新闻的动作,手机切换至该新闻的详细内容页面,如图6中的(b)-(c)所示;当用户观看完该新闻的上部和中部内容,眼睛关注点落到屏幕的下部时,手机页面自动向上滑动,将屏幕下部的内容移动至屏幕中部,如图6中的(c)-(d)所示;用户观看完中部的内容,眼睛关注点再次落到屏幕的下部时,手机页面继续向上滑动,将用户正在观看的内容移动至屏幕的中部,如图6中的(d)-(e)所示;当用户看完该条新闻,想回到新闻主页面时,用户闭上左眼,同时保持右眼睁开的状态,执行返回的动作,手机即返回到新闻主页面,如图6中的(e)-(f)所示。
图6中的(g)-(i)展示了本发明在一个短视频播放软件上的眼控操作过程,具体过程如下:当用户的眼睛关注点在屏幕右侧的操作区域从下向上快速移动,即在2秒内从③区域移动至①区域时,即执行了页面向上切换的动作,手机自动向上切换页面,播放下一条短视频,如图6中的(g)-(h)所示;当用户的眼睛关注点在屏幕右侧的操作区域从上向下快速移动,即在2秒内从①区域移动至③区域时,即执行了页面向下切换的动作,手机自动向下切换页面,播放上一条短视频,如图6中的(h)-(i)所示。
以上所述仅是本发明的实施方式。应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种眼动控制智能手机的方法,其特征在于,包括以下步骤:
1)利用智能手机的前置摄像头获取用户图像,动作检测端根据获取的用户图像获取用户的眼睛在智能手机屏幕上的关注点位置以及用户的眼睛睁闭状态;
2)所述动作检测端根据用户的眼睛在智能手机屏幕上的关注点位置以及用户的眼睛睁闭状态,确定用户想要执行的动作;
3)所述动作检测端将用户想要执行的动作定义成信号,并将所述信号经过云服务器传输到动作实施端;
4)所述动作实施端根据接收到的信号,操作智能手机的页面;
所述动作检测端、所述动作实施端均为web app网络应用,嵌入智能手机或者软件;
所述动作检测端、所述动作实施端均通过通信协议连接于所述云服务器;
步骤2)的实现过程为:
关注点位置直接落在智能手机屏幕的上或下部区域,所述动作检测端认为用户想要执行的动作为向下或上滑动手机页面;所述动作检测端将向上滑动手机页面的动作定义为信号1,向下滑动手机页面的动作定义为信号2;所述动作检测端将信号1或2发送给所述云服务器;
关注点位置在智能手机屏幕的左或右部区域停留一段时间,所述动作检测端认为用户想要执行的动作为向右或左切换手机页面;同时所述动作检测端将向右切换手机页面的动作定义为信号3,向左切换手机页面的动作定义为信号4;所述动作检测端将信号3或4发送给所述云服务器;
关注点位置在智能手机屏幕快速向上或下移动,所述动作检测端认为用户想要执行的动作为向上或下切换手机页面;同时所述动作检测端将向上切换手机页面的动作定义为信号5,向下切换手机页面的动作定义为信号6;所述动作检测端将信号5或6发送给所述云服务器;
所述动作检测端还根据用户的眼睛睁闭状态获取用户想要执行的动作:
用户的眼睛一睁一闭,所述动作检测端认为用户想要执行的动作为进入下一手机页面或者进入上一手机页面;同时所述动作检测端将进入下一手机页面的动作定义为信号7,进入上一手机页面的动作定义为信号8;所述动作检测端将信号7或8发送给所述云服务器;
关于关注点位置直接落在智能手机屏幕的上或下部区域:将智能手机屏幕从上到下均分成上、中、下部三个区域;当关注点位置直接落在下部区域时,所述动作检测端将信号1发送给所述云服务器,所述云服务器将信号1发送至所述动作实施端,所述动作实施端上滑手机页面,将下部区域的内容移动至中部区域;当关注点位置直接落在上部区域时,所述动作检测端将信号2发送给所述云服务器,所述云服务器将信号2发送至所述动作实施端,所述动作实施端下滑手机页面,将上部区域的内容移动至中部区域;
关于关注点位置在智能手机屏幕的左或右部区域停留一段时间:将智能手机屏幕从左到右按1:3:1的比例分成左、中、右部区域,当关注点位置停留在左部区域超过1s时,所述动作检测端将信号3发送给所述云服务器,所述云服务器将信号3发送至所述动作实施端,所述动作实施端向右切换手机页面,将左部区域的内容移动至中部区域;当关注点位置停留在右部区域超过1s时,所述动作检测端将信号4发送给所述云服务器,所述云服务器将信号4发送至所述动作实施端,所述动作实施端向左切换手机页面,将右边区域的内容移动至中部区域;
关于关注点位置在智能手机屏幕快速向上或下移动:在智能手机屏幕的右侧划分出一个1/5智能手机屏幕宽度的操作区域,并且从上到下将所述操作区域均分为①,②,③三个区域,当关注点位置由③区域快速移动至①区域,所述动作检测端将信号5发送给所述云服务器,所述云服务器将信号5发送至所述动作实施端,动作实施端向上切换手机页面;当关注点位置由①区域快速移动至③区域,所述动作检测端将信号6发送给所述云服务器,所述云服务器将信号6发送至所述动作实施端,动作实施端向下切换手机页面;其中快速指的是在2s时间内;
关于用户的眼睛睁闭状态:当关注点位置落在智能手机屏幕上的一个按钮上,同时闭上右眼,睁开左眼时,所述动作检测端将信号7发送给所述云服务器,所述云服务器将信号7发送至所述动作实施端,所述动作实施端进入该按钮所代表的下一手机页面;当关注点位置落在智能手机屏幕的一个按钮上,同时闭上左眼,右眼保持睁开时,所述动作检测端将信号8发送给所述云服务器,所述云服务器将信号8发送至所述动作实施端,所述动作实施端进入该按钮所代表的上一手机页面。
2.如权利要求1所述的一种眼动控制智能手机的方法,其特征在于,步骤1)的实现过程为:
1.1)智能手机的前置摄像头以固定频率获取多帧用户图像;
1.2)所述动作检测端对获取的每帧用户图像均使用MediaPipe Face Mesh人脸关键点检测模型检测出人脸和人脸上的特征点,根据人脸上的特征点的位置获取包括用户的头部角度、脸部面积、左右眼睛的上下眼皮坐标、左右眼睛的眼角坐标信息;其中用户的头部角度信息包括头部的俯仰、偏航和翻滚角度;根据左右眼睛的眼角坐标信息从用户图像上抠取左、右眼睛的图像;
1.3)所述动作检测端将获取用户的头部角度、脸部面积、左右眼睛的眼角坐标信息以及左、右眼睛的图像,输入到预先训练好的深度神经网络模型中,预测出用户的眼睛在智能手机屏幕上的关注点位置;所述动作检测端根据左右眼睛的上下眼皮坐标,判断用户的眼睛睁闭状态。
3.如权利要求2所述的一种眼动控制智能手机的方法,其特征在于,步骤1.3)的实现过程为:所述动作检测端将获取的左、右眼睛的图像尺寸均修改为128×128像素,并分别输入到预先训练好的深度神经网络模型中,并将左、右眼睛的图像的输出串联在一起,得到一个10维的眼部图像特征feye;所述动作检测端将头部的俯仰、偏航和翻滚角度,脸部面积,左右眼睛的眼角坐标信息组合在一起,经过三个全连接层,得到一个16维的特征fmesh;最后,将眼部图像特征feye与特征fmesh串联在一起,再次经过三个全连接层,获得用户眼睛在智能手机屏幕上的关注点位置;
所述动作检测端连续收集n个左眼睛的上下眼皮坐标信息,并计算左眼睛的上下眼皮坐标之间的距离hleft,取这n个值的中值作为用户左眼睛睁开时上下眼皮的标准距离hleft_open,当hleft小于hleft_open的50%,则认为用户的左眼睛处于闭上的状态;当hleft大于hlef_topen的80%,则认为用户的左眼睛处于睁开的状态;如果hleft处于hleft_open的50%到80%之间,则无法确定用户左眼睛当前所处状态;
所述动作检测端连续收集m个右眼睛的上下眼皮坐标信息,并计算右眼睛的上下眼皮坐标之间的距离hright,取这m个的中值作为用户右眼睛睁开时上下眼皮的标准距离hright_open,当hright小于hright_open的50%,则认为用户的右眼睛处于闭上的状态;当hright大于hright_open的80%,则认为用户的右眼睛处于睁开的状态;如果hright处于hright_open的50%到80%之间,则无法确定用户右眼睛当前所处状态。
4.如权利要求3所述的一种眼动控制智能手机的方法,其特征在于,如果所述动作检测端根据连续两帧用户图像获取的用户眼睛在智能手机屏幕上的关注点位置之间的距离小于设定的阈值,则认为关注点位置不变;其中设定的阈值为智能手机屏幕尺寸的5%,从而抑制关注点位置的不断轻微抖动。
5.如权利要求4所述的一种眼动控制智能手机的方法,其特征在于,所述动作检测端、所述动作实施端均通过websocket握手协议连接于所述云服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211514332.2A CN115562500B (zh) | 2022-11-30 | 2022-11-30 | 一种眼动控制智能手机的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211514332.2A CN115562500B (zh) | 2022-11-30 | 2022-11-30 | 一种眼动控制智能手机的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115562500A CN115562500A (zh) | 2023-01-03 |
CN115562500B true CN115562500B (zh) | 2023-04-28 |
Family
ID=84769798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211514332.2A Active CN115562500B (zh) | 2022-11-30 | 2022-11-30 | 一种眼动控制智能手机的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115562500B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102830797B (zh) * | 2012-07-26 | 2015-11-25 | 深圳先进技术研究院 | 一种基于视线判断的人机交互方法及系统 |
CN103886307B (zh) * | 2014-04-15 | 2017-07-07 | 王东强 | 一种视线跟踪及疲劳预警方法 |
EP3398165B1 (en) * | 2015-12-28 | 2023-02-01 | Artilux Inc. | Eye gesture tracking |
CN110532887A (zh) * | 2019-07-31 | 2019-12-03 | 郑州大学 | 一种基于面部特征融合的疲劳驾驶检测方法及系统 |
-
2022
- 2022-11-30 CN CN202211514332.2A patent/CN115562500B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115562500A (zh) | 2023-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11539876B2 (en) | User interfaces for altering visual media | |
KR102322820B1 (ko) | 카메라 효과를 위한 사용자 인터페이스 | |
US10095033B2 (en) | Multimodal interaction with near-to-eye display | |
CN111182205B (zh) | 拍摄方法、电子设备及介质 | |
US11778339B2 (en) | User interfaces for altering visual media | |
CN112118380B (zh) | 相机操控方法、装置、设备及存储介质 | |
US11182936B2 (en) | Drawing content processing method and device for terminal apparatus, and terminal apparatus | |
CN105760102B (zh) | 终端交互控制方法、装置及应用程序交互控制方法 | |
US20200210061A1 (en) | Method, device and storage medium for sharing multimedia resource | |
US11539888B2 (en) | Method and apparatus for processing video data | |
CN112954214B (zh) | 拍摄的方法、装置、电子设备及存储介质 | |
WO2022089284A1 (zh) | 拍摄处理方法、装置、电子设备和可读存储介质 | |
WO2012142869A1 (zh) | 自动调节终端界面显示的方法及装置 | |
CN107688385A (zh) | 一种控制方法及装置 | |
WO2022179331A1 (zh) | 拍摄方法、装置、移动终端及存储介质 | |
CN113923350A (zh) | 视频拍摄方法、装置、电子设备和可读存储介质 | |
CN103873759B (zh) | 一种拍摄方法及电子设备 | |
CN109947243B (zh) | 基于触摸手检测的智能电子设备手势捕获与识别技术 | |
CN112954209B (zh) | 拍照方法、装置、电子设备及介质 | |
CN115562500B (zh) | 一种眼动控制智能手机的方法 | |
CN109960406B (zh) | 基于双手手指之间动作的智能电子设备手势捕获与识别技术 | |
CN109993059B (zh) | 智能电子设备上基于单摄像头的双目视觉与物体识别技术 | |
CN112165584A (zh) | 录像方法、装置、电子设备以及可读存储介质 | |
US11601588B2 (en) | Take-off capture method and electronic device, and storage medium | |
CN112203015B (zh) | 相机控制方法、装置及介质系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |