CN106873774A

CN106873774A - 基于视线跟踪的交互控制方法、装置及智能终端

Info

Publication number: CN106873774A
Application number: CN201710021047.XA
Authority: CN
Inventors: 黄薇
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Anyun Century Technology Co Ltd
Priority date: 2017-01-12
Filing date: 2017-01-12
Publication date: 2017-06-20

Abstract

本发明公开了一种基于视线跟踪的交互控制方法、装置及智能终端，其中，基于视线跟踪的交互控制方法包括如下步骤：检测用户的视觉焦点信息，依据所述视觉焦点信息选定当前用户界面中与其相匹配的任务窗口；获取用户的眼部图像，依据眼部图像确定交互指令类型；根据所述交互指令类型触发针对所述选定的任务窗口的交互控制事件。通过本发明的处理，能够提高基于视线跟踪的交互控制的效率，提升了用户体验。

Description

基于视线跟踪的交互控制方法、装置及智能终端

技术领域

本发明涉及智能控制技术领域，具体而言，本发明涉及一种基于视线跟踪的交互控制方法、装置及智能终端。

背景技术

随着互联网技术的发展和智能终端日益普及，各类智能控制技术也应运而生，它们丰富着用户的生活，用户消耗在智能终端设备及其交互控制上的时间也越来越多。人机交互是研究用户、智能设备以及它们间互影响的技术，其研究目的在于利用所有可能的信息通道进行人机交流，提高交互的自然性和高效性。用户对智能终端的交互控制，从利用鼠标键盘、触敏显示屏逐渐发展到基于语音识别和手势识别等，越来越智能、便捷。基于视线跟踪的交互控制技术由于其直接性、自然性和双向性的特点，近年来备受重视，方兴未艾。

在人与智能终端的交互控制中，视觉通常作为人接收信息的感觉通道。例如，当用户使用鼠标来选择屏幕上感兴趣的目标时，视线随着视觉焦点聚焦到该目标上，然后检查光标与该目标的空间距离，再反馈到大脑并经大脑指挥手去移动鼠标器，直至视觉判断光标已位于目标之上，做出按键动作。如果计算机能“自动”将光标置于用户所感兴趣的目标之上，就会省去上述交互过程中的大部分步骤，从而把手解放出来，大大降低认知负荷。

然而，目前常见的基于视线跟踪的交互控制技术大都需要用户戴上外部设备，限制了其应用场景，且用户体验不佳；或者在对多个任务窗口进行识别时，选定误差较大，导致识别率低下等问题。

发明内容

本发明的目的在于针对以上存在的至少一方面不足，提供一种基于视线跟踪的交互控制方法、装置及智能终端，能够提高交互控制的效率，提升用户体验。

为了实现上述目的，本发明采取如下若干方面的技术方案：

第一方面，本发明实施例中提供了一种基于视线跟踪的交互控制方法，包括如下步骤：

检测用户的视觉焦点信息，依据视觉焦点信息选定当前用户界面中与其相匹配的任务窗口；

获取用户的眼部图像，依据眼部图像确定交互指令类型；

根据交互指令类型触发针对选定的任务窗口的交互控制事件。

结合第一方面，本发明在第一方面的第一种实现方式中，视觉焦点信息包括视觉焦点的位置信息；

依据视觉焦点信息选定当前用户界面中与其相匹配的任务窗口的过程具体包括：将视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配，选定与视觉焦点信息相匹配的任务窗口。

结合第一方面的第一种实现方式，本发明在第一方面的第二种实现方式中，视觉焦点信息还包括用于表征用户眼部与视觉焦点之间距离的距离信息；当距离信息表征的距离大于第一距离阈值且小于第二距离阈值时，将视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配，选定与视觉焦点信息相匹配的任务窗口；否则不进行匹配。

结合第一方面的第一种实现方式，本发明在第一方面的第三种实现方式中，匹配过程包括，根据视觉焦点的位置信息和任务窗口的位置信息确定视觉焦点的位置坐标是否包含于当前用户界面中的任务窗口的位置区域，当包含于任务窗口的位置区域时，确定任务窗口与视觉焦点信息相匹配。

结合第一方面的第三种实现方式，本发明在第一方面的第四种实现方式中，当视觉焦点的位置坐标包含于当前用户界面中的任务窗口的位置区域的时长达到预设值时，确定任务窗口与视觉焦点信息相匹配；否则，确定任务窗口与视觉焦点信息不相匹配。

结合第一方面的第三种实现方式，本发明在第一方面的第五种实现方式中，当视觉焦点的位置坐标包含于多个任务窗口的重合的位置区域时，确定最上层的任务窗口与视觉焦点信息相匹配。

结合第一方面的第三种实现方式，本发明在第一方面的第六种实现方式中，选定任务窗口后，在任务窗口的位置区域显示预定的提示图案，提示图案用于引导用户确认其所选定的任务窗口。

结合第一方面的第三种实现方式，本发明在第一方面的第七种实现方式中，当选定的任务窗口与其他任务窗口至少部分重合时，将选定的任务窗口置于最上层。

结合第一方面，本发明在第一方面的第八种实现方式中，检测用户视觉焦点信息的过程具体包括：

通过红外光源向用户眼部区域发射红外光；

采集红外图像，红外图像包括用户眼部区域反射红外光形成的光斑；

提取红外图像中光斑的位置特征数据并进行视线估计以获取用户视觉焦点的位置信息。

结合第一方面，本发明在第一方面的第九种实现方式中，检测用户视觉焦点信息的过程具体包括：

基于光学相干层析成像获取用于表征用户眼部形变的晶状体特征数据；

将晶状体形变特征数据与预设的视觉焦点描述数据进行匹配，确定用户视觉焦点信息。

结合第一方面，本发明在第一方面的第十种实现方式中，获取用户的眼部图像，依据眼部图像确定交互指令类型的过程具体包括：

从摄像单元获取的预览图像中获取一帧或多帧图像；

确定多帧图像中的眼部区域；

基于眼部区域提取眼部特征数据，将其与预设的交互指令类型描述数据进行匹配，确定相对应的交互指令类型。

结合第一方面，本发明在第一方面的第十一种实现方式中，交互控制事件导致当前用户界面中选定的任务窗口所属应用程序相关的或者系统设置的至少一项数据发生改变。

结合第一方面的第十一种实现方式，本发明在第一方面的第十二种实现方式中，交互控制事件导致选定的任务窗口被替换或改变。

结合第一方面的第十二种实现方式，本发明在第一方面的第十三种实现方式中，根据交互指令类型触发针对选定的任务窗口的交互控制事件的过程具体包括:

响应于第一交互指令类型，基于持续检测得到的视觉焦点信息使选定的任务窗口跟随视觉焦点的移动相应移动。

结合第一方面的第十二或十三种实现方式，本发明在第一方面的第十四种实现方式中，其特征在于，根据交互指令类型触发针对选定的任务窗口的交互控制事件的过程具体包括以下至少一种：

响应于第二交互指令类型，根据相应的预定比例放大选定的任务窗口；

响应于第三交互指令类型，根据相应的预定比例缩小选定的任务窗口；

响应于四交互指令类型，根据预定的优先级信息将选定的任务窗口的上一个任务窗口置于最上层，并选定上一个任务窗口；

响应于第五交互指令类型，根据预定的优先级信息将选定的任务窗口的下一个任务窗口置于最上层，并选定下一个任务窗口。

第二方面，本发明的实施例中提供了一种基于视线跟踪的交互控制装置，包括：

检测选定单元，被配置为检测用户的视觉焦点信息，依据视觉焦点信息选定当前用户界面中与其相匹配的任务窗口；

指令获取单元，被配置为获取用户的眼部图像，依据眼部图像确定交互指令类型；

交互控制单元，被配置为根据交互指令类型触发针对选定的任务窗口的交互控制事件。

结合第二方面，本发明在第二方面的第一种实现方式中，视觉焦点信息包括视觉焦点的位置信息；

检测选定单元依据视觉焦点信息选定当前用户界面中与其相匹配的任务窗口的过程具体包括：将视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配，选定与视觉焦点信息相匹配的任务窗口。

结合第二方面的第一种实现方式，本发明在第二方面的第二种实现方式中视觉焦点信息还包括用于表征用户眼部与视觉焦点之间距离的距离信息；

检测选定单元还被配置为：当距离信息表征的距离大于第一距离阈值且小于第二距离阈值时，将视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配，选定与视觉焦点信息相匹配的任务窗口；否则不进行匹配。

结合第二方面的第一种实现方式，本发明在第二方面的第三种实现方式中检测选定单元的匹配过程包括，根据视觉焦点的位置信息和任务窗口的位置信息确定视觉焦点的位置坐标是否包含于当前用户界面中的任务窗口的位置区域，当包含于任务窗口的位置区域时，确定任务窗口与视觉焦点信息相匹配。

结合第二方面的第三种实现方式，本发明在第二方面的第四种实现方式中检测选定单元还被配置为：当视觉焦点的位置坐标包含于当前用户界面中的任务窗口的位置区域的时长达到预设值时，确定任务窗口与视觉焦点信息相匹配；否则，确定任务窗口与视觉焦点信息不相匹配。

结合第二方面的第三种实现方式，本发明在第二方面的第五种实现方式中检测选定单元还被配置为：当视觉焦点的位置坐标包含于多个任务窗口的重合的位置区域时，确定最上层的任务窗口与视觉焦点信息相匹配。

结合第二方面的第三种实现方式，本发明在第二方面的第六种实现方式中检测选定单元还被配置为：选定任务窗口后，在任务窗口的位置区域显示预定的提示图案，提示图案用于引导用户确认其所选定的任务窗口。

结合第二方面的第三种实现方式，本发明在第二方面的第七种实现方式中检测选定单元还被配置为：当选定的任务窗口与其他任务窗口至少部分重合时，将选定的任务窗口置于最上层。

结合第二方面，本发明在第二方面的第八种实现方式中检测用户视觉焦点信息的过程具体包括：

通过红外光源向用户眼部区域发射红外光；

结合第二方面，本发明在第二方面的第九种实现方式中检测用户视觉焦点信息的过程具体包括：

结合第二方面，本发明在第二方面的第十种实现方式中获取用户的眼部图像，依据眼部图像确定交互指令类型的过程具体包括：

从摄像单元获取的预览图像中获取一帧或多帧图像；

确定多帧图像中的眼部区域；

结合第二方面，本发明在第二方面的第十一种实现方式中交互控制事件导致当前用户界面中选定的任务窗口所属应用程序相关的或者系统设置的至少一项数据发生改变。

结合第二方面的第十一种实现方式，本发明在第二方面的第十二种实现方式中交互控制事件导致选定的任务窗口被替换或改变。

结合第二方面的第十二种实现方式，本发明在第二方面的第十三种实现方式中交互控制单元根据交互指令类型触发针对选定的任务窗口的交互控制事件的过程具体包括:

结合第二方面的第十三种实现方式，本发明在第二方面的第十四种实现方式中交互控制单元根据交互指令类型触发针对选定的任务窗口的交互控制事件的过程具体包括以下至少一种：

响应于第四交互指令类型，根据预定的优先级信息将选定的任务窗口的上一个任务窗口置于最上层，并选定上一个任务窗口；

响应于第五交互指令类型，根据预定的优先级信息将所述选定的任务窗口的下一个任务窗口置于最上层，并选定所述下一个任务窗口。

第三方面，本发明实施例中提供了一种智能终端，包括：

触敏显示器，其包括显示屏，用于显示所述当前用户界面；

存储器，用于存储支持收发装置执行上述基于视线跟踪的交互控制方法的程序；

通信接口，用于上述基于视线跟踪的交互控制装置与其他设备或通信网络通信；

一个或多个摄像头，用于进行视线跟踪；

一个或多个处理器，用于执行所述存储器中存储的程序；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由一个或多个处理器执行，一个或多个程序被配置为用于执行第一方面或其任意一种实现方式所述的方法。

与现有技术相比较，本发明提供的技术方案至少具有如下优点：

本发明充分利用智能终端及其操作系统提供的特性，首先检测用户的视觉焦点信息，依据该视觉焦点信息选定当前用户界面中与其相匹配的任务窗口，进而获取用户的眼部图像，依据眼部图像确定交互指令类型，从而根据该交互指令类型触发针对该选定的任务窗口的交互控制事件。能够基于视线跟踪根据用户的视觉焦点信息选定从多个任务窗口中的任意一个，并根据眼部图像识别，对选定的任务窗口进行交互控制，提高了交互控制的效率，且能够适应多数应用场景，用户无须穿戴任何设备，提高了用户体验。

然而，书不尽言，本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得更加简明易懂，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中基于视线跟踪的交互控制方法一个实施例的流程示意图；

图2为本发明中基于视线跟踪的交互控制装置的一个实施例的结构示意图；

图3为本发明中智能终端的一个实施例的结构原理图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如S10、S11等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本领域普通技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在该特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本领域普通技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本领域普通技术人员可以理解，这里所使用的“智能终端”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“智能终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“智能终端”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是智能手表、PDA、POS(Point of Sales，销售终端)、MID(Mobile InternetDevice，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本领域普通技术人员可以理解，人们在观察外部世界时眼睛总是与其它人体活动自然协调地工作，并且眼动所需的认知负荷极低，人眼的注视包含着当前的任务状况以及人的内部状态等信息，因此眼注视是一种非常好的能使人机对话变得简便、自然的候选输入通道。本发明所使用的“视线跟踪”包括获取用户的视觉焦点信息并利用感知计算进行跟踪，进而进行人机交互控制，具体而言，其涉及的技术可包括眼球追踪技术、视线跟踪技术和眼睛运动测量技术等。

本发明的方法主要适用于智能手表、智能手机终端、平板电脑或者计算机终端等具有通信功能的智能终端，不限制于其操作系统的类型，可以是Android、IOS、WP、塞班等操作系统。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明的一种基于视线跟踪的交互控制方法，包括如下步骤S11-S13：

步骤S11，检测用户的视觉焦点信息，依据该视觉焦点信息选定当前用户界面中与其相匹配的任务窗口。

智能终端利用摄像单元检测用户的视觉信息，并据此对定量分析，从而获取视觉焦点信息，以用于选定当前用户界面中与其相匹配的任务窗口。该摄像单元包括一个或多个摄像头；该视觉焦点信息地检测方案可采用瞳孔-角膜反射向量法、眼电图法(EOG)、虹膜-巩膜边缘法、角膜反射法、双普金野象法、接触镜法和相干层析成像法等，具体地，举例而言，可以视实际需要从以下方案中灵活选定：

其一，通过红外光源向用户眼部区域发射红外光；摄像单元采集红外图像，该红外图像包括用户眼部区域反射红外光形成的光斑；提取该红外图像中光斑的位置特征数据并进行视线估计以获取用户视觉焦点的位置信息。

其二，基于光学相干层析成像获取用于表征用户眼部形变的晶状体特征数据；将该晶状体形变特征数据与预设的视觉焦点描述数据进行匹配，确定用户视觉焦点信息。

例如，在上述第一种实现方案的一种实施例中，由红外光源发出的红外光到达眼部区域后；眼球反射该红外光形成的光斑的达能锁定眼睛的瞳孔摄像头，使其获取红外图像，该摄像头为红外摄像头或者装有红外滤光镜，红外光源，如红外发光管为安全级别，其发射功率极低，所发射红外光不会对用户眼球造成损害。通过连续的记录红外图像中从用户的眼角膜和瞳孔反射形成的光斑，提取该红外图像中光斑的位置特征数据并进行视线估计，以获取用户视觉焦点的位置信息。进一步地，通过固定的瞳孔摄像头获取眼球图像，利用亮瞳孔和暗瞳孔的原理，提取出眼球图像内的瞳孔，利用角膜反射法校正该摄像头与眼球的相对位置，把角膜反射点作为瞳孔摄像头和眼球的相对位置的基点，因此从瞳孔中心位置坐标能计算得到视觉焦点的位置坐标。本实施例中，通过红外光获取用户视觉焦点信息，用户无需任何穿戴设备，且识别率高，能够最大程度地减少对用户的视线干扰，提升用户体验。

而在上述第二种实现方案的一种实施例中，利用光学相干层析成像技术(OpticalCoherence Tomography，简称OCT)，能够获取用户晶状体的进行深度成像，从而获取用于表征用户眼部形变的晶状体特征数据。其核心部件是宽带光源照明的迈克尔逊干涉仪，光源发出的光经被分成部分相干的两个光束，一束为参考光，一束为样品光。参考光经平面镜反射后返回；样品光穿透样品，在样品的不同深度处都存在后向散射，后向散射光被收集并按照原光路返回。在反射回的参考光和样品光产生干涉，干涉光谱被光谱仪接收。分析干涉光谱就可以得到样品不同深度处的反射信息，进行成像，从而根据用户晶状体的形变获取晶状体形变特征数据。再将该晶状体形变特征数据与预设的视觉焦点描述数据进行匹配，确定用户视觉焦点信息。该匹配过程可以是模板匹配、基于隐马尔可夫模型(HMM)或基于神经网络等方法。本实施例基于光学相干层析成像技术以确定用户的视觉焦点信息，其优势在于高分辨率(0.8～15微米)、无创、非接触测量，视觉焦点信息识别率高，用户体验良好。

由前述方案可得到用户的视觉焦点信息，而且，该视觉焦点信息可包括该视觉焦点的位置信息，也可还包括用于表征用户眼部与该视觉焦点之间距离的距离信息。作为举例，在一些可能的实施例中，获取该视觉焦点信息后，该依据该视觉焦点信息选定当前用户界面中与其相匹配的任务窗口的过程具体包括：将该视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配，选定与视觉焦点信息相匹配的该任务窗口。具体地，该匹配过程包括根据该视觉焦点的位置信息和任务窗口的位置信息确定该视觉焦点的位置坐标是否包含于当前用户界面中的任务窗口的位置区域，当包含于该任务窗口的位置区域时，确定该任务窗口与该视觉焦点信息相匹配。为了防止用户无无意识的误操作，还可以进一步地，当该视觉焦点的位置坐标包含于当前用户界面中的任务窗口的位置区域的时长达到预设值，例如1秒时，确定该任务窗口与该视觉焦点信息相匹配；否则，确定该任务窗口与该视觉焦点信息不相匹配。

在实际操作中，当前用户界面往往有多个任务窗口，此时可默认选定最上层的任务窗口，即当该视觉焦点的位置坐标包含于多个任务窗口的重合的位置区域时，确定最上层的任务窗口与该视觉焦点信息相匹配。而当该选定的任务窗口与其他任务窗口至少部分重合时，为了多个重叠的任务窗口中方便用户操作和观看选定的任务窗口，可将该选定的任务窗口置于最上层。此外，选定该任务窗口后，还可在该任务窗口的位置区域显示预定的提示图案，以引导用户确认其所选定的该任务窗口，减轻眼睛识别负担，提高操作的用户体验。

在另外一些可能的实施例中，获取该视觉焦点信息后，当该距离信息表征的距离大于第一距离阈值且小于第二距离阈值时，将该视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配，选定与视觉焦点信息相匹配的该任务窗口；否则不进行该匹配。需要说明的是，可预设置或通过大数据分析得到通常用户眼部与其交互控制的智能终端的用户界面之间的操作距离，并通过相应设置第一距离阈值和第二距离阈值，使得该操作距离大于第一距离阈值且小于第二距离阈值，例如，由于人眼注视智能终端时的舒适距离约为33.3厘米，因此在考虑冗余和不同应用场景的情况下可优选地设置第一距离阈值为18厘米，设置第二距离阈值为45厘米。从而当用户的视觉焦点落在该用户界面，如用户注视该用户界面时，将该视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配以选定任务窗口；而当用户的视觉焦点未落在该用户界面，如在思考或观察其他事物时，则不进行该匹配。通过对该视觉焦点距离的限制，过滤用户无意识的操作，使得用户的交互控制操作更多地为有效操作，能够有效避免视觉交互过程中的米达斯接触(Midas Touch)问题，提高用户舒适性。

所谓米达斯接触(Midas Touch)问题(米达斯是希腊神话中的一位国王，能点石成金)即由于用户视线运动的随意性而造成计算机对用户意图识别的困难。用户可能希望随便看什么而不必非“意味着”什么，更不希望每次转移视线都可能引发一个动作。因此，本实施例通过避免视觉交互过程中的米达斯接触(Midas Touch)问题，能够有效提高用户体验。

步骤S12，获取用户的眼部图像，依据眼部图像确定交互指令类型。

在选定当前用户界面中与其相匹配的任务窗口之后，获取用户的眼部图像并进行眼部动作识别，从而确定交互指令类型。举例而言，其过程具体可包括：从摄像单元获取的预览图像中获取一帧或多帧图像；确定该多帧图像中的眼部区域；基于该眼部区域提取眼部特征数据，将其与预设的交互指令类型描述数据进行匹配，确定相对应的交互指令类型。

智能终端通过摄像单元获取的视频可以看作由多帧图像组成，对其中一帧或多帧图像进行眼部动作分析以提取眼部特征数据，例如眨眼、睁大眼、眯眼、左转、右转等，将该眼部特征数据与预设的交互指令类型描述数据进行匹配，确定相对应的交互指令类型，如锁定、放大、缩小、选定上一个、选定下一个等指令，从而实现眼部动作识别，使得智能终端根据眼部动作进行交互控制。该眼部动作分析方法通常包括帧差法和图像形态学法；进行该匹配的常用方法包括轨迹模板匹配法(Trajectories Matching)和状态空间建模法(State Space Modeling)等。

当然，在一些可能的实施例中，本发明也可以采用前述检测用户信息的方法获取用户的眼部图像，进而依据眼部图像确定交互指令类型，该方案能够保持算法的稳定性和简洁性，提高智能终端在交互控制过程中的响应速度，使得交互控制更加可靠。

步骤S13,根据该交互指令类型触发针对该选定的任务窗口的交互控制事件。

智能终端如前述方案确定交互指令类型后，根据该交互指令类型触发针对当且用户界面中该选定的任务窗口的交互控制事件，实现高效的交互控制。本方法可在前台，如当前用户界面执行，亦可在后台执行，交互控制事件被传递至智能终端的当前用户界面。而交互控制事件的实施效果，则可以视实际需要从以下方案中灵活选定：

其一，交互控制事件导致当前用户界面中该选定的任务窗口所属应用程序相关的或者系统设置的至少一项数据发生改变。实现眼部动作对智能终端的应用程序或系统数据的控制。

其二，该交互控制事件导致该选定的任务窗口被替换或改变。实现眼部动作对智能终端用户界面的可视化控制。

该交互控制事件及其与交互指令类型的对应关系可以由用户预先设定，或采用智能终端的默认设定。具体而言，根据所述交互指令类型触发针对所述选定的任务窗口的交互控制事件的过程可以包括以下至少一种：

响应于第一交互指令类型，基于持续检测得到的视觉焦点信息使选定的任务窗口跟随所述视觉焦点的移动相应移动；

响应于四交互指令类型，根据预定的优先级信息将所述选定的任务窗口的上一个任务窗口置于最上层，并选定该上一个任务窗口；

响应于第五交互指令类型，根据预定的优先级信息将所述选定的任务窗口的下一个任务窗口置于最上层，并选定该下一个任务窗口。

举例而言，第一交互指令类型可以是由检测到“眨眼”的眼部动作而生成的锁定指令，其触发的交互控制事件可以是基于持续检测得到的视觉焦点信息使该选定的任务窗口跟随该视觉焦点的移动相应移动；第二交互指令类型可以是由检测到“睁大眼”的眼部动作而生成的放大指令，其触发的交互控制事件是根据相应的预定比例放大该选定的任务窗口；第三交互指令类型可以是由检测到“眯眼”的眼部动作而生成的缩小指令，其触发的交互控制事件是根据相应的预定比例缩小该选定的任务窗口；第四交互指令类型可以是由检测到“左转”的眼部动作而生成的选定上一个任务窗口的指令，其触发的交互控制事件是根据预定的优先级信息将该选定的任务窗口的上一个任务窗口置于最上层，并选定该上一个任务窗口；第五交互指令类型可以是由检测到“右转”的眼部动作而生成的选定下一个任务窗口的指令，其触发的交互控制事件是根据预定的优先级信息将该选定的任务窗口的下一个任务窗口置于最上层，并选定该下一个任务窗口。此外，根据实际需要，还可设定该交互控制事件的优先级和固定的前后次序，例如，可设定只有在执行锁定指令之后，才能根据其他交互指令类型触发交互控制事件，以减少用户的误操作，提升交互体验。

当然，也可以同时选定上述两种方案，使交互控制事件对于智能终端既导致数据的改变，又导致界面的替换或改变。此外，交互控制事件亦可作用于与智能终端通信连接的其他设备，实现眼部动作识别对其他设备的控制。

通过对本发明的基于视线跟踪的交互控制方法的揭示可以知晓，本发明的实施，能够通过视线跟踪与眼部动作识别实现多任务窗口的控制，并提高交互控制的效率，提升了用户体验。

依据模块化设计思维，本发明在上述基于视线跟踪的交互控制方法的基础上，进一步提出一种基于视线跟踪的交互控制装置。

请参阅图2，本发明的一种基于视线跟踪的交互控制装置，包括检测选定单元11、指令获取单元12和交互控制单元13，其中各单元的功能介绍如下：

检测选定单元11，被配置为检测用户的视觉焦点信息，依据该视觉焦点信息选定当前用户界面中与其相匹配的任务窗口。

智能终端利用摄像单元检测用户的视觉信息，并据此对定量分析，从而获取视觉焦点信息，以用于选定当前用户界面中与其相匹配的任务窗口。该摄像单元包括一个或多个摄像头；该视觉焦点信息地检测方案可采用瞳孔-角膜反射向量法、眼电图法(EOG)、虹膜-巩膜边缘法、角膜反射法、双普金野象法、接触镜法和相干层析成像法等，具体地，举例而言，该检测选定单元11的实现方案可以视实际需要从以下方案中灵活选定：

由前述方案该检测选定单元11可得到用户的视觉焦点信息，而且，该视觉焦点信息可包括该视觉焦点的位置信息，也可还包括用于表征用户眼部与该视觉焦点之间距离的距离信息。作为举例，在一些可能的实施例中，获取该视觉焦点信息后，该依据该视觉焦点信息选定当前用户界面中与其相匹配的任务窗口的过程具体包括：将该视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配，选定与视觉焦点信息相匹配的该任务窗口。具体地，该匹配过程包括根据该视觉焦点的位置信息和任务窗口的位置信息确定该视觉焦点的位置坐标是否包含于当前用户界面中的任务窗口的位置区域，当包含于该任务窗口的位置区域时，确定该任务窗口与该视觉焦点信息相匹配。为了防止用户无无意识的误操作，还可以进一步地，当该视觉焦点的位置坐标包含于当前用户界面中的任务窗口的位置区域的时长达到预设值时，确定该任务窗口与该视觉焦点信息相匹配；否则，确定该任务窗口与该视觉焦点信息不相匹配。

在实际操作中，当前用户界面往往有多个任务窗口，此时检测选定单元11可默认选定最上层的任务窗口，即当该视觉焦点的位置坐标包含于多个任务窗口的重合的位置区域时，确定最上层的任务窗口与该视觉焦点信息相匹配。而当该选定的任务窗口与其他任务窗口至少部分重合时，为了多个重叠的任务窗口中方便用户操作和观看选定的任务窗口，可将该选定的任务窗口置于最上层。此外，选定该任务窗口后，还可在该任务窗口的位置区域显示预定的提示图案，以引导用户确认其所选定的该任务窗口，减轻眼睛识别负担，提高操作的用户体验。

在另外一些可能的实施例中，检测选定单元11获取该视觉焦点信息后，当该距离信息表征的距离大于第一距离阈值且小于第二距离阈值时，将该视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配，选定与视觉焦点信息相匹配的该任务窗口；否则不进行该匹配。需要说明的是，可预设置或通过大数据分析得到通常用户眼部与其交互控制的智能终端的用户界面之间的操作距离，并通过相应设置第一距离阈值和第二距离阈值，使得该操作距离大于第一距离阈值且小于第二距离阈值，例如，由于人眼注视智能终端时的舒适距离约为33.3厘米，因此在考虑冗余和不同应用场景的情况下可优选地设置第一距离阈值为18厘米，设置第二距离阈值为45厘米。从而当用户的视觉焦点落在该用户界面，如用户注视该用户界面时，将该视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配以选定任务窗口；而当用户的视觉焦点未落在该用户界面，如在思考或观察其他事物时，则不进行该匹配。通过对该视觉焦点距离的限制，过滤用户无意识的操作，使得用户的交互控制操作更多地为有效操作，能够有效避免视觉交互过程中的米达斯接触(Midas Touch)问题，提高用户舒适性。

指令获取单元12，被配置为获取用户的眼部图像，依据眼部图像确定交互指令类型。

在选定当前用户界面中与其相匹配的任务窗口之后，指令获取单元12获取用户的眼部图像并进行眼部动作识别，从而确定交互指令类型。举例而言，其过程具体可包括：从摄像单元获取的预览图像中获取一帧或多帧图像；确定该多帧图像中的眼部区域；基于该眼部区域提取眼部特征数据，将其与预设的交互指令类型描述数据进行匹配，确定相对应的交互指令类型。

当然，在一些可能的实施例中，本发明的指令获取单元12也可以采用前述检测用户信息的方法获取用户的眼部图像，进而依据眼部图像确定交互指令类型，该方案能够保持算法的稳定性和简洁性，提高智能终端在交互控制过程中的响应速度，使得交互控制更加可靠。

交互控制单元13，被配置为根据该交互指令类型触发针对该选定的任务窗口的交互控制事件。

智能终端如前述方案确定交互指令类型后，根据该交互指令类型触发针对当且用户界面中该选定的任务窗口的交互控制事件，实现高效的交互控制。本方法可在前台，如当前用户界面执行，亦可在后台执行，交互控制事件被传递至智能终端的当前用户界面。而交互控制单元13中交互控制事件的实施效果，则可以视实际需要从以下方案中灵活选定：

上述交互控制事件及其与交互指令类型的对应关系可以由用户预先设定，或采用智能终端的默认设定。具体而言，根据所述交互指令类型触发针对所述选定的任务窗口的交互控制事件的过程可以包括以下至少一种：

当然，交互控制单元13也可以同时选定上述两种方案，使交互控制事件对于智能终端既导致数据的改变，又导致界面的替换或改变。此外，交互控制事件亦可作用于与智能终端通信连接的其他设备，实现眼部动作识别对其他设备的控制。

通过对本发明的基于视线跟踪的交互控制装置的揭示可以知晓，本发明的实施，能够通过视线跟踪与眼部动作识别实现多任务窗口的控制，并提高交互控制的效率，提升了用户体验。

请参阅图3，本发明另一实施例中进一步提供了一种智能终端，包括：

触敏显示器701，其包括显示屏，用于显示所述当前用户界面；

存储器702，用于存储支持收发装置执行上述基于视线跟踪的交互控制方法的程序；

通信接口703，用于上述基于视线跟踪的交互控制装置与其他设备或通信网络通信；

一个或多个摄像头707，用于进行视线跟踪；

一个或多个处理器704，用于执行所述存储器中存储的程序；

一个或多个应用程序705，其中所述一个或多个应用程序705被存储在所述存储器702中并被配置为由所述一个或多个处理器704执行，所述一个或多个程序705用于驱动所述一个或多个处理器704构造用于执行基于视线跟踪的交互控制方法的智能终端。

图3示出的是与本发明实施例提供的智能终端相关的手机、计算机或无人机的部分结构的框图。以手机为例，手机包括：触敏显示器701、存储器702、通信接口703、一个或多个处理器704、一个或多个应用程序705、一个或多个摄像头707、以及电源706等部件。本领域技术人员可以理解，图3中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图3对手机的各个构成部件进行具体的介绍：

触敏显示器701，包括显示屏，可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元可包括显示面板，可选的，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。进一步的，触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器704以确定触摸事件的类型，随后处理器704根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图3中，触控面板与显示面板是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板与显示面板集成而实现手机的输入和输出功能。

存储器702可用于存储软件程序以及模块，处理器704通过运行存储在存储器702的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序705(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器702可以包括高速随机存取存储区702，还可以包括非易失性存储区702，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

通信接口703，用于上述交互过程中智能终端与手机及其他设备或通信网络通信。通信接口703是处理器704与外界子系统进行通信的接口，用于处理器704与外界系统之间信息的传输，以达到控制子系统的目的。

通信接口703，用于基于视线跟踪的交互控制装置与其他设备或通信网络通信。通信接口703是处理器704与外界子系统进行通信的接口，用于处理器704与外界系统之间信息的传输，以达到控制子系统的目的。

处理器704是手机的控制中心，利用各种通信接口703和线路连接整个手机的各个部分，通过运行或执行存储在存储区702内的软件程序和/或模块，以及调用存储在存储区702内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器704可包括一个或多个处理单元；优选的，处理器704可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序705等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器704中。

一个或多个应用程序705，优选地，这些应用程序705都被存储在所述存储区702中并被配置为由所述一个或多个处理器704执行，所述一个或多个程序被配置为基于视线跟踪的交互控制方法的任何实施例的方案所实现的功能。

手机还包括给各个部件供电的电源706(比如电池)，优选的，电源706可以通过电源管理系统与处理器704逻辑相连，从而通过电源706管理系统实现管理充电、放电、以及功耗管理等功能。

一个或多个摄像头707，优选地，其中至少一个为瞳孔摄像头、或具有红外成像功能或设有红外滤光片，这些摄像头707与处理器704连接并受处理器704所控制，摄像头707获取的图像可存储于存储器702中。

尽管未示出，手机还可以包括蓝牙模块等，在此不再赘述。

在本发明实施例中，该智能终端所包括的处理器704还具有以下功能：

检测用户的视觉焦点信息，依据该视觉焦点信息选定当前用户界面中与其相匹配的任务窗口；

获取用户的眼部图像，依据眼部图像确定交互指令类型；

根据该交互指令类型触发针对该选定的任务窗口的交互控制事件。

本发明实施例中还提供了一种计算机存储介质，用于储存为上述智能终端所用的计算机软件指令，其包含用于执行上述为该智能终端所设计的程序。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

通过对本发明的智能终端的揭示可以知晓，本发明的实施，能够通过视线跟踪与眼部动作识别实现多任务窗口的控制，并提高交互控制的效率，提升了用户体验。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的网络连接控制方法和智能终端进行了详细介绍，对于本领域的一般技术人员，在不脱离本发明原理的前提下，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于视线跟踪的交互控制方法，其特征在于，包括如下步骤：

检测用户的视觉焦点信息，依据所述视觉焦点信息选定当前用户界面中与其相匹配的任务窗口；

获取用户的眼部图像，依据眼部图像确定交互指令类型；

根据所述交互指令类型触发针对所述选定的任务窗口的交互控制事件。

2.根据权利要求1所述的基于视线跟踪的交互控制方法，其特征在于，

所述视觉焦点信息包括所述视觉焦点的位置信息；

所述依据所述视觉焦点信息选定当前用户界面中与其相匹配的任务窗口的过程具体包括：将所述视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配，选定与视觉焦点信息相匹配的所述任务窗口。

3.根据权利要求2所述的基于视线跟踪的交互控制方法，其特征在于，视觉焦点信息还包括用于表征用户眼部与所述视觉焦点之间距离的距离信息；当所述距离信息表征的距离大于第一距离阈值且小于第二距离阈值时，将所述视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配，选定与视觉焦点信息相匹配的所述任务窗口；否则不进行所述匹配。

4.根据权利要求1所述的基于视线跟踪的交互控制方法，其特征在于，所述检测用户视觉焦点信息的过程具体包括：

通过红外光源向用户眼部区域发射红外光；

采集红外图像，所述红外图像包括用户眼部区域反射红外光形成的光斑；

提取所述红外图像中光斑的位置特征数据并进行视线估计以获取用户视觉焦点的位置信息。

5.根据权利要求1所述的基于视线跟踪的交互控制方法，其特征在于，所述检测用户视觉焦点信息的过程具体包括：

将所述晶状体形变特征数据与预设的视觉焦点描述数据进行匹配，确定用户视觉焦点信息。

6.根据权利要求1所述的基于视线跟踪的交互控制方法，其特征在于，所述获取用户的眼部图像，依据眼部图像确定交互指令类型的过程具体包括：

从摄像单元获取的预览图像中获取一帧或多帧图像；

确定所述多帧图像中的眼部区域；

基于所述眼部区域提取眼部特征数据，将其与预设的交互指令类型描述数据进行匹配，确定相对应的交互指令类型。

7.一种基于视线跟踪的交互控制装置，其特征在于，包括：

检测选定单元，被配置为检测用户的视觉焦点信息，依据所述视觉焦点信息选定当前用户界面中与其相匹配的任务窗口；

交互控制单元，被配置为根据所述交互指令类型触发针对所述选定的任务窗口的交互控制事件。

8.根据权利要求7所述的基于视线跟踪的交互控制装置，其特征在于，所述视觉焦点信息包括所述视觉焦点的位置信息；

所述检测选定单元依据所述视觉焦点信息选定当前用户界面中与其相匹配的任务窗口的过程具体包括：将所述视觉焦点信息中的位置信息与当前用户界面中的任务窗口的位置信息进行匹配，选定与视觉焦点信息相匹配的所述任务窗口。

9.根据权利要求7所述的基于视线跟踪的交互控制装置，其特征在于，所述检测用户视觉焦点信息的过程具体包括：

10.一种智能终端，其特征在于，包括：

触敏显示器，其包括显示屏，用于显示所述当前用户界面；

一个或多个摄像头，用于进行视线跟踪；

一个或多个处理器，用于执行所述存储器中存储的程序；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为用于执行根据权利要求1至6任一项所述的方法。