CN111045519A

CN111045519A - 一种基于眼动追踪的人机交互方法、装置和设备

Info

Publication number: CN111045519A
Application number: CN201911266358.8A
Authority: CN
Inventors: 陈凯翔
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-04-21

Abstract

本说明书实施例公开了基于眼动追踪的人机交互方法、装置、设备及计算机可读介质。方案包括：获取基于第一通道输入的启动信号；在获取到所述启动信号后，获取基于第二通道采集的眼动信息；基于所述眼动信息，确定用户在当前显示界面上注视的对象；对所述对象进行增强显示；获取基于所述第一通道输入的确认信号；在获取到所述确认信号后，确定所述对象处于选定状态。

Description

一种基于眼动追踪的人机交互方法、装置和设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于眼动追踪的人机交互方法、装置、设备及计算机可读介质。

背景技术

近年来，随着人机交互技术的发展，拥有自然交互方式的产品受到越来越多人的青睐。眼动交互即通过眼动交互设备记录和识别人眼的运动方式，从而将特定的眼动动作符号作为输入信号，实现对特定的任务指令进行控制。眼动交互具有自然性、隐私性、高效性、高带宽等优点，被广泛应用在各个领域中，也是未来人机交互的发展趋势。

目前，类比于PC电脑上的用手指点击鼠标设备，在眼动交互中，通常将眨眼输入或注视输入作为输入机制。但目前这些眼动输入机制也存在很多缺点，如效率低、错误率高、容易眼疲劳、控制感差等，导致眼动交互技术一直无法扩大应用领域，限制了眼动交互技术的应用前景。

发明内容

有鉴于此，本申请实施例提供了一种基于眼动追踪的人机交互方法、装置、设备及计算机可读介质，用于提高基于人眼追踪的人机交互方法的交互效率，并缓解用户的使用疲劳感，提升用户的控制感、改善用户的使用体验。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种基于眼动追踪的人机交互方法，包括：获取基于第一通道输入的启动信号；在获取到所述启动信号后，获取基于第二通道采集的眼动信息；基于所述眼动信息，确定用户在当前显示界面上注视的对象；对所述对象进行增强显示；获取基于所述第一通道输入的确认信号；在获取到所述确认信号后，确定所述对象处于选定状态。

本说明书实施例提供的一种基于眼动追踪的人机交互装置，包括：启动信号获取模块，用于获取基于第一通道输入的启动信号；眼动信息采集模块，用于在获取到所述启动信号后，获取基于第二通道采集的眼动信息；第一确定模块，用于基于所述眼动信息，确定用户在当前显示界面上注视的对象；增强显示模块，用于对所述对象进行增强显示；确认信号获取模块，用于获取基于所述第一通道输入的确认信号；第二确定模块，用于在获取到所述确认信号后，确定所述对象处于选定状态。

本说明书实施例提供的一种基于眼动追踪的人机交互设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取基于第一通道输入的启动信号；在获取到所述启动信号后，获取基于第二通道采集的眼动信息；基于所述眼动信息，确定用户在当前显示界面上注视的对象；对所述对象进行增强显示；获取基于所述第一通道输入的确认信号；在获取到所述确认信号后，确定所述对象处于选定状态。

本说明书实施例提供的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述任一实施例所述的基于眼动追踪的人机交互方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

提供了一种基于眼动追踪的人机交互方法，在获取到基于第一通道输入的启动信号后，获取基于第二通道采集的眼动信息，然后基于眼动信息确定用户的注视对象并进行增强显示，获取用户基于第一通道输入的确认信号，经用户确认之后将上述注视对象确定为选定状态。上述交互过程的整体交互机制提高了人机交互过程的效率，缓解用户的使用疲劳感、提升了用户的使用控制感。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例提供的一种基于眼动追踪的人机交互方法的流程示意图；

图2为本申请实施例中的第一通道为触控信息采集通道、第二通道为眼动信息采集通道的人机交互方案的第一示意图；

图3为本申请实施例中的第一通道为触控信息采集通道、第二通道为眼动信息采集通道的人机交互方案的第二示意图；

图4为本申请实施例中的第一通道为触控信息采集通道、第二通道为眼动信息采集通道的人机交互方案的第三示意图；

图5为本申请实施例中的第一通道为触控信息采集通道、第二通道为眼动信息采集通道的人机交互方案的第四示意图；

图6为本申请实施例中的第一通道为触控信息采集通道、第二通道为眼动信息采集通道的人机交互方案的第五示意图；

图7为本申请实施例中的第一通道为触控信息采集通道、第二通道为眼动信息采集通道的人机交互方案的第六示意图；

图8为本申请实施例中的第一通道为声音信息采集通道、第二通道为眼动信息采集通道的人机交互方案的第一示意图；

图9为本申请实施例中的第一通道为声音信息采集通道、第二通道为眼动信息采集通道的人机交互方案的第二示意图；

图10为本申请实施例中的第一通道为声音信息采集通道、第二通道为眼动信息采集通道的人机交互方案的第三示意图；

图11为本说明书实施例提供的对应于图1的一种基于眼动追踪的人机交互装置的结构示意图；

图12为本说明书实施例提供的对应于图1的一种基于眼动追踪的人机交互设备的结构示意图。

具体实施方式

眼动追踪(eye tracking)，又称视线追踪，用于测量用户注视点或视线方向。眼动追踪可以作为一种替代鼠标和键盘的新型输入技术，例如眼控打字系统、眼动驱动的自适应用户界面系统。基于眼动追踪技术可以获取到用户的眼动数据进而进行眼动追踪，通过眼动追踪确定关键点执行对应的移动终端操作。在具体的应用场景中，对于智能手机、智能手表、平板电脑等移动终端，可以通过眼动追踪来使用户对移动终端执行诸如触控、拖动、晃动等操作，例如，用户可以通过眼动追踪进行网页浏览、输入解锁信息、阅读电子书、玩游戏等。

基于眼动追踪技术，可以实现以眼睛作为信息输入通道、与终端设备及用户界面进行人机交互。其中，眼动信息的输入方式包括注视输入、眼势输入、眨眼输入等。其中，注视是将人眼中央窝对准某一具体对象的过程，一般来说，中央窝保持对准某一具体对象的时长在100ms以上则认为是注视。

发明人经研究发现，当以注视作为输入信息时，例如，以注视来模拟诸如点击鼠标和/或点击触摸屏的操作行为时，为了有别于自然注视，通常会将注视时长这一指标设置为500ms以上，这就导致输入效率低。此外，由于用户在输入过程中存在等待时间和心理反应时间，因此真正完成一次注视输入通常会达到1000ms左右，综合效率极其低下。而且，长时间的注视输入需要眼球刻意维持注视，这种下意识的注视会消耗人体大量的注意力，也导致眼疲劳。再者，由于注视输入通常要求界面中被交互的元素要足够大，才能顺利完成交互，否则由于眼球自然颤动等生理原因极易误操作，使得眼动输入通常无法针对小目标进行操作且错误率高。基于上述各种原因，导致注视输入过程的控制感差，用户体验不佳。

另外，在实际应用中，在进行使用眼动交互之前，用户可能正在进行浏览、阅读等操作，这可能会使得用户对某个目标位置注视的时间超过预定阈值，但是用户并非要发出指令。尤其对于残疾人，由于身体原因使得他们对交互界面的观察时间较长，非常容易被系统误识别为用户发出了指令，从而产生误操作。

鉴于上述问题，本申请的实施例提供了一种基于眼动追踪的人机交互方法，具体地，通过第一通道来获取启动信号，该启动信号用于启动第二通道(眼动信息检测通道)，然后通过第二通道检测眼动信息，再通过第一通道来获取确认信号，从而确定眼动检测结果。该方案既能够充分利用眼动交互的优势(自然性、隐私性、高效性、高带宽)，又能够避免单通道眼动输入的各项缺陷，极大地提升人机交互效率，且改善使用过程中的视疲劳，并提升用户控制感、提升用户使用体验。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本说明书实施例提供的一种基于眼动追踪的人机交互方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用终端的程序。

如图1所示，该流程可以包括以下步骤：

步骤S110：获取基于第一通道输入的启动信号。

其中，第一通道是用于获取至少包括启动信号以及确认信号的通道。

其中，启动信号可以包括用于使终端设备的一个或更多个功能处于开启状态、或者使得实现这些功能的器件进入工作状态的信号。在实施例中，所述启动信号可以是用于启动第二通道的信号。第二通道是用于采集或传输眼动信息的信号通道。

在实施例中，所述第一通道可以包括采集用户触控信息的通道、采集用户声音信息的通道，或者采集用户图像信息的通道等。

可选地，所述获取基于第一通道输入的启动信号，具体可以包括获取基于触控信息采集通道输入的启动信号。具体地，所述触控信息采集通道用于采集用户通过触控操作发送的信息，所述触控操作可以包括点击操作、按压操作、触摸操作等。可选地，所述触控操作可以包括应用于外接物理输入设备的按压和/或点击操作，例如，可以包括针对键盘上按键的点击操作、针对鼠标的预定点击操作等。可选地，所述触控操作可以包括对于手机、平板等显示设备自带的物理按键的按压操作，例如，可以包括针对手机或平板的开/关机键、声音键、home键物理按键的按压操作。可选地，所述触控操作可以包括应用于触控感应器的触摸操作，具体地，可以包括对触控感应器的触摸操作，其中，所述触控感应器可以包括指纹感应器、触控屏等任何具有触摸感应功能的器件，例如，触控操作可以是针对触摸屏上的某一虚拟按键的触摸输入。

可选地，所述获取基于第一通道输入的启动信号，具体可以包括获取基于声音信息采集通道输入的启动信号。具体地，所述声音信息采集通道用于采集声音信息，所述声音信息可以包括语音信息、特定的声响信息等，但是声音信息的类型并不限于此，具体的声音形式可以根据用户的需求和终端设备的声音信息识别能力来设置。

可选地，所述获取基于第一通道输入的启动信号，具体可以包括获取基于图像信息采集通道输入的启动信号。具体地，所述图像信息采集通道用于采集图像信息，所述图像信息可以包括从摄像设备所拍摄的用户人脸图像、用户姿态图像等信息。

步骤S120：在获取到所述启动信号后，获取基于第二通道采集的眼动信息。

其中，眼动交互可以是以用户的眼睛作为信息载体来向终端设备传达信息的人机交互方式，眼动交互中的由眼睛传达的信息为眼动信息。眼动信息可以包括但不限于注视点、注视时间、眼势信息、瞳孔大小等。

在实施例中，所述眼动信息可以通过眼动追踪设备来采集，眼动追踪设备可以采集到对应区域内的对象的眼动动作。所述眼动追踪装置可以包括由用户佩戴的眼动仪或非佩戴式的图像采集装置。

可选地，所述获取基于第二通道采集的眼动信息，具体可以包括：获取基于红外图像采集通道采集的红外图像信息；基于所述红外图像信息，得到所述眼动信息。但是获取基于第二通道采集的眼动信息的步骤的具体实施方式不限于此。

在实际应用中，所述眼动信息可以基于眼动追踪技术来获取。例如，可以采用瞳孔-角膜反射法(pupil center cornea reflection，PCCR，采用红外光源照射用户的眼部区域，然后通过红外图像传感器获取用户眼部区域反射的红外光线，由于角膜和虹膜对红外光的反射率不同，从而可以获得清晰的瞳孔图像；在瞳孔图像中，红外光源照射角膜产生普洱钦斑，由瞳孔中心点和普洱钦斑中心点构成的向量随着眼球的运动而变化，利用该向量可以建立映射模型来计算用户视线方向。上述示例仅为了说明的目的，本申请并不对获取眼动信息的技术原理进行限制。

步骤S130：基于所述眼动信息，确定用户在当前显示界面上注视的对象。

其中，所述注视的对象可以包括交互界面上的可选区域。所述可选区域可以是预先设定的可供用户选择的区域。例如，所述可选区域可以是根据界面上显示的内容(例如，图标、文字等)将当前显示界面预先划分的多个区域，所述多个区域的形状、大小可以彼此不同。

在实施例中，所述可选区域可以具有一个图标，即所述注视的对象可以是一个图标；所述可选区域可以具有一行文字，即所述注视对象可以是一行文字；所述可选区域可以是一个空白区域，即所述注视的对象可以是一个空白区域。

在实施例中，基于获取的眼动信息来确定用户在当前显示界面上注视的对象的实现原理，本申请不进行限定。可以采用任何现有的技术手段来实现该步骤。

步骤S140：对所述对象进行增强显示。

在实施例中，当上述步骤S130中确定了用户的注视对象之后，可以通过增强显示的方式来告知用户选择结果，以使用户对基于眼动通道的选择结果有良好的感知，更加明确选择的目标，以提高基于眼动选择的交互效率，也可以提升用户体验。

可选地，所述对所述对象进行增强显示，具体可以包括增大所述对象在所述显示界面上的显示面积。例如，当所述对象为图标、文字等可见的内容时，可以使图标、文字等可见内容的显示面积增大，以使被注视的对象与显示界面上的其他内容明显区分开，从而达到增强显示的目的。

可选地，所述对所述对象进行增强显示，具体可以包括改变所述对象在所述显示界面上的显示颜色。具体地，可以将显示颜色由第一颜色改为第二颜色，其中，第一颜色与第二颜色的差异可以大于某个设定值，以使颜色改变后的对象与其他对象明显区分开，从而达到增强显示的目的。例如，当所述对象为图标、文字等可见的内容时，可以将黑色对象等显示为红色；当所述对象为空白区域时，可以将选择的区域呈现为位于区别于背景色的线框中或者直接将选择的区域呈现为区别于背景色的色块。

可选地，所述对所述对象进行增强显示，具体可以包括改变所述对象在所述显示界面上的显示样式。例如，当所述对象为图标、文字等可见的内容时，改变文字的字体、改变图标的形状等。

可选地，所述对所述对象进行增强显示，具体还可以包括使得所述对象展现抖动、闪烁等可视效果，还可以包括将文字、图标等对象以声音效果呈现。本申请的对所述对象进行增强显示的具体实施方式不限于以上示出的，只要是能够达到增强显示的目的、以使用户明确得知选择的目标即可。

在实施例中，可以通过使用上述示例中的一个增强显示手段或结合使用上述示例中的至少两个增强显示手段，来达到将被选择的对象增强显示。

要说明的是，在步骤S140中被选择的对象与下文步骤S160中将对象确定为选定状态不同，步骤S140中的被选择指的是由终端设备根据用户的眼动信息初步确定的待选定的对象，步骤160中的被选定指的是由终端设备根据用户的眼动信息初步确定后且由用户再次确认的已选定对象。

步骤S150：获取基于所述第一通道输入的确认信号。

其中，所述确认信号可以是用户将步骤S140中增强显示的对象确定为选定的对象的信号。

在实施例中，步骤S150中的确认信号与步骤S110中的启动信号的获取通道相同。将获取信息的通道设置为相同，使得用户(尤其是残疾人用户)无需频繁切换信息输入方式，使用更加便捷，人机交互效率更高。

在可选的实施方式中，步骤S150中的确认信号可以与步骤S110中的启动信号的信息内容相同或不同。在二者相同的情况下，例如，启动信号和确认信号可以均为按压并释放某物理按键、均为点触某虚拟按键、均为相同的声音信号、均为同样的眨眼或口动动作等，不限于此。在二者不同的情况下，例如，启动信号为按压某指定物理按键，相应地，确认信号为释放(即，停止按压)该物理按键；启动信号为持续触摸某虚拟按键，相应地，确认信号为释放(即，停止触摸)该虚拟按键；启动信号为持续发出某声音，相应地，确认信号为停止发出该声音；不限于前述示例。

可选地，当步骤S150获取到确认信号之后，可以将增强显示的对象恢复为初始状态。

步骤S160：在获取到所述确认信号后，确定所述对象处于选定状态。

在实施例中，获取用户通过第一通道发出的确认信号后，将步骤S130中所确定的对象设置为选定状态。具体地，可以包括对所述选定对象添加选定标识。

可选地，在步骤S130中确定注视的对象之后，所述对象可以被确定为预选定状态。若收到用户发送的确认信号，则可将预选定状态转为选定状态。若在预定的时间范围内未收到用户发送的确认信号，则可将预选定状态恢复为初始状态。

本申请的实施例提供了一种基于眼动追踪的人机交互方法，通过第一通道来获取启动信号，该启动信号用于启动第二通道(眼动信息检测通道)，然后通过第二通道检测眼动信息，再通过第一通道来获取确认信号，从而确定眼动检测结果。上述交互过程的整体交互机制提高了人机交互过程的效率，可以缓解用户的使用疲劳感、提升了用户的使用控制感。

具体地，本申请的实施例将第一通道与用于检测眼动信息的第二通道相结合，不需要注视输入信息达到某一特定的时长条件，而是用户可以自主利用第一通道发送启动信号和确认信号来在较短的时间内实现一次交互，基于眼动追踪的人机交互效率提高。另外，对于用户的生理健康程度的要求较低，例如，在用户具备基础视觉能力的前提下，至少可以发出点击操作的用户、至少可以发出声音的用户或者至少可以有某一肢体动作的用户等等均可以高效地实施上述方案。

在本申请的实施例中，在眼动信息的输入过程中无需刻意维持较长的时间，由此能够较好地避免因眼球自然颤动带来的误操作，并且由于交互过程中增加了对注视对象的增强显示及选定操作，进一步提高了基于眼动追踪的人机交互的准确性。并且，由于采用了对注视对象的增强显示以及基于第一通道发送的确认信号来进行对象锁定，使得即使当欲选择的目标较小时也能够有效提高人机交互的准确性。

并且，在本申请的实施例中，由于无需刻意维持注视达到较长的时间，具体的注视时长可以通过对第一通道的操作来协调控制，即，完全可以由用户个人使用习惯来自主决定，实际上，整体的用眼消耗与自然眼动的消耗差别并不大。因此，本申请的方案中基于眼动追踪的人机交互过程不会因下意识注视消耗大量的注意力，有效地缓解了眼疲劳的状况。

再者，在本申请的实施例中，一方面，不需要用户可以维持注视时长，具体时长完全由用户个人习惯自主决定，另一方面，方案的实施过程为实时响应交互，用户无需等待，也不存在对反馈的心理预估，且交互过程中的准确率也得到提升。综上所述，用户在基于眼动追踪的人机交互过程中的控制感得到极大提升。

基于图1的方法，本说明书实施例还提供了该方法的一些具体实施方式，下面进行说明。

实际应用中，当所述获取基于第一通道输入的启动信号(步骤S110)为获取基于触控信息采集通道输入的启动信号时，具体可以包括：获取基于按键输入的第一按键点击操作信号，所述按键点击操作信号用于表示所述按键被点击。相应地，所述获取基于所述第一通道输入的确认信号(步骤S150)，具体可以包括：获取基于所述按键输入的第二按键点击操作信号。可选地，所述第二按键与第一按键可以相同或不同。

具体地，上述实施例中被点击的按键可以包括终端设备自带的物理按键、外接的物理按键(具体地，通过有线或无线方式外接的键盘上的物理按键)、触摸屏上的虚拟按键、投影的虚拟键盘和/或按键等，不限于此。

实际应用中，当所述获取基于第一通道输入的启动信号(步骤S110)为获取基于触控信息采集通道输入的启动信号时，具体可以包括：获取基于按键输入的按键按压操作信号，所述按键按压操作信号用于表示所述按键被按压。相应地，所述获取基于所述第一通道输入的确认信号(步骤S150)，具体可以包括：获取基于所述按键输入的按键释放操作信号，所述按键释放操作信号用于表示所述按键被释放。

在上述示例中，启动信号由按压动作来触发，确认信号由释放动作来触发，而针对按键的按压动作与触发动作可以认为是由用户的一次连贯操作的来执行的，这就使得，在整个交互过程中，用户的操作复杂度降低，进一步提高了人机交互的效率，提升了用户体验。

为了更清楚地说明上述示例，图2、图3和图4分别为本申请实施例中的第一通道为触控信息采集通道、第二通道为眼动信息采集通道的人机交互方案的第一示意图、第二示意图和第三示意图。可选地，图2至图4中的示例可以应用于诸如手机、平板的具有自带物理按键的终端设备。

如图2中，当用户按下手机上的预定按键时，即通过第一通道发送启动信号，然后手机经第二通道检测并接收用户的眼动信息。如图3中，用户所注视的目标对象放大，以便于用户识别，在这一过程中，始终保持按下所述预定按键。如图4中，当用户基于放大的对象得知当前对象确实为想要选中的对象时，松开先前按下的预定按键，该松开按键的动作即通过第一通道发送确认信号，终端确定该对象为选定状态。至此，完成一次选择操作。

图5、图6和图7分别为本申请实施例中的第一通道为触控信息采集通道、第二通道为眼动信息采集通道的人机交互方案的第四示意图、第五示意图和第六示意图。可选地，图5至图7中的示例可以应用于诸如电脑等的具有外接键盘的终端设备，图5至图7中左下角的图标表示外接键盘。

如图5中，当用户按下键盘上的预定按键时，即通过第一通道发送启动信号，然后终端可以经第二通道检测并接收用户的眼动信号。如图6中，保持按下所述预定按键，将终端基于接收的眼动信息确定的被注视对象放大，以便于用户识别，例如，图6中将“重回属于百度的时代，李彦宏的AI战略意义重大”这一行文字作为被注视的对象而放大。如图7中，当用户基于放大的对象得知当前对象确实为想要选中的对象时，松开先前按下的预定按键，该松开按键的动作即通过第一通道发送确认信号，终端确定该对象为选定状态。至此，完成一次选择操作。

实际应用中，当所述获取基于第一通道输入的启动信号(步骤S110)包括获取基于声音信息采集通道输入的启动信号时，具体可以包括：获取用户发出的第一语音信息；判断所述第一语音信息是否与第一预设语音相匹配，得到第一判断结果；当所述第一判断结果表示所述第一语音信息与第一预设语音相匹配时，确定获取到所述启动信号。相应地，所述获取基于所述第一通道输入的确认信号(步骤S150)，具体可以包括：获取用户发出的第二语音信息；判断所述第二语音信息是否与第二预设语音相匹配，得到第二判断结果；当所述第二判断结果表示所述第二语音信息与第二预设语音相匹配时，确定获取到所述确认信号。

上述实施例中，第二预设语音与第一预设语音可以相同或不同。当第二预设语音与第一预设语音不同时，例如，第二预设语音可以是与第一预设语音有语义关联的信息。

实际应用中，所述第一预设语音可以为第一音节，与所述第二预设语音可以为第二音节，所述第一音节与所述第二音节可以为同一词语的发音的组成部分。

为了更清楚地说明上述示例，图8至图10中示出了本申请的实施例的第一通道为声音信息采集通道、第二通道为眼动信息采集通道的人机交互方案。

具体地，图8、图9和图10中展示的具体实施方式中，作为启动信号的语音信息为英文字母“O”，作为确认信号的语音信息为英文字母“K”。更具体地，当用户发出英文字母“O”这一语音信息时，终端设备开始开启第二通道来检测用户的眼动信息并进行增强显示，然后用户发出英文字母“K”这一语音信息即表示确认选择被增强显示的对象为要选定的对象，终端将该对象确定为选定状态。至此，完成一次选择操作。

在上述示例中，启动信号和确认信号分别由同一个词语的发音的两个音节来触发，例如，英文词语“OK”中的字母“O”可以触发启动信号、字母“K”可以触发确认信号，由此，可以在用户进行“OK”这一词语的发音过程中完成整个交互，用户的操作复杂度降低，进一步提高了人机交互的效率，提升了用户体验。

实际应用中，当所述获取基于第一通道输入的启动信号(步骤S110)包括获取基于图像信息采集通道输入的启动信号时，具体可以包括：获取用户发出的第一眨眼信息。相应地，所述获取基于所述第一通道输入的确认信号(步骤S150)，具体可以包括：获取用户发出的第二眨眼信息。

在上述若干可选的实施例中，提供了非眼动追踪的第一通道与眼动追踪的第二通道相结合的人机交互方法，并结合图2至图10示例性地给出了若干具体的应用场景，但是本申请的实施方案不限于在此给出的示例。只要是能够将另一通道与眼动信息采集通道相结合来实现人机交互的方式，均属于本申请的发明构思。

实际应用中，所述确定所述对象处于选定状态(步骤S160)之后，还可以包括：确定所述确认信号的持续输入时间；确定所述持续输入时间对应的持续时间范围；当所述持续输入时间符合第一持续时间范围时，对所述对象执行第一操作；当所述持续输入时间符合第二持续时间范围时，对所述对象执行第二操作。例如，当确认信号为点击(按下并放开)某预定按键时，可以根据按下时刻与放开时刻之间的时间差，即该点击操作的持续时间，来确定针对该对象的后续操作。

可选地，所述对所述对象执行第一操作，具体可以包括对所述对象执行打开操作。例如，可以针对包含超链接的对象执行打开连接的操作、可以针对应用图标执行打开应用的操作等。可选地，所述对所述对象执行第二操作，具体可以包括对所述对象执行移动操作。例如，可以针对桌面图标执行移动图标的操作等。

本申请的实施例中针对选中的对象的操作不限于上述示例，例如还可以包括针对菜单控件的打开子菜单的操作、针对图标或空白区域的点击右键的操作等等。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。图11为本说明书实施例提供的对应于图1的一种基于眼动追踪的人机交互装置的结构示意图。如图11所示，该装置可以包括：

启动信号获取模块210，用于获取基于第一通道输入的启动信号；

眼动信息采集模块220，用于在获取到所述启动信号后，获取基于第二通道采集的眼动信息；

第一确定模块230，用于基于所述眼动信息，确定用户在当前显示界面上注视的对象；

增强显示模块240，用于对所述对象进行增强显示；

确认信号获取模块250，用于获取基于所述第一通道输入的确认信号；

第二确定模块260，用于在获取到所述确认信号后，确定所述对象处于选定状态。

实际应用中，所述增强显示模块240，具体可以包括：面积增强显示单元，用于增大所述对象在所述显示界面上的显示面积；和/或，颜色增强显示单元，用于改变所述对象在所述显示界面上的显示颜色；和/或，样式增强显示单元，用于改变所述对象在所述显示界面上的显示样式。

实际应用中，所述启动信号获取模块210，具体可以包括：触控信号获取单元，用于获取基于触控信息采集通道输入的启动信号；或者，声音信号获取单元，用于获取基于声音信息采集通道输入的启动信号；或者，图像信号获取单元，用于获取基于图像信息采集通道输入的启动信号。

可选地，所述触控信号获取单元，具体可以用于：获取基于按键输入的第一按键点击操作信号；所述按键点击操作信号用于表示所述按键被点击。相应地，所述确认信号获取模块250，具体可以用于：获取基于所述按键输入的第二按键点击操作信号。

可选地，所述触控信号获取单元，具体可以用于：获取基于按键输入的按键按压操作信号；所述按键按压操作信号用于表示所述按键被按压。相应地，所述确认信号获取模块250，具体可以用于：获取基于所述按键输入的按键释放操作信号；所述按键释放操作信号用于表示所述按键被释放。

可选地，所述声音信号获取单元，具体可以包括：第一语音信息获取单元，用于获取用户发出的第一语音信息；第一判断单元，用于判断所述第一语音信息是否与第一预设语音相匹配，得到第一判断结果；启动信号获取单元，用于当所述第一判断结果表示所述第一语音信息与第一预设语音相匹配时，确定获取到所述启动信号。

相应地，所述确认信号获取模块250，具体可以包括：第二语音信息获取单元，用于获取用户发出的第二语音信息；第二判断单元，用于判断所述第二语音信息是否与第二预设语音相匹配，得到第二判断结果；确认信号获取单元，用于当所述第二判断结果表示所述第二语音信息与第二预设语音相匹配时，确定获取到所述确认信号。

可选地，所述第一预设语音为第一音节，与所述第二预设语音为第二音节，所述第一音节与所述第二音节为同一词语的发音的组成部分。

可选地，所述图像信号获取单元，具体可以用于：获取用户发出的第一眨眼信息。相应地，所述确认信号获取模块250，具体可以用于：获取用户发出的第二眨眼信息。

实际应用中，所述眼动信息采集模块220，具体可以用于：获取基于红外图像采集通道采集的红外图像信息；基于所述红外图像信息，得到所述眼动信息。

根据可选的实施例，所述装置还可以包括第三确定模块，所述第三确定模块具体可以包括：持续输入时间确认单元，用于确定所述确认信号的持续输入时间；持续时间范围确认单元，用于确定所述持续输入时间对应的持续时间范围；第一操作单元，当所述持续输入时间符合第一持续时间范围时，对所述对象执行第一操作；第二操作单元，当所述持续输入时间符合第二持续时间范围时，对所述对象执行第二操作。

可选地，所述第一操作单元具体可以对所述对象执行打开操作。可选地，所述第二操作单元具体可以对所述对象执行移动操作。

可以理解，上述的各模块是指计算机程序或者程序段，用于执行某一项或多项特定的功能。此外，上述各模块的区分并不代表实际的程序代码也必须是分开的。

根据本申请提供的上述基于眼动追踪的人机交互装置的实施例，与前述基于眼动追踪的人机交互方法相应地，提高了人机交互过程的效率、准确率，缓解用户的使用疲劳感、提升了用户的使用控制感。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。

图12为本说明书实施例提供的对应于图1的一种基于眼动追踪的人机交互设备的结构示意图。如图12所示，设备300可以包括：

至少一个处理器310；以及，

与所述至少一个处理器通信连接的存储器330；其中，

所述存储器330存储有可被所述至少一个处理器310执行的指令320，所述指令被所述至少一个处理器310执行，以使所述至少一个处理器310能够：

此外，基于眼动追踪的人机交互设备也可以实现上述各个实施例及其结合中的基于眼动追踪的人机交互方法，在此不再一一赘述。

基于同样的思路，本说明书实施例还提供了上述方法对应的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现以下步骤：获取基于第一通道输入的启动信号；在获取到所述启动信号后，获取基于第二通道采集的眼动信息；基于所述眼动信息，确定用户在当前显示界面上注视的对象；对所述对象进行增强显示；获取基于所述第一通道输入的确认信号；在获取到所述确认信号后，确定所述对象处于选定状态。

此外，本申请实施例提供的计算机可读介质上存储的计算机可读指令也可以实现上述各个实施例及其结合中的基于眼动追踪的人机交互方法，在此不再一一赘述。

上述对本说明书特定实施例进行了描述，在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、设备与方法是对应的，因此，装置、设备也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于眼动追踪的人机交互方法，包括：

获取基于第一通道输入的启动信号；

在获取到所述启动信号后，获取基于第二通道采集的眼动信息；

基于所述眼动信息，确定用户在当前显示界面上注视的对象；

对所述对象进行增强显示；

获取基于所述第一通道输入的确认信号；

在获取到所述确认信号后，确定所述对象处于选定状态。

2.如权利要求1所述的方法，所述获取基于第一通道输入的启动信号，具体包括：

获取基于触控信息采集通道输入的启动信号；

或者，获取基于声音信息采集通道输入的启动信号；

或者，获取基于图像信息采集通道输入的启动信号。

3.如权利要求1所述的方法，所述获取基于第二通道采集的眼动信息，具体包括：

获取基于红外图像采集通道采集的红外图像信息；

基于所述红外图像信息，得到所述眼动信息。

4.如权利要求1所述的方法，所述对所述对象进行增强显示，具体包括：

增大所述对象在所述显示界面上的显示面积；

和/或，改变所述对象在所述显示界面上的显示颜色；

和/或，改变所述对象在所述显示界面上的显示样式。

5.如权利要求2所述的方法，所述获取基于触控信息采集通道输入的启动信号，具体包括：

获取基于按键输入的第一按键点击操作信号；所述按键点击操作信号用于表示所述按键被点击；

所述获取基于所述第一通道输入的确认信号，具体包括：

获取基于所述按键输入的第二按键点击操作信号。

6.如权利要求2所述的方法，所述获取基于触控信息采集通道输入的启动信号，具体包括：

获取基于按键输入的按键按压操作信号；所述按键按压操作信号用于表示所述按键被按压；

所述获取基于所述第一通道输入的确认信号，具体包括：

获取基于所述按键输入的按键释放操作信号；所述按键释放操作信号用于表示所述按键被释放。

7.如权利要求2所述的方法，所述获取基于声音信息采集通道输入的启动信号，具体包括：

获取用户发出的第一语音信息；

判断所述第一语音信息是否与第一预设语音相匹配，得到第一判断结果；

当所述第一判断结果表示所述第一语音信息与第一预设语音相匹配时，确定获取到所述启动信号；

所述获取基于所述第一通道输入的确认信号，具体包括：

获取用户发出的第二语音信息；

判断所述第二语音信息是否与第二预设语音相匹配，得到第二判断结果；

当所述第二判断结果表示所述第二语音信息与第二预设语音相匹配时，确定获取到所述确认信号。

8.如权利要求7所述的方法，所述第一预设语音为第一音节，与所述第二预设语音为第二音节，所述第一音节与所述第二音节为同一词语的发音的组成部分。

9.如权利要求2所述的方法，所述获取基于图像信息采集通道输入的启动信号，具体包括：

获取用户发出的第一眨眼信息；

所述获取基于所述第一通道输入的确认信号，具体包括：

获取用户发出的第二眨眼信息。

10.如权利要求1所述的方法，所述确定所述对象处于选定状态之后，还包括：

确定所述确认信号的持续输入时间；

确定所述持续输入时间对应的持续时间范围；

当所述持续输入时间符合第一持续时间范围时，对所述对象执行第一操作；

当所述持续输入时间符合第二持续时间范围时，对所述对象执行第二操作。

11.如权利要求10所述的方法，所述对所述对象执行第一操作，具体包括：

对所述对象执行打开操作；

所述对所述对象执行第二操作，具体包括：

对所述对象执行移动操作。

12.一种基于眼动追踪的人机交互装置，包括：

启动信号获取模块，用于获取基于第一通道输入的启动信号；

眼动信息采集模块，用于在获取到所述启动信号后，获取基于第二通道采集的眼动信息；

第一确定模块，用于基于所述眼动信息，确定用户在当前显示界面上注视的对象；

增强显示模块，用于对所述对象进行增强显示；

确认信号获取模块，用于获取基于所述第一通道输入的确认信号；

第二确定模块，用于在获取到所述确认信号后，确定所述对象处于选定状态。

13.如权利要求12所述的装置，所述增强显示模块，具体包括：

面积增强显示单元，用于增大所述对象在所述显示界面上的显示面积；

和/或，颜色增强显示单元，用于改变所述对象在所述显示界面上的显示颜色；

和/或，样式增强显示单元，用于改变所述对象在所述显示界面上的显示样式。

14.如权利要求12所述的装置，所述启动信号获取模块，具体包括：

触控信号获取单元，用于获取基于触控信息采集通道输入的启动信号；

或者，声音信号获取单元，用于获取基于声音信息采集通道输入的启动信号；

或者，图像信号获取单元，用于获取基于图像信息采集通道输入的启动信号。

15.如权利要求14所述的装置，

所述触控信号获取单元，具体用于：获取基于按键输入的第一按键点击操作信号；所述按键点击操作信号用于表示所述按键被点击；

所述确认信号获取模块，具体用于：获取基于所述按键输入的第二按键点击操作信号。

16.如权利要求14所述的装置，

所述触控信号获取模单元，具体用于：获取基于按键输入的按键按压操作信号；所述按键按压操作信号用于表示所述按键被按压；

所述确认信号获取模块，具体用于：获取基于所述按键输入的按键释放操作信号；所述按键释放操作信号用于表示所述按键被释放。

17.如权利要求14所述的装置，

所述声音信号获取单元，具体包括：

第一语音信息获取单元，用于获取用户发出的第一语音信息；

第一判断单元，用于判断所述第一语音信息是否与第一预设语音相匹配，得到第一判断结果；

启动信号获取单元，用于当所述第一判断结果表示所述第一语音信息与第一预设语音相匹配时，确定获取到所述启动信号；

所述确认信号获取模块，具体包括：

第二语音信息获取单元，用于获取用户发出的第二语音信息；

第二判断单元，用于判断所述第二语音信息是否与第二预设语音相匹配，得到第二判断结果；

确认信号获取单元，用于当所述第二判断结果表示所述第二语音信息与第二预设语音相匹配时，确定获取到所述确认信号。

18.如权利要求17所述的装置，所述第一预设语音为第一音节，与所述第二预设语音为第二音节，所述第一音节与所述第二音节为同一词语的发音的组成部分。

19.如权利要求14所述的装置，

所述图像信号获取单元，具体用于：获取用户发出的第一眨眼信息；

所述确认信号获取模块，具体用于：获取用户发出的第二眨眼信息。

20.一种基于眼动追踪的人机交互设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取基于第一通道输入的启动信号；

对所述对象进行增强显示；

获取基于所述第一通道输入的确认信号；

在获取到所述确认信号后，确定所述对象处于选定状态。

21.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现权利要求1至11中任一项所述的基于眼动追踪的人机交互方法。