CN114967935B

CN114967935B - 基于视线估计的交互方法、装置、终端设备及存储介质

Info

Publication number: CN114967935B
Application number: CN202210752919.0A
Authority: CN
Inventors: 苏伯超; 宁崴; 徐凯歌; 税科
Original assignee: Shenzhen Polytechnic
Current assignee: Shenzhen Polytechnic
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2023-04-07
Anticipated expiration: 2042-06-29
Also published as: CN114967935A

Abstract

本发明公开了基于视线估计的交互方法、装置、终端设备及存储介质，所述方法包括：采集用户的头部图像与眼部图像，基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，得到视线落点；根据所述视线落点，确定所述视线落点所对应的注视区域；获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作。本发明可估计出用户的视线落点，并与鼠标光标进行结合来实现交互操作，无需用户手动操作，尤其是当用户使用多个显示屏时，无需在多个显示屏中寻找鼠标光标的位置，节省了时间。

Description

基于视线估计的交互方法、装置、终端设备及存储介质

技术领域

本发明涉及交互控制技术领域，尤其涉及一种基于视线估计的交互方法、装置、终端设备及存储介质。

背景技术

人机交互是借助电子计算机技术而发展起来的一门技术学科，同时也是人类与计算机之间相互交流与通信的一种方法。人机交互可以通过视线追踪技术与计算机直接进行沟通不需要借助键盘鼠标光标等硬件设备，但是实现精准的视线追踪是人机交互首先要解决的问题。

目前现有的视线追踪交互方法大多是基于几何的方法检测视线，提取眼睛相关的特征点计算视线，但是忽略了头部位姿信息，导致视线追踪不准确。此外，在日常生活工作中，大多数文字工作者为了方便使用计算机处理信息，需要使用两个以上甚至更多的显示屏同时进行工作，这就需要用户大幅度的移动鼠标光标，并寻找鼠标光标的位置，比较浪费时间，效率较低，而目前的视线追踪交互方法也无法适用于多个显示屏的场景。

因此，现有技术还有待改进和提高。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于视线估计的交互方法、装置、终端设备及存储介质，旨在解决现有技术中视线追踪交互方法的视线追踪不准确，且也无法应用于多个显示屏的场景的问题。

为了解决上述技术问题，本发明所采用的技术方案如下：

第一方面，本发明提供一种基于视线估计的交互方法，其中，所述方法包括：

采集用户的头部图像与眼部图像，基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，得到视线落点；

根据所述视线落点，确定所述视线落点所对应的注视区域；

获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作。

在一种实现方式中，所述基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，得到视线落点，包括：

通过所述已训练的视线估计模型分别基于所述头部图像与所述眼部图像确定头部姿态的视线坐标与眼部坐标；

对所述视线坐标与所述眼部坐标进行转换和编码，得到所述视线落点。

在一种实现方式中，所述已训练的视线估计模型的训练方式包括：

获取若干样本头部图像与若干样本眼部图像；

根据若干所述样本头部图像，得到每一个所述样本头部图像的头部姿态信息，并对所述头部姿态信息进行标签处理，得到具有头部姿态标签的姿态数据集；

根据若干所述样本眼部图像，得到每一个所述样本眼部图像的眼球运动信息，并对所述眼球运动信息进行标签处理，得到具有眼球运动标签的眼球数据集；

使用卷积神经网络分别对姿态数据集与所述眼球数据集进行训练，得到带有头部姿态标签和眼球运动标签的网络模型；

基于所述网络模型，建立用于对头部姿态信息的视线坐标和眼球运动信息的眼睛坐标进行转换与编码的神经网络层，得到所述视线估计模型。

在一种实现方式中，所述根据若干所述样本头部图像，得到每一个所述样本头部图像的头部姿态信息，包括：

根据若干所述样本头部图像，确定每一个所述样本头部图像所对应的面部特征；

根据所述面部特征，确定每一个所述面部特征所对应的面部坐标；

基于所述面部坐标，确定每一个所述样本头部图像的头部姿态信息。

在一种实现方式中，所述根据所述视线落点，确定所述视线落点所对应的注视区域，包括：

根据所述视线落点，确定所述视线落点所对应的视线方向；

基于所述视线方向，确定在显示屏上与所述视线方向所对应注视区域。

在一种实现方式中，所述获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作，包括：

获取所述视线落点的停留时间，并将所述停留时间与预设的时间阈值进行比较；

若所述停留时间大于所述时间阈值，则将所述停留时间与预设的时间范围进行匹配；

若所述停留时间与所述时间范围匹配成功，则控制所述鼠标光标在所述注视区域内执行所述时间范围所对应的交互操作。

在一种实现方式中，所述交互操作包括：滑动页面、文字键入以及页面放大。

第二方面，本发明实施例还提供一种基于视线估计的交互装置，其中，所述装置包括：

视线落点确定模块，用于采集用户的头部图像与眼部图像，基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，得到视线落点；

注视区域确定模块，用于根据所述视线落点，确定所述视线落点所对应的注视区域；

交互操作控制模块，用于获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作。

第三方面，本发明实施例还提供一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的基于视线估计的交互程序，所述处理器执行所述基于视线估计的交互程序时，实现如上述方案中任一项所述的基于视线估计的交互方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于视线估计的交互程序，所述基于视线估计的交互程序被处理器执行时，实现如上述方案中任一项所述的基于视线估计的交互方法的步骤。

有益效果：与现有技术相比，本发明提供了一种基于视线估计的交互方法，所述方法包括：首先采集用户的头部图像与眼部图像，基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，得到视线落点。然后，根据所述视线落点，确定所述视线落点所对应的注视区域。最后，获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作。由于头部图像中反映了用户的头部姿态信息，眼部图像反映了用户的眼球运动信息，因此本发明基于头部图像和眼部图像可更为准确地确定出视线落点。并且，本发明基于确定出的实现落点与鼠标功能进行结合，基于视线落点的停留时间触发鼠标光标执行各种交互操作，无需用户手动操作，尤其是当用户使用多个显示屏时，无需在多个显示屏中寻找鼠标光标的位置，节省了时间，提高了工作效率。

附图说明

图1为本发明实施例提供的基于视线估计的交互方法的具体实施方式的流程图。

图2为本发明实施例提供的基于视线估计的交互装置的原理图。

图3为本发明实施例提供的终端设备的原理图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本实施例提供一种基于视线估计的交互方法，通过本实施例的方法，可更为准确地确定出视线落点，并且还可以与鼠标功能结合实现对应的交互操作。具体实施时，本实施例首先采集用户的头部图像与眼部图像，基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，得到视线落点。然后，根据所述视线落点，确定所述视线落点所对应的注视区域。最后，获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作。由于头部图像中反映了用户的头部姿态信息，眼部图像反映了用户的眼球运动信息，因此本实施例基于头部图像和眼部图像可更为准确地确定出视线落点。并且，本实施例基于确定出的实现落点与鼠标功能进行结合，基于视线落点的停留时间触发鼠标光标执行各种交互操作，无需用户手动操作，尤其是当用户使用多个显示屏时，无需在多个显示屏中寻找鼠标光标的位置，节省了时间，提高了工作效率。

举例说明，电脑上自带的摄像头拍摄此时用户的头部图像和眼部图像，然后电脑自动将采集到的头部图像和眼部图像输入至已训练的视线估计模型中，基于该视线估计模型自动确认出视线落点，该视线落点反映的就是此时用户眼睛的视线落在电脑屏幕上的哪个位置。接着，电脑基于确定出视线落点就可以确定出此时用户看向电脑屏幕的哪一块区域，即确定出注视区域，该注视区域即为此时用户想要操作的区域，比如用户想要在这个注视区域进行页面翻页操作等。电脑此时就可以获取视线落点的停留时间，该停留时间反映的是用户看向注视区域所停留的时间，电脑就可以基于不同的停留时间来控制电脑屏幕上的鼠标光标执行对应的交互操作，比如停留时间为1-3秒时，控制鼠标光标执行上下翻页的操作，以便用户浏览网页。

示例性方法

本实施例中的基于视线估计的交互方法可应用于终端设备中，该终端设备为电脑、手机、平板电脑等智能化产品终端。在本实施例中，如图1中所示，所述基于视线估计的交互方法包括以下步骤：

步骤S100、采集用户的头部图像与眼部图像，基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，得到视线落点。

由于本实施例时基于视线估计来实现交互控制的，因此本实施例就首先需要对用户视线进行确定。现有的视线追踪交互方法基本都是几何的方法检测视线，提取眼睛相关的特征点计算视线，这种方法无法准确地确定出用户的视线，容易有误差，比如不同的人在不不同光照情况下人的头部姿态会有不同的变化，这些头部姿态都会给视线追踪带来误差。为此，本实施例采集用户的头部图像与眼部图像，由于头部图像中反映了用户的头部姿态信息，眼部图像反映了用户的眼球运动信息。因此基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，就可以准确得到视线落点。

在一种实现方式中，本实施例在确定视线落点时包括如下步骤：

步骤S101、通过所述已训练的视线估计模型分别基于所述头部图像与所述眼部图像确定头部姿态的视线坐标与眼部坐标；

步骤S102、对所述视线坐标与所述眼部坐标进行转换和编码，得到所述视线落点。

具体实施时，本实施例预先训练一个视线估计模型，首先通过终端设备的摄像头获取若干样本头部图像与若干样本眼部图像。在采集样本头部图像和样本眼部图像时，本实施例可针对不同的用户进行采集，有利于扩充样本量，且保证样本之间存在一定的差异性，有利于训练出更为准确的视线估计模型。接着，终端设备根据若干所述样本头部图像，得到每一个所述样本头部图像的头部姿态信息。在确定头部姿态信息时，本实施例首先根据若干所述样本头部图像，确定每一个所述样本头部图像所对应的面部特征。然后根据所述面部特征，确定每一个所述面部特征所对应的面部坐标，由于面部坐标可以反映该用户的头部五官的位置变化，基于这些位置变化就可以确定每一个所述样本头部图像的头部姿态信息。当确定出头部姿态信息后，本实施例对所述头部姿态信息进行标签处理，得到具有头部姿态标签的姿态数据集。

接着，本实施例可基于图像识别技术确定每一个样本眼部图像中的眼球的位置信息，比如眼球的坐标或者两眼球之间的距离等信息。基于确定出眼球的位置信息，就可以确定出每一个所述样本眼部图像的眼球运动信息。同样地，本实施例对所述眼球运动信息进行标签处理，得到具有眼球运动标签的眼球数据集。当得到姿态数据集以及眼球数据集后，本实施例使用卷积神经网络分别对姿态数据集与所述眼球数据集进行训练，由于姿态数据集中带有头部姿态标签，眼球数据集带有眼球运动标签，因此就可以训练得到带有头部姿态标签和眼球运动标签的网络模型，该网络模型可用于从头部图像以及眼部图像中确定出头部姿态信息以及眼球运动信息。因此，当确定出头部姿态信息以及眼球运动信息，也就可以进一步确定出头部姿态信息的视线坐标和眼球运动信息的眼睛坐标。基于此，本实施例在该网络模型中建立一用于对头部姿态信息的视线坐标和眼球运动信息的眼睛坐标进行转换与编码的神经网络层，该神经网络层名为凝视变换层，从而得到视线估计模型。也就是说，本实施例中的视线估计模型可用于从头部图像与眼部图像中分别确定出头部姿态信息以及眼球运动信息，进而确定出头部姿态信息的视线坐标和眼球运动信息的眼睛坐标，然后再通过凝视变换层对视线坐标和眼睛坐标进行转换与编码，从而确定出视线落点。本实施例中的视线落点可为坐标点，该坐标点即表示此时用户的注视位置。

步骤S200、根据所述视线落点，确定所述视线落点所对应的注视区域。

由于视线落点反映的是用户的视线注视点，因此，根据该视线落点可确定用户此时的注视区域，该注视区域为用户的视线在终端设备的显示屏上的区域，该注视区域即为显示屏上用户想要进行交互操作的区域。

在一种实现方式中，本实施例在确定注视区域时，包括如下步骤：

步骤S201、根据所述视线落点，确定所述视线落点所对应的视线方向；

步骤S202、基于所述视线方向，确定在显示屏上与所述视线方向所对应注视区域。

在本实施例中，视线落点是位于显示屏上的，即为显示屏内的某个位置处。当确定出视线落点后，也就确定了此时用户的视线时朝向显示屏内的某个位置处的，因此此时就确定出了视线方向，即用户的目光朝向。当确定出了视线方向，本实施例可将视线方向结合视线落点，在显示屏上确定注视区域。在具体应用时，本实施例可在显示屏上，以视线落点为圆心，基于视线方向，以预设的半径画圆，画出的圆形区域即为注视区域。或者，在另一种应用中，在实际应用中，显示屏上不同区域可能会用于处理不同的交互操作，比如一个显示屏上的第一区域用于编辑word文档，第二区域用户打开社交软件的聊天页面。尤其是用户使用多个显示屏时，不同的显示屏也可能用于处理不同的交互操作，比如用户习惯在A屏中编辑word文档，在B屏浏览网页。因此，本实施例可以预先将显示屏划分为若干个区域，每一个区域都独立，均可用于处理独立的操作，比如编辑word文档、浏览网页等。本实施例可基于视线方向以及视线落点在显示屏上的位置，就可以确定此时视线落点位于显示屏上的哪个区域，确定出的区域即为注视区域。比如，显示屏上划分有四个区域，分别为左上区域、左下区域、右上区域以及右下区域，基于视线方向可确定为朝左上方，而视线落点位于显示屏上靠近左上角的位置处，因此基于视线方向与视线落点就可以确定此时的注视区域为显示屏上的左上区域。

步骤S300、获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作。

在本实施例中，当确定显示屏上的注视区域后，用户需要在该注视区域内进行交互操作，为此，本实施例以视线落点的停留时间作为触发条件，当确定停留时间满足预设要求时，则就可以控制鼠标光标移动，并控制鼠标光标在该注视区域内执行与该停留时间所对应的交互操作。也就是说，本实施例中视线落点的停留时间不但用于触发鼠标光标执行交互操作，而且不同的停留时间还对应不同的交互操作，从而方便用户对鼠标光标的控制，节省时间，提高工作效率。

在一种实现方式中，本实施例中在控制鼠标光标执行交互操作时包括如下步骤：

步骤S301、获取所述视线落点的停留时间，并将所述停留时间与预设的时间阈值进行比较；

步骤S302、若所述停留时间大于所述时间阈值，则将所述停留时间与预设的时间范围进行匹配；

步骤S303、若所述停留时间与所述时间范围匹配成功，则控制所述鼠标光标在所述注视区域内执行所述时间范围所对应的交互操作。

具体地，本实施例首先获取视线落点的停留时间，该停留时间的获取可基于终端设备中的定时器获取。当获取到停留时间后，本实施例将该停留时间与预设的时间阈值进行比较，该时间阈值用于判断停留时间是否符合触发条件。如果停留时间大于所述时间阈值，则表示此时用户的视线停留在注视区域内的时间达到要求，此时就可以触发鼠标光标执行交互操作。而由于不同的停留时间所对应的交互操作不同，因此，本实施例确定停留时间大于时间阈值后，继续获取停留时间，以确保此时停留时间的真实时长。当确定出停留时间后，本实施例将停留时间与预设的时间范围进行匹配，所述时间范围具有多个，每一个时间范围都对应不同的交互操作，因此当停留时间与时间范围匹配成功，则就控制鼠标光标在该注视区域内执行与该时间范围所对应的交互操作。本实施例中的交互操作包括：滑动页面、文字键入以及页面放大等。比如，本实施例的时间范围分为1-3秒、3-5秒。其中1-3秒对应的交互操作为：用户在注视区域内直接使用键盘进行文字信息的输入。3-5秒对应的交互操作为：注视区域内的网页或者文档信息会按照一定比例放大。因此，当停留时间与1-3秒的时间范围匹配时，则就可以控制鼠标光标移动至该注视区域内，无需用户花时间查找鼠标光标，尤其是当用户使用多个显示屏时，无需在多个显示屏中查找鼠标光标，节省了时间。用户此时就可以直接使用键盘进行文字信息的输入，无需再手动操作鼠标。当停留时间3-5秒的时间范围匹配时，则同样可以控制鼠标光标移动至该注视区域内，此时注视区域内的网页或者文档信息会按照一定比例放大，便于用户直接获取有用信息。在其他实施例中，本实施例如果检测到用户在视线落点在所确定出的注视区域内上下移动或者左右移动时，则终端设备就会直接启动网页或者文档浏览功能，此时就可控制注视区域内网页或者文档自动翻页，如随着用户的视线落点的上下移动，自动滑动页面，便于用户浏览页面信息。由此可见，本实施例中无需手动操作鼠标就可以完成相关的交互操作，给用户的使用提供了方便。

综上，本实施例首先采集用户的头部图像与眼部图像，基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，得到视线落点。然后，根据所述视线落点，确定所述视线落点所对应的注视区域。最后，获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作。由于头部图像中反映了用户的头部姿态信息，眼部图像反映了用户的眼球运动信息，因此本实施例基于头部图像和眼部图像可更为准确地确定出视线落点。并且，本实施例基于确定出的实现落点与鼠标功能进行结合，基于视线落点的停留时间触发鼠标光标执行各种交互操作，无需用户手动操作，尤其是当用户使用多个显示屏时，无需在多个显示屏中寻找鼠标光标的位置，节省了时间，提高了工作效率。

示例性装置

基于上述实施例，本发明还提供一种基于视线估计的交互装置，如图2中所示，该装置包括：视线落点确定模块10、注视区域确定模块20以及交互操作控制模块30。具体地，所述视线落点确定模块，用于采集用户的头部图像与眼部图像，基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，得到视线落点。所述注视区域确定模块20，用于根据所述视线落点，确定所述视线落点所对应的注视区域。所述交互操作控制模块30，用于获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作。

在一种实现方式中，所述视线落点确定模块10，包括：

坐标确定单元，用于通过所述已训练的视线估计模型分别基于所述头部图像与所述眼部图像确定头部姿态的视线坐标与眼部坐标；

落点确定单元，用于对所述视线坐标与所述眼部坐标进行转换和编码，得到所述视线落点。

在一种实现方式中，所述装置还包括模型训练模型，所述模型训练模块包括：

样本图像获取单元，用于获取若干样本头部图像与若干样本眼部图像；

姿态数据集构建单元，用于根据若干所述样本头部图像，得到每一个所述样本头部图像的头部姿态信息，并对所述头部姿态信息进行标签处理，得到具有头部姿态标签的姿态数据集；

眼球数据集构建单元，用于根据若干所述样本眼部图像，得到每一个所述样本眼部图像的眼球运动信息，并对所述眼球运动信息进行标签处理，得到具有眼球运动标签的眼球数据集；

网络模型训练单元，用于使用卷积神经网络分别对姿态数据集与所述眼球数据集进行训练，得到带有头部姿态标签和眼球运动标签的网络模型；

视线估计模型确定单元，用于基于所述网络模型，建立用于对头部姿态信息的视线坐标和眼球运动信息的眼睛坐标进行转换与编码的神经网络层，得到所述视线估计模型。

在一种实现方式中，所述姿态数据集构建单元，包括：

面部特征提取子单元，用于根据若干所述样本头部图像，确定每一个所述样本头部图像所对应的面部特征；

面部坐标确定子单元，用于根据所述面部特征，确定每一个所述面部特征所对应的面部坐标；

姿态信息确定子单元，用于基于所述面部坐标，确定每一个所述样本头部图像的头部姿态信息。

在一种实现方式中，所述注视区域确定模块20包括：

方向确定单元，用于根据所述视线落点，确定所述视线落点所对应的视线方向；

区域确定单元，用于基于所述视线方向，确定在显示屏上与所述视线方向所对应注视区域。

在一种实现方式中，所述交互操作控制模块30包括：

比较单元，用于获取所述视线落点的停留时间，并将所述停留时间与预设的时间阈值进行比较；

匹配单元，用于若所述停留时间大于所述时间阈值，则将所述停留时间与预设的时间范围进行匹配；

操作单元，用于若所述停留时间与所述时间范围匹配成功，则控制所述鼠标光标在所述注视区域内执行所述时间范围所对应的交互操作，其中，所述交互操作包括：滑动页面、文字键入以及页面放大。

本实施例中基于视线估计的交互装置中的各个模块的工作原理与上述方法实施例中各个步骤的原理相同，此处不再赘述。

基于上述实施例，本发明还提供了一种终端设备，其原理框图可以如图3所示。该终端设备包括通过系统总线连接的处理器、存储器。其中，该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络通讯连接通信。该计算机程序被处理器执行时以实现一种基于视线估计的交互方法。

本领域技术人员可以理解，图3中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端设备的限定，具体的终端设备以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端设备，终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的基于视线估计的交互方法程序，处理器执行基于视线估计的交互方法程序时，实现如下操作指令：

根据所述视线落点，确定所述视线落点所对应的注视区域；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、运营数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双运营数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上，本发明公开了一种基于视线估计的交互方法、装置、终端设备及存储介质，所述方法包括：采集用户的头部图像与眼部图像，基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，得到视线落点；根据所述视线落点，确定所述视线落点所对应的注视区域；获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作。本发明可估计出用户的视线落点，并与鼠标光标进行结合来实现交互操作，无需用户手动操作，尤其是当用户使用多个显示屏时，无需在多个显示屏中寻找鼠标光标的位置，节省了时间。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于视线估计的交互方法，其特征在于，所述方法包括：

根据所述视线落点，确定所述视线落点所对应的注视区域；

获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作；

所述已训练的视线估计模型的训练方式包括：

获取若干样本头部图像与若干样本眼部图像；

根据若干所述样本眼部图像，确定每一个样本眼部图像中的眼球的位置信息，基于确定出眼球的位置信息，得到每一个所述样本眼部图像的眼球运动信息，并对所述眼球运动信息进行标签处理，得到具有眼球运动标签的眼球数据集；

基于所述网络模型，建立用于对头部姿态信息的视线坐标和眼球运动信息的眼睛坐标进行转换与编码的神经网络层，得到所述视线估计模型；

所述根据所述视线落点，确定所述视线落点所对应的注视区域，包括：

根据所述视线落点，确定所述视线落点所对应的视线方向；

基于所述视线方向，确定在显示屏上与所述视线方向所对应注视区域；

所述基于所述视线方向，确定在显示屏上与所述视线方向所对应注视区域，包括：

在所述显示屏上，以视线落点为圆心，并基于视线方向，以预设的半径画圆，画出的圆形区域即为所述注视区域；

或者，预先将显示屏划分为若干个区域，每一个区域都独立，并均用于处理独立的操作，基于视线方向以及视线落点在显示屏上的位置，确定所述视线落点位于显示屏上的区域，确定出的区域即为注视区域；

所述获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作，包括：

若所述停留时间与所述时间范围匹配成功，则控制所述鼠标光标在所述注视区域内执行所述时间范围所对应的交互操作；

所述交互操作包括：滑动页面、文字键入以及页面放大；

如果检测到用户在视线落点在所确定出的注视区域内上下移动或者左右移动时，则终端设备直接启动网页或者文档浏览功能，并控制注视区域内网页或者文档自动翻页。

2.根据权利要求1所述的基于视线估计的交互方法，其特征在于，所述基于预先已训练的视线估计模型对所述头部图像与所述眼部图像进行处理，得到视线落点，包括：

3.根据权利要求1所述的基于视线估计的交互方法，其特征在于，所述根据若干所述样本头部图像，得到每一个所述样本头部图像的头部姿态信息，包括：

4.一种基于视线估计的交互装置，其特征在于，所述装置包括：

交互操作控制模块，用于获取所述视线落点的停留时间，控制鼠标光标在所述注视区域内执行与所述停留时间所对应的交互操作；

所述装置还包括模型训练模块，所述模型训练模块包括：

眼球数据集构建单元，用于根据若干所述样本眼部图像，确定每一个样本眼部图像中的眼球的位置信息，基于确定出眼球的位置信息，得到每一个所述样本眼部图像的眼球运动信息，并对所述眼球运动信息进行标签处理，得到具有眼球运动标签的眼球数据集；

视线估计模型确定单元，用于基于所述网络模型，建立用于对头部姿态信息的视线坐标和眼球运动信息的眼睛坐标进行转换与编码的神经网络层，得到所述视线估计模型；

所述注视区域确定模块包括：

区域确定单元，用于基于所述视线方向，确定在显示屏上与所述视线方向所对应注视区域；

所述区域确定单元，包括：

所述交互操作控制模块包括：

操作单元，用于若所述停留时间与所述时间范围匹配成功，则控制所述鼠标光标在所述注视区域内执行所述时间范围所对应的交互操作，其中，所述交互操作包括：滑动页面、文字键入以及页面放大；

5.一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的基于视线估计的交互程序，所述处理器执行所述基于视线估计的交互程序时，实现如权利要求1-3任一项所述的基于视线估计的交互方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于视线估计的交互程序，所述基于视线估计的交互程序被处理器执行时，实现如权利要求1-3任一项所述的基于视线估计的交互方法的步骤。