CN116052235B

CN116052235B - 注视点估计方法及电子设备

Info

Publication number: CN116052235B
Application number: CN202210606862.3A
Authority: CN
Inventors: 邸皓轩; 李丹洪; 谢字希
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-10-20
Anticipated expiration: 2042-05-31
Also published as: CN116052235A

Abstract

本申请公开了一种注视点估计方法及电子设备，涉及终端领域，该方法包括：第一电子设备接收到第一注视点估计模型。第一电子设备接收并响应于第一用户的第一输入，通过第一摄像头拍摄到包括第一用户人脸的第一图像及第一用户在显示屏上选中的位置。第一用户在显示屏上选中的位置用于表示第一电子设备拍摄到第一图像时第一用户的注视位置。第一电子设备基于第一注视点估计模型、第一图像和第一用户在显示屏上选中的位置，训练出第二注视点估计模型。当第一用户与第一电子设备进行视线交互时，第一电子设备基于第二注视点估计模型，确定出第一用户的视线聚焦于显示屏上的第一位置，第一电子设备基于第一位置执行第一指令。

Description

注视点估计方法及电子设备

技术领域

本申请涉及终端领域，尤其涉及一种注视点估计方法及电子设备。

背景技术

随着终端技术的发展以及设备交互技术的成熟，用户逐渐脱离鼠标键盘输入或者触摸显示屏以控制电子设备执行相应指令等传统的交互方式，开始探索更为方便的人机交互方法，例如基于视线交互、语音交互或手势交互等方式来控制电子设备。在上述视线交互方法中，电子设备可以基于用户的眼球运动确定出相应的控制指令，以执行用户的意图操作。然而，在当前的视线交互技术领域，用户的视线估计需要借助头戴式设备获取眼球运动的信息，因此，该视线交互方法的应用场景不够广泛，操作十分繁琐，眼球运动信息的获取方式也较为复杂。

发明内容

本申请提供了一种注视点估计方法及电子设备，实现了第一电子设备不需要借助除第一电子设备外的其他设备(例如前述的头戴式设备)即可确定出用户针对电子设备100上显示屏的视线聚焦位置，应用场景更为广泛，且操作十分方便，极大地提升了电子设备100的计算效率，节约了电子设备100的计算资源。

第一方面，本申请提供了一种注视点估计方法，应用于包括第一摄像头和显示屏的第一电子设备上，所述第一摄像头和所述显示屏位于所述第一电子设备的同一侧，该方法包括：所述第一电子设备接收到第一注视点估计模型；所述第一注视点估计模型用于从人脸图像中确定出用户的注视方向；所述第一电子设备接收到第一用户的第一输入；响应于所述第一输入，所述第一电子设备通过所述第一摄像头拍摄到第一图像，及所述第一用户在所述显示屏上选中的位置；其中，所述第一图像包括第一用户的人脸图像，所述第一用户在所述显示屏上选中的位置用于表示，所述第一电子设备通过所述第一摄像头拍摄到所述第一图像时所述第一用户的实际注视位置；所述第一电子设备基于所述第一注视点估计模型、所述第一图像所述第一用户在所述显示屏上选中的位置，训练出第二注视点估计模型；当所述第一用户与所述第一电子设备进行视线交互时，所述第一电子设备基于所述第二注视点估计模型，确定出所述第一用户的视线聚焦于所述显示屏上的第一位置；当所述第一电子设备确定出所述第一位置位于所述显示屏的预设区域时，所述电子设备执行第一指令。

在一种可能的实现方式中，所述第一注视点估计模型是基于第二电子设备采集到的训练数据训练得出的模型；其中，所述训练数据包括：所述第二用户的图像、所述第二用户的实际注视方向、所述第三用户的图像和所述第三用户的实际注视方向。

在一种可能的实现方式中，所述第一输入为：所述第一用户针对于所述显示屏的触摸操作、所述第一用户针对所述第一电子设备的语音输入或所述第一用户针对所述第一电子设备的手势输入。

在一种可能的实现方式中，所述第一电子设备接收到第一用户的第一输入之前，所述方法还包括：所述第一电子设备显示出第一提示信息，所述第一提示信息用于提示所述第一用户点击所述显示屏。

在一种可能的实现方式中，当所述第一用户与所述第一电子设备进行视线交互时，所述第一电子设备基于所述第二注视点估计模型，确定出所述第一用户的视线聚焦于所述显示屏上的第一位置，具体包括：所述第一电子设备通过所述第一摄像头采集到所述第一用户的第二图像，所述第二图像包括所述第一用户的人脸图像；所述电子设备基于所述第二注视点估计模型和所述第二图像，确定出所述第一用户的视线聚焦于所述显示屏上的第一位置；所述电子设备基于所述第一位置执行第一指令。

在一种可能的实现方式中，所述第一指令为：显示通知界面、打开指定应用或显示桌面界面。

第二方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器和显示屏；所述一个或多个存储器与一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行上述第一方面任一项可能的实现方式中的方法。

第三方面，本申请实施例提供了一种计算机可读存储介质，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行上述第一方面任一项可能的实现方式中的方法。

第四方面，本申请实施例提供了一种芯片或芯片系统，包括处理电路和接口电路，所述接口电路用于接收代码指令并传输至所述处理电路，所述处理电路用于运行所述代码指令以执行上述第一方面任一项可能的实现方式中的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行上述第一方面任一项可能的实现方式中的方法。

附图说明

图1A为本申请实施例提供的一种应用场景示意图；

图1B为本申请实施例提供的一种用户界面示意图；

图2为本申请实施例提供的一种注视点估计方法的具体流程示意图；

图3A为本申请实施例提供的一种注视特征向量提取的流程示意图；

图3B为本申请实施例提供的一种模型训练图；

图3C-图3G为本申请实施例提供的一组用户界面示意图；

图3H为本申请实施例提供的一种电子设备配置的示意图；

图3I为本申请实施例提供的一种应用场景示意图；

图3J为本申请实施例提供的一种用户图像示意图；

图3K为本申请实施例提供的一种电子设备基于用户注视位置执行指令的示意图；

图4为本申请实施例提供的一种电子设备的软件模块示意图；

图5为本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请得到说明书和所附权利要书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指包含一个或多个所列出醒目的任何或所有可能组合。在本申请实施例中，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在一些应用场景中，电子设备可以不必接收用户针对于显示屏的触摸操作和/或用户基于键盘/鼠标的输入，而是基于用户视线聚焦在显示屏上的坐标位置(也可以被称为用户的注视位置)确定出相应的控制指令，以执行用户的意图操作。上述交互方式可以被称为视线交互方式。

示例性的，以电子设备基于视线交互方式显示出通知界面为例，具体说明上述视线交互方式的适用场景。其中，该通知界面指的是：可以显示出电子设备接收到的一个或多个通知消息的用户界面。如图1A所示，用户可以佩戴眼镜110并注视电子设备100的显示屏。该电子设备100可以显示出桌面1001。该桌面1001中可以显示有一个或多个应用图标和状态栏区域1001A。其中，一个或多个应用图标可以包括天气应用图标、股票应用图标、计算器应用图标、设置应用图标、邮件应用图标、主题应用图标、日历应用图标和视频应用图标等，状态栏区域1001A可以包括移动通信信号(又可以称为蜂窝信号)的一个或多个信号强度指示符、无线保真(wireless fidelity，Wi-Fi)信号的信号强度指示符、电池状态指示符、时间指示符等等。可选的，桌面1001还可以包括页面指示符和托盘图标区域。其中，页面指示符可以用于表明当前显示的页面与其他页面的位置关系。托盘图标区域包括有多个托盘图标(例如拨号应用图标、信息应用图标、联系人应用图标、相机应用图标等等)，托盘图标在页面切换时保持显示。上述页面也可以包括多个应用图标和页面指示符，页面指示符可以不是页面的一部分而单独存在，上述托盘图标也是可选的，本申请实施例对此不作限制。

如图1A所示，电子设备100(也即是上述的电子设备)可以通过用户佩戴的眼镜110确定出用户的视线所注视的显示屏的位置。此时，用户视线所注视的显示屏的位置为状态栏区域1001A。响应于该视线交互操作，电子设备100可以显示出通知界面。

如图1B所示，电子设备100可以显示出通知界面1002。该通知界面1002可以显示出一个或多个通知栏，各通知栏中可以显示出对应的通知消息。例如，图1B中的通知栏1002A，可以显示出信息应用的通知消息；通知栏1002B可以显示出天气应用的通知消息；通知栏1002C可以显示出系统更新的通知消息。

然而，通过上述图1A-图1B所示的场景可以看出，在该实施例所示出的视线交互方式中，电子设备需要借助头戴式设备(例如，图1A所示的眼镜110)确定出用户视线所注视的显示屏的位置，然后才使得电子设备基于上述确定出的显示屏的位置执行相应的操作。因此，上述视线交互方式的应用场景不够广泛，操作十分繁琐，且电子设备获取用户眼球运动信息的方式也较为复杂。

因此，本申请提供了一种注视点估计方法。该方法可以应用于手机、平板电脑等电子设备。实施上述方法的手机、平板电脑等电子设备可以被称为电子设备100。后续实施例中将以电子设备100指代上述手机、平板电脑等电子设备。

不限于手机、平板电脑，电子设备100还可以是桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对上述电子设备的具体类型不作特殊限制。

具体的，在该注视点估计方法中，电子设备200可以获取到多个用户的多张图像，并基于该多个用户的多张图像确定出第一注视点估计模型。电子设备200可以将该第一注视点估计模型发送给电子设备100。当电子设备100需要与第一用户进行视线交互之前，电子设备100可以获取到第一用户的图像及其对应的实际注视点坐标。电子设备100可以基于第一用户的图像通过第一注视点估计模型得到预测注视点坐标。电子设备100可以基于该预测注视点坐标和对应的实际注视点坐标，将第一注视点估计模型调整为可以适用于第一用户的第二注视点估计模型。然后，当电子设备100与第一用户进行视线交互时，电子设备100可以通过第一摄像头采集到第一用户的图像4，并基于该图像4和第二注视点估计模型，确定出第一用户的视线聚焦于电子设备100显示屏上的第一位置。电子设备100可以基于该第一位置执行对应的第一指令。

下面，介绍本申请提供的一种注视点估计方法的具体流程。

结合图2所示的流程示意图以及图3A-图3K所示的应用场景示例，具体说明本申请提供的注视点估计方法的实施流程以及适用于该方法的应用场景。

如图2所示，该视线估计方法的具体流程可以为：

阶段一：基于多个用户的图像，确定出第一注视点估计模型。

S201、电子设备200(也可以被称为第二电子设备)获取到多个用户的多张图像。

具体的，电子设备200可以通过与电子设备200进行通信的服务器、电子设备200的摄像头，和/或与电子设备200进行通信的其他电子设备获取到多个用户的多张图像。每个用户对应有指定数量(例如，5张、10张等)的图像，每张图像包括有关联用户的人脸图像。其中，电子设备200的硬件结构可以与电子设备100的硬件结构相同，关于电子设备100的硬件结构的说明，后续实施例将详细描述，在此先不赘述。

示例性的，电子设备200通过与电子设备200进行通信的服务器、电子设备200的摄像头，和/或与电子设备200进行通信的其他电子设备获取到了多个用户的多张图像。多个用户中可以包括：用户A、用户B、用户C和用户D。其中，用户A可以对应有15张图像，用户B可以对应有15张图像，用户C可以对应有15张图像，用户D可以对应有15张图像。用户A所对应的15张图像中，每张图像可以包括用户A的人脸图像；用户B所对应的15张图像中，每张图像可以包括用户B的人脸图像；用户C所对应的15张图像中，每张图像可以包括用户C的人脸图像；用户D所对应的15张图像中，每张图像可以包括用户D的人脸图像。

在一些示例中，各个用户对应的图像数量也可以不相同。例如，用户A可以对应有15张图像，用户B可以对应有20张图像，用户C可以对应有25张图像。各图像包括有关联用户的人脸图像。也即是说，本申请实施例对各用户图像数量的选取不作限制。

S202、电子设备200基于多个用户的多张图像，提取出各张图像对应的注视特征向量。

示例性的，如图3A所示，以多张图像中的单张图像A为例，详细说明电子设备200提取出各张图像中对应用户的注视特征向量的具体过程。其他图像的处理方式与该图像A的处理方式相同。

电子设备200可以基于指定算法1提取出图像A上对应用户的多个关键点。上述多个关键点可以包括：左眼关键点、右眼关键点和除眼睛外的人脸关键点。除眼睛外的人脸关键点可以包括：鼻子、左唇角、右唇角、额头、下颌等一个或多个部位的关键点。其中，上述各关键点可以用于表征脸部的形状和各五官位于脸部的位置。指定算法1可以是：dlib人脸关键点检测算法、通用人脸3D模型关键点检测算法、基于Kinect的人脸关键点识别算法等。

然后，电子设备200可以基于卷积通道和空间注意力机制算法，从上述多个关键点中提取出用户的面部特征信息、左眼特征信息和右眼特征信息。上述各特征信息可以基于对应的向量进行表示。其中，左眼特征信息可以用于表征用户左眼的大小、形状、睁开/闭合程度等特征信息；右眼特征信息可以用于表征用户右眼的大小、形状、睁开/闭合程度等特征信息；面部特征信息可以用于表征用户脸部大小、脸部形状、五官分布位置等特征信息。并且，基于空间注意力机制算法，在电子设备200通过上述各特征信息得到注视特征向量的计算过程中，比起面部特征信息，电子设备200可以赋予左眼特征信息和右眼特征信息更大的权重。

接下来，电子设备200可以基于注意力特征融合(attention feaurefusion，AFF)、双眼特征融合网络(binocularfeaturefusionnetwork，BFFN)、特征信息拼接、特征信息求和等方式将左眼特征信息和右眼特征信息进行特征融合，获取到双眼融合特征。需要说明的是，本申请实施例并不对左眼特征信息和右眼特征信息进行特征融合的方式作任何限制。然后，电子设备200可以将双眼融合特征和面部特征信息输入至全连接层((fullyconnected layers，FC)中，获取到图像A对应的注视特征向量。该注视特征向量可以用于表征图像A上用户的视线方向。

电子设备200对于其他图像的处理方式可以与图像A的处理方式相同。这样，电子设备200可以基于多个用户的多张图像，提取出各张图像中对应用户的注视特征向量。

从上述流程中可以看出，电子设备200引入卷积通道和空间注意力机制算法，可以提高与注视点估计有关的左眼特征信息和右眼特征信息在计算过程中重要性，并抑制与注视点估计无关的信息，从而提高注视点估计的计算精度。同时，也可以使得提取出的特征信息更具有用户个人的特质；电子设备200将左眼特征信息和右眼特征信息进行特征融合，获取到双眼融合特征，可以消除双眼非对称性对注视点估计的影响，提高注视点估计的计算精度。

S203、电子设备200基于各张图像中对应用户的注视特征向量，确定出第一注视点估计模型。

具体的，电子设备200可以通过元学习算法，基于各张图像中对应用户的注视特征向量确定出第一注视点估计模型。该第一注视点估计模型可以用于从人脸图像中确定出用户的注视方向。

示例性的，本申请实施例以与模型无关的元学习算法(model agnostic metalearning，MAML)为例，具体说明电子设备200基于各张图像中对应用户的注视特征向量，确定出第一注视点估计模型的实施过程。该实施过程可以如下：

1).初始化第一注视点估计模型中的参数。

具体的，第一注视点估计模型的网络结构可以是神经网络结构。其中，神经网络结构可以是循环神经网络(recurrent neural networks，RNN)、深度神经网络(deep neuralnetworks，DNN)、双路径循环神经网络(dual-pathrecurrent neural networks，DPRNN)等等。本申请对此并不作限制。初始化第一注视点估计模型中的参数指的是：电子设备200可以随机生成一组参数，并将该随机生成的参数作为第一注视点估计模型中的初始参数。

2).基于不同的用户将获取到的多张图像划分成不同的任务类别。

具体的，电子设备200可以基于不同的用户，将获取到的多张图像划分为：多个训练任务、一个或多个测试任务。每个任务中的图像可以被划分为：训练图像集和测试图像集。训练图像集中图像的数量和测试图像集中图像的数量可以相同，也可以不相同。

示例性的，以前述电子设备200在步骤S201所得的用户A、用户B、用户C和用户D的图像为例。电子设备200可以将用户A的15张图像划分为训练任务1，将用户B的15张图像划分为训练任务2，将用户C的15张图像划分为训练任务3，将用户D的15张图像划分为测试任务1。其中，训练任务1中包含7张图像的训练图像集和8张图像的测试图像集；训练任务2中包含8张图像的训练图像集和7张图像的测试图像集；训练任务3中包含5张图像的训练图像集和10张图像的测试图像集；测试任务1中包含6张图像的训练图像集和9张图像的测试图像集。

3).基于多个训练任务中的图像，调整第一注视点估计模型中的初始参数。

具体的，在电子设备200获取到多个用户的多张图像时，电子设备200也可以获取到每张图像对应的用户的实际注视点坐标。该实际注视点坐标用于表示用户的实际注视方向。并且，每张图像已经基于前述步骤S202获取到对应的注视特征向量。针对多个训练任务中的每个任务，电子设备200可以实施如下流程：

a.将各训练任务的训练图像集中每张图像的注视特征向量输入到第一注视点估计模型，得到每张图像对应的预测注视点坐标。各训练任务对应的第一注视点估计模型中的参数都为m。若是第一次执行流程，该m即是前述的初始参数。

b.基于训练图像集中每张图像对应的预测注视点坐标、实际注视点坐标和指定的损失函数形式(例如，交叉熵损失函数或均方差损失函数等)，计算得出每个训练任务的损失函数及该损失函数对于第一注视点估计模型中参数m的梯度。

c.基于步骤b中计算出的梯度值和前述的参数m，对每个任务使用一次梯度下降算法以更新第一注视点估计模型中参数m的值，得到更新后每个训练任务对应的第一注视点估计模型。也即是说，对于不同的训练任务，第一注视点估计模型中的参数值也不同。

d.将各训练任务测试图像集中每张图像的注视特征向量输入到对应训练任务的第一注视点估计模型中，得到每张图像对应的预测注视点坐标。

e.基于测试图像集中每张图像对应的预测注视点坐标、实际注视点坐标和步骤b)

中指定的损失函数形式，计算得出每个训练任务的损失函数。

f.将步骤e)中各训练任务的损失函数进行加和，计算出该损失函数加和对于前述步骤a)第一注视点估计模型中参数m的梯度，并基于梯度下降算法和参数m调整第一注视点估计模型。

g.重复步骤a-步骤f，将使得步骤f中损失函数的加和最小化时的最优参数，作为步骤a)第一注视点估计模型中参数m的最终值。

示例性的，如图3B所示，以前述电子设备200在步骤S201所得的用户A、用户B、用户C和用户D的图像为例。上述图像已基于步骤2)进行处理。其中，m为步骤a)中第一注视点估计模型中的参数。基于步骤a)-步骤b)，训练任务1可以得到损失函数1(也即是图中的Loss1)；训练任务2可以得到损失函数2(也即是图中的Loss2)；训练任务3可以得到损失函数3(也即是图中的Loss3)。然后，基于步骤c)，训练任务1可以得到包含参数n1的第一注视点估计模型；训练任务2可以得到包含参数n2的第一注视点估计模型；训练任务3可以得到包含参数n3的第一注视点估计模型。n1、n2和n3不同。接下来，经过步骤d)-步骤e)的执行，电子设备200基于训练任务1中的测试图像集和其对应的第一注视点估计模型，得到训练任务1对应的损失函数K1(也即是图中的LossK1)；基于训练任务2中的测试图像集和其对应的第一注视点估计模型，得到训练任务1对应的损失函数K2(也即是图中的LossK2)；基于训练任务3中的测试图像集和其对应的第一注视点估计模型，得到训练任务3对应的损失函数K3(也即是图中的LossK3)。然后，经过步骤f)-步骤g)的执行，电子设备200基于上述各训练任务的损失函数LossK1、LossK2、LossK3的加和Loss(m)，对第一注视点估计模型中的参数m进行调整，并获取到其最终值。

关于MAML算法的具体细节实现可以参考现有技术中的说明，在此不再赘述。

4).基于测试任务中的图像调整步骤3)计算所得的参数，确定出第一注视点估计模型。

具体的，该步骤中的实施方式可以参考步骤3)中的流程，在此不再赘述。在一些示例中，该步骤可以调整步骤3)计算所得的部分参数(也即是现有技术fine-truing)，以确定出第一注视点估计模型。这样，可以提升电子设备200的参数调整效率。

示例性的，以前述电子设备200在步骤S201所得的用户A、用户B、用户C和用户D的图像为例。本示例可以基于测试任务1来调整步骤3)中基于训练任务1、训练任务2和训练任务3计算所得的参数。具体实现过程可以参照前述说明，在此不再赘述。

在一些示例中，电子设备200还可以通过其他的元学习算法，基于各张图像中对应用户的注视特征向量确定出第一注视点估计模型。也即是说，电子设备200使用何种算法确定出第一注视点估计模型，本申请实施例不作限制。

阶段二：基于第一用户的图像和第一注视点估计模型，确定出第二注视点估计模型。

S204、电子设备100(也可以被称为第一电子设备)从电子设备200侧获取到第一注视点估计模型。

具体的，当电子设备200基于前述步骤确定出第一注视点估计模型后，电子设备200可以将该第一注视点估计模型发送给电子设备100。电子设备100接收到第一注视点估计模型后，可以将该第一注视点估计模型存储在本设备中，以便于后续电子设备100可以基于该第一注视点估计模型，确定出第二注视点估计模型。

S205、电子设备100接收到第一用户的第一输入。

具体的，该第一输入可以是第一用户针对于电子设备100显示屏上的触摸操作(例如，点击)，也可以是第一用针对于电子设备100的语音输入，也可以是第一用户针对于电子设备100的手势输入，本申请对此不作限制。

示例性的，以图3C-图3E所示的应用场景为例，说明该步骤中电子设备100接收到第一输入的过程。

如图3C所示，电子设备100可以显示出桌面30。该桌面30中可以显示有一个或多个应用图标。其中，该一个或多个应用图标可以包括天气应用图标、股票应用图标、计算器应用图标、设置应用图标301、邮件应用图标、主题应用图标、日历应用图标和视频应用图标等。可选的，桌面30中还可以显示有状态栏、页面指示符和托盘图标区域。其中，状态栏可以包括移动通信信号(又可以称为蜂窝信号)的一个或多个信号强度指示符、无线保真(wireless fidelity，Wi-Fi)信号的信号强度指示符、电池状态指示符、时间指示符等等。页面指示符可以用于表明当前显示的页面与其他页面的位置关系。托盘图标区域包括有多个托盘图标(例如拨号应用图标、信息应用图标、联系人应用图标、相机应用图标等等)，托盘图标在页面切换时保持显示。上述页面也可以包括多个应用图标和页面指示符，页面指示符可以不是页面的一部分而单独存在，上述托盘图标也是可选的，本申请实施例对此不作限制。

电子设备100可以接收到用户作用于设置应用图标301上的触摸操作(例如，点击)，响应于该触摸操作，电子设备100可以显示出设置界面。

如图3D所示，电子设备100可以显示出设置界面31。该设置界面31可以显示有多个设置选项，包括视线交互选项311等。该视线交互选项311对应有控件311A。此时，控件311A处于关闭状态，表征用户并未开启视线交互方式。电子设备100接收到用户作用于控件311A上的触摸操作(例如，点击)。响应于该触摸操作，电子设备100可以显示出视线交互设置界面。

在一些示例中，电子设备100可以显示出第一提示信息，用于提示第一用户点击显示屏。如图3E所示，电子设备100可以显示出视线交互设置界面32。该视线交互设置界面32可以显示出第一提示信息“正在校准……请注视并点击显示屏上的任意位置”。第一用户可以注视并点击黑色坐标点A1处。该第一用户点击黑色坐标点A1的输入可以被称为第一输入。

S206、电子设备100响应于第一输入，获取到第一用户的第一图像及第一用户的实际注视位置。

具体的，电子设备100可以响应于第一输入，通过第一摄像头拍摄到第一图像，并获取到第一用户在显示屏上选中的位置。第一用户在显示屏上选中的位置用于表示第一电子设备拍摄到第一图像时第一用户的实际注视位置。

示例性的，以前述图3C-图3E所示的应用场景为例，当电子设备100接收到第一用户点击黑色坐标点A1的第一输入时，电子设备100可以通过前置摄像头120(也可以被称为第一摄像头)拍摄到第一用户的第一图像，并获取到黑色坐标点A1的坐标。该黑色坐标点A1即是第一用户在显示屏上选中的位置，用于表示电子设备100拍摄到第一图像时第一用户的实际注视位置。

S207、电子设备100基于第一注视点估计模型，通过第一用户的第一图像及第一用户的实际注视位置，确定出第二注视点估计模型。

具体的，电子设备100可以基于S202的实施方式，从第一用户的第一图像中提取出对应的注视特征向量。然后，电子设备100可以将该注视特征向量输入至第一注视点估计模型，得到第一用户的预测注视位置。电子设备100可以基于该第一用户的预测注视位置和第一用户的实际注视位置计算得出损失函数。电子设备100可以基于该损失函数更新第一注视点估计模型中的全部或部分参数，以确定出第二注视点估计模型。其中，该损失函数可以是交叉熵损失函数或均方差损失函数等，本申请对此不作限制。

示例性的，以前述图3C-图3E所示的应用场景为例。电子设备100已获取到第一图像。电子设备100可以基于S202的实施方式，从第一图像中提取出对应的注视特征向量。然后，电子设备100可以将该注视特征向量输入至第一注视点估计模型，得到第一用户的预测注视位置B1。电子设备100可以基于B1和第一用户的实际注视位置A1，计算得出损失函数。电子设备100可以基于该损失函数更新第一注视点估计模型中全部或部分参数，以确定出适用于第一用户的第二注视点估计模型。

示例性的，如图3F所示，在电子设备100基于第一注视点估计模型、第一用户的第一图像和第一用户的实际注视位置确定第二注视点估计模型的过程中，电子设备100可以显示出用户界面33。该用户界面33可以显示出提示文本“正在校准中……”。

示例性的，如图3G所示，在电子设备100确定出第二注视点估计模型后，电子设备100可以显示出设置界面31。该设置界面31上的控件311A此时可以处于开启状态，表征用户已开启视线交互方式。后续可以基于第二注视点估计模型确定出用户的注视位置并执行相应的指令。

在一些示例中，第一用户也可以依次点击显示屏上的多个位置。响应于第一用户的点击输入，电子设备100可以获取到第一用户点击各位置时的图像以及各位置的坐标。例如，第一用户可以依次点击黑色坐标点A1、黑色坐标点A2和黑色坐标点A3。电子设备100可以通过前置摄像头获取到第一用户点击黑色坐标点A1时的图像1、点击黑色坐标点A2时的图像2、点击黑色坐标点A3时的图像3。同时，电子设备100可以获取到A1、A2和A3的坐标。其中，A1为图像1对应的实际注视位置，A2为图像2对应的实际注视位置，A3为图像3对应的实际注视位置。电子设备100基于第一注视点估计模型，通过图像1、图像2、图像3、A1的坐标、A2的坐标、A3的坐标确定出第二注视点估计模型的实施过程，可以参考S207的说明，在此不再赘述。

阶段三：基于第二注视点估计模型，确定出第一用户的视线聚焦于电子设备100显示屏上的第一位置。

S208、电子设备100通过第一摄像头采集到包括第一用户人脸的图像4。

在一些示例中，第一摄像头可以是电子设备100的前置摄像头。例如，如图3E所示，第一摄像头可以是电子设备100上的前置摄像头120。电子设备100可以通过前置摄像头120采集到图像4并实施本申请提供的视线估计方法，确定出第一用户的视线聚焦在与前置摄像头120同侧的显示屏(例如，显示出图3E中视线交互设置界面32的显示屏)上的第一位置。然后，电子设备100可以基于第一位置执行相应的控制指令。

在一些示例中，第一摄像头可以是电子设备100的后置摄像头。例如，如图3H所示，电子设备100可以在后盖处配置有显示屏130。该显示屏130上可以显示出用户界面34。该用户界面34可以包括移动通信信号的一个或多个信号强度指示符、Wi-Fi信号的信号强度指示符、电池状态指示符和时间指示信息等。在该示例中，第一摄像头可以是后置摄像头140。电子设备100可以通过后置摄像头140采集到图像4并实施本申请提供的视线估计方法，确定出第一用户的视线聚焦在与后置摄像头140同侧的显示屏130上的第一位置。然后，电子设备100可以基于第一位置执行相应的控制指令。

也即是说，本申请实施例对第一摄像头在电子设备100上的设置方位不作限制。

示例性的，以图3I所示第一用户注视电子设备100的应用场景为例说明该步骤。

如图3I所示，在该应用场景中第一用户可以注视电子设备100。其中，电子设备100配置有前置摄像头120(也即是第一摄像头)。此时，电子设备100可以显示出桌面30。关于该桌面30的描述可以参考前述说明，在此不再赘述。电子设备100可以通过前置摄像头120采集到图像4(也可以被称为第二图像)。

如图3J所示，该图像4可以包括第一用户的人脸图像区域H。

S209、电子设备100从图像4中提取出注视特征向量。

具体的，该步骤的实施方式可以参考步骤S202中的说明，在此不再赘述。

S210、电子设备100基于第二注视点估计模型和图像4的注视特征向量，确定出第一用户的视线聚焦于电子设备100显示屏上的第一位置。

S211、电子设备100基于第一位置执行第一指令。

具体的，当电子设备100确定出第一位置位于显示屏的预设区域时，电子设备100执行第一指令。

示例性的，如图3K所示，以图3I示出的第一用户注视电子设备100的应用场景为例，在电子设备100执行了步骤S208-S210的流程后，电子设备100可以确定出第一用户注视显示屏上的第一位置p(u,v)。该第一位置p位于桌面30上的预设区域，即状态栏区域。电子设备100可以基于该第一位置执行第一指令，该第一指令可以是电子设备100显示出通知界面。如图3K所示，电子设备100可以显示出通知界面35。该通知界面35可以显示出一个或多个通知栏，各通知栏中可以显示出对应的通知消息。

在一些示例中，第一位置还可以是除状态栏区域外的其他预设区域。电子设备100基于第一位置执行的第一指令还可以是除显示通知界面外的其他操作，例如打开指定应用、显示桌面界面等。本申请对此不作限制。

从上述流程中可以看出，实施本申请提供的注视点估计方法，电子设备100可以不需要获取人眼的立体几何结构，也不需要获取摄像头的内外参数，计算简单方便；电子设备100基于空间注意力机制提取特征信息，使得特征信息更符合用户的个人特质；电子设备100先获取到泛化能力强的第一注视点估计模型，再基于该第一注视点估计模型针对特定用户进行校准训练，得到可以应用于该特定用户的第二注视点估计模型，使得模型的精度更高，应用于新用户时其注视点的计算效果更好。

接下来，介绍本申请提供的一种电子设备100的硬件结构。

请参考图4，图4示例性示出了一种电子设备100的硬件结构示意图。

电子设备100可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmentedreality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificialintelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对该电子设备100的具体类型不作特殊限制。

如图4所示，电子设备100可以包括处理器501、存储器502、无线通信模块503、显示屏504、摄像头505、音频模块506和扬声器507。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100还可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合来实现。

处理器501可以包括一个或多个处理器单元，例如处理器501可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器501中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器501中的存储器为高速缓冲存储器。该存储器可以保存处理器501刚用过或循环使用的指令或数据。如果处理器501需要再次使用该指令或数据，可以从所述存储器中直接调用。避免了重复存取，减少了处理器501的等待时间，因而提高了系统的效率。

在一些实施例中，处理器501可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或USB接口等。

存储器502与处理器501耦合，用于存储各种软件程序和/或多组指令。具体实现中，存储器502可以包括易失性存储器(volatile memory)，例如随机存取存储器(randomaccessmemory，RAM)；也可以包括非易失性存储器(non-vlatile memory)，例如ROM、快闪存储器(flash memory)、硬盘驱动器(Hard Disk Drive，HDD)或固态硬盘(SolidState Drives，SSD)；存储器502还可以包括上述种类的存储器的组合。存储器502还可以存储一些程序代码，以便于处理器501调用存储器502中存储的程序代码，以实现本申请实施例在电子设备100中的实现方法。存储器502可以存储操作系统，例如uCOS、VxWorks、RTLinux等嵌入式操作系统。

无线通信模块503可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块503可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块503经由天线接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器501。无线通信模块503还可以从处理器501中接收待发送的信号，对其进行调频、放大，经天线转为电磁波辐射出去。在一些实施例中，电子设备100还可以通过无线通信模块503中的蓝牙模块(图4未示出)、WLAN模块(图4未示出)发射信号探测或扫描在电子设备100附近的设备，并与该附近的设备建立无线通信连接以传输数据。其中，蓝牙模块可以提供包括经典蓝牙(basic rate/enhanceddatarate，BR/EDR)或蓝牙低功耗(bluetooth low energy，BLE)中一项或多项蓝牙通信的解决方案，WLAN模块可以提供包括Wi-Fi direct、Wi-Fi LAN或Wi-Fi softAP中一项或多项WLAN通信的解决方案。

显示屏504可以用于显示图像、视频等。显示屏504可以包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dotlight emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏504，N为大于1的正整数。

摄像头505可以用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些示例中，电子设备100可以包括1个或N个摄像头505，N为大于1的正整数。

音频模块506可以用于将数字音频信息转换成模拟音频信号输出，也可以用于将模拟音频输入转换成数字音频信号。音频模块506还可以用于对音频信号编码和解码。在一些实施例中，音频模块506还可以设置于处理器501中，或将音频模块506的部分功能模块设置于处理器501中。

扬声器507，也可以称为“喇叭”，用于将音频电信号转换成为声音信号。电子设备100可以通过扬声器507收听音乐，或收听免提电话。

电子设备100还可以包括传感器模块(图4未示出)和/或触摸传感器(图4未示出)。触摸传感器也可以称为“触控器件”。触摸传感器可以设置于显示屏504，由触摸传感器与显示屏504组成触摸屏，也称“触控屏”。触摸传感器可以用于检测作用于其上或附近的触摸操作。可选的，传感器模块还可以包括有陀螺仪传感器(图4未示出)、加速度传感器(图4未示出)等等。其中，陀螺仪传感器可以用于确定电子设备100的运动姿态，在一些实施例中，电子设备100可以通过陀螺仪传感器确定出电子设备100围绕三个轴(即，x，y和z轴)的角速度。加速度传感器可以用于检测电子设备100在各个方向上(一般为x，y和z轴)的加速度大小，当电子设备100静止时也可以检测出重力的大小及方向。

电子设备100还可以包括移动通信模块(图4未示出)。该移动通信模块可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。

需要说明的是，图4中示出的电子设备100仅仅用于示例性解释本申请所提供的电子设备的硬件结构，并不对本申请构成具体限制。

下面，介绍本申请提供的一种软件模块结构及其交互。

请参考图5，图5示例性示出了一种软件模块结构及其交互示意图。

如图5所示，电子设备可以200包括：图像数据库601、特征提取模块602和注视点估计模型训练模块603。电子设备100可以包括：注视点估计模型校准模块604、特征提取模块605和注视点估计模块606。其中：

图像数据库601可以用于电子设备200存储从服务器、电子设备200的摄像头，和/或与电子设备200进行通信的其他电子设备所获取到的多个用户的多张图像。具体说明可以参考前述图2所示实施例，在此不再赘述。

特征提取模块602可以用于电子设备200基于多个用户的多张图像，提取出各张图像对应的注视特征向量。具体说明可以参考前述图2所示实施例，在此不再赘述。

注视点估计模型训练模块603可以用于电子设备200基于各张图像中对应用户的注视特征向量，确定出第一注视点估计模型。具体说明可以参考前述图2所示实施例，在此不再赘述。

当电子设备200基于注视点估计模型训练模块603确定出第一注视点估计模型后，电子设备200可以将第一注视点估计模型发送给电子设备100。

注视点估计模型校准模块604可以用于电子设备100获取到第一用户的图像及对应的实际注视点坐标，并基于该第一用户的图像及对应的实际注视点坐标校准第一注视点估计模型，确定出适用于第一用户的第二注视点估计模型。具体说明可以参考前述图2所示实施例，在此不再赘述。

特征提取模块605可以用于电子设备100提取出第一用户的图像对应的注视特征向量。具体说明可以参考前述图2所示实施例，在此不再赘述。

注视点估计模块606可以用于电子设备100基于第二注视点估计模型，确定出第一用户的视线聚焦于电子设备100显示屏上的第一位置。然后，电子设备100基于该第一位置执行对应的第一指令。具体说明可以参考前述图2所示实施例，在此不再赘述。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种注视点估计方法，应用于包括第一摄像头和显示屏的第一电子设备上，所述第一摄像头和所述显示屏位于所述第一电子设备的同一侧，其特征在于，所述方法包括：

所述第一电子设备接收到第一注视点估计模型；所述第一注视点估计模型用于从人脸图像中确定出用户的注视方向；

所述第一电子设备接收到第一用户的第一输入；

响应于所述第一输入，所述第一电子设备通过所述第一摄像头拍摄到第一图像，及所述第一用户在所述显示屏上选中的位置；其中，所述第一图像包括第一用户的人脸图像，所述第一用户在所述显示屏上选中的位置用于表示，所述第一电子设备通过所述第一摄像头拍摄到所述第一图像时所述第一用户的实际注视位置；

所述第一电子设备利用所述第一注视点估计模型，基于所述第一图像计算出所述第一用户的预测注视位置；

所述第一电子设备基于所述第一用户的预测注视位置和所述第一用户在所述显示屏上选中的位置，更新所述第一注视点估计模型中的全部或部分参数，训练出第二注视点估计模型；

当所述第一用户与所述第一电子设备进行视线交互时，所述第一电子设备基于所述第二注视点估计模型，确定出所述第一用户的视线聚焦于所述显示屏上的第一位置；

当所述第一电子设备确定出所述第一位置位于所述显示屏的预设区域时，所述电子设备执行第一指令。

2.根据权利要求1所述的方法，其特征在于，所述第一注视点估计模型是基于第二电子设备采集到的训练数据训练得出的模型；其中，所述训练数据包括：第二用户的图像、所述第二用户的实际注视方向、第三用户的图像和所述第三用户的实际注视方向。

3.根据权利要求1所述的方法，其特征在于，所述第一输入为：

所述第一用户针对于所述显示屏的触摸操作、所述第一用户针对所述第一电子设备的语音输入或所述第一用户针对所述第一电子设备的手势输入。

4.根据权利要求1所述的方法，其特征在于，所述第一电子设备接收到第一用户的第一输入之前，所述方法还包括：

所述第一电子设备显示出第一提示信息，所述第一提示信息用于提示所述第一用户点击所述显示屏。

5.根据权利要求1所述的方法，其特征在于，当所述第一用户与所述第一电子设备进行视线交互时，所述第一电子设备基于所述第二注视点估计模型，确定出所述第一用户的视线聚焦于所述显示屏上的第一位置，具体包括：

所述第一电子设备通过所述第一摄像头采集到所述第一用户的第二图像，所述第二图像包括所述第一用户的人脸图像；

所述电子设备基于所述第二注视点估计模型和所述第二图像，确定出所述第一用户的视线聚焦于所述显示屏上的第一位置；

所述电子设备基于所述第一位置执行第一指令。

6.根据权利要求1所述的方法，其特征在于，所述第一指令为：

显示通知界面、打开指定应用或显示桌面界面。

7.一种电子设备，其特征在于，包括：一个或多个处理器、一个或多个存储器和显示屏；所述一个或多个存储器与一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如权利要求1-6中的任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-6中的任一项所述的方法。

9.一种芯片或芯片系统，其特征在于，包括处理电路和接口电路，所述接口电路用于接收代码指令并传输至所述处理电路，所述处理电路用于运行所述代码指令以执行如权利要求1-6中任一项所述的方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行如权利要求1-6中的任一项所述的方法。