CN116052261A

CN116052261A - 视线估计方法及电子设备

Info

Publication number: CN116052261A
Application number: CN202210607974.0A
Authority: CN
Inventors: 邸皓轩; 李丹洪; 谢字希
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-05-02

Abstract

本申请公开了一种视线估计方法及电子设备，涉及终端领域，该方法包括：电子设备通过第一摄像头采集到包括第一用户人脸的第一图像。电子设备基于第一图像，确定出第一用户的视线在第一坐标系下的注视方向。电子设备基于第一用户的视线在所述第一坐标系下的注视方向和第一用户的头部相对于第一摄像头的位置与姿态，确定出第一用户在第二坐标系下的注视方向。电子设备基于第一用户在第二坐标系下的注视方向与显示屏在第二坐标系下的坐标，确定出第一用户的视线聚焦于显示屏的第一位置。当电子设备确定出第一位置位于显示屏的预设区域时，电子设备执行第一指令。

Description

视线估计方法及电子设备

技术领域

本申请涉及终端领域，尤其涉及一种视线估计方法及电子设备。

背景技术

随着终端技术的发展以及设备交互技术的成熟，用户逐渐脱离鼠标键盘输入或者触摸显示屏以控制电子设备执行相应指令等传统的交互方式，开始探索更为方便的人机交互方法，例如基于视线交互、语音交互或手势交互等方式来控制电子设备。在上述视线交互方法中，电子设备可以基于用户的眼球运动确定出相应的控制指令，以执行用户的意图操作。然而，在当前的视线交互技术领域，用户的视线估计需要借助头戴式设备获取眼球运动的信息，因此，该视线交互方法的应用场景不够广泛，操作十分繁琐，眼球运动信息的获取方式也较为复杂。

发明内容

本申请提供了一种视线估计方法及电子设备，实现了电子设备不需要借助除电子设备外的其他设备(例如前述的头戴式设备)即可确定出用户针对电子设备100上显示屏的视线聚焦位置，应用场景更为广泛，且操作十分方便，极大地提升了电子设备100的计算效率，节约了电子设备100的计算资源。

第一方面，本申请提供了一种视线估计方法，应用于包括第一摄像头和显示屏的电子设备，所述第一摄像头和所述显示屏位于所述电子设备的同一侧，该方法包括：该电子设备通过该第一摄像头采集到第一图像，该第一图像包括第一用户的人脸图像。该电子设备基于该第一图像，确定出该第一用户的视线在第一坐标系下的注视方向。其中，该第一坐标系是以该第一用户头部的预设点为原点的坐标系。该电子设备基于该第一用户的视线在该第一坐标系下的注视方向和该第一用户的头部相对于该第一摄像头的位置与姿态，确定出该第一用户在第二坐标系下的注视方向。其中，该第二坐标系是以该第一摄像头的光心为原点，该第一摄像头的光轴为坐标系Z轴的坐标系。该电子设备基于该第一用户在该第二坐标系下的注视方向与该显示屏在该第二坐标系下的坐标，确定出该第一用户的视线聚焦于该显示屏的第一位置。当该电子设备确定出该第一位置位于该显示屏的预设区域时，该电子设备执行第一指令。

在一种可能的实现方式中，该电子设备通过该第一摄像头采集到第一图像，该第一图像包括第一用户的人脸图像，具体包括：该电子设备检测该显示屏的显示状态。当该电子设备检测到该显示屏处于亮屏状态时，该电子设备通过该第一摄像头采集到第一图像，该第一图像包括第一用户的人脸图像。

在一种可能的实现方式中，该电子设备基于该第一图像，确定出该第一用户的视线在第一坐标系下的注视方向，具体包括：该电子设备对该第一图像进行畸变校正。该电子设备基于无畸变的该第一图像提取出该第一用户的人脸关键点。该电子设备基于该第一用户的人脸关键点，确定出该第一用户的头部位姿。该电子设备基于该第一用户的头部位姿，对无畸变的该第一图像进行透视变换。该电子设备基于透视变换后的该第一图像进行灰度均衡化处理，得到第一标准图像。该电子设备基于该第一标准图像，提取出该第一用户的头部特征和面部特征。该电子设备基于该第一用户的头部特征和面部特征，确定出该第一用户的视线在第一坐标系下的注视方向。

在一种可能的实现方式中，该电子设备基于该第一用户的头部位姿，对无畸变的该第一图像进行透视变换，具体包括：该电子设备基于该第一用户的头部位姿，将位于该第二坐标系下的该第一图像，变换至预设坐标系下的图像。

在一种可能的实现方式中，该第一用户的面部特征表示该第一用户双眼的位置、该第一用户双眼的睁开/闭合状态等。该第一用户的头部特征表示该第一用户的头部转动姿态。

在一种可能的实现方式中，基于该第一用户在该第二坐标系下的注视方向与该显示屏在该第二坐标系下的坐标，确定出该第一用户的视线聚焦于该显示屏的第一位置，具体包括：该电子设备确定出第一用户在该第二坐标系下的注视方向与该显示屏的交点。该电子设备确定出该交点在该第二坐标系下的三维坐标。该电子设备基于该交点在该第二坐标系下的三维坐标与第一映射关系，确定出该交点在屏幕坐标系下的二维坐标。其中，该二维坐标为第一位置的坐标，该第一映射关系用于将该第二坐标系下的坐标映射为该屏幕坐标系下的坐标。

在一种可能的实现方式中，该屏幕坐标系为：以该显示屏左上角为原点，显示屏所在平面为xoy平面的坐标系。

在一种可能的实现方式中，该第一指令为：显示通知界面、打开指定应用或显示桌面界面。

第二方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器和显示屏。该一个或多个存储器与一个或多个处理器耦合，该一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当该一个或多个处理器执行该计算机指令时，使得该电子设备执行上述第一方面任一项可能的实现方式中的方法。

第三方面，本申请实施例提供了一种计算机可读存储介质，包括计算机指令，当该计算机指令在电子设备上运行时，使得该电子设备执行上述第一方面任一项可能的实现方式中的方法。

第四方面，本申请实施例提供了一种芯片或芯片系统，包括处理电路和接口电路，该接口电路用于接收代码指令并传输至该处理电路，该处理电路用于运行该代码指令以执行上述第一方面任一项可能的实现方式中的方法。

第五方面，本申请实施例提供了一种计算机程序产品，其特征在于，当该计算机程序产品在电子设备上运行时，使得该电子设备执行上述第一方面任一项可能的实现方式中的方法。

附图说明

图1A为本申请实施例提供的一种应用场景示意图；

图1B为本申请实施例提供的一种用户界面示意图；

图2为本申请实施例提供的一种视线估计方法的具体流程示意图；

图3A为本申请实施例提供的一种电子设备配置示意图；

图3B为本申请实施例提供的另一种应用场景示意图；

图3C为本申请实施例提供的一种用户图像示意图；

图3D为本申请实施例提供的一种图像标准化处理的流程示意图；

图3E为本申请实施例提供的一种图像扭曲成像的示意图；

图3F为本申请实施例提供的一种人脸关键点提取示意图；

图3G为本申请实施例提供的一种确定用户的头部位姿的流程示意图；

图3H为本申请实施例提供的一种建立归一化相机坐标系的方法示意图；

图3I为本申请实施例提供的一种原始图像标准化后生成新图像的示意图；

图3J为本申请实施例提供的一种确定用户注视位置的流程示意图；

图3K为本申请实施例提供的一种坐标转换示意图；

图3L为本申请实施例提供的另一种坐标转换示意图；

图3M为本申请实施例提供的一种电子设备基于用户注视位置执行指令的示意图；

图4为本申请实施例提供的一种电子设备的软件模块示意图；

图5为本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请得到说明书和所附权利要书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指包含一个或多个所列出醒目的任何或所有可能组合。在本申请实施例中，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在一些应用场景中，电子设备可以不必接收用户针对于显示屏的触摸操作和/或用户基于键盘/鼠标的输入，而是基于用户视线聚焦在显示屏上的坐标位置(也可以被称为用户的注视位置)确定出相应的控制指令，以执行用户的意图操作。上述交互方式可以被称为视线交互方式。

示例性的，以电子设备基于视线交互方式显示出通知界面为例，具体说明上述视线交互方式的适用场景。其中，该通知界面指的是：可以显示出电子设备接收到的一个或多个通知消息的用户界面。如图1A所示，用户可以佩戴眼镜110并注视电子设备100的显示屏。该电子设备100可以显示出桌面1001。该桌面1001中可以显示有一个或多个应用图标和状态栏区域1001A。其中，一个或多个应用图标可以包括天气应用图标、股票应用图标、计算器应用图标、设置应用图标、邮件应用图标、主题应用图标、日历应用图标和视频应用图标等，状态栏区域1001A可以包括移动通信信号(又可以称为蜂窝信号)的一个或多个信号强度指示符、无线保真(wireless fidelity，Wi-Fi)信号的信号强度指示符、电池状态指示符、时间指示符等等。可选的，桌面1001还可以包括页面指示符和托盘图标区域。其中，页面指示符可以用于表明当前显示的页面与其他页面的位置关系。托盘图标区域包括有多个托盘图标(例如拨号应用图标、信息应用图标、联系人应用图标、相机应用图标等等)，托盘图标在页面切换时保持显示。上述页面也可以包括多个应用图标和页面指示符，页面指示符可以不是页面的一部分而单独存在，上述托盘图标也是可选的，本申请实施例对此不作限制。

如图1A所示，电子设备100(也即是上述的电子设备)可以通过用户佩戴的眼镜110确定出用户的视线所注视的显示屏位置。此时，用户视线所注视的显示屏位置为状态栏区域1001A。响应于该视线交互操作，电子设备100可以显示出通知界面。

如图1B所示，电子设备100可以显示出通知界面1002。该通知界面1002可以显示出一个或多个通知栏，各通知栏中可以显示出对应的通知消息。例如，图1B中的通知栏1002A，可以显示出信息应用的通知消息；通知栏1002B可以显示出天气应用的通知消息；通知栏1002C可以显示出系统更新的通知消息。

然而，通过上述图1A-图1B所示的场景可以看出，在该实施例所示出的视线交互方式中，电子设备需要借助头戴式设备(例如，图1A所示的眼镜110)确定出用户视线所注视的显示屏位置，然后才使得电子设备基于上述确定出的显示屏位置执行相应的操作。因此，上述视线交互方式的应用场景不够广泛，操作十分繁琐，且电子设备获取用户眼球运动信息的方式也较为复杂。

因此，本申请实施例提供了一种视线估计方法。该方法可以应用于手机、平板电脑等电子设备。实施上述方法的手机、平板电脑等电子设备可以被称为电子设备100。后续实施例中将以电子设备100指代上述手机、平板电脑等电子设备。

不限于手机、平板电脑，电子设备100还可以是桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificialintelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对上述电子设备的具体类型不作特殊限制。

具体的，在该视线估计方法中，电子设备100可以通过设置于电子设备100上的摄像头(例如，前置摄像头和/或后置摄像头等)采集到第一图像。其中，该第一图像可以包括第一用户的人脸图像。电子设备100可以基于第一图像中第一用户的人脸图像，确定出第一用户的视线注视特征。电子设备100可以基于视线注视特征，确定出第一用户的三维注视方向向量。然后，电子设备100可以基于第一用户的三维注视方向向量，确定出第一用户的视线聚焦于电子设备100上显示屏的第一位置。电子设备100可以基于第一位置，确定出相应的控制指令进而执行用户的意图操作。

从上述流程中可以看出，该视线估计方法不需要借助除电子设备100外的其他设备(例如前述的头戴式设备)即可确定出用户针对电子设备100上显示屏的视线聚焦位置，应用场景更为广泛，且操作十分方便，极大地提升了电子设备100的计算效率，节约了电子设备100的计算资源。

下面，介绍本申请实施例提供的视线估计方法的具体流程。

结合图2所示的流程示意图以及图3A-图3M所示的应用场景示例，具体说明本申请提供的视线估计方法的实施流程以及适用于该方法的应用场景。

如图2所示，该视线估计方法的具体流程可以为：

S201.电子设备100检测显示屏的显示状态。

具体的，电子设备100可以通过预设机制(例如，广播机制等)获取到当前显示屏的显示状态。其中，显示屏的显示状态可以包括灭屏状态、熄屏AOD(Always on Display)状态和亮屏状态。亮屏状态可以包括锁屏界面显示状态和亮屏且解锁状态。

灭屏状态指的是，当电子设备100处于显示屏锁定状态时，电子设备100的显示器休眠成为黑屏，其显示屏不显示界面元素，但是其他器件和程序正常工作的状态；AOD状态指的是，当电子设备100处于显示屏锁定状态时，电子设备100上显示屏的部分区域保持常亮以用于显示时间、通知等信息的状态；锁屏界面显示状态指的是电子设备100处于锁屏状态下的用户界面；亮屏且解锁状态指的是电子设备100可以基于在该状态下显示的界面接收用户的输入，并响应于该输入，运行一个或多个应用程序，也就是现有技术中所指的电子设备的解锁状态。

当电子设备100的显示屏状态处于灭屏状态/AOD状态时，电子设备100可以接收并响应于用户点亮显示屏的输入，显示出锁屏界面。其中，锁屏界面可以指的是电子设备100中部分功能被锁定的界面，即电子设备100不提供部分功能。电子设备100在锁屏界面下提供的功能对数据安全的要求较低。示例性的，电子设备100在锁屏界面下提供的功能可以包括：接听电话、挂断电话、调节音乐音量大小、启动相机应用、打开/关闭飞行模式等。

当电子设备100的显示屏状态处于锁屏界面显示状态时，电子设备100可以通过生物认证方式验证用户的身份进行解锁，从而使得显示屏的显示状态处于亮屏且解锁状态。其中，生物认证方式可以包括密码验证、人脸验证、指纹验证、虹膜验证、声纹验证等等中的一项或多项。亮屏可以指的是电子设备100上显示屏所有区域都点亮显示的状态。

在一些示例中，当电子设备100的显示屏状态处于灭屏状态/AOD状态时，电子设备100可以通过生物认证方式验证用户的身份进行解锁，从而使得显示屏的显示状态处于亮屏且解锁状态。也即是说，对于上述显示屏的显示状态之间的切换，本申请不作限制。

S202.当电子设备100检测到显示屏处于亮屏状态时，电子设备100通过第一摄像头采集到包括第一用户人脸图像的第一图像。

其中，亮屏状态可以参考前述步骤中的说明，在此不再赘述。

在一些示例中，第一摄像头可以是电子设备100的前置摄像头。例如，如图1B所示，第一摄像头可以是电子设备100上的前置摄像头120。电子设备100可以通过前置摄像头120采集到第一图像并实施本申请提供的视线估计方法，确定出第一用户的视线聚焦在与前置摄像头120同侧的显示屏(例如，图1B中显示出通知界面1002的显示屏)上的第一位置。然后，电子设备100可以基于第一位置执行相应的控制指令。

在一些示例中，第一摄像头可以是电子设备100的后置摄像头。例如，如图3A所示，电子设备100可以在后盖处配置有显示屏130。该显示屏130上可以显示出用户界面1003。该用户界面1003可以包括移动通信信号的一个或多个信号强度指示符、Wi-Fi信号的信号强度指示符、电池状态指示符和时间指示信息等。在该示例中，第一摄像头可以是后置摄像头140。电子设备100可以通过后置摄像头140采集到第一图像并实施本申请提供的视线估计方法，确定出第一用户的视线聚焦在与后置摄像头140同侧的显示屏130上的第一位置。然后，电子设备100可以基于第一位置执行相应的控制指令。

也即是说，本申请实施例对第一摄像头在电子设备100上的设置方位不作限制。

示例性的，以图3B所示第一用户注视电子设备100为例说明该步骤的实施方法。

如图3B所示，在该应用场景中第一用户可以注视电子设备100。其中，电子设备100配置有前置摄像头120(也即是第一摄像头)。此时，电子设备100可以显示出桌面1001，电子设备100的显示屏处于亮屏状态。关于该桌面1001的描述可以参考前述说明，在此不再赘述。电子设备100可以通过广播机制检测到显示屏处于亮屏状态，然后，电子设备100可以通过前置摄像头120采集到第一图像。

如图3C所示，该第一图像可以包括第一用户的人脸图像区域1004。

从上述流程中可以看出，当电子设备100确定出检测到显示屏处于亮屏状态时，电子设备100才会通过第一摄像头采集到包括第一用户人脸图像的第一图像，这样，电子设备100不会频繁地启用第一摄像头采集图像，因此第一摄像头不会一直处于工作状态，可以避免功耗过高以及隐私安全问题。

S203.电子设备100对第一图像进行标准化处理，获取到第一标准图像。

具体的，电子设备100对第一图像进行标准化处理以获取到第一标准图像的具体实施过程，可以如图3D所示：

1).可选的，电子设备100对畸变的第一图像进行畸变校准，获取到无畸变的第一图像。

在一些示例中，当电子设备100针对指定物体(例如，第一用户)通过第一摄像头采集指定图像(例如，第一图像)时，由于第一摄像头上光学透镜制造精度以及组装工艺的偏差，指定物体在指定图像上的成像往往会发生扭曲，导致指定图像失真。该现象可以被称为指定图像的畸变。示例性的，如图3E所示，在真实世界中有一个长方形物体(a)。电子设备100可以通过第一摄像头采集到包括长方形物体(a)的指定图像1。基于前述原因，电子设备100通过第一摄像头针对长方形物体(a)采集的指定图像1可以是如图3E中(b)所示的凹陷扭曲成像，或者，如图3E中(c)中所示的凸起扭曲成像。上述凹陷扭曲成像和凸起扭曲成像均为指定图像1的畸变。第一图像的畸变可以与上述示例同理。关于指定图像的畸变还可以包括其他类型，具体可以参考现有技术，在此不再赘述。

从上述描述中可以看出，当第一图像发生畸变到底第一用户在第一图像上的成像失真时，电子设备100基于该畸变的第一图像确定出的用户注视位置不够精确，进而导致电子设备100确定出的第一位置会与第一用户实际注视的显示屏位置有较大的偏差。因此，为了提高第一位置的计算精度，使得电子设备100能更为精确地执行第一用户的意图操作，电子设备100可以对畸变的第一图像进行畸变校正，获取到无畸变第一图像。

具体的，电子设备100可以通过棋盘格标定法或其他方法获取到第一摄像头的畸变系数。也即是说，对于获取第一摄像头的畸变系数的方式，本申请对此不作限制。然后，电子设备100可以通过第一摄像头的畸变系数，将畸变的第一图像上的各坐标，映射为对应的标准坐标，从而获取到无畸变的第一图像。例如，畸变的第一图像上的多个坐标点中包括坐标点(u1,v1)和坐标点(u2,v2)。电子设备100可以通过第一摄像头的畸变系数，将坐标点(u1,v1)映射为对应的标准坐标点(u3,v3)，将坐标点(u2,v2)映射为对应的标准坐标点(u4,v4)。其他各坐标点同理映射为对应的标准坐标点。上述标准坐标点的集合可以构成无畸变第一图像，也即是电子设备100获取到无畸变第一图像。

在一些示例中，第一摄像头的畸变系数中各参数值均为0，也即是电子设备100通过第一摄像头采集到的第一图像不发生畸变，电子设备100可以直接基于第一摄像头采集到无畸变的第一图像。因此，电子设备100可以不执行上述的畸变校正步骤，后续流程中电子设备100可以基于该无畸变第一图像进行处理。

2).电子设备100基于无畸变的第一图像提取出第一用户的人脸关键点。

具体的，电子设备100可以通过前述步骤1)所得的无畸变第一图像，或者，通过第一摄像头采集到的无畸变第一图像，基于通用人脸3D模型关键点检测算法(例如，通用6点人脸3D模型关键点检测算法、通用48点人脸3D模型关键点检测算法等)/基于Kinect的人脸关键点识别算法等提取出第一用户的人脸关键点。本申请对提取人脸关键点的方法不作限制。其中，第一用户的人脸关键点可以包括：左眼、右眼、鼻子、左唇角、右唇角、人脸轮廓等一个或多个部位的关键点。

示例性的，电子设备100可以基于图3C所示的第一图像，根据通用6点人脸3D模型关键点检测算法提取出第一用户的人脸关键点。如图3F所示，第一用户的人脸关键点可以包括：左眼a、右眼b、鼻子c、左唇角d、右唇角e、下颌点f，并确定各个关键点的二维坐标。

3).电子设备100基于第一用户的人脸关键点，确定出第一用户的头部位姿。

其中，位姿即是位置和姿态，第一用户的头部位姿指的是：第一用户的头部相对于第一摄像头的位置和姿态，也即是第一用户的头部相对于第一摄像头的位置和朝向。电子设备100可以通过表示空间位置关系的参数和表示空间姿态关系的参数来示出第一用户的头部位姿。

具体的，图3G示例型示出了电子设备100确定出第一用户的头部位姿的实施流程：

a.电子设备100确定出第一摄像头的内部参数。

电子设备100可以通过棋盘格标定法或其他方法确定出第一摄像头的内部参数(例如，第一摄像头的焦距、像素大小等)，也即是说，对于获取第一摄像头内部参数的方式，本申请对此不作限制。其中，第一摄像头的内部参数可以用于：将某三维点在第一摄像头的相机坐标系下的三维坐标映射为在第一图像上的二维坐标。第一摄像头的相机坐标系(也可以被称为第二坐标系)指的是以第一摄像头的光学中心为原点，以第一摄像头的光轴为坐标系Z轴的坐标系。

b.电子设备100获取到第一用户的人脸关键点中各点在第一图像上的二维坐标。

c.电子设备100获取到第一用户的人脸关键点中各点的三维坐标。

电子设备100可以基于预设原点获取到第一用户的人脸关键点中各点在世界坐标系下的三维坐标。其中，上述世界坐标系指的是以指定点为预设原点的坐标系统。示例性的，在本申请实施例中，世界坐标系的预设原点可以是第一用户的右眼中心，X轴为两个眼睛的连线且从左眼指向右眼，Y轴为人脸平面内垂直于Z轴方向向下，Z轴按空间坐标右手法则确定，该世界坐标系也可以为后续实施例中的人头坐标系。

d.电子设备100确定出第一用户的头部位姿。

具体的，电子设备100可以基于第一摄像头的内部参数、第一用户的人脸关键点中各点在第一图像上的二维坐标、第一用户的人脸关键点中各点的三维坐标，确定出平移向量t和旋转矩阵Rr。其中，平移向量t即是前述用于表示空间位置关系的参数，可以用于表征第一用户的头部相对于第一摄像头的位置。旋转矩阵Rr即是前述用于表示空间姿态关系的参数，可以用于表征第一用户的头部相对于第一摄像头的朝向。

在一些示例中，电子设备100也可以通过深度学习算法确定出第一用户的头部位姿。也即是说，本申请对电子设备100确定第一用户的头部姿态的方式不作限制。

4).电子设备100对无畸变的第一图像进行透视变换。

其中，电子设备100对无畸变的第一图像进行透视变换，包括：电子设备100对无畸变的第一图像进行旋转处理和缩放处理，使得无畸变的第一图像变换为通过归一化相机拍摄所采集到的归一化图像。其中，归一化相机的参数(例如，姿态、焦距和离拍摄物体的距离等)是预先设置的固定值。也即是说，电子设备100对无畸变的第一图像进行透视变换，即是使得第一图像上第一用户的头部角度、位置和与相机的距离达到预设标准。并且，归一化图像满足以下三个条件：a.归一化图像上第一用户的眼睛中心为图像中心。b.头部坐标系X轴上的直线在归一化图像上的成像仍然为直线。c.归一化相机位于距眼睛中心的预设固定距离(以dn表示)处。

这样，可以消除用户不同的头部姿态所带来的计算复杂度，提高电子设备100的计算效率，同时也提升了电子设备100的计算精度。

具体的，首先，电子设备100可以基于第一用户的头部相对于所述第一摄像头的位置与姿态与第一摄像头的相机坐标系，建立一个归一化相机坐标系。该归一化相机坐标系(也可以被称为预设坐标系)即是以归一化相机的光心为原点，以归一化相机的光轴为坐标系Z轴的坐标系。示例性的，关于归一化相机坐标系的建立以及该归一化相机坐标系与人头坐标系的关系可如图3H所示。该归一化相机坐标系的建立方式可以如下：以前述平移向量t所在轴为归一化相机坐标系的Zc轴；将头部坐标系中X轴上的向量与归一化相机坐标系Zc轴上的向量进行叉乘得到的向量所在轴为归一化相机坐标系的Yc轴；将归一化相机坐标系Zc轴上的向量和Yc轴上的向量进行叉乘得到的向量所在轴为归一化相机坐标系的Xc轴。基于该步骤可得到归一化相机坐标系的旋转矩阵R，记做：

其中，

和

分别为归一化相机坐标系下Xc轴、Yc轴和Zc轴上的向量。

和

为上述各向量的模。

然后，对归一化相机坐标系的Zc轴进行缩放，缩放到预设固定值dn。基于该步骤可得到归一化相机坐标系的缩放矩阵S，该缩放矩阵为对角矩阵，记做：

其中,dn为前述的预设固定值dn，t为前述的平移向量。

因此，第一图像转变为归一化图像的变换矩阵为M＝SR。电子设备100可以基于该变换矩阵M将第一图像转换为归一化相机坐标系下的归一化图像。

示例性的，如图3I所示，以图3C示出的第一图像为例，电子设备100可以基于前述的变换矩阵M，将该第一图像转换为归一化相机坐标系下的归一化图像d。可以看出，转换前第一图像上第一用户的头部状态为倾斜态，转换后归一化图像d上第一用户的头部状态为端正态。

5).电子设备100基于步骤4)中所得第一图像进行均衡化处理，得到第一标准图像。

为了使得第一用户的人脸图像在第一图像上显示得更清晰，进而提高后续用户注视位置的预测精度，电子设备100可以针对步骤4)中所得第一图像进行均衡化处理。其中，图像的均衡化指的是：电子设备100基于第一图像的灰度值分布直方图来调节第一图像的对比度。

具体的，电子设备100通过直方图均衡化算法进行第一图像的均衡化处理。首先，电子设备100可以将第一图像中的灰度值进行归一化处理，将灰度值范围从[0,255]映射到[0,1]。然后，电子设备100可以统计第一图像中各个灰度值的出现次数(也即是各灰度值包括多少个像素点)，以获得第一图像的灰度值分布直方图。然后，电子设备100可以计算出各灰度值的概率，并基于该各灰度值的概率计算出累积概率密度函数。电子设备100可以基于该累积概率密度函数重新划分各灰度值所包括的像素点个数。不限于此，电子设备100还可以通过其他方法对第一图像进行均衡化处理，本申请对此不作限制。

这样，电子设备100通过步骤S203对第一图像进行标准化处理，获取到第一标准图像后，后续流程电子设备100可以基于第一标准图像进行处理，以降低电子设备100的计算复杂度，提升电子设备100的计算效率。

S204.电子设备100基于第一标准图像，确定出第一用户的视线注视特征。

其中，电子设备100可以通过由神经网络结构所组成的特征提取网络，从第一标准图像中确定出第一用户的视线注视特征。其中，神经网络结构可以是循环神经网络(recurrent neural networks，RNN)、深度神经网络(deep neural networks，DNN)、双路径循环神经网络(dual-pathrecurrent neural networks，DPRNN)等等。特征提取网络中可以包括轻量编码网络和轻量解码网络，轻量编码网络和轻量解码网络可以用于向量的编码和解码。其中，轻量编码网络和轻量解码网络中的“轻量”可以指的是：网络中包含参数值(例如，权重值和/或偏置值)的卷积层较少(例如，5层、6层等)，计算量较小。

具体的，电子设备100可以通过特征提取网络，从第一标准图像中提取出经前述S203中步骤4)的旋转变换后第一用户的面部特征(也可以被称为Appearance特征)和头部特征(也可以被称为Head特征)。其中，Appearance特征可以由64维向量表示，表征了第一用户的面部特点，例如第一用户双眼的位置、第一用户双眼的睁开/闭合状态等；Head特征可以由32维向量的欧拉角表示，表征了第一用户的头部转动姿态。欧拉角可以包括表示第一用户与水平方向X轴间夹角的pitch参数，和表示第一用户头部与垂直方向Y轴间夹角的yall参数。需要说明的是，因表征第一用户头部与Z轴的夹角的roll参数并不影响后续视线注视特征的提取，因此，经前述S203中步骤4)的旋转变换后，已消除第一用户头部与Z轴的夹角的roll参数，降低电子设备100后续步骤的计算量，提高电子设备100的计算效率。然后，电子设备100可以基于第一用户的Appearance特征和第一用户的Head特征，通过特征提取网络确定出第一用户的视线注视特征(也可以被称为Gaze特征)。该Gaze特征可以由欧拉角表示，表征了第一用户在第一坐标系下的注视方向。其中，第一坐标系是以第一用户头部的预设点(例如，第一用户的鼻尖、第一用户的双眼连线中心等)为原点的坐标系，该欧拉角可以包括第一用户与水平方向X轴间夹角的pitch参数，和第一用户与垂直方向Y轴间夹角的yall参数。

S205.电子设备100基于第一用户的视线注视特征，确定出第一用户的三维注视方向向量。

具体的，电子设备100可以通过前述的特征提取网络，基于第一用户的视线注视特征以及第一用户的头部特征确定出第一用户的三维注视方向向量。该步骤中的三维注视方向向量可以用于表征在归一化相机坐标系下，第一用户的注视方向。在一些示例中，电子设备100将该三维注视方向向量进行归一化处理，也即是使得三维注视方向向量中的参数除以自身的模，以降低后续电子设备100计算复杂度，提升电子设备100的计算效率。

需要说明的是，在实施本申请提供的视线估计方法前，开发人员可以对视线估计网络进行构建和训练。第一步，开发人员可以获取多个用户的图像，通过第三方电子设备实施前述步骤，确定出各个用户的三维注视方向向量。第二步，第三方电子设备可以获取到上述各个用户真实视线所对应的三维注视方向向量(也可以被称为真实的三维注视方向向量)。然后，第三方电子设备可以通过损失函数，计算得出上述确定出的三维注视方向向量与真实的三维注视方向向量间的差异值。该损失函数可以是开发人员预设的。示例性的，损失函数可以是L1Res Loss、Embeed Loss、Across Loss三者的叠加，也可以是其他损失函数，本申请对此不作限制。第三步，第三方电子设备调整特征提取网络中的权重值和/或偏置值，以使得损失函数最值化(例如，使得损失函数最大或最小)。第四步，第三方电子设备可以将使得损失函数最值化的特征提取网络预置到电子设备100中，以使得电子设备100可以实施本申请提供的视线估计方法。

S206.电子设备100基于第一用户的三维注视方向向量，确定出第一用户的视线聚焦于电子设备100上显示屏的第一位置。

具体的，电子设备100实施该步骤的流程可以如图3J所示：

a).将步骤S205所得的三维注视方向向量转换到第一摄像头的相机坐标系下。

具体的，由于步骤S205所得的三维注视方向向量是基于第一标准图像得到的，所以该三维注视方向向量是在归一化相机坐标系下的向量表示。电子设备100可以基于前述旋转矩阵R作逆变换，将该三维注视方向向量转换到第一摄像头的相机坐标系下。其中，该步骤中的三维注视方向向量可以用于表征第一用户在第一摄像头的相机坐标系下的注视方向。该旋转矩阵R与第一用户的头部相对于第一摄像头的位置与姿态有关。

b).在第一摄像头的相机坐标系下，确定出三维注视方向向量与显示屏的交点。

具体的，电子设备100可以获取到在第一摄像头的相机坐标系下，电子设备100上显示屏中各点的坐标。然后，电子设备100可以确定出三维注视方向向量与显示屏的交点，并获取到该交点在第一摄像头的相机坐标系下的三维坐标。

示例型的，如图3K所示，以前述图3B示出的应用场景为例，基于前述步骤的处理后，可以得到第一用户的三维注视方向向量G。电子设备100可以获取到在前置摄像头120的相机坐标系(cameracoordinatesystem，CCS)下，电子设备100上显示屏中各点的坐标。然后，电子设备100可以确定出三维注视方向向量G与显示屏的交点为p。在前置摄像头120的相机坐标系下，该交点p的三维坐标为(x1,y1,z1)。该示例中，前置摄像头120的相机坐标系也即是第一摄像头的相机坐标系(也可以被称为第二坐标系)。

c).计算出交点在屏幕坐标系下的二维坐标。

具体的，屏幕坐标系是以显示屏左上角为原点，以显示屏所在平面为xoy平面的坐标系。该屏幕坐标系上各点的坐标是基于像素来表示的。屏幕坐标系和第一摄像头的相机坐标系之间，可以通过旋转矩阵Rs和平移矩阵Ts及其逆矩阵进行互相转换。也即是说，在屏幕坐标系下，电子设备100可以将显示屏上指定点的二维坐标通过旋转矩阵Rs和平移矩阵Ts，转换到第一摄像头的相机坐标系下的三维坐标；同样，电子设备100也可以将第一摄像头的相机坐标系下指定点的三维坐标，通过旋转矩阵Rs的逆矩阵和平移矩阵Ts的逆矩阵，转换到屏幕坐标系下的二维坐标。其中，旋转矩阵Rs和平移矩阵Ts可以是电子设备100预置的。旋转矩阵Rs的逆矩阵和平移矩阵Ts的逆矩阵可以被称为第一映射关系。

示例性的，如图3L所示，以图3K所示的场景为例，屏幕坐标系(screencoordinatesystem，SCS)与前置摄像头120的相机坐标系可以通过旋转矩阵Rs和平移矩阵Ts及其逆矩阵互相进行转换。前述步骤b)中已得第一用户的三维注视方向向量G与显示屏的交点为p，其在前置摄像头120的相机坐标系下的三维坐标为(x1,y1,z1)。电子设备100可以基于旋转矩阵Rs的逆矩阵和平移矩阵Ts的逆矩阵，将坐标(x1,y1,z1)转换为屏幕坐标系下的二维坐标(u,v)。该二维坐标(u,v)所表征的位置即是第一位置。

S207.当电子设备100确定出第一位置位于显示屏的预设区域时，电子设备100执行第一指令。

示例性的，如图3M所示，以前述图3B示出的应用场景为例，基于步骤S201-步骤S207的处理后，电子设备100确定出第一用户注视显示屏上的第一位置p(u,v)，且该第一位置p处于桌面1001上的状态栏区域(也即是预设区域)。因此，电子设备100可以基于该第一位置执行第一指令，即显示出通知界面1002。关于该通知界面1002的描述，可以参考前述说明，在此不再赘述。

在一些示例中，由于第一用户在使用手机时，第一用户的视线在任意时间可以看向电子设备100显示屏的任何地方。因此，在使用手机的过程中，第一用户的视线可能会无意间扫视到第一位置，若电子设备100在该情况下仍然执行第一位置对应的第一指令，其所触发的操作极大可能不是用户的意图操作，从而造成误触发情况的发生，降低用户的使用体验。

因此，当电子设备100通过第一摄像头采集到第一图像后，隔指定时间段1(例如，1秒、2秒等)，再次采集包括第一用户人脸图像的第二图像。其中，指定时间段1大于或等于预设时间段1。与处理第一图像相同，电子设备100可以通过前述步骤S201-S207对第二图像进行处理。若电子设备100基于第一图像所确定出的第一用户的注视位置，和电子设备100基于第二图像所确定出的第一用户的注视位置，都为显示屏上的第一位置，且第一位置位于显示屏的预设区域时，则电子设备100可以判断出第一用户注视第一位置的时间大于或等于预设时间段1，第一用户想让电子设备100执行第一指令，因此，电子设备100可以基于第一位置执行第一指令以实现第一用户的意图。

在一些示例中，第一位置还可以是除状态栏区域外的其他预设区域。电子设备100基于第一位置执行的第一指令还可以是除显示通知界面外的其他操作，例如打开指定应用、显示桌面界面等。本申请对此不作限制。

由上述视线估计方法的实施流程可以看出，该方法不需要借助除电子设备100外的其他设备(例如前述的头戴式设备)，应用场景更为广泛，操作十分方便；也不需要了解人体的眼球结构，实现简单；结合第一用户的头部与眼睛的位姿，提取出的特征更具有针对性和精确度；同时，对第一摄像头采集到的图像进行标准化处理，降低了电子设备100的计算复杂度，提升了电子设备100的计算效率，节约了电子设备100的计算资源。

下面，介绍本申请实施例提供的一种应用于电子设备100的软件模块。

请参考图4，图4示例性示出了一种应用于电子设备100的软件模块示意图。该软件模块可以用于实施本申请提供的一种视线估计方法。

如图4所示，该电子设备100上的软件模块可以包括：图像处理模块401、特征提取模块402、视线估计模块403和指令执行模块404。其中：

图像处理模块401可以用于，对第一摄像头采集到的第一图像进行标准化处理，以获取到第一标准图像。具体实现过程可以参考前述图2所示实施例，在此不再赘述。

特征提取模块402可以用于，基于第一标准图像提取出第一用户的Appearance特征、Head特征和Gaze特征。具体实现过程可以参考前述图2所示实施例，在此不再赘述。

视线估计模块403可以用于，基于Gaze特征，确定出第一用户的三维注视方向向量，从而确定出第一用户的视线聚焦于电子设备100显示屏上的第一位置。具体实现过程可以参考前述图2所示实施例，在此不再赘述。

指令执行模块404可以用于，当电子设备100确定出第一用户注视显示屏上的第一位置后，电子设备100执行第一指令。具体实现过程可以参考前述图2所示实施例，在此不再赘述。

接下来，介绍本申请实施例提供的一种电子设备100的硬件结构。

请参考图5，图5示例性示出了一种电子设备100的硬件结构示意图。

电子设备100可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmentedreality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificialintelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对该电子设备100的具体类型不作特殊限制。

如图5所示，电子设备100可以包括处理器501、存储器502、无线通信模块503、显示屏504、摄像头505、音频模块506和扬声器507。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100还可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合来实现。

处理器501可以包括一个或多个处理器单元，例如处理器501可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器501中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器501中的存储器为高速缓冲存储器。该存储器可以保存处理器501刚用过或循环使用的指令或数据。如果处理器501需要再次使用该指令或数据，可以从所述存储器中直接调用。避免了重复存取，减少了处理器501的等待时间，因而提高了系统的效率。

在一些实施例中，处理器501可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或USB接口等。

存储器502与处理器501耦合，用于存储各种软件程序和/或多组指令。具体实现中，存储器502可以包括易失性存储器(volatile memory)，例如随机存取存储器(randomaccessmemory，RAM)；也可以包括非易失性存储器(non-vlatile memory)，例如ROM、快闪存储器(flash memory)、硬盘驱动器(Hard Disk Drive，HDD)或固态硬盘(SolidState Drives，SSD)；存储器502还可以包括上述种类的存储器的组合。存储器502还可以存储一些程序代码，以便于处理器501调用存储器502中存储的程序代码，以实现本申请实施例在电子设备100中的实现方法。存储器502可以存储操作系统，例如uCOS、VxWorks、RTLinux等嵌入式操作系统。

在本申请实施例中，处理器501可以用于：对采集到的第一图像作标准化处理，获取到第一标准图像；基于第一标准图像，提取出第一用户的Gaze特征，并根据第一用户的Gaze特征，确定出第一用户注视于显示屏504上的第一位置；基于第一位置执行对应的第一指令。具体实现方式可以参考前述图2所示的实施例，在此不再赘述。

无线通信模块503可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块503可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块503经由天线接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器501。无线通信模块503还可以从处理器501中接收待发送的信号，对其进行调频、放大，经天线转为电磁波辐射出去。在一些实施例中，电子设备100还可以通过无线通信模块503中的蓝牙模块(图5未示出)、WLAN模块(图5未示出)发射信号探测或扫描在电子设备100附近的设备，并与该附近的设备建立无线通信连接以传输数据。其中，蓝牙模块可以提供包括经典蓝牙(basic rate/enhanceddatarate，BR/EDR)或蓝牙低功耗(bluetooth low energy，BLE)中一项或多项蓝牙通信的解决方案，WLAN模块可以提供包括Wi-Fi direct、Wi-Fi LAN或Wi-Fi softAP中一项或多项WLAN通信的解决方案。

显示屏504可以用于显示图像、视频等。显示屏504可以包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dotlight emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏504，N为大于1的正整数。

摄像头505可以用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些示例中，电子设备100可以包括1个或N个摄像头505，N为大于1的正整数。

在本申请实施例中，摄像头505可以用于采集包括第一用户人脸图像的图像(例如，第一图像)。摄像头505可以是前置摄像头，也可以是后置摄像头。当电子设备100实施图2所示的流程时，摄像头505即是第一摄像头。具体说明可以参考图2所示实施例，在此不再赘述。

音频模块506可以用于将数字音频信息转换成模拟音频信号输出，也可以用于将模拟音频输入转换成数字音频信号。音频模块506还可以用于对音频信号编码和解码。在一些实施例中，音频模块506还可以设置于处理器501中，或将音频模块506的部分功能模块设置于处理器501中。

扬声器507，也可以称为“喇叭”，用于将音频电信号转换成为声音信号。电子设备100可以通过扬声器507收听音乐，或收听免提电话。

电子设备100还可以包括传感器模块(图5未示出)和/或触摸传感器(图5未示出)。触摸传感器也可以称为“触控器件”。触摸传感器可以设置于显示屏504，由触摸传感器与显示屏504组成触摸屏，也称“触控屏”。触摸传感器可以用于检测作用于其上或附近的触摸操作。可选的，传感器模块还可以包括有陀螺仪传感器(图5未示出)、加速度传感器(图5未示出)等等。其中，陀螺仪传感器可以用于确定电子设备100的运动姿态，在一些实施例中，电子设备100可以通过陀螺仪传感器确定出电子设备100围绕三个轴(即，x，y和z轴)的角速度。加速度传感器可以用于检测电子设备100在各个方向上(一般为x，y和z轴)的加速度大小，当电子设备100静止时也可以检测出重力的大小及方向。

电子设备100还可以包括移动通信模块(图5未示出)。该移动通信模块可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。

需要说明的是，图5中示出的电子设备100仅仅用于示例性解释本申请所提供的电子设备的硬件结构，并不对本申请构成具体限制。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种视线估计方法，应用于包括第一摄像头和显示屏的电子设备，所述第一摄像头和所述显示屏位于所述电子设备的同一侧，其特征在于，所述方法包括：

所述电子设备通过所述第一摄像头采集到第一图像，所述第一图像包括第一用户的人脸图像；

所述电子设备基于所述第一图像，确定出所述第一用户的视线在第一坐标系下的注视方向；其中，所述第一坐标系是以所述第一用户头部的预设点为原点的坐标系；

所述电子设备基于所述第一用户的视线在所述第一坐标系下的注视方向和所述第一用户的头部相对于所述第一摄像头的位置与姿态，确定出所述第一用户在第二坐标系下的注视方向；其中，所述第二坐标系是以所述第一摄像头的光心为原点，以所述第一摄像头的光轴为坐标系Z轴的坐标系；

所述电子设备基于所述第一用户在所述第二坐标系下的注视方向与所述显示屏在所述第二坐标系下的坐标，确定出所述第一用户的视线聚焦于所述显示屏的第一位置；

当所述电子设备确定出所述第一位置位于所述显示屏的预设区域时，所述电子设备执行第一指令。

2.根据权利要求1所述的方法，其特征在于，所述电子设备通过所述第一摄像头采集到第一图像，所述第一图像包括第一用户的人脸图像，具体包括：

所述电子设备检测所述显示屏的显示状态；

当所述电子设备检测到所述显示屏处于亮屏状态时，所述电子设备通过所述第一摄像头采集到第一图像，所述第一图像包括第一用户的人脸图像。

3.根据权利要求1所述的方法，其特征在于，所述电子设备基于所述第一图像，确定出所述第一用户的视线在第一坐标系下的注视方向，具体包括：

所述电子设备对所述第一图像进行畸变校正；

所述电子设备基于无畸变的所述第一图像提取出所述第一用户的人脸关键点；

所述电子设备基于所述第一用户的人脸关键点，确定出所述第一用户的头部位姿；

所述电子设备基于所述第一用户的头部位姿，对无畸变的所述第一图像进行透视变换；

所述电子设备基于透视变换后的所述第一图像进行灰度均衡化处理，得到第一标准图像；

所述电子设备基于所述第一标准图像，提取出所述第一用户的头部特征和面部特征；

所述电子设备基于所述第一用户的头部特征和面部特征，确定出所述第一用户的视线在第一坐标系下的注视方向。

4.根据权利要求3所述的方法，其特征在于，所述电子设备基于所述第一用户的头部位姿，对无畸变的所述第一图像进行透视变换，具体包括：

所述电子设备基于所述第一用户的头部位姿，将位于所述第二坐标系下的所述第一图像，变换至预设坐标系下的图像。

5.根据权利要求3所述的方法，其特征在于，所述第一用户的面部特征表示所述第一用户双眼的位置、所述第一用户双眼的睁开/闭合状态等；所述第一用户的头部特征表示所述第一用户的头部转动姿态。

6.根据权利要求1所述的方法，其特征在于，基于所述第一用户在所述第二坐标系下的注视方向与所述显示屏在所述第二坐标系下的坐标，确定出所述第一用户的视线聚焦于所述显示屏的第一位置，具体包括：

所述电子设备确定出第一用户在所述第二坐标系下的注视方向与所述显示屏的交点；

所述电子设备确定出所述交点在所述第二坐标系下的三维坐标；

所述电子设备基于所述交点在所述第二坐标系下的三维坐标与第一映射关系，确定出所述交点在屏幕坐标系下的二维坐标；其中，所述二维坐标为第一位置的坐标，所述第一映射关系用于将所述第二坐标系下的坐标映射为所述屏幕坐标系下的坐标。

7.根据权利要求6所述的方法，其特征在于，所述屏幕坐标系为：以所述显示屏左上角为原点，显示屏所在平面为xoy平面的坐标系。

8.根据权利要求1所述的方法，其特征在于，所述第一指令为：

显示通知界面、打开指定应用或显示桌面界面。

9.一种电子设备，其特征在于，包括：一个或多个处理器、一个或多个存储器和显示屏；所述一个或多个存储器与一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如权利要求1-8中的任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-8中的任一项所述的方法。

11.一种芯片或芯片系统，其特征在于，包括处理电路和接口电路，所述接口电路用于接收代码指令并传输至所述处理电路，所述处理电路用于运行所述代码指令以执行如权利要求1-8中任一项所述的方法。

12.一种计算机程序产品，其特征在于，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行如权利要求1-8中的任一项所述的方法。