CN115209057A

CN115209057A - 一种拍摄对焦方法及相关电子设备

Info

Publication number: CN115209057A
Application number: CN202210996360.6A
Authority: CN
Inventors: 周茂森; 吴日辉; 宋小刚; 杨建权; 杨永兴
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-10-18
Anticipated expiration: 2042-08-19
Also published as: CN115209057B

Abstract

本申请提供一种拍摄对焦方法及相关电子设备，该方法包括：响应第一操作，电子设备启动第一摄像头、混合事件相机；显示第一界面，第一界面包括预览区域，预览区域显示第一图像，第一图像为第一摄像头输出的图像；混合事件相机获取第二图像并输出第二图像的事件信息和图像信息；在检测到第二图像中的人脸比例大于或等于第一阈值的情况下，电子设备基于事件信息和图像信息检测第二图像中人眼注视点的坐标；在基于人眼注视点的坐标确定人眼注视点的位置在预览区域的情况下，电子设备基于人眼注视点的坐标在预览区域上确定对焦区域；电子设备对对焦区域内的对象进行对焦处理。

Description

一种拍摄对焦方法及相关电子设备

技术领域

本申请涉及拍摄领域，尤其涉及一种拍摄对焦方法及相关电子设备。

背景技术

人眼看向不同方向时，眼球会有相应变化，视线追踪就是一种根据这些变化特征获取人眼注视方向或者目标的技术。

如何把视线追踪技术运用到移动终端设备上，是技术人员日益关注的问题。

发明内容

本申请实施例提供了一种拍摄对焦方法及相关电子设备，实现了在拍摄过程中根据人眼注视点对预览图像进行对焦的功能。

第一方面，本申请实施例提供了一种拍摄对焦方法，包括：应用于电子设备，该电子设备包括第一摄像头和混合事件相机，该方法包括：响应第一操作，电子设备启动第一摄像头、混合事件相机；显示第一界面，第一界面包括预览区域，预览区域显示第一图像，第一图像为第一摄像头输出的图像；混合事件相机获取第二图像并输出第二图像的事件信息和图像信息；在检测到第二图像中的人脸比例大于或等于第一阈值的情况下，电子设备基于事件信息和图像信息检测第二图像中人眼注视点的坐标；在基于人眼注视点的坐标确定人眼注视点的位置在预览区域的情况下，电子设备基于人眼注视点的坐标在预览区域上确定对焦区域；电子设备对对焦区域内的对象进行对焦处理。

在上述实施例中，第一摄像头采集第一图像并将第一图像显示在预览界面上，混合事件相机采集用户图像，电子设备对混合事件相机采集的用户图像进行人眼注视点坐标位置的计算。并根据人眼注视点在用户图像中的坐标位置，确定人眼注视点在预览界面上对应的坐标。然后，电子设备根据人眼注视点在预览界面上的坐标确定对焦区域，并对对焦区域内第一摄像头采集的对象进行对焦，从而提高对焦区域内图像的清晰度。

结合第一方面，在一种可能实现的方式中，混合事件相机为前置相机。

结合第一方面，在一种可能实现的方式中，人眼注视点为操作所述电子设备进行图像拍摄的用户的人眼注视点。

结合第一方面，在一种可能实现的方式中，电子设备基于人眼注视点的坐标在预览区域上确定对焦区域之后，还包括：电子设备在预览区域上显示对焦框，对焦框指示对焦区域。

结合第一方面，在一种可能实现的方式中，电子设备基于事件信息和图像信息检测第二图像中人眼注视点的坐标之前，还包括：电子设备将第二图像通过第一神经网络处理，得到第二图像中的目标像素；目标像素为第二图像中人脸对应的像素；电子设备确定目标像素在第二图像中的像素占比是否大于或等于第一阈值。这样，通过判断人脸在第二图像中的比例，避免了因人脸比例太小，使得电子设备计算人眼注视点计算准确性不高，而造成电子设备确定错误的对焦区域的问题。

结合第一方面，在一种可能实现的方式中，电子设备包括第二神经网络，电子设备基于事件信息和图像信息检测第二图像中人眼注视点的坐标，具体包括：电子设备将第二图像的事件信息和图像信息通过第二神经网络进行处理，得到第二图像中人眼注视点的坐标。

结合第一方面，在一种可能实现的方式中，第二神经网络包括第一检测模块和第二检测模块，电子设备将第二图像的事件信息和图像信息通过第二神经网络进行处理，得到第二图像中人眼注视点的坐标，具体包括：在第二图像为非首帧图像的情况下，第一检测模块基于图像信息，得到左眼的图像信息、右眼的图像信息、人脸的图像信息以及人脸的位置信息；基于左眼的图像信息和右眼的图像信息输出第一人眼注视点坐标；基于人脸的图像信息输出第二人眼注视点坐标；基于人脸的位置信息输出第三人眼注视点坐标；第二检测模块基于事件信息、人脸的位置信息以及第二神经网络上一次输出的人眼注视点坐标，得到第四人眼注视点坐标；将第一人眼注视点坐标、第二人眼注视点坐标、第三人眼注视点坐标以及所述第四人眼注视点坐标进行融合处理，得到第二图像中人眼注视点的坐标。这样，电子设备通过将第一检测模块输出的人眼注视点坐标和第二检测模块输出的人眼注视点坐标进行融合，能够提高第二神经网络输出的人眼注视点坐标的准确性。

结合第一方面，在一种可能实现的方式中，第二神经网络包括第一检测模块和第二检测模块，电子设备将第二图像的事件信息和图像信息通过第二神经网络进行处理，得到第二图像中人眼注视点的坐标，具体包括：在第二图像为非首帧图像的情况下，第一检测模块基于图像信息，得到人脸的位置信息；将人脸的位置信息发送给第二检测模块；第二检测模块基于事件信息、人脸的位置信息以及第二神经网络上一次输出的人眼注视点坐标，计算得到第二图像中人眼注视点的坐标。

结合第一方面，在一种可能实现的方式中，电子设备基于人眼注视点的坐标在预览区域上确定对焦区域，具体包括：电子设备检测是否存在目标对象，目标对象在预览区域中对应的像素区域包括人眼注视点的坐标；在存在目标对象的情况下，电子设备将预览区域中包括目标对象的最小区域确定为对焦区域。

结合第一方面，在一种可能实现的方式中，电子设备基于人眼注视点的坐标在预览区域上确定对焦区域，具体包括：电子设备在预览区域上，以人眼注视点的坐标为中心，确定长为L1，宽为L2的区域为对焦区域。

第二方面，本申请实施例提供了一种电子设备，该电子设备包括：一个或多个处理器、显示屏和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该电子设备执行：响应第一操作，启动第一摄像头、混合事件相机；控制显示屏显示第一界面，第一界面包括预览区域，预览区域显示第一图像，第一图像为第一摄像头输出的图像；通过混合事件相机获取第二图像并输出第二图像的事件信息和图像信息；在检测到第二图像中的人脸比例大于或等于第一阈值的情况下，基于事件信息和图像信息检测第二图像中人眼注视点的坐标；在基于人眼注视点的坐标确定人眼注视点的位置在预览区域的情况下，基于人眼注视点的坐标在预览区域上确定对焦区域；对对焦区域内的对象进行对焦处理。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器调用该计算机指令以使得该电子设备执行：控制显示屏在预览区域上显示对焦框，对焦框指示对焦区域。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器调用该计算机指令以使得该电子设备执行：将第二图像通过第一神经网络处理，得到第二图像中的目标像素；目标像素为第二图像中人脸对应的像素；确定目标像素在第二图像中的像素占比是否大于或等于第一阈值。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器调用该计算机指令以使得该电子设备执行：将第二图像的事件信息和图像信息通过第二神经网络进行处理，得到第二图像中人眼注视点的坐标。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器调用该计算机指令以使得该电子设备执行：在第二图像为非首帧图像的情况下，通过第一检测模块基于图像信息，得到左眼的图像信息、右眼的图像信息、人脸的图像信息以及人脸的位置信息；基于左眼的图像信息和右眼的图像信息输出第一人眼注视点坐标；基于人脸的图像信息输出第二人眼注视点坐标；基于人脸的位置信息输出第三人眼注视点坐标；通过第二检测模块基于事件信息、人脸的位置信息以及第二神经网络上一次输出的人眼注视点坐标，得到第四人眼注视点坐标；将第一人眼注视点坐标、第二人眼注视点坐标、第三人眼注视点坐标以及所述第四人眼注视点坐标进行融合处理，得到第二图像中人眼注视点的坐标。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器调用该计算机指令以使得该电子设备执行：在第二图像为非首帧图像的情况下，通过第一检测模块基于图像信息，得到人脸的位置信息；将人脸的位置信息发送给第二检测模块；通过第二检测模块基于事件信息、人脸的位置信息以及第二神经网络上一次输出的人眼注视点坐标，计算得到第二图像中人眼注视点的坐标。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器调用该计算机指令以使得该电子设备执行：检测是否存在目标对象，目标对象在预览区域中对应的像素区域包括人眼注视点的坐标；在存在目标对象的情况下，将预览区域中包括目标对象的最小区域确定为对焦区域。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器调用该计算机指令以使得该电子设备执行：在预览区域上，以人眼注视点的坐标为中心，确定长为L1，宽为L2的区域为对焦区域。

第三方面，本申请实施例提供了一种电子设备，包括：显示屏、摄像头、一个或多个处理器和一个或多个存储器；所述一个或多个处理器与所述显示屏、所述摄像头、所述一个或多个存储器耦合，所述一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

第四方面，本申请实施例提供了一种芯片系统，该芯片系统应用于电子设备，该芯片系统包括一个或多个处理器，该处理器用于调用计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，包括指令，当该指令在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

附图说明

图1A-图1F是本申请实施例提供的一种自动对焦方法应用场景的示例图；

图2是本申请实施例提供的一种自动对焦方法的流程图；

图3A是本申请实施例提供的一种相机输出的图像信息对比图；

图3B是本申请实施例提供的另一种相机输出的图像信息对比图；

图4是本申请实施例提供的一种像素矩阵的示例图；

图5A-图5C是本申请实施例提供的第二神经网络的结构示例图；

图6是本申请实施例提供的一种电子设备100的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例，也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中术语“第一”、“第二”、“第三”等是区别于不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元，或者可选地，还包括没有列出的步骤或单元，或者可选地还包括这些过程、方法、产品或设备固有的其它步骤或单元。

附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前，应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序的处理，但是其中的许多操作可以并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在本说明书中使用的术语“部件”、“模块”、“系统”、“单元”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件或执行中的软件。例如，单元可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或分布在两个或多个计算机之间。此外，这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可例如根据具有一个或多个数据分组（例如来自与本地系统、分布式系统和/或网络间的另一单元交互的第二单元数据。例如，通过信号与其它系统交互的互联网）的信号通过本地和/或远程进程来通信。

当人的眼睛看向不同方向时，眼部会有细微的变化，这些变化会产生可以提取的特征。计算机可以通过图像捕捉或扫描提取这些特征，从而实时追踪眼睛的变化，预测用户的状态和需求，进行响应，达到用眼睛控制设备的目的。基于此，技术人员发展出了视线追踪（Eye Tracking）技术，在拍摄过程中，用户无需触碰屏幕就可以进行追焦。

视线追踪有两种基本方法，一是几何法，对眼球进行3D/2D建模，通过投射到眼球的红外光束获取虹膜反射图像，利用空间几何关系求解视线方向。二是外观法，输入人眼图像，通过学习的方法（例如，通过训练神经网络），推断视线方向或者视点位置。

目前，市面上精度最高的眼动追踪设备一般使用红外光源高速图像采集端以及镜头组装而成，其采样率可以达到1000Hz。但因为体积庞大，价格昂贵，很难应用到移动终端中。

在移动终端中，可以通过前置摄像头跟踪眼球运动。但是，在用户视线变化较小的情形下，反映在前置摄像头图像上的眼球位置像素位移很少，很难为视线追踪提供有效特征；另外，由于前置摄像头采样频率不高，导致追踪延迟较大。故基于前置摄像头的眼动追焦很难有较高准确率和低延迟。

为了解决上述问题，本申请实施例提出一种自动对焦的方法，该方法包括：在使用电子设备后置摄像头进行拍摄过程且启动了人眼自动追焦功能的情况下，电子设备在显示屏的预览界面上显示后置摄像头拍摄的图像。电子设备启动前置的Hybid（混合）事件相机获取用户图像，并对用户图像进行人脸检测。电子设备基于检测结果分析用户的人眼注视点，并根据该人眼注视点确定预览界面的对焦区域。然后，对对焦区域的图像进行对焦，从而提升对焦区域的图像的清晰度。

下面，结合图1A-图1F对本申请实施例提供的一种拍摄对焦方法的应用场景进行介绍。

如图1A所示，用户界面10为电子设备100的主界面，在该主界面中包括相机图标101、图库图标201以及其它应用图标。当电子设备100检测到针对主界面上任意一个图标的单击操作时，响应该操作，电子设备可以启动该图标对应的应用程序，并显示该应用程序对应的界面。

示例性的，当检测到针对图库图标201的单击操作后，响应该操作，电子设备100会显示图库中照片的缩略图，以便用户可以浏览图库中的图片。

示例性的，电子设备100在检测到针对相机图标101的单击操作后，响应该操作后，电子设备100显示如图1B所示的拍摄界面。

如图1B所示，用户界面11为电子设备100的拍摄界面，在该拍摄界面中包括预览区域111、拍照控件102。其中，预览区域111用于实时显示摄像头获取的图像。在预览区域111中包括对焦框1111，对焦框1111可以根据用户的人眼注视点在预览区域上的移动而进行移动。对焦框1111对应的区域为对焦区域，电子设备可以使用对焦算法对对焦区域的图像进行对焦，从而使得对焦区域的图像更加清晰。

示例性的，如图1C中的图像1和图像2为对焦前和对焦后的效果示例图。图像1中的区域112为未对焦的区域，图像2中的区域113为对焦后区域。由图像1和图像2对比可知，图像2中区域113的清晰度比图像1中区域112的清晰度要高。

在图1D中，对焦框1111的位置随着人眼注视点在预览区域111上位置的变化而变化。如图1D所示，在T1时刻，用户的人眼注视点114在预览区域111的坐标为（x1，y1）时，对焦框1111的中心点在预览区域111的坐标也为（x1，y1）。

如图1E所示，在T2时刻，当用户的人眼注视点114在预览区域111的坐标为（x2，y2）时，对焦框111的中心点在预览区域111的坐标也为（x2，y2）。

可选地，如图1F所示，在电子设备100启动相机应用之后，电子设备100不启动人眼注视点自动对焦的功能。电子设备100可以在用户界面11上显示注视点自动对焦的功能控件107。在检测到针对该功能控件107的输入操作（例如，单击）的情况下，响应该操作，电子设备100开启注视点自动对焦的功能。电子设备100根据人眼注视点在预览区域111上的位置信息，确定对焦区域，从而使用对焦算法对对焦区域的图像进行对焦，使得对焦后的图像更清晰。

下面，结合图2，对本申请实施例提供的一种拍摄对焦方法的具体流程进行说明。请参见图2，图2是本申请实施例提供的一种拍摄对焦方法的流程图，具体流程如下：

步骤201：响应第一操作，电子设备启动相机应用、第一摄像头和混合事件相机。

示例性的，第一操作可以为上述图1A中针对相机图标101的单击操作。

具体地，检测到第一操作后，电子设备会被触发启动相机应用。在启动相机应用的同时，电子设备会启动第一摄像头和混合事件相机。其中，第一摄像头可以为后置摄像头，也可以为前置摄像头，本申请实施例以第一摄像头是后置摄像头为例，进行说明。电子设备在启动第一摄像头后，第一摄像头会实时获取并输出拍摄环境的图像。电子设备会对第一摄像头输出的图像进行图像处理（例如，白平衡处理）。然后，可以将处理后的图像显示在预览界面上。

混合事件相机（Hybrid事件相机）可以作为电子设备的前置摄像头。在电子设备开启人眼注视点自动对焦功能后，电子设备可以启动Hybrid事件相机，从而使得该Hybird事件相机可以获取图像。然后，分析该图像中人眼注视点在拍摄界面预览区域的坐标位置，从而基于该坐标位置确定对焦区域。这样，电子设备就可以对对焦区域中的第一图像进行对焦，使得该区域的图像更加清晰，其中第一图像为第一摄像头输出并显示在预览区域的图像。示例性的，预览区域可以为上述图1B中的预览区域111。

在本申请实施例中，Hybird事件相机兼具传统的RGB相机以及事件相机的功能，即Hybird事件相机输出的图像中，除了包括图像像素的RGB值的图像信息外，还包括图像中像素的事件信息。

为了便于理解，下面，对事件相机以及本申请实施例所述的Hybrid事件相机进行简要地说明。

事件相机是具有微秒反应时间的仿生传感器，可记录每个像素亮度变化的异步流，称为“事件”。其中，所述“事件”可以理解为像素的亮度值变化超过了设定的阈值。例如，假设像素A在T1时刻的亮度值为1000，设定亮度变化值的阈值为100。若在T2时刻，像素A的亮度值为1250。那么，很显然，像素A的亮度变化值超过了设定的阈值100。那么，事件相机就确定像素A在T2时刻的亮度值发生了变化，像素A在T2时刻存在一个事件。假设，在T2时刻，像素A的亮度值由1000变成了1050，由于亮度值的变化值未超出设定的阈值100。因此，事件相机可以判断像素A的亮度值未发生变化，像素A在T2时刻未发生事件。

事件相机通过检测每个像素的亮度值变化来生成一个事件，相比于传统相机，更适合在高动态和高速度的环境下使用，具有高动态范围 (HDR)、高时间分辨率和无运动模糊的优势。

在人的眼睛中，有一部分视觉神经对动态的目标对象很敏感。比如，在一个处于静态的房间中，如果有一个东西发生运动，那么视线会立刻被运动的物体所吸引。事件相机也一样，它能够很迅速的捕捉到运动中的物体，并且仅仅对运动的物体感兴趣。事件相机回传的信息称之为事件。其中，事件可以分成两种类型：一种是像素的亮度值变小，另一种是像素的亮度值变大。

传统RGB相机在传统的视觉领域（例如，RGB颜色空间）传回的信息（例如图像像素的RGB值）是同步的。所谓同步，就是在某一时刻t，相机会进行曝光，把这一时刻所有的像素填在一个矩阵里回传，一张照片就诞生了。在不考虑卷帘快门（Rolling shutter）的情况下，一张照片上所有的像素都对应着同一时刻。对于视频而言，不过是很多帧的图片，相邻图片间的时间间隔可大可小，这便是我们常说的帧率（frame rate），也称为时延（timelatency）。

事件相机回传的每个像素的信息称为事件（Event），一个事件所具有的格式是一个向量。该向量用于表示图像中亮度发生变化的像素的信息，即事件信息。其中，该信息包括：像素的位置信息（主要为像素的横坐标和纵坐标），像素亮度发生变化的时间，以及向素的极性值（变小或者像素亮度值变大）。示例性的，向量的形式如下：

m=（x_i，y_i，t_i，p_i）

事件相机可以通过异步的方式回传上述事件，即事件相机是像素事件发生的时间t_i来进行回传事件信息m。

事件相机的工作机制为：当某个像素所处位置的亮度值的变化值超过设定阈值时，事件相机就会回传一个上述格式的事件m。其中，x_i和y_i为该像素的坐标，t_i为事件发生的时间戳，p_i为极性值代表像素的亮度值是变小还是变大。例如，当像素的事件为像素的亮度值变大时，极性值可以为0，当像素的事件为像素的亮度值变小时，极性值可以为1。

在整个事件相机的视野内，只要有一个像素的亮度变化值超过设定阈值时，事件相机就会回传该像素对应的事件信息。这些事件都是异步发生的（再小的时间间隔也不可能完全同时）。所以，事件的时间戳均不相同。所以，和传统相机相比，它具有低时延的特性，可以捕获很短时间间隔内的像素亮度值的变化。

因此，事件相机具有如下优点：

1、高动态范围，低时延，相邻事件之间的时间可以为微秒级。

2、由于低时延，在拍摄高速物体时传统相机会发生运动模糊（由于会有一段曝光时间），而事件相机几乎不会发生运动模糊的情况。

为了便于说明传统RGB相机和事件相机的区别和优势。下面，结合图3A-图3B对传统RGB相机和事件相机的工作原理进行说明。

请参见图3A，图3A是本申请实施例提供的一种圆盘在低速转动的情况下，RGB相机和事件相机输出的图像信息对比图。在圆盘上包括圆心A和阴影区域B。假设，以圆心A为中心进行旋转，除阴影区域B的颜色为黑色外，圆盘其他区域的颜色相同。如图3A所示，当圆盘低速旋转时，RGB相机在不同时刻输出圆盘的RGB图像。由RGB相机输出的图像可知，在圆盘低速旋转的过程中，阴影区域B在输出的图像中的位置发生变化。由事件相机输出的事件信息可知，由于在圆盘低速旋转的过程中，阴影区域B的位置发生变化造成图像中其它像素在不同时刻的亮度值发生了变化，即：在阴影区域B所在位置的像素存在事件。

如图3A所示，事件相机输出的信息在一个三维坐标上，该坐标系包括x轴、y轴以及t轴。其中，x轴和y轴用于表征像素在图像中的位置坐标，t表示像素对应事件（像素亮度值的变化超过了设定的阈值）发生的时间。

由于圆盘在旋转过程中，阴影区域B在图像中的位置不断发生变化，且阴影区域B所在位置的像素的亮度值会减小（假设像素亮度值的减小值超过设定的阈值）。因此，在圆盘旋转过程中，事件相机会不断输出阴影点B所在位置区域像素的事件信息。

示例性的，在T1时刻，阴影区域B所在位置区域的像素1的位置为（x1，y1），在图3A的三维坐标轴对应位置（x1，y1，T1）上会标记一个极性点，表示像素点1的亮度值在T1时刻减小。在t2时刻，阴影区域B所在位置区域的像素2的位置为（x2，y2），在图3A的三维坐标轴对应位置（x2，y2，T2）会标记一个极性点，表示像素点2的亮度在T2时刻减小。

因此，由上述图3A可知，在圆盘低速旋转的情况下，传统的RGB相机能够清楚地输出圆盘的RGB图像，事件相机也能清楚地输出图像中像素的事件信息。

请参见图3B，图3B是本申请实施例提供的一种圆盘在高速运动状态下，RGB相机和事件相机输出的图像信息对比图。传统的RGB相机在拍摄图像时需要一定的曝光时间，由于圆盘的转动速度快。因此，传统RGB相机输出的图像会存在运动模糊的问题。在图3B上表现为：圆盘上的阴影区域B变成“长条”。但是，在圆盘高速旋转的情况下，事件相机依然能够正常输出像素的事件信息。

上述实施例对事件相机与传统RGB相机的区别进行简要说明，本申请实施例中所述的Hybrid事件相机输出的图像中除了具有像素RGB信息之外，还包括像素的事件信息。

步骤202：所述电子设备显示第一界面并将所述第一摄像头获取的第一图像显示在所述第一界面的预览区域上。

具体的，电子设备第一界面包预览区域，该预览区域用于显示第一图像。

示例性的。第一界面可以为上述图1B中的用户界面11，预览区域可以为上述图1B中用户界面11的预览区域111。

步骤203：电子设备通过Hybrid事件相机获取第二图像，并对第二图像进行处理，得到第二图像数据信息。

具体地，在Hybird事件相机开启之后，Hybrid事件相机会动态获取前置图像，并输出该前置图像的图像数据信息。该前置图像为第二图像，该图像数据信息为第二图像数据信息。

其中，第二图像数据信息包括第二图像每个像素的RGB信息以及像素的事件信息。

示例性的，Hybrid事件相机可以将相邻的、颜色相同的四个像素看做一个像素矩阵，并将该像素矩阵作为像素矩阵，输出图像数据。

示例性的，如图4所示为一个像素矩阵的示例图。该像素矩阵包括四个相邻的、颜色相同的像素。其中，在该像素矩阵中，像素1~像素3是正常RGB像素，分别对应R、G、B像素，像素4是事件像素，像素4有亮度变化才会输出事件信息。

这样，通过将四个颜色相同、相邻的像素整合成一个像素矩阵并以像素矩阵为像素矩阵输出图像的数据信息，可以使得Hybrid事件相机输出的图像中，同时包括图像像素的RGB等信息和像素的事件信息。

步骤204：所述电子设备检测第二图像中是否存在人脸。

具体的，在Hybrid相机输出第二图像后，电子设备可以根据第二图像的数据信息，检测第二图像中是否存在人脸。

示例性的，电子设备可以将第二图像数据通过第一神经网络进行识别，从而检测第二图像中是否存在人脸。其中，第一神经网络是一个预先训练好的神经网络。对第一神经网络的训练过程可以为：

可以采用大量包括人脸的图像作为训练样本，将该训练样本作为第一神经网络的输入。然后，将第一神经网络输出的识别结果与训练图像的真实结果进行对比，从而得到差异函数。该差异函数用于表征第一神经网络输出的识别结果与真实结果的差异程度，函数值越大，表示差异程度越大，函数值越小，表示差异程度越小。然后，根据差异函数不断调整第一神经网络的网络结构和网络参数，减小差异函数的数值，从而提高第一神经网络的人脸识别的准确性。

步骤205：在检测到第二图像存在人脸的情况下，电子设备判断人脸在第二图像中的占比是否大于或等于第一阈值。

具体的，电子设备在检测到第二图像中存在人脸以后，可以计算人脸在第二图像中的占比。若人脸的占比过小，电子设备检测人眼注视点的准确率就会降低，从而使得在拍摄过程中基于人眼注视点确定的第一摄像头输出的图像的对焦位置的准确性不高。

因此，电子设备需要对第二图像中人脸的占比进行计算。其中，第一阈值可以基于历史数据得到，还可以基于经验值得到，还可以基于实验数据得到，本申请实施例不做限制。

步骤206：在判断人脸在第二图像中的占比大于或等于第一阈值的情况下，电子设备获取第二图像中人眼注视点的位置信息。

具体的，在确定人脸在的第二图像中的占比大于或等于第一阈值的情况下，电子设备可以检测第二图像中人眼注视点的位置信息，即：人眼注视点对应的像素在第二图像中的坐标信息。

电子设备可以通过预先训练好的第二神经网络来输出人眼注视点在第二图像中的坐标信息，第二神经网络的训练过程可以为：

可以采用大量Hybrid事件相机拍摄的、包括人眼注视点的图像将作为训练样本，并记录每个训练样本中人眼注视点的坐标作为训练样本的参考信息。然后，将训练样本作为第二神经网络的输入，第二神经网络会识别训练样本中人眼注视点，并输出人眼注视点在训练样本中的坐标。将第二神经网络输出的人眼注视点坐标和训练样本的参考信息进行对比，得到一个差异函数。该差异函数用于表征第二神经网络输出的人眼注视点坐标与参考信息的差异程度。差异函数的值越大，则人眼注视点坐标与参考信息的差异程度越高，差异函数的值越小，则人眼注视点坐标与参考信息的差异程度越低。基于差异函数值不断调整第二神经网络的网络结构和参数，从而使得第二神经网络输出的人眼注视点的坐标与参考信息一致，从而提高第二神经网络检测人眼注视点坐标的准确性。

下面，结合图5A-图5C对第二神经网络检测人眼注视点在第二图像中的坐标的系统架构进行说明。在第二神经网络中包括第一检测模块、第五全连接层模块和第二检测模块。第一检测模块用于提取第二图像像素的RGB信息，并基于该RGB信息输出预测的人眼注视点在第二图像中的坐标。第二检测模块用于提取第二图像像素的事件信息，并基于该事件信息输出预测的人眼注视点在第二图像中的坐标。

如图5A所示，在电子设备开启人眼实现自动对焦功能后，对首帧第二图像进行人眼注视点的检测时，由于首帧图像没有事件信息。因此，电子设备只能通过第二神经网络中的第一检测模块来获取人眼注视点在第二图像中的坐标。

如图5A所示，电子设备将第二图像作为第一检测模块的输入。第一检测模块提取第二图像中，左、右眼图像、面部图像以及面部位置信息。然后，将左、右眼图像作为第一卷积网络的输入，经过第一卷积网络进行处理，得到关于左眼和右眼的第一特征信息。将第一特征信息通过第一全连接层模块进行处理，得到第一人眼注视点坐标。

同理，将面部图像信息作为第二卷积网络的输入，经过第二卷积网络进行处理，得到关于面部图像的第二特征信息。将第二特征信息通过第二全连接层模块进行处理，得到第二人眼注视点坐标。

将面部位置信息通过第三全连接层模块进行处理，得到第三人眼注视坐标。

然后，将第一人眼注视点坐标、第二人眼注视点坐标以及第三人眼注视点坐标通过第五全连接层模块进行融合处理，得到最终第二神经网络输出的人眼注视点坐标。

如图5B所示，在电子设备开启人眼实现自动对焦功能后，对非首帧第二图像进行人眼注视点的检测时，电子设备可以结合第二神经网络中的第一检测模块和第二检测模块来计算人眼注视点在第二图像中的坐标。

如图5B所示，电子设备将第二图像分别作为第一检测模块和第二检测模块的输入。其中，在将第二图像输入第一检测模块后，第一检测模块会输出第一人眼注视点坐标、第二人眼注视点坐标以及第三人眼注视点坐标。第一检测模块的工作过程可以参考上述图5A中对第一检测模块的相关叙述。

将第二图像作为第二检测模块的输入后，第二检测模块会提取第二图像中像素矩阵的事件信息。然后，将像素矩阵的事件信息以及第一检测模块提取的面部位置信息作为第三卷积网络的输入，从而得到第四特征信息。这样，第四特征信息中就包括与人眼面部相关的事件信息。然后，将上一次第二神经网络输出的人眼注视点坐标与第四特征信息作为第四全连接层模块的输入，经过第四全连接层模块处理，得到第四人眼注视点坐标。最后，将第一人眼注视点坐标、第二人眼注视点坐标、第三人眼注视点坐标以及第四人眼注视点坐标作为第五全连接层模块的输入，经过第五全连接层模块的融合处理，得到第二神经网络输出的人眼注视点坐标。

在一种可能实现的方式中，在电子设备开启人眼实现自动对焦功能后，对非首帧第二图像进行人眼注视点的检测时，电子设备可以将第二检测模块输出第四人眼注视点坐标作为第二神经网络输出的人眼注视点坐标。

如图5C所示，将第二图像作为第二检测模块的输入后，第二检测模块会提取第二图像中像素矩阵的事件信息。然后，将像素矩阵的事件信息以及第一检测模块提取的面部位置信息作为第三卷积网络的输入，从而得到第四特征信息。这样，第四特征信息中就包括与人眼面部相关的事件信息。然后，将上一次第二神经网络输出的人眼注视点坐标与第四特征信息作为第四全连接层模块的输入，经过第四全连接层模块处理，得到第四人眼注视点坐标。

步骤207：电子设备基于所述人眼注视点的位置信息判断所述人眼注视点的位置是否在预览区域内。

具体的，电子设备在获取到人眼注视点的位置信息后，基于该位置信息和电子设备显示区域的尺寸信息，确定人眼注视点是否在预览区域内。示例性的，预览区域可以为上述图1B中，用户界面11的预览区域111。

电子设备基于所述人眼注视点的位置信息判断所述人眼注视点的位置是否在预览区域内具体为：电子设备获取预览区域在显示屏上的横轴的坐标信息和在显示屏上的纵轴坐标信息，并基于所述横轴坐标信息和所述纵轴坐标信息确定所述预览区域在显示屏上的坐标范围。电子设备基于人眼注视点的位置信息获取人眼注视点在显示屏上的横坐标和在显示屏上的纵坐标。然后，确定人眼注视点对应像素的坐标是否在预览区域的坐标范围之内。若在，则说明人眼注视点的位置在预览区域内。反之，则说明人眼注视点的位置不在预览区域内。

示例性的，假设采用的坐标系为cm二维坐标系，以屏幕相邻两条边作为xy轴。预览区域在显示屏上的横坐标范围为0.4~8，预览区域在显示屏上的纵坐标的范围为5~15。假设人眼注视点在显示屏的坐标为（4，7），由于人眼注视点的位置超过了电子设备预览区域的位置范围。因此，电子设备确定人眼注视点不在预览区域内。

步骤208：若所述人眼注视点的位置在预览区域内，电子设备基于所述人眼注视点的位置信息在第一图像上确定对焦区域。

具体的，第一图像为第一摄像头输出的、在预览区域上显示的图像。

电子设备确定对焦区域可以采用以下两种方法：

第一种方法：电子设备在第一图像中检测目标对象，所述目标对象对应的像素区域包括所述人眼注视点对应像素的坐标。然后，电子设备可以将能够包括目标对象的最小区域确定为对焦区域。示例性的，电子设备可以通过预先训练好的第三神经网络来对第一图像中的目标对象进行检测。其中，目标对象可以为人物、动物等。

第二种方法：电子设备可以以人眼注视点在预览区域中的坐标为中心，确定长为L1，宽为L2的像素区域作为对焦区域。其中，L1和L2可以基于历史数据得到，也可以基于经验值得到，还可以基于实验数据得到，本申请实施例不做限制。

步骤209：电子设备在所述预览区域上显示对焦框，所述对焦框包括对焦区域。

具体地，对焦框可以为上述图1B中的对焦框1111。

步骤210：所述电子设备对所述对焦区域的第一图像进行对焦。

具体地，电子设备可以使用自动对焦（Auto Focus，AF）算法对对焦区域的第一图像进行对焦，从而提高该区域的第一图像的清晰度。

应当理解的是，步骤209可以在步骤210之前执行，也可以在步骤210之后执行，也可以和步骤210同时执行，本申请实施例不做限制。

本申请实施例，在电子设备拍摄情况下，若启动了人眼注视点自动对焦的功能时，电子设备可以启动前置的Hybrid事件相机获取用户图像，并获取用户图像中人眼注视点在显示屏上的坐标信息。若人眼注视点的坐标位置在显示预览图像的预览区域内，电子设备基于人眼注视点的坐标在预览区域内确定对焦区域，并对预览区域内的图像进行对焦，从提高对焦区域内的图像的清晰度。通过上述实施例所述的自动对焦方法，实现了在拍摄过程中，根据人眼注视点自动对焦的功能，提高了用户体验。

下面，对电子设备100的硬件结构进行介绍。

电子设备100可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digitalassistant，PDA)、增强现实(augmentedreality，AR)\虚拟现实(virtual reality，VR)设备等。本申请实施例对该电子设备100的具体类型不作特殊限制。

请参见图6，图6是本申请实施例提供的一种电子设备100的硬件结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线（universal serial bus，USB）接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块（subscriber identification module，SIM）卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器（application processor，AP），调制解调处理器，图形处理器（graphics processingunit，GPU），图像信号处理器（image signal processor，ISP），控制器，存储器，视频编解码器，数字信号处理器（digital signal processor，DSP），基带处理器，和/或神经网络处理器（neural-network processing unit，NPU）等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏（liquid crystal display，LCD），有机发光二极管（organic light-emittingdiode，OLED），有源矩阵有机发光二极体或主动矩阵有机发光二极体（active-matrixorganic light emitting diode的，AMOLED），柔性发光二极管（flex light-emittingdiode，FLED），Miniled，MicroLed，Micro-oLed，量子点发光二极管（quantum dot lightemitting diodes，QLED）等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP 用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

NPU为神经网络（neural-network ，NN）计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序（比如声音播放功能，图像播放功能等）等。存储数据区可存储电子设备100使用过程中所创建的数据（比如音频数据，电话本等）等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器（universal flash storage，UFS）等。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴（即，x，y和z轴）的角速度。陀螺仪传感器180B可以用于拍摄防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。

加速度传感器180E可检测电子设备100在各个方向上（一般为三轴）加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别终端设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管（LED）和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线）或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，（例如，软盘、硬盘、磁带）、光介质（例如， DVD）、或者半导体介质（例如固态硬盘 SolidState Disk）等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

总之，以上所述仅为本发明技术方案的实施例，并非用于限定本发明的保护范围。凡根据本发明的揭露，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种拍摄对焦的方法，其特征在于，应用于电子设备，所述电子设备包括第一摄像头和混合事件相机，所述方法包括：

响应第一操作，所述电子设备启动所述第一摄像头、所述混合事件相机；

显示第一界面，所述第一界面包括预览区域，所述预览区域显示第一图像，所述第一图像为所述第一摄像头输出的图像；

所述混合事件相机获取第二图像并输出所述第二图像的事件信息和图像信息；

在检测到所述第二图像中的人脸比例大于或等于第一阈值的情况下，所述电子设备基于所述事件信息和所述图像信息检测所述第二图像中人眼注视点的坐标；

在基于所述人眼注视点的坐标确定所述人眼注视点的位置在所述预览区域的情况下，所述电子设备基于所述人眼注视点的坐标在所述预览区域上确定对焦区域；

所述电子设备对所述对焦区域内的对象进行对焦处理。

2.如权利要求1所述的方法，其特征在于，所述电子设备基于所述人眼注视点的坐标在所述预览区域上确定对焦区域之后，还包括：

所述电子设备在所述预览区域上显示对焦框，所述对焦框指示所述对焦区域。

3.如权利要求1-2任一项所述的方法，其特征在于，所述电子设备基于所述事件信息和所述图像信息检测所述第二图像中人眼注视点的坐标之前，还包括：

所述电子设备将所述第二图像通过第一神经网络处理，得到所述第二图像中的目标像素；所述目标像素为所述第二图像中人脸对应的像素；

所述电子设备确定所述目标像素在所述第二图像中的像素占比是否大于或等于所述第一阈值。

4.如权利要求1-2任一项所述的方法，其特征在于，所述电子设备包括第二神经网络，所述电子设备基于所述事件信息和所述图像信息检测所述第二图像中人眼注视点的坐标，具体包括：

所述电子设备将所述第二图像的事件信息和所述图像信息通过第二神经网络进行处理，得到所述第二图像中人眼注视点的坐标。

5.如权利要求4所述的方法，其特征在于，所述第二神经网络包括第一检测模块和第二检测模块，所述电子设备将所述第二图像的事件信息和所述图像信息通过第二神经网络进行处理，得到所述第二图像中人眼注视点的坐标，具体包括：

在所述第二图像为非首帧图像的情况下，所述第一检测模块基于所述图像信息，得到左眼的图像信息、右眼的图像信息、人脸的图像信息以及人脸的位置信息；

基于所述左眼的图像信息和所述右眼的图像信息输出第一人眼注视点坐标；

基于所述人脸的图像信息输出第二人眼注视点坐标；

基于所述人脸的位置信息输出第三人眼注视点坐标；

所述第二检测模块基于所述事件信息、所述人脸的位置信息以及所述第二神经网络上一次输出的人眼注视点坐标，得到第四人眼注视点坐标；

将所述第一人眼注视点坐标、所述第二人眼注视点坐标、所述第三人眼注视点坐标以及所述第四人眼注视点坐标进行融合处理，得到所述第二图像中人眼注视点的坐标。

6.如权利要求4所述的方法，其特征在于，所述第二神经网络包括第一检测模块和第二检测模块，所述电子设备将所述第二图像的事件信息和所述图像信息通过第二神经网络进行处理，得到所述第二图像中人眼注视点的坐标，具体包括：

在所述第二图像为非首帧图像的情况下，所述第一检测模块基于所述图像信息，得到人脸的位置信息；

将所述人脸的位置信息发送给所述第二检测模块；

所述第二检测模块基于所述事件信息、所述人脸的位置信息以及所述第二神经网络上一次输出的人眼注视点坐标，计算得到所述第二图像中人眼注视点的坐标。

7.如权利要求1-2任一项所述的方法，其特征在于，所述电子设备基于所述人眼注视点的坐标在所述预览区域上确定对焦区域，具体包括：

所述电子设备检测是否存在目标对象，所述目标对象在所述预览区域中对应的像素区域包括所述人眼注视点的坐标；

在存在目标对象的情况下，所述电子设备将所述预览区域中包括所述目标对象的最小区域确定为对焦区域。

8.如权利要求1-2任一项所述的方法，其特征在于，所述电子设备基于所述人眼注视点的坐标在所述预览区域上确定对焦区域，具体包括：

所述电子设备在所述预览区域上，以所述人眼注视点的坐标为中心，确定长为L1，宽为L2的区域为对焦区域。

9.一种电子设备，其特征在于，包括：存储器、处理器和触控屏；其中：

所述触控屏用于显示内容；

所述存储器，用于存储计算机程序，所述计算机程序包括程序指令；

所述处理器用于调用所述程序指令，使得所述电子设备执行如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时，实现如权利要求1-8任意一项所述的方法。