CN116048244B

CN116048244B - 一种注视点估计方法及相关设备

Info

Publication number: CN116048244B
Application number: CN202210910894.2A
Authority: CN
Inventors: 孙贻宝
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2023-10-20
Anticipated expiration: 2042-07-29
Also published as: WO2024021742A1; CN116048244A

Abstract

本申请提供了一种注视点估计方法及相关设备。根据该方法，电子设备可以通过摄像头采集图像，通过自适应变焦保证输入距离尺度自适应的简单样本，在人脸检测结果满足预设人脸条件的情况下，获取采集的图像中的脸部位置信息和眼睛位置信息。电子设备可以基于注视点估计网络模型中的感兴趣区域池化模块，以对应的预设特征图尺寸对目标图像块的ROI进行处理，得到特征图。目标图像块由采集的图像裁剪后得到。目标图像块包括脸部图像块、左眼图像块、右眼图像块中的至少一种类型的图像块。不同类型的图像块各自对应有预设特征图尺寸。该方法可以通过感兴趣区域池化模块统一特征图的尺寸，避免目标图像块经缩放后发生形变，提高了注视点估计的准确度。

Description

一种注视点估计方法及相关设备

技术领域

本申请涉及深度学习及大数据处理等领域，尤其涉及一种注视点估计方法及相关设备。

背景技术

注视点估计一般指输入图像，通过眼部/头部特征计算视线方向并映射到注视点。注视点估计主要应用在智能手机、平板、智慧屏、AR/VR眼镜的人机交互和可视化显示上。

一般来说，注视点估计方法可以分为基于几何的方法(Geometry Based Methods)和基于外观的方法(Appearance Based Methods)两大类。通过基于几何的方法来估计注视点坐标的基本思路为：通过一些二维信息(比如眼角等眼睛的特征)恢复三维视线方向。而通过基于外观的方法来估计注视点坐标的基本思路为：学习一个将输入图像映射到注视点的模型。这两类方法各有优缺点，基于几何的方法相对更准确，但是对图片的质量和分辨率有很高的要求，需要额外硬件(例如，红外传感器和多个摄像头等)支持，可能导致功耗大，而基于外观的方法相对准确度没有那么高。可理解，基于外观的方法需要对大量数据进行训练，摄像头与拍摄主体之间的距离并不固定，输入图像的深度信息也会有所差异。比如，基于不同输入图像获取的脸部图像的大小之间可能存在较大差异，不能满足模型要求。若将该输入图像进行缩放可能可以满足模型要求，但是这样可能有特征形变的风险，这样就会造成注视点估计的准确性降低。

因此，如何在保证功耗较小的情况下提高注视点估计的准确性是目前亟待解决的问题。

发明内容

本申请提供了一种注视点估计方法及相关设备。根据该注视点估计方法，电子设备可以通过摄像头采集图像，并在人脸检测结果满足预设人脸条件的情况下，获取采集的图像中的脸部位置信息和眼睛位置信息。在脸部位置信息和眼睛位置信息的基础上，电子设备可以通过注视点估计网络模型确定目标对象的注视点坐标。可理解，电子设备通过摄像头采集的图像中的拍摄主体为目标对象。可理解，本申请中所提及的拍摄主体指的是用户利用电子设备进行拍摄时的主要拍摄对象。在基于注视点估计网络模型对目标图像块进行处理的过程中，电子设备可以基于其中的感兴趣区域池化模块，以对应的预设特征图尺寸对目标图像块的ROI进行处理，得到特征图。目标图像块由采集的图像经裁剪后得到。目标图像块包括脸部图像块、左眼图像块、右眼图像块中的至少一种类型的图像块。不同类型的图像块各自对应有预设特征图尺寸。上述方法可以通过感兴趣区域池化模块统一特征图的尺寸，避免目标图像块经缩放后发生形变，提高了注视点估计的准确性。

第一方面，本申请提供了一种注视点估计方法。该方法可以应用于设置有摄像头的电子设备。该方法可以包括：电子设备可以通过摄像头采集第一图像；在人脸检测结果满足预设人脸条件的情况下，电子设备可以获取第一图像中的脸部位置信息和眼睛位置信息。在基于注视点估计网络模型对目标图像块进行处理的过程中，电子设备可以基于注视点估计网络模型的感兴趣区域池化模块，以对应的预设特征图尺寸对目标图像块的感兴趣区域ROI进行处理，得到特征图。可理解，目标图像块包括脸部图像块、左眼图像块、右眼图像块中的至少一种类型的图像块。不同类型的图像块各自对应有预设特征图尺寸。其中，脸部位置信息包括脸部区域的相关特征点的坐标，眼睛位置信息包括眼睛区域的相关特征点的坐标。脸部图像块为基于脸部位置信息对第一图像中的脸部区域进行裁剪得到的图像块。左眼图像块为基于眼睛位置信息对第一图像中的左眼区域进行裁剪得到的图像块。右眼图像块为基于眼睛位置信息对第一图像中的右眼区域进行裁剪得到的图像块。

在本申请提供的方案中，电子设备可以基于注视点估计网络模型来确定目标对象的注视点坐标。在基于注视点估计网络模型来确定目标对象的注视点坐标的过程中，电子设备可以基于感兴趣区域池化模块，以对应的预设特征图尺寸对目标图像块的感兴趣区域ROI进行处理，得到特征图。可理解，目标图像块包括脸部图像块、左眼图像块、右眼图像块中的至少一种类型的图像块。目标图像块中的不同类型的图像块各自对应有预设特征图尺寸。也就是说，相同类型的图像块对应的特征图的尺寸是一样的，而不同类型的图像块对应的特征图的尺寸可以是一样的，也可以不一样。这种方法可以通过感兴趣区域池化模块统一相同类型的图像块对应的特征图的尺寸，为后续特征提取做准备，还可以避免通过缩放来调整特征图尺寸所造成的特征形变，提高了注视点估计的准确性。可理解，特征性别可能造成特征提取不准确，从而影响注视点估计的准确性。

在本申请的一些实施例中，电子设备可以通过前置摄像头采集第一图像。可理解，电子设备可以实时获取第一图像，具体可以参考后文步骤S301中的相关描述，在此不展开说明。

在本申请的一些实施例中，第一图像可以为图像I1。

可理解，脸部位置信息和眼睛位置信息的相关描述可以参考后文，在此不展开说明。可理解，脸部区域的相关特征点可以包括人脸的边缘轮廓特征点。眼睛区域的相关特征点可以包括眼角特征点，还可以包括眼睛区域的边缘轮廓特征点。脸部区域的相关特征点与眼睛区域的相关特征点的相关描述可以参考后文，在此不展开说明。

在本申请的一些实施例中，电子设备可以在进行人脸检测的过程中获取脸部位置信息。具体地，电子设备在进行人脸检测的过程中，可以进行特征点检测，并确定人脸相关的特征点，进而获取脸部位置信息。

在本申请的一些实施例中，电子设备可以在进行人脸检测的过程中完成对眼睛的检测，从而获取眼睛位置信息，具体可以参考后文，在此不展开说明。在一种可能的实现方式中，眼睛相关的特征点可以包括瞳孔坐标。

在本申请的一些实施例中，电子设备可以进行眼睛检测，从而获取眼睛位置信息。眼睛检测的相关描述可以参考后文，在此不展开说明。

在本申请的一些实施例中，感兴趣区域池化模块可以包括若干感兴趣区域池化层。例如，感兴趣区域池化模块可以包括感兴趣区域池化层-1，还可以包括感兴趣区域池化层-2，具体可以参考图7、图8和图9。

在本申请的一些实施例中，注视点估计网络模型可针对目标图像块中相同类型的图像块来统一特征图，并对其进行特征提取。例如，相较于如图7所示的注视点估计网络模型，本申请还可以提供一种注视点估计网络模型，这种注视点估计网络模型的输入可以不包括脸部网格、瞳孔坐标、全连接层-2和全连接层-3。例如，相较于如图8所示的注视点估计网络模型，本申请还可以提供一种注视点估计网络模型，这种注视点估计网络模型的输入可以不包括脸部网格、瞳孔坐标、全连接层-2、全连接层-5、全连接层-3和全连接层-6。再例如，相较于如图9所示的注视点估计网络模型，本申请还可以提供一种注视点估计网络模型，这种注视点估计网络模型的输入可以不包括脸部网格、瞳孔坐标、全连接层-2、全连接层-5、全连接层-3和全连接层-6。

在本申请的一些实施例中，脸部图像块对应的预设特征图尺寸为第一预设特征图尺寸，左眼图像块对应的预设特征图尺寸为第二预设特征图尺寸，右眼图像块对应的预设特征图尺寸为第三预设特征图尺寸。

在本申请的一些实施例中，目标图像块的感兴趣区域为整个目标图像块。例如，脸部图像块的ROI为整个脸部图像块，左眼图像块的ROI为整个左眼图像块，右眼图像块的ROI为整个右眼图像块。

可理解，在目标图像块包括脸部图像块的情况下，该方法还可以包括：电子设备可以基于脸部位置信息对第一图像中的脸部区域进行裁剪，得到脸部图像块。类似的，在目标图像块包括左眼图像块的情况下，该方法还可以包括：电子设备可以基于眼睛位置信息对第一图像中的左眼区域进行裁剪，得到左眼图像块。在目标图像块包括右眼图像块的情况下，该方法还可以包括：电子设备可以基于眼睛位置信息对第一图像中的右眼区域进行裁剪，得到右眼图像块。

结合第一方面，在一种可能的实现方式中，电子设备以对应的预设特征图尺寸对目标图像块的感兴趣区域ROI进行处理，得到特征图，具体可以包括：电子设备可以基于对应的预设特征图尺寸对目标图像块的ROI进行划分，得到若干分块区域，并且，电子设备还可以对目标图像块的ROI中的每一个分块区域进行最大池化处理，得到特征图。其中，目标图像块的ROI中每一行分块区域的数量与对应的预设特征图尺寸中的宽度值相同，目标图像块的ROI中每一列分块区域的数量与对应的预设特征图尺寸中的高度值相同。

在本申请提供的方案中，电子设备可以基于对应的预设特征图尺寸中的宽度值和高度值来对目标图像块中的ROI进行划分，得到若干分块区域，并对每一个分块区域进行最大池化处理，得到目标图像块的特征图。由于分块区域的数量和感兴趣区域池化层的输出的特征图的维度是一致的。因此，对于不同尺寸的图像块，这种方式都可以统一图像块对应的特征图，从而避免因缩放导致的特征形变，提高了特征提取的准确性，从而提高了注视点估计的准确性。

可理解，目标图像块中的脸部图像块的ROI可以为该脸部图像块中的脸部区域。类似的，目标图像块中的左眼图像块的ROI可以为该左眼图像块中的左眼区域。目标图像块中的右眼图像块的ROI可以为该右眼图像块中的右眼区域。

可理解，上述内容的具体实现可以参考后文，尤其是后文中与图10A、图10B和图11相关的描述，在此不展开说明。

结合第一方面，在一种可能的实现方式中，在目标图像块包括脸部图像块、左眼图像块和右眼图像块的情况下，电子设备基于对应的预设特征图尺寸对目标图像块的ROI进行划分，得到若干分块区域，具体可以包括：电子设备可以确定脸部图像块的ROI，并基于第一预设特征图尺寸对脸部图像块的ROI进行划分，得到若干脸部分块区域；电子设备还可以确定左眼图像块的ROI，并基于所述第二预设特征图尺寸对左眼图像块的ROI进行划分，得到若干左眼分块区域；电子设备还可以确定右眼图像块的ROI，并基于第三预设特征图尺寸对右眼图像块的ROI进行划分，得到若干右眼分块区域。电子设备对目标图像块的ROI中的每一个分块区域进行最大池化处理，得到特征图，具体可以包括：电子设备可以对脸部图像块的ROI中的每一个脸部分块区域进行最大池化处理，得到第一特征图，可以对左眼图像块的ROI中的每一个左眼分块区域进行最大池化处理，得到第二特征图，还可以对右眼图像块的ROI中的每一个右眼分块区域进行最大池化处理，得到第三特征图。其中，第一特征图为与脸部图像块的ROI对应的特征图，第二特征图为与左眼图像块的ROI对应的特征图，第三特征图为与右眼图像块的ROI对应的特征图。目标图像块的ROI中每一行分块区域的数量与对应的预设特征图尺寸中的宽度值相同，目标图像块的ROI中每一列分块区域的数量与对应的预设特征图尺寸中的高度值相同，具体包括：脸部图像块的ROI中每一行脸部分块区域的数量与第一预设特征图尺寸中的宽度值相同，脸部图像块的ROI中每一列脸部分块区域的数量与第一预设特征图尺寸中的高度值相同；左眼图像块的ROI中每一行左眼分块区域的数量与第二预设特征图尺寸中的宽度值相同，左眼图像块的ROI中每一列左眼分块区域的数量与第二预设特征图尺寸中的高度值相同；右眼图像块的ROI中每一行右眼分块区域的数量与第三预设特征图尺寸中的宽度值相同，右眼图像块的ROI中每一列右眼分块区域的数量与第三预设特征图尺寸中的高度值相同。

在本申请提供的方案中，目标图像块可以包括脸部图像块、左眼图像块和右眼图像块。在这种情况下，电子设备可以基于注视点估计网络模型来分别统一脸部图像块、左眼图像块和右眼图像块对应的特征图的尺寸，并分别基于脸部图像块、左眼图像块和右眼图像块对应的特征图提取特征。可理解，这种方式可以统一图像块对应的特征图，从而避免因缩放导致的特征形变，提高了特征提取的准确性，从而提高了注视点估计的准确性。

在本申请的一些实施例中，第二预设特征图尺寸与第三预设特征图尺寸可以相同。

在本申请的一些实施例中，第一预设特征图尺寸与第二预设特征图尺寸可以相同。第一预设特征图尺寸与第三预设特征图尺寸可以相同。

在本申请的一些实施例中，在目标图像块包括脸部图像块、左眼图像块和右眼图像块中的一种或两种类型的图像块的情况下，电子设备基于感兴趣区域池化模块对目标图像块进行的处理可以参考上文，在此不再赘述。

结合第一方面，在一种可能的实现方式中，第一图像的拍摄主体为目标对象。电子设备通过摄像头采集第一图像之后，该方法还可以包括：在人脸检测结果满足预设人脸条件的情况下，电子设备可以获取第一图像中的瞳孔坐标；电子设备可以基于脸部位置信息确定第一图像中的脸部区域在第一图像中的位置和大小，得到第一图像对应的脸部网格。脸部网格用于表征目标对象与摄像头之间的距离。电子设备得到特征图之后，该方法还可以包括：电子设备可以基于注视点估计网络模型的卷积模块对特征图进行卷积处理，提取眼部特征和/或脸部特征；电子设备还可以基于注视点估计网络模型的融合模块对眼部特征和/或脸部特征、脸部网格和瞳孔坐标进行整合，得到目标对象的注视点坐标。

在本申请提供的方案中，电子设备可以基于更多类型的特征(例如，脸部特征、眼睛特征、深度信息和瞳孔位置等)来进行注视点估计，即基于更全面的特征信息来进行注视点估计，可以提高注视点估计的准确性。

可理解，脸部网格可以表示图像中的人脸在图像中的位置和大小，可以体现图像中目标对象的深度信息，即目标对象与采集该图像的摄像头之间的距离。

可理解，本申请中所提及的第一图像中的人脸为第一图像中目标对象的人脸。

在本申请的一些实施例中，电子设备可以将脸部图像块、左眼图像块、右眼图像块、脸部网格和瞳孔坐标输入到注视点估计网络模型中，输入注视点坐标。其中，注视点估计网络模型可以包括感兴趣区域池化模块、卷积模块和融合模块。感兴趣区域池化模块可以用于：以第一预设特征图尺寸对脸部图像块的感兴趣区域ROI进行处理，得到第一特征图。感兴趣区域池化模块还可以用于：以第二预设特征图尺寸对左眼图像块的ROI进行处理，得到第二特征图，以及以第三预设特征图尺寸对右眼图像块的ROI进行处理，得到第三特征图。卷积模块可以用于：分别对第一特征图、第二特征图和第三特征图进行卷积处理，提取脸部特征及眼睛特征。融合模块可以用于：对脸部特征、眼睛特征、脸部网格和瞳孔坐标进行整合，得到目标对象的注视点坐标。其中，第一特征图的尺寸与第一预设特征图尺寸相同，第二特征图的尺寸与第二预设特征图尺寸相同，第三特征图的尺寸与第三预设特征图尺寸相同。

结合第一方面，在一种可能的实现方式中，人脸检测结果满足预设人脸条件，具体包括：第一图像中检测到人脸。

在本申请提供的方案中，电子设备可以在第一图像中检测到人脸的情况下，获取脸部位置信息和眼睛位置信息。

结合第一方面，在一种可能的实现方式中，人脸检测结果满足预设人脸条件，具体可以包括：第一图像中检测到人脸，且第一图像中的脸部区域的大小满足预设大小要求。电子设备通过摄像头采集第一图像之后，该方法还可以包括：在第一图像中检测到人脸，且第一图像中的脸部区域的大小不满足预设大小要求的情况下，电子设备可以进行自适应变焦，并基于自适应变焦后的焦距重新采集图像。

在本申请提供的方案中，在第一图像包括人脸且第一图像中的脸部区域的大小不满足预设大小要求的情况下，电子设备可以进行自适应变焦，并基于自适应变焦后的焦距重新采集图像，使得后续采集的图像中的人脸大小满足预期。通过这种方式，电子设备可以采集包含合适大小的人脸的图像，而不会因采集到的图像中的人脸太小导致图像细节丢失以及后续特征提取困难，也不会因采集到的图像中的人脸太大导致图像信息丢失以及后续特征提取困难。也就是说，通过上述方法，电子设备提取的特征比较准确，使得注视点估计也提高了准确性。

在本申请的一些实施例中，第一图像中的脸部区域的大小满足预设大小要求，具体包括：第一图像中的脸部区域的面积在预设面积范围内。

在本申请的一些实施例中，第一图像中的脸部区域的大小满足预设大小要求，具体包括：第一图像中的脸部区域的高度在预设高度范围内，且第一图像中的脸部区域的宽度在预设宽度范围内。

可理解，电子设备可以通过自适应变焦保证输入距离尺度自适应的简单样本。也就是说，电子设备可以通过自适应变焦在拍摄距离适中的情况下采集图像。

可理解，预设大小要求和自适应变焦的相关描述可以参考后文，在此不展开说明。

结合第一方面，在一种可能的实现方式中，电子设备基于脸部位置信息对第一图像中的脸部区域进行裁剪，具体可以包括：电子设备可以确定第一图像中的脸部区域的相关特征点；电子设备可以确定第一外接矩形；电子设备还可以基于第一外接矩形在第一图像中的位置，对第一图像进行裁剪。其中，第一外接矩形为第一图像中的脸部区域的相关特征点的外接矩形，脸部图像块与第一外接矩形在第一图像中的位置相同，脸部图像块与第一外接矩形的大小相同。电子设备基于眼睛位置信息对第一图像中的左眼区域进行裁剪，具体可以包括：电子设备可以确定第一图像中的左眼区域的相关特征点；电子设备可以确定第二外接矩形，并基于第二外接矩形在第一图像中的位置，对第一图像进行裁剪。其中，第二外接矩形为第一图像中的左眼区域的相关特征点的外接矩形，左眼图像块与第二外接矩形在第一图像中的位置相同，左眼图像块与第二外接矩形的大小相同。电子设备基于眼睛位置信息对第一图像中的右眼区域进行裁剪，具体可以包括：电子设备可以确定第一图像中的右眼区域的相关特征点；电子设备可以确定第三外接矩形，并基于第三外接矩形在第一图像中的位置，对第一图像进行裁剪。其中，第三外接矩形为第一图像中的右眼区域的相关特征点的外接矩形，右眼图像块与第三外接矩形在第一图像中的位置相同，右眼图像块与第三外接矩形的大小相同。

在本申请提供的方案中，电子设备可以分别基于脸部区域的相关特征点的外接矩形、左眼区域的相关特征点的外接矩形和右眼区域的相关特征点的外接矩形，来获取脸部图像块、左眼图像块和右眼图像块。

可理解，上述内容的具体实现方式可以参考后文中步骤S306的相关描述，在此不展开说明。

结合第一方面，在一种可能的实现方式中，基于脸部位置信息对第一图像中的脸部区域进行裁剪，得到脸部图像块，具体可以包括：电子设备可以基于脸部位置信息确定第一图像中的脸部区域；电子设备可以以脸部区域为第一裁剪框的中心来对第一图像进行裁剪，得到脸部图像块。第一裁剪框的尺寸为第一预设裁剪尺寸。脸部图像块与第一裁剪框的尺寸相同。基于眼睛位置信息对第一图像中的左眼区域和右眼区域进行裁剪，得到左眼图像块和右眼图像块，具体可以包括：电子设备基于眼睛位置信息确定第一图像中的左眼区域和第一图像中的右眼区域；电子设备可以以左眼区域为第二裁剪框的中心来对第一图像进行裁剪，得到左眼图像块，还可以以右眼区域为第三裁剪框的中心来对第一图像进行裁剪，得到右眼图像块。第二裁剪框的尺寸为第二预设裁剪尺寸。左眼图像块与第二裁剪框的尺寸相同。第三裁剪框的尺寸为第三预设裁剪尺寸。右眼图像块与第三裁剪框的尺寸相同。

在本申请提供的方案中，电子设备可以基于脸部位置信息和预设人脸裁剪尺寸对第一图像进行裁剪，得到脸部图像块。电子设备还可以基于眼睛位置信息和预设眼睛裁剪尺寸对第一图像进行裁剪，得到左眼图像块和右眼图像块。

在本申请的一些实施例中，第一预设裁剪尺寸为预设人脸裁剪尺寸。

在本申请的一些实施例中，第二预设裁剪尺寸与第三预设裁剪尺寸为预设眼睛裁剪尺寸。第二预设裁剪尺寸与第三预设裁剪尺寸可以相同。

在本申请的一些实施例中，预设眼睛裁剪尺寸可以包括预设左眼裁剪尺寸和预设右眼裁剪尺寸。第二预设裁剪尺寸可以为预设左眼裁剪尺寸。第三预设裁剪尺寸可以为预设右眼裁剪尺寸。

结合第一方面，在一种可能的实现方式中，注视点估计网络模型还可以包括若干激活层。感兴趣区域池化模块可以包括若干感兴趣区域池化层。卷积模块可以包括若干卷积层。融合模块包括若干全连接层。

在本申请的一些实施例中，注视点估计网络模型可以包括若干感兴趣区域池化层、若干卷积层。注视点估计网络模型还可以包括若干激活层。

在本申请的一些实施例中，注视点估计网络模型可以包括若干感兴趣区域池化层、若干卷积层和若干池化层。注视点估计网络模型还可以包括若干激活层。

第二方面，本申请提供了一种电子设备。该电子设备可以包括显示屏、摄像头、存储器、一个或多个处理器。存储器用于存储计算机程序。摄像头，可以用于：采集第一图像。处理器，可以用于：在人脸检测结果满足预设人脸条件的情况下，获取第一图像中的脸部位置信息和眼睛位置信息；在基于注视点估计网络模型对目标图像块进行处理的过程中，基于注视点估计网络模型的感兴趣区域池化模块，以对应的预设特征图尺寸对目标图像块的感兴趣区域ROI进行处理，得到特征图。其中，脸部位置信息包括脸部区域的相关特征点的坐标，眼睛位置信息包括眼睛区域的相关特征点的坐标。目标图像块包括脸部图像块、左眼图像块、右眼图像块中的至少一种类型的图像块。不同类型的图像块各自对应有预设特征图尺寸。脸部图像块为基于脸部位置信息对第一图像中的脸部区域进行裁剪得到的图像块，左眼图像块为基于眼睛位置信息对第一图像中的左眼区域进行裁剪得到的图像块，右眼图像块为基于眼睛位置信息对第一图像中的右眼区域进行裁剪得到的图像块。

结合第二方面，在一种可能的实现方式中，处理器，在用于以对应的预设特征图尺寸对目标图像块的感兴趣区域ROI进行处理，得到特征图时，具体可以用于：基于对应的预设特征图尺寸对目标图像块的ROI进行划分，得到若干分块区域；对目标图像块的ROI中的每一个分块区域进行最大池化处理，得到特征图。其中，目标图像块的ROI中每一行分块区域的数量与对应的预设特征图尺寸中的宽度值相同，目标图像块的ROI中每一列分块区域的数量与对应的预设特征图尺寸中的高度值相同。

结合第二方面，在一种可能的实现方式中，在目标图像块包括脸部图像块、左眼图像块和右眼图像块的情况下，处理器，在用于基于对应的预设特征图尺寸对目标图像块的ROI进行划分，得到若干分块区域时，具体可以用于：确定脸部图像块的ROI，并基于第一预设特征图尺寸对脸部图像块的ROI进行划分，得到若干脸部分块区域；确定左眼图像块的ROI，并基于第二预设特征图尺寸对左眼图像块的ROI进行划分，得到若干左眼分块区域；确定右眼图像块的ROI，并基于第三预设特征图尺寸对右眼图像块的ROI进行划分，得到若干右眼分块区域。处理器，在用于对目标图像块的ROI中的每一个分块区域进行最大池化处理，得到特征图时，具体可以用于：对脸部图像块的ROI中的每一个脸部分块区域进行最大池化处理，得到第一特征图；对左眼图像块的ROI中的每一个左眼分块区域进行最大池化处理，得到第二特征图；对右眼图像块的ROI中的每一个右眼分块区域进行最大池化处理，得到第三特征图。其中，第一特征图为与脸部图像块的ROI对应的特征图；第二特征图为与左眼图像块的ROI对应的特征图；第三特征图为与右眼图像块的ROI对应的特征图。目标图像块的ROI中每一行分块区域的数量与对应的预设特征图尺寸中的宽度值相同，目标图像块的ROI中每一列分块区域的数量与对应的预设特征图尺寸中的高度值相同，具体可以包括：脸部图像块的ROI中每一行脸部分块区域的数量与第一预设特征图尺寸中的宽度值相同，脸部图像块的ROI中每一列脸部分块区域的数量与第一预设特征图尺寸中的高度值相同；左眼图像块的ROI中每一行左眼分块区域的数量与第二预设特征图尺寸中的宽度值相同，左眼图像块的ROI中每一列左眼分块区域的数量与第二预设特征图尺寸中的高度值相同；右眼图像块的ROI中每一行右眼分块区域的数量与第三预设特征图尺寸中的宽度值相同，右眼图像块的ROI中每一列右眼分块区域的数量与第三预设特征图尺寸中的高度值相同。

结合第二方面，在一种可能的实现方式中，第一图像的拍摄主体为目标对象。在摄像头用于采集第一图像之后，处理器，还可以用于：在人脸检测结果满足预设人脸条件的情况下，获取第一图像中的瞳孔坐标；基于脸部位置信息确定第一图像中的脸部区域在第一图像中的位置和大小，得到第一图像对应的脸部网格。脸部网格用于表征目标对象与摄像头的距离。处理器，在用于得到特征图之后，还可以用于：基于注视点估计网络模型的卷积模块对特征图进行卷积处理，提取眼部特征和/或脸部特征；基于注视点估计网络模型的融合模块对眼部特征和/或脸部特征、脸部网格和瞳孔坐标进行整合，得到目标对象的注视点坐标。

结合第二方面，在一种可能的实现方式中，人脸检测结果满足预设人脸条件，具体可以包括：第一图像中检测到人脸。

结合第二方面，在一种可能的实现方式中，人脸检测结果满足预设人脸条件，具体可以包括：第一图像中检测到人脸，且第一图像中的脸部区域的大小满足预设大小要求。在摄像头用于采集第一图像之后，处理器，还可以用于：在第一图像中检测到人脸，且第一图像中的脸部区域的大小不满足预设大小要求的情况下，进行自适应变焦，并基于自适应变焦后的焦距重新采集图像。

结合第二方面，在一种可能的实现方式中，处理器，在用于基于脸部位置信息对第一图像中的脸部区域进行裁剪时，具体可以用于：确定第一图像中的脸部区域的相关特征点；确定第一外接矩形；基于第一外接矩形在第一图像中的位置，对第一图像进行裁剪。其中，第一外接矩形为第一图像中的脸部区域的相关特征点的外接矩形。脸部图像块与第一外接矩形在第一图像中的位置相同。脸部图像块与第一外接矩形的大小相同。处理器，在用于基于眼睛位置信息对第一图像中的左眼区域进行裁剪时，具体可以用于：确定第一图像中的左眼区域的相关特征点；确定第二外接矩形；基于第二外接矩形在第一图像中的位置，对第一图像进行裁剪。其中，第二外接矩形为第一图像中的左眼区域的相关特征点的外接矩形。左眼图像块与第二外接矩形在所述第一图像中的位置相同。左眼图像块与第二外接矩形的大小相同。

处理器，在用于基于眼睛位置信息对第一图像中的右眼区域进行裁剪时，具体可以用于：确定第一图像中的右眼区域的相关特征点；确定第三外接矩形；基于第三外接矩形在第一图像中的位置，对第一图像进行裁剪。其中，第三外接矩形为第一图像中的右眼区域的相关特征点的外接矩形。右眼图像块与第三外接矩形在第一图像中的位置相同。右眼图像块与第三外接矩形的大小相同。

结合第二方面，在一种可能的实现方式中，处理器，在用于基于脸部位置信息对第一图像中的脸部区域进行裁剪，得到脸部图像块时，具体可以用于：基于脸部位置信息确定第一图像中的脸部区域；以脸部区域为第一裁剪框的中心来对第一图像进行裁剪，得到脸部图像块。其中，第一裁剪框的尺寸为第一预设裁剪尺寸。脸部图像块与第一裁剪框的尺寸相同。处理器，在用于基于眼睛位置信息对第一图像中的左眼区域和右眼区域进行裁剪，得到左眼图像块和右眼图像块，具体可以用于：基于眼睛位置信息确定第一图像中的左眼区域和第一图像中的右眼区域；以左眼区域为第二裁剪框的中心来对第一图像进行裁剪，得到左眼图像块，以及以右眼区域为第三裁剪框的中心来对第一图像进行裁剪，得到右眼图像块。其中，第二裁剪框的尺寸为第二预设裁剪尺寸。左眼图像块与第二裁剪框的尺寸相同。第三裁剪框的尺寸为第三预设裁剪尺寸。右眼图像块与第三裁剪框的尺寸相同。

结合第二方面，在一种可能的实现方式中，注视点估计网络模型还可以包括若干激活层。感兴趣区域池化模块可以包括若干感兴趣区域池化层。卷积模块可以包括若干卷积层。融合模块可以包括若干全连接层。

第三方面，本申请提供一种计算机存储介质，包括计算机指令，当该计算机指令在电子设备上运行时，使得该电子设备执行上述第一方面中任一种可能的实现方式。

第四方面，本申请实施例提供一种芯片，该芯片可以应用于电子设备，该芯片包括一个或多个处理器，该处理器用于调用计算机指令以使得该电子设备执行上述第一方面中任一种可能的实现方式。

第五方面，本申请实施例提供一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行上述第一方面任一种可能的实现方式。

可理解，上述第二方面提供的电子设备、第三方面提供的计算机存储介质、第四方面提供的芯片，以及第五方面提供的计算机程序产品均用于执行上述第一方面中任一种可能的实现方式。因此，其所能达到的有益效果可参考上述第一方面中任一种可能的实现方式的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种注视点估计的场景示意图；

图2A-图2D为本申请实施例提供的一组注视点估计的场景示意图；

图3为本申请实施例提供的一种注视点估计方法的流程图；

图4为本申请实施例提供的一种裁剪原理示意图；

图5为本申请实施例提供的又一种裁剪原理示意图；

图6为本申请实施例提供的一种脸部网格示意图；

图7为本申请实施例提供的一种注视点估计网络模型的架构示意图；

图8为本申请实施例提供的又一种注视点估计网络模型的架构示意图；

图9为本申请实施例提供的又一种注视点估计网络模型的架构示意图；

图10A和图10B为本申请实施例提供的一种感兴趣区域池化层的原理示意图；

图11为本申请实施例提供的一种映射到特征图上的ROI的示意图；

图12为本申请实施例提供的一种CNN-1的结构示意图；

图13为本申请实施例提供的一种CNN-3的结构示意图；

图14为本申请实施例提供的一种电子设备的硬件结构示意图；

图15为本申请实施例提供的一种电子设备的软件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

应当理解，本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

本申请提供了一种注视点估计方法。该注视点估计方法可以应用于电子设备。根据该方法，电子设备可以通过前置摄像头采集图像。若采集的图像中包括人脸，电子设备可以基于人脸检测所得的脸部位置信息和预设人脸裁剪尺寸对采集到的图像进行裁剪，得到脸部图像块。类似的，电子设备还可以基于眼睛检测所得的眼睛位置信息和预设眼睛裁剪尺寸对采集到的图像进行裁剪，得到左眼图像块、右眼图像块。电子设备还可以基于脸部位置信息确定脸部网格，并通过瞳孔定位来确定瞳孔坐标。其中，脸部网格用于表示人脸在整幅图像中的位置和大小。也就是说，脸部网格可以体现人脸与摄像头之间的距离。电子设备可以将左眼图像块、右眼图像块、脸部图像块、脸部网格和瞳孔坐标输入至注视点估计网络模型中，输出得到注视点坐标。其中，注视点估计网络模型可以包括感兴趣区域池化层。该感兴趣区域池化层可以用于统一特征图的尺寸，为后续特征提取做准备。在一种可能的实现方式中，电子设备可以确定采集的图像中的脸部区域的大小是否满足预设大小要求。在脸部区域的大小不满足预设大小要求的情况下，电子设备可以通过自适应变焦来保证拍摄距离适中，并重新采集图像。而在脸部区域的大小满足预设大小要求的情况下，电子设备可以按照上述方法估计注视点坐标。

通过上述方法，电子设备可以基于左眼图像块、右眼图像块、脸部图像块、脸部网格和瞳孔坐标来估计注视点坐标，即实现了更全面的特征提取。并且，电子设备可以通过自适应变焦来控制采集的图像中脸部区域的大小，以及基于感兴趣区域池化层统一特征图的尺寸，可以避免图像块(例如，左眼图像块、右眼图像块和脸部图像块)经缩放后发生形变，提高了注视点估计的准确度。

下面介绍本申请提供的一些拍摄的场景。

如图1所示，用户在使用电子设备时，电子设备可以获取用户图像，并通过用户图像来估计注视点坐标。具体地，用户使用电子设备时，电子设备可以通过前置摄像头采集图像，若采集的图像中包括人脸，电子设备可以对采集到的图像进行裁剪，得到左眼图像块、右眼图像块和脸部图像块。电子设备还可以基于人脸检测所得的脸部位置信息确定脸部网格，并通过瞳孔定位来确定瞳孔坐标。其中，脸部网格用于表示人脸在整幅图像中的位置和大小。也可以理解为：脸部网格可以体现人脸与摄像头之间的距离。电子设备可以将左眼图像块、右眼图像块、脸部图像块、脸部网格和瞳孔坐标输入至注视点估计网络模型中，输出得到注视点坐标。可理解，注视点估计网络模型的相关描述可以参考后文，在此不展开说明。

可理解，电子设备具体可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)设备、笔记本电脑、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本、个人数字助理(PersonalDigital Assistant，PDA)或专门的照相机(例如，单反相机、卡片式相机)等设备，本申请对电子设备的具体类型不作任何限制。

在本申请的一些实施例中，用户使用电子设备浏览信息时，电子设备可以基于估计的注视点坐标来触发相应操作。在这种情况下，用户可以更便利地实现与电子设备的交互。

示例性的，如图2A所示，电子设备可以显示阅读界面100。阅读界面100显示的是用户正在阅读的电子书的第1页。该电子书共有243页。在用户阅读过程中，电子设备可以实时估计注视点坐标。如图2B所示，电子设备基于采集的图像可以估计注视点坐标，并确定注视点坐标位于阅读界面100显示的第1页内容末尾。在这种情况下，电子设备可以触发翻页。相应的，电子设备可以显示图2C所示的阅读界面200。阅读界面200显示的是用户正在阅读的电子书的第2页。电子设备可以继续实时估计注视点坐标。

可理解，本申请中所提及的实时估计注视点坐标可以包括：电子设备可以每隔一定时间(例如，10ms)采集一帧图像，并基于该图像估计注视点坐标。

在一种可能的实现方式中，在电子设备基于采集的连续x帧图像确定注视点坐标均位于阅读界面100显示的第1页内容末尾的情况下，电子设备可以触发翻页。可理解，x的具体值可以根据实际需求进行设置，本申请对此不作限制。例如，x＝5。

在本申请的一些实施例中，用户使用电子设备浏览信息时，电子设备可以基于估计的注视点坐标来搜集用户的偏好信息，从而基于搜集到的用户的偏好信息更智能的给用户提供服务。例如，用户使用电子设备浏览信息时，电子设备可能会推荐一些内容(比如，视频、文章等)。在这种情况下，电子设备可以估计用户的注视点坐标，从而确定用户感兴趣的推荐内容。在后续过程中，电子设备可以给用户推荐与该感兴趣的推荐内容相关的内容。

示例性的，如图2D所示，电子设备可以显示用户界面300。用户界面300可以包括若干视频或文字信息。用户界面300可以包括推荐内容1、推荐内容2、推荐内容3、推荐内容4和推荐内容5。电子设备可以实时采集图像并基于采集的图像估计注视点坐标。电子设备还可以统计电子设备显示用户界面300的过程中的注视点坐标的分布情况，从而确定用户感兴趣的推荐内容。比如，用户界面300中的推荐内容2。在后续过程中，电子设备可以给用户智能推荐与推荐内容2相关的内容，从而避免用户花费时间来排除不感兴趣的内容，更智能的提供给用户提供服务。

需要说明的是，本申请提供的注视点估计方法还可以应用到其他场景中，本申请对此不作限制。

下面介绍本申请提供的一种注视点估计方法。

请参阅图3，图3为本申请实施例提供的一种注视点估计方法的流程图。该注视点估计方法可以包括但不限于以下步骤：

S301：电子设备获取图像I1。

在本申请的一些实施例中，电子设备通过电子设备的前置摄像头获取图像I1。

在本申请的一些实施例中，电子设备接收其他摄像头获取的图像I1。

在本申请的一些实施例中，电子设备可以实时获取图像。也就是说，图像I1为电子设备实时获取的图像。例如，电子设备可以每隔时间T就获取一帧图像。本申请所提及的时间T可以根据实际需求进行设置。示例性的，时间T可以为1毫秒(ms)。

S302：电子设备对图像I1进行人脸检测，确定图像I1中是否包括人脸。

可理解，电子设备可以对图像I1进行人脸检测，从而确定图像I1中是否包括人脸。在检测到图像I1包括人脸的情况下，电子设备可以继续执行后续步骤。在检测到图像I1不包括人脸的情况下，电子设备可以舍弃图像I1，并重新获取图像。

可理解，人脸检测指在动态的场景与复杂的背景中判断是否存在人脸，并将其分离出来。也就是说，基于人脸检测所包括的搜索策略，可以对任意一幅给定的图像进行搜索以确定其中是否含有人脸。

下面简单介绍人脸检测的方法。

(1)模板匹配法

电子设备可以确定输入图像与预先设置的一个或数个标准人脸模板之间的匹配程度(即相关性)，然后根据该匹配程度来判断该图像中是否存在人脸。例如，电子设备可以确定该匹配程度与预设阈值的大小关系，并基于该大小关系来判断该图像中是否存在人脸。具体地，若该匹配程度大于预设阈值，则电子设备确定该图像中存在人脸，否则，电子设备确定该图像中不存在人脸。

在本申请的一些实施例中，电子设备在确定输入图像与预先设置的一个或数个标准人脸模板之间的匹配程度时，可以具体计算输入图像与标准人脸模板中的面部轮廓、鼻子、眼睛、嘴等部位之间的匹配程度。

可理解，电子设备中可以包括模板库。标准人脸模板可以存储在该模板库中。

(2)人脸规则法

可理解，人脸具有一定的结构分布特征。电子设备可以从大量样本中提取人脸的结构分布特征并生成相应的规则，然后基于该规则来判断图像中是否存在人脸。其中，人脸的结构分布特征可以包括：两个对称的眼睛、两个对称的耳朵、一个鼻子、一个嘴巴，以及五官之间的位置、相对距离等。

(3)样品学习法

样品学习法指的是人工神经网络的方法，即通过对人脸样品集和非人脸样品集进行学习从而产生分类器。也就是说，电子设备可以基于样本来训练神经网络。该神经网络的参数里包含了人脸的统计特性。

(4)特征检测法

特征检测法指的是将人脸的不变特性用于人脸检测。人脸具有一些对不同姿势而言具有鲁棒性的特征。例如，人的眼睛和眉毛比面颊颜色深，嘴唇比四周颜色深，鼻梁比两侧颜色浅等。电子设备可以提取这些特征，并创建能够描述这些特征之间的关系的统计模型，然后基于该统计模型来确定图像中是否存在人脸。可理解，电子设备提取的特征可以表示为人脸的图像特征空间中的一维向量。电子设备在创建可以描述特征之间的关系的统计模型时，可以将该一维向量变换到相对简单的特征空间。

值得注意的是，上述4种人脸检测方法在实际检测中可以综合采用。另外，在上述4种人脸检测方法的基础上，还可以将个体差异性(例如，发型的差异、眼睛的睁开和闭合等)、拍摄环境中对人脸的遮挡情况(例如，头发、眼镜等对人脸的遮挡)、人脸面对摄像头的角度(例如，人脸的侧面正对摄像头)、拍摄环境(例如，人脸周围的物体等)和成像条件(例如，光照条件、成像设备)等因素考虑到人脸检测中。

需要说明的是，上述人脸检测方法仅为本申请实施例给出的示例，电子设备还可以采用其他人脸检测方法来进行人脸检测，上述人脸检测方法不应视为对本申请的限制。

在本申请的一些实施例中，电子设备在进行人脸检测时，会对五官进行检测。也就意味着，电子设备在进行人脸检测时，也会进行眼睛检测。电子设备进行眼睛检测时，可以得到与眼睛相关的特征点。在这种情况下，若电子设备能检测到图像I1中的眼睛，电子设备可以获取眼睛位置信息。可理解，眼睛位置信息可以包括与眼睛相关的特征点的坐标。眼睛位置信息的相关描述可以参考后文，在此不展开说明。

在本申请的一些实施例中，电子设备得到的与眼睛相关的特征点可以包括瞳孔中心点。在这种情况下，电子设备可以得到瞳孔中心点坐标。

S303：电子设备获取图像I1中的脸部位置信息。

具体地，电子设备在对图像I1进行检测的过程中，若检测到图像I1包括人脸，电子设备可以获取并保存图像I1中的脸部位置信息。

在本申请的一些实施例中，脸部位置信息可以包括人脸检测框的坐标。

在本申请的一些实施例中，脸部位置信息可以包括人脸的相关特征点的坐标。例如，人脸的边缘轮廓特征点的坐标。再例如，脸部区域中的和眼睛、鼻子、嘴巴和耳朵相关的特征点的坐标。

S304：电子设备对图像I1进行眼睛检测和瞳孔定位，并获取眼睛位置信息和瞳孔坐标。

具体地，在电子设备检测到图像I1包括人脸的情况下，电子设备可以对图像I1进行眼睛检测和瞳孔定位，从而得到图像I1中的眼睛位置信息和瞳孔坐标。

在本申请的一些实施例中，眼睛位置信息可以包括与眼睛相关的特征点的坐标。电子设备在进行眼睛检测时，可以确定与眼睛相关的特征点，并获取这些特征点的坐标。例如，左眼的2个眼角特征点、右眼的2个眼角特征点，以及眼睛的边缘轮廓特征点。电子设备可以根据这些与眼睛相关的特征点的坐标确定图像I1中的眼睛位置。

可理解，与人脸检测类似，眼睛的定位与检测也可以采取模板匹配法、规则法、样品学习法和特征检测法等方法，具体可以参考相关技术文档，在此不展开说明。

可理解，瞳孔坐标是二维坐标。在本申请的一些实施例中，瞳孔坐标可以包括瞳孔中心点坐标。当然，瞳孔坐标还可以包括与瞳孔有关的其他坐标。例如，瞳孔重心的坐标、瞳孔边缘轮廓点的坐标等。

下面对瞳孔定位方法进行简单说明。

在本申请的一些实施例中，在电子设备检测到图像I1上的眼睛的情况下，电子设备可以对图像I1上的眼睛部分进行模糊处理，并提取瞳孔轮廓，然后再确定瞳孔重心。可理解，电子设备可以将瞳孔重心的坐标作为瞳孔坐标。

在本申请的一些实施例中，在电子设备检测到图像I1上的眼睛的情况下，电子设备可以对图像I1上的眼睛部分进行模糊处理，并计算横向和纵向的像素值，然后选取像素值最低的行的索引和像素值最低的列的索引来作为瞳孔坐标的纵坐标和横坐标。

当然，电子设备还可以采取其他瞳孔定位方法，本申请对此不作限制。

S305：电子设备确定图像I1中的脸部区域的大小是否满足预设大小要求。

具体地，在电子设备检测到图像I1包括人脸的情况下，电子设备可以确定图像I1中的脸部区域的大小，并确定图像I1中的脸部区域的大小是否满足预设大小要求。可理解，脸部区域可以包括人脸的重要特征。例如，眼睛、鼻子和嘴巴等。

可理解，脸部区域的大小指的是脸部区域的面积。在本申请的一些实施例中，脸部区域的面积指的是人脸检测框的面积。在本申请的又一些实施例中，脸部区域的面积指的是电子设备检测到的图像中整个脸部区域的面积。

在本申请的一些实施例中，人脸检测框可以用于框选包括重要特征的脸部区域，并不一定用于框选完整的脸部区域。例如，人脸检测框可以用于框选包括眉毛、眼睛、鼻子、嘴巴和耳朵等特征的大部分脸部区域。可理解，人脸检测框的形状可以根据实际需要进行设置。例如，人脸检测框可以为矩形。

在本申请的一些实施例中，图像I1中的脸部区域的大小满足预设大小要求指的是：图像I1中的脸部区域的面积在预设面积范围内。例如，预设面积范围可以为[220px*220px，230px*230px]。也就是说，脸部区域的面积不小于220px*220px，并且不大过230px*230px。当然，本申请对预设面积范围的具体值不作限制。可理解，px的全称是“Pixel”，中文意思为“像素”，是表示图片或者图形的最小单位。

在本申请的又一些实施例中，图像I1中的脸部区域的大小满足预设大小要求指的是：图像I1中的脸部区域的高度在预设高度范围内，且图像I1中的脸部区域的宽度在预设宽度范围内。例如，预设高度范围可以为[215px，240px]，预设宽度范围可以为[215px，240px]。当然，预设高度范围和预设宽度范围可以不一致，本申请对预设高度范围和预设宽度范围的具体值不作限制。可理解，本申请中所提及的脸部区域的高度可以理解为人脸检测框的高度，而本申请中所提及的脸部区域的宽度可以理解为人脸检测框的宽度。

当然，预设大小要求的具体内容还可以存在其他实现方式，本申请对此不作限制。

需要说明的是，在图像I1包括的脸部区域的大小满足预设大小要求的情况下，电子设备可以继续执行后续步骤，而在图像I1包括的脸部区域的大小不满足预设大小要求的情况下，电子设备可以进行自适应变焦，并根据自适应变焦后的焦距来重新获取图像。

下面简单介绍自适应变焦方法。

首先对焦距和图像中的物体大小的关系进行说明。一般来说，焦距越小，取景范围越广，拍摄的画面视野就越宽，能拍到的物体也就越多，但物体在画面中也就越小。而焦距越大，取景范围越窄，拍摄的画面视野就越小，能拍到的物体也就越少，但物体在画面中占比却很大。

在“图像I1中的脸部区域的大小满足预设大小要求指的是图像I1中的脸部区域的面积在预设面积范围内”的情况下，对自适应变焦方法进行说明。

可理解，电子设备可以确定获取图像I1时的焦距。为了便于描述，本申请中将电子设备获取图像I1时的焦距记为原始焦距。

方法一：

电子设备可以判断图像I1中的脸部区域的面积是小于预设面积范围的最小值，还是大于预设面积范围的最大值。若图像I1中的脸部区域的面积小于预设面积范围的最小值，则电子设备可以将原始焦距加上J1，得到自适应变焦后的焦距，并基于该焦距重新获取图像。若图像I1中的脸部区域的面积大于预设面积范围的最大值，则电子设备可以将原始焦距减去J1，得到自适应变焦后的焦距，并基于该焦距重新获取图像。其中，J1为预设焦距调整步长，J1的具体值可以根据实际需要进行设置。

方法二：

电子设备可以确定预设面积范围的中间值，并确定脸部区域的面积与该中间值的比值。电子设备可以将该比值乘以原始焦距，得到自适应变焦后的焦距，并基于该焦距重新获取图像。

类似的，在“图像I1中的脸部区域的大小满足预设大小要求指的是：图像I1中的脸部区域的高度在预设高度范围内，且图像I1中的脸部区域的宽度在预设宽度范围内”的情况下，电子设备可以基于预设高度范围和预设宽度范围确定预设面积范围，然后基于图像I1中的脸部区域的面积、预设面积范围，以及原始焦距来进行自适应变焦，具体可以参考上述方法一的相关描述，在此不再赘述。

类似的，在“图像I1中的脸部区域的大小满足预设大小要求指的是：图像I1中的脸部区域的高度在预设高度范围内，且图像I1中的脸部区域的宽度在预设宽度范围内”的情况下，电子设备可以确定预设高度范围的中间值和预设宽度范围的中间值，然后将预设高度范围的中间值乘以预设宽度范围的中间值，得到预设面积，并基于该预设面积、图像I1中的脸部区域的面积，以及原始焦距来进行自适应变焦，具体可以参考上述方法二的相关描述，在此不再赘述。

可理解，上述内容仅为本申请提供的示例，自适应变焦方法还可以包括其他具体方式，本申请对此不作限制。

可理解，在其他拍摄条件固定的情况下，脸部区域的大小可以体现拍摄距离(即摄像头与人脸之间的距离)。也可以理解为，脸部区域的大小包含拍摄的深度信息。若拍摄距离较大，电子设备通过摄像头采集的图像中的眼部特征可能会模糊，从而影响注视点估计的准确性。若拍摄距离较大，电子设备通过摄像头采集的图像中的人脸特征可能不完整，从而影响注视点估计的准确性。通过上述对脸部区域的大小的判断以及自适应变焦，电子设备可以采集包含合适人脸大小的图像，提高了注视点估计的准确性。

S306：电子设备基于脸部位置信息对图像I1进行裁剪，得到脸部图像块，并基于眼睛位置信息对图像I1进行裁剪，得到左眼图像块和右眼图像块。

本申请实施例提供了电子设备执行步骤S306时的两种实施方式：

第一种实施方式：电子设备基于脸部位置信息所包括的特征点的坐标，确定图像I1中的脸部区域的外接矩形，并基于该脸部区域的外接矩形对图像I1进行裁剪，得到脸部图像块。类似的，电子设备还可以基于眼睛位置信息所包括的特征点的坐标，确定图像I1中的左眼区域的外接矩形和右眼区域的外接矩形，并分别基于该左眼区域的外接矩形和该右眼区域的外接矩形对图像I1进行裁剪，得到左眼图像块和右眼图像块。

可理解，本申请中所提及的外接矩形可以为最小外接矩形。最小外接矩形是指以二维坐标表示的若干二维形状(例如，点、直线、多边形)的最大范围，即以给定的二维形状各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形。可理解，脸部区域的外接矩形可以理解为脸部特征点(例如，脸部边缘轮廓特征点)的最小外接矩形。左眼区域的外接矩形可以理解为左眼特征点(例如，左眼的2个眼角特征点、左眼的边缘轮廓特征点)的最小外接矩形。右眼区域的外接矩形可以理解为右眼特征点(例如，右眼的2个眼角特征点、右眼的边缘轮廓特征点)的最小外接矩形。

可理解，脸部图像块的尺寸与图像I1中脸部区域的外接矩形的尺寸相同。左眼图像块的尺寸与图像I1中左眼区域的外接矩形的尺寸相同。右眼图像块的尺寸与图像I1中右眼区域的外接矩形的尺寸相同。

在一种可能的实现方式中，电子设备可以通过包围盒算法来确定脸部特征点的包围盒。脸部特征点的包围盒可以理解为脸部特征点的最优包围区域。电子设备还可以基于脸部特征点的包围盒对图像I1进行裁剪，得到脸部图像块。类似的，电子设备可以通过包围盒算法来分别确定左眼特征点和右眼特征点的包围盒。左眼特征点和右眼特征点的包围盒可以分别理解为左眼特征点的最优包围区域和右眼特征点的最优包围区域。电子设备还可以分别基于左眼特征点和右眼特征点的包围盒对图像I1进行裁剪，得到左眼图像块和右眼图像块。

可理解，包围盒是一种求解离散点集最优包围空间的算法，基本思想是用体积稍大且特性简单的几何体(称为包围盒)来近似地代替复杂的几何对象。包围盒的相关描述可以参考相关技术文档，本申请对此不展开说明。

第二种实施方式：电子设备基于脸部位置信息和预设人脸裁剪尺寸对图像I1进行裁剪，得到脸部图像块，并基于眼睛位置信息和预设眼睛裁剪尺寸对图像I1进行裁剪，得到左眼图像块和右眼图像块。

具体地，在图像I1中的脸部区域的大小满足预设大小要求的情况下，电子设备可以基于脸部位置信息中的坐标确定图像I1中的脸部区域，并以该脸部区域为中心，基于预设人脸裁剪尺寸对图像I1进行裁剪，从而得到脸部图像块。可理解，脸部图像块的尺寸与预设人脸裁剪尺寸相同。脸部图像块中的脸部区域位于脸部图像块的中心。可理解，根据上文，脸部位置信息中的坐标可以包括人脸的边缘轮廓特征点的坐标，还可以包括人脸检测框的坐标，还可以包括与人脸中的眼睛、鼻子、嘴巴和耳朵相关的特征点的坐标。

类似的，在图像I1中的脸部区域的大小满足预设大小要求的情况下，电子设备还可以基于眼睛位置信息中的坐标确定图像I1中的左眼区域和右眼区域，并分别以左眼区域和右眼区域为中心，基于预设眼睛裁剪尺寸对图像I1进行裁剪，从而得到左眼图像块和右眼图像块。左眼图像块中的左眼区域位于左眼图像块的中心。而右眼图像块中的右眼区域位于右眼图像块的中心。可理解，根据上文，眼睛位置信息中的坐标可以包括左眼的2个眼角特征点和右眼的2个眼角特征点，还可以包括眼角的边缘轮廓特征点。

在本申请的一些实施例中，左眼图像块的尺寸与预设眼睛裁剪尺寸相同，右眼图像块的尺寸与预设眼睛裁剪尺寸相同。例如，预设眼睛裁剪尺寸为60px*60px。电子设备裁剪所得的左眼图像块和右眼图像块的尺寸均为60px*60px。

在本申请的一些实施例中，预设眼睛裁剪尺寸可以包括预设左眼裁剪尺寸和预设右眼裁剪尺寸。预设左眼裁剪尺寸可以与预设右眼裁剪尺寸不一致。左眼图像块的尺寸与预设左眼裁剪尺寸相同，右眼图像块的尺寸与预设右眼裁剪尺寸相同。

可理解，预设人脸裁剪尺寸和预设眼睛裁剪尺寸可以根据实际需求进行设置，本申请对此不作限制。示例性的，预设人脸裁剪尺寸可以为244px*244px，预设眼睛裁剪尺寸可以为60px*60px。

示例性的，如图4所示，电子设备可以基于脸部位置信息包括的坐标(例如，人脸的边缘轮廓特征点的坐标等)确定脸部区域，并按照预设人脸裁剪尺寸来设置裁剪框，然后将脸部区域作为裁剪框的中心来对图像I1进行裁剪，从而得到脸部图像块。

示例性的，如图5所示，电子设备可以基于眼睛位置信息包括的坐标确定左眼区域和右眼区域，并按照预设眼睛裁剪尺寸来设置左眼裁剪框和右眼裁剪框，然后将左眼区域和右眼区域分别作为左眼裁剪框和右眼裁剪框的中心来对图像I1进行裁剪，分别得到左眼图像块和右眼图像块。

S307：电子设备基于脸部位置信息确定图像I1对应的脸部网格。脸部网格用于表示人脸在整幅图像中的位置和大小。

可理解，电子设备可以基于脸部位置信息包括的坐标(例如，人脸的边缘轮廓特征点的坐标等)来确定脸部区域在图像I1中的位置，从而确定图像I1对应的脸部网格。脸部网格可以用于表示人脸在整幅图像中的位置和大小。可理解，脸部网格可以表示人脸与摄像头之间的距离。

可理解，人脸网格可以理解为二元掩膜(binary mask)。二元掩膜可以理解为一个和图像对应的二进制矩阵，即元素均为0或1的矩阵。一般来说，通过二元掩膜可以对图像(全部或者局部)进行遮挡。二元掩膜可以用于感兴趣区域提取、屏蔽、结构特征提取等。

示例性的，如图6所示，电子设备可以根据脸部位置信息包括的坐标确定图像I1中的脸部区域与图像I1的比例关系，从而获取图像I1中的人脸的深度信息。电子设备还可以确定图像I1中的人脸位于图像I1中的居中偏下的位置。进一步的，电子设备可以确定与图像I1对应的脸部网格。

S308：电子设备将左眼图像块、右眼图像块、脸部图像块、脸部网格和瞳孔坐标输入至注视点估计网络模型中，输出得到注视点坐标。

可理解，电子设备可以将左眼图像块右眼图像块、脸部图像块、脸部网格和瞳孔坐标输入至注视点估计网络模型，并输出得到二维坐标。该二维坐标即为注视点坐标。其中，注视点估计网络模型可以为包含若干支路的神经网络模型。注视点估计网络模型可以通过其包含的若干支路分别提取相应的特征，然后综合提取的特征来估计注视点坐标。

可理解，神经网络是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)结构和功能的数学模型或计算模型。神经网络由大量的人工神经元组成，按不同的连接方式构建不同的网络。神经网络可以包括卷积神经网络、循环神经网络等。

在本申请的一些实施例中，注视点估计网络模型可以包括若干感兴趣区域池化层、若干卷积层、若干池化层和若干全连接层。其中，感兴趣区域池化层用于统一特征图的尺寸。卷积层用于提取特征。池化层用于进行下采样以减少数据量。全连接层用于将提取的特征映射到样本标记空间。通俗来说，全连接层用于将提取的特征整合到一起，输出为一个值。

请参阅图7，图7为本申请实施例提供的一种注视点估计网络模型的架构示意图。注视点估计网络模型可以包括感兴趣区域池化(ROI pooling)层-1、感兴趣区域池化层-2、CNN-1、CNN-2、CNN-3、全连接层-1、全连接层-2、全连接层-3和全连接层-4。其中，感兴趣区域池化层-1用于统一左眼图像块对应的特征图的尺寸，以及统一右眼图像块对应的特征图的尺寸。感兴趣区域池化层-2用于统一脸部图像块对应的特征图的尺寸。CNN-1、CNN-2和CNN-3均为卷积神经网络(Convolutional Neural Network，CNN)，它们分别用于提取左眼特征、右眼特征和脸部特征。CNN-1、CNN-2和CNN-3可以分别包括若干卷积层和若干池化层。在本申请的一些实施例中，CNN-1、CNN-2和CNN-3还可以包括一个或多个全连接层。全连接层-1用于整合提取所得的左眼特征、右眼特征和脸部特征。全连接层-2和全连接层-3分别用于整合脸部网格所表示的深度信息(即人脸与摄像头之间的距离)，以及瞳孔坐标所表示的瞳孔位置信息。全连接层-4用于将左眼特征、右眼特征、脸部特征、深度信息和瞳孔位置等信息进行整合，并输出为一个值。

具体地，如图7所示，电子设备可以将左眼图像块和右眼图像块作为感兴趣区域池化层-1的输入，将脸部图像作为感兴趣区域池化层-2的输入。感兴趣区域池化层-1可以输出尺寸相同的特征图。感兴趣区域池化层-2也可以输出尺寸相同的特征图。电子设备可以将感兴趣区域池化层-1输出的与左眼图像块对应的特征图作为CNN-1的输入，还可以将感兴趣区域池化层-1输出的与右眼图像块对应的特征图作为CNN-2的输入。类似的，电子设备可以将感兴趣区域池化层-2输出的特征图作为CNN-3的输入。进一步的，电子设备可以将CNN-1的输出、CNN-2的输出和CNN-3的输出作为全连接层-1的输入。电子设备还可以将脸部网格和瞳孔坐标分别作为全连接层-2和全连接层-3的输入。再进一步的，电子设备可以将全连接层-1、全连接层-2和全连接层-3的输出作为全连接层-4的输入。全连接层-4可以输出二维坐标。该二维坐标即为电子设备估计的注视点坐标。

在本申请的一些实施例中，注视点估计网络模型可以包括更多的感兴趣区域池化层。例如，电子设备可以将左眼图像块和右眼图像块分别作为不同感兴趣区域池化层的输入。相应的，电子设备可以将该不同感兴趣区域池化层的输出分别作为CNN-1和CNN-2的输入。

在本申请的一些实施例中，注视点估计网络模型可以包括更多的全连接层。可理解，全连接层-2的前后可以存在更多的全连接层，全连接层-3的前后也可以存在更多的全连接层。例如，电子设备可以将全连接层-2的输出作为全连接层-5的输入，并将全连接层-5的输出作为全连接层-4的输入。例如，电子设备可以将全连接层-3的输出作为全连接层-6的输入，并将全连接层-6的输出作为全连接层-4的输入。再例如，电子设备可以将全连接层-4的输出作为全连接层-7的输入，而全连接层-7的输出即为电子设备估计的注视点坐标。

示例性的，如图8所示，图8为本申请实施例提供的又一种注视点估计网络模型的架构示意图。注视点估计网络模型可以包括感兴趣区域池化层-1、感兴趣区域池化层-2、CNN-1、CNN-2、CNN-3、全连接层-1、全连接层-2、全连接层-3、全连接层-4、全连接层-5、全连接层-6和全连接层-7。其中，感兴趣区域池化层-1、感兴趣区域池化层-2、CNN-1、CNN-2、CNN-3和全连接层-1的作用均可参考上文，本申请在此不再赘述。全连接层-2和全连接层-5用于整合脸部网格所表示的深度信息。全连接层-3和全连接层-6用于整合瞳孔坐标所表示的瞳孔位置信息。全连接层-4和全连接层-7用于将左眼特征、右眼特征、脸部特征、深度信息和瞳孔位置等信息进行整合，并输出为一个值。如图8所示，电子设备可以将全连接层-2的输出作为全连接层-5的输入，将全连接层-3的输出作为全连接层-6的输入，以及将全连接层-1、全连接层-5和全连接层-6的输出作为全连接层-4的输入。电子设备还可以将全连接层-4的输出作为全连接层-7的输入，而全连接层-7的输出即为电子设备估计的注视点坐标。

示例性的，如图9所示，图9为本申请实施例提供的又一种注视点估计网络模型的架构示意图。注视点估计网络模型可以包括感兴趣区域池化层-1、感兴趣区域池化层-2、CNN-1、CNN-2、CNN-3、全连接层-2、全连接层-3、全连接层-4、全连接层-5、全连接层-6和全连接层-7。其中，感兴趣区域池化层-1、感兴趣区域池化层-2、CNN-1、CNN-2、CNN-3的作用均可参考上文，本申请在此不再赘述。全连接层-2和全连接层-5用于整合脸部网格所表示的深度信息。全连接层-3和全连接层-6用于整合瞳孔坐标所表示的瞳孔位置信息。全连接层-4和全连接层-7用于将左眼特征、右眼特征、脸部特征、深度信息和瞳孔位置等信息进行整合，并输出为一个值。如图9所示，电子设备可以将全连接层-2的输出作为全连接层-5的输入，将全连接层-3的输出作为全连接层-6的输入，以及将全连接层-5和全连接层-6的输出作为全连接层-4的输入。电子设备还可以将全连接层-4的输出作为全连接层-7的输入，而全连接层-7的输出即为电子设备估计的注视点坐标。

在本申请的一些实施例中，注视点估计网络模型还可以包括若干激活层。例如，在图7所示的注视点估计网络模型中，全连接层-1和全连接层-4之间可以设置一个激活层，全连接层-2和全连接层-4之间可以设置一个激活层，全连接层-3和全连接层-4之间也可以设置一个激活层。再例如，在图8所示的注视点估计网络模型中，全连接层-1和全连接层-4之间可以设置一个激活层，全连接层-2和全连接层-5之间可以设置一个激活层，全连接层-5和全连接层-4之间可以设置一个激活层，全连接层-3和全连接层-6之间可以设置一个激活层，全连接层-6和全连接层-4之间可以设置一个激活层，全连接层-4和全连接层-7之间可以设置一个激活层。再例如，在图9所示的注视点估计网络模型中，全连接层-2和全连接层-5之间可以设置一个激活层，全连接层-5和全连接层-4之间可以设置一个激活层，全连接层-3和全连接层-6之间可以设置一个激活层，全连接层-6和全连接层-4之间可以设置一个激活层，全连接层-4和全连接层-7之间可以设置一个激活层。

下面以图7、图8和图9所示的注视点估计网络模型为例，对注视点估计网络模型的各个部分进行说明。

一、感兴趣区域池化层

感兴趣区域(region of interest，ROI)指的是：机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域。

感兴趣区域池化层是池化层的一种。电子设备可以对输入到感兴趣区域池化层的图像中的ROI划分为相同大小的分块区域(section)，并对每个分块区域进行最大池化操作，得到的处理后的特征图即为该感兴趣区域池化层的输出。其中，分块区域的数量和感兴趣区域池化层的输出的特征图的维度是一致的。

下面举例对感兴趣区域池化层-1中的处理过程进行说明。

示例性的，如图10A所示，左眼图像块-1输入到电子设备中的注视点估计网络模型中的感兴趣区域池化层-1之后，电子设备可以将左眼图像块-1的ROI划分为3*3个相同大小的分块区域，并对每一个分块区域都进行最大池化处理(即取每一个分块区域的最大值)。电子设备可以得到进行最大池化处理后的ROI对应的特征图-1。电子设备可以将特征图-1作为感兴趣区域池化层-1的输出。其中，特征图-1的尺寸为3*3。即特征图-1可以理解为一个3*3的矩阵。可理解，左眼图像块-1的ROI为整个左眼图像块-1。

示例性的，如图10B所示，左眼图像块-2输入到电子设备中的注视点估计网络模型中的感兴趣区域池化层-1之后，电子设备可以将左眼图像块-2的ROI划分为3*3个相同大小的分块区域，并对每一个分块区域都进行最大池化处理(即取每一个分块区域的最大值)。电子设备可以得到进行最大池化处理后的ROI对应的特征图-2。ROI电子设备可以将特征图-2作为感兴趣区域池化层-1的输出。其中，特征图-2的尺寸为3*3。即特征图-2可以理解为一个3*3的矩阵。可理解，左眼图像块-2的ROI为整个左眼图像块-2。

可理解，在左眼图像块-1和左眼图像块-2为RGB图像的情况下，图10A和图10B表示的是RGB三通道中的一个通道的处理过程。

在本申请的一些实施例中，由输入图像的ROI可以被划分为若干分块区域。每个分块区域都包含数据。这里所提及的分块区域包含的数据可以理解为该输入图像的ROI对应的矩阵中的相应区域的元素。

在本申请的一些实施例中，电子设备可以基于预设的特征图的尺寸来对输入到感兴趣区域池化层的图像的ROI进行划分。例如，预设的特征图的尺寸可以为10*10。若输入到感兴趣区域池化层的图像的ROI的尺寸为100*100。则电子设备可以将该ROI均匀划分为10*10个分块区域，每个分块区域的大小均为10*10。

可理解，在一种可能的实现方式中，一旦预设的特征图的宽无法被ROI的宽整除，以及预设的特征图的高无法被ROI的高整除这两种情况中的任意一种情况发生，电子设备可能无法均匀划分ROI。在这种情况下，电子设备可以进行补零操作，或者，在保证大部分分块区域大小相同的情况下，将某一列分块区域或某一行分块区域划分得稍大或稍小一些。

示例性的，预设的特征图的尺寸可以为10*10。输入到感兴趣区域池化层的图像的ROI的尺寸为101*101。电子设备可以将该ROI划分为9*9个大小为10*10的分块区域、9个大小为10*11的分块区域、9个大小为11*10的分块区域，以及1个大小为11*11的分块区域。

可理解，感兴趣区域池化层-1输出的特征图的尺寸相同。类似的，感兴趣区域池化层-2输出的特征图的尺寸相同。示例性的，如图10A和图10B所示，左眼图像块-1和左眼图像块-2输入到感兴趣区域池化层-1中所得特征图-1和特征图-2的尺寸均为3*3。

需要说明的是，感兴趣区域池化层输出的特征图的尺寸不限于上述示例，本申请对此不作限制。

可理解，输入到感兴趣区域池化层的图像为RGB图像的情况下，输出的特征图有3个。如图11所示，左眼图像块-3为RGB图像。在左眼图像块-3的尺寸为60*60的情况下，左眼图像块-3可以表示为60*60*3的矩阵。该矩阵中的元素包括左眼图像块-3中每一个像素对应的RGB三通道的值。电子设备可以将左眼图像块-3输入到感兴趣区域池化层-1中，可以输出3个3*3的特征图。这3个3*3的特征图分别对应的是RGB三通道的特征图。

可理解，输入到感兴趣区域池化层的图像为灰度图像的情况下，输出的特征图有1个。例如，在左眼图像块-1为灰度图像的情况下，其输入至感兴趣区域池化层-1的处理过程可以参考图10A。

二、CNN

CNN指的是卷积神经网络，卷积神经网络是神经网络的一种。CNN可以包括卷积层、池化层和全连接层。其中，卷积神经网络中每层卷积层由若干卷积单元组成。每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征。第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。池化的实质含义是下采样。池化层的主要作用是通过减少网络的参数来减小计算量，并且能够在一定程度上控制过拟合。池化层进行的运算一般包括最大池化、均值池化等。

根据上文，CNN-1、CNN-2和CNN-3可以分别包括若干卷积层和若干池化层。可理解，CNN-1、CNN-2和CNN-3还可以包括若干激活层。激活(Activation)层又叫神经元(Neuron)层，最主要的是激活函数的设置。激活函数可以包括ReLU、PReLU和Sigmoid等。在激活层中，电子设备可以对输入数据进行激活操作，也可以理解为一种函数变化。

示例性的，如图12所示，CNN-1可以包括4个卷积层和4个激活层。其中，4个卷积层指的是：卷积层-1、卷积层-2、卷积层-3和卷积层-4。4个激活层指的是：激活层-1、激活层-2、激活层-3和激活层-4。可理解，该4个卷积层的卷积核(即滤波器)的大小可以为3*3。

示例性的，如图13所示，CNN-3可以包括4个卷积层、4个激活层和4个池化层。其中，5个卷积层指的是：卷积层-1、卷积层-2、卷积层-3和卷积层-4。4个激活层指的是：激活层-1、激活层-2、激活层-3和激活层-4。4个池化层指的是：池化层-1、池化层-2、池化层-3和池化层-4。可理解，该4个卷积层的卷积核(即滤波器)的大小可以为3*3。该4个池化层的步长可以为2(例如，每2*2个“单元格”进行最大池化处理)。可理解，卷积层中还可以对特征图进行补零操作。补零操作的相关描述可以参考相关技术文档，在此不展开说明。

在本申请的一些实施例中，CNN-2与CNN-1的结构可以相同。在本申请的又一些实施例中，CNN-2、CNN-3与CNN-1的结构可以相同。

可理解，CNN-1、CNN-2和CNN-3的结构还可以为其他内容，不限于上述示例，本申请对此不作限制。

三、全连接层

根据上文，全连接层用于将提取的特征映射到样本标记空间。通俗来说，全连接层用于将提取的特征整合到一起，输出为一个值。

示例性的，在图9所示的注视点估计网络模型中，全连接层-1的神经元数量为128，全连接层-2和全连接层-3的神经元数量均为256，全连接层-5和全连接层-6的神经元数量均为128，全连接层-4的神经元数量为128，全连接层-7的神经元数量为2。

可理解，注视点估计网络模型中的全连接层的神经元数量还可以为其他值，不限于上述示例，本申请对此不作限制。

值得注意的是，在本申请的一些实施例中，电子设备在人脸检测过程中可以获取眼睛位置信息和瞳孔坐标，因此，电子设备无需执行步骤S304。

在本申请的一些实施例中，电子设备无需确定图像I1中的脸部区域的大小是否满足预设大小要求。也就是说，电子设备无需执行步骤S305。

下面介绍本申请实施例涉及的装置。

图14为本申请实施例提供的一种电子设备的硬件结构示意图。

电子设备可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(Universal Serial Bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(Subscriber Identification Module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(Application Processor，AP)，调制解调处理器，图形处理器(Graphics Processingunit，GPU)，图像信号处理器(即ISP)，控制器，存储器，视频编解码器，数字信号处理器(Digital SignalProcessor，DSP)，基带处理器，和/或神经网络处理器(Neural-networkProcessing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

在本申请提供的实施例中，电子设备可以通过处理器110执行所述注视点估计方法。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。处理器110所包括的接口还可以用于连接其他电子设备，例如AR设备等。

充电管理模块140用于从充电器接收充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电子设备的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。

移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。

无线通信模块160可以提供应用在电子设备上的包括无线局域网(WirelessLocal Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi)网络)，蓝牙(Bluetooth，BT)，全球导航卫星系统(Global Navigation Satellite System，GNSS)，调频(Frequency Modulation，FM)，近距离无线通信技术(Near Field Communication，NFC)，红外技术(Infrared，IR)等无线通信的解决方案。

在一些实施例中，电子设备的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备可以通过无线通信技术与网络以及其他设备通信。

电子设备通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(Liquid Crystal Display，LCD)，有机发光二极管(Organic Light-EmittingDiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-MatrixOrganic Light Emitting Diode的，AMOLED)，柔性发光二极管(Flex Light-EmittingDiode，FLED)，Mini LED，Micro LED，Micro-OLED，量子点发光二极管(Quantum Dot LightEmitting Diodes，QLED)等。在一些实施例中，电子设备可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现获取功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像或视频。ISP还可以对图像的噪点，亮度，颜色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(Charge Coupled Device，CCD)或互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像或视频信号。ISP将数字图像或视频信号输出到DSP加工处理。DSP将数字图像或视频信号转换成标准的RGB，YUV等格式的图像或视频信号。

数字信号处理器用于处理数字信号，除了可以处理数字图像或视频信号，还可以处理其他数字信号。例如，当电子设备在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样，电子设备可以播放或录制多种编码格式的视频，例如：动态图像专家组(MovingPicture Experts Group，MPEG)1，MPEG2，MPEG3，MPEG4等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像视频播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据，电话本等)等。

电子设备可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

传感器模块180可以包括1个或多个传感器，这些传感器可以为相同类型或不同类型。可理解，图14所示的传感器模块180仅为一种示例性的划分方式，还可能有其他划分方式，本申请对此不作限制。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。当有触摸操作作用于显示屏194，电子设备根据压力传感器180A检测所述触摸操作强度。电子设备也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。

陀螺仪传感器180B可以用于确定电子设备的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。

加速度传感器180E可检测电子设备在各个方向上(一般为三轴)加速度的大小。当电子设备静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备可以利用距离传感器180F测距以实现快速对焦。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备的表面，与显示屏194所处的位置不同。

气压传感器180C用于测量气压。磁传感器180D包括霍尔传感器。接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。电子设备使用光电二极管检测来自附近物体的红外反射光。环境光传感器180L用于感知环境光亮度。指纹传感器180H用于获取指纹。温度传感器180J用于检测温度。骨传导传感器180M可以获取振动信号。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备可以接收按键输入，产生与电子设备的用户设置以及功能控制有关的键信号输入。马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口195用于连接SIM卡。

如图15所示，本申请涉及的电子设备的软件框架可以包括应用程序层，应用程序框架层(framework，FWK)、系统库、安卓运行时、硬件抽象层和内核层(kernel)。

其中，应用程序层可以包括一系列应用程序包，例如相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序(也可以称为应用)。其中，相机用于获取图像和视频。关于应用程序层的其他应用，可以参考常规技术中的介绍和说明，本申请不展开说明。在本申请中，电子设备上的应用可以是原生的应用(如在电子设备出厂前，安装操作系统时安装在电子设备中的应用)，也可以是第三方应用(如用户通过应用商店下载安装的应用)，本申请实施例不予限定。

应用程序框架层为应用程序层的应用程序提供应用编程接口(ApplicationProgramming Interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图15所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话界面形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

运行时(Runtime)包括核心库和虚拟机。Runtime负责系统的调度和管理。

核心库包含两部分：一部分是编程语言(例如，java语言)需要调用的功能函数，另一部分是系统的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的编程文件(例如，java文件)执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(Surface Manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，二维图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了二维(2-Dimensional，2D)和三维(3-Dimensional，3D)图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现3D图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

硬件抽象层(HAL)是位于操作系统内核与上层软件之间的接口层，其目的在于将硬件抽象化。硬件抽象层是设备内核驱动的抽象接口，用于实现向更高级别的Java API框架提供访问底层设备的应用编程接口。HAL包含多个库模块，例如相机HAL、显示屏、蓝牙、音频等。其中每个库模块都为特定类型的硬件组件实现一个接口。当系统框架层API要求访问便携设备的硬件时，Android操作系统将为该硬件组件加载库模块。

内核层是Android操作系统的基础，Android操作系统最终的功能都是通过内核层完成。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动，虚拟卡驱动。

需要说明的是，本申请提供的图15所示的电子设备的软件结构示意图仅作为一种示例，并不限定Android操作系统不同分层中的具体模块划分，具体可以参考常规技术中对Android操作系统软件结构的介绍。另外，本申请提供的拍摄方法还可以基于其他操作系统实现，本申请不再一一举例。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种注视点估计方法，其特征在于，所述方法应用于设置有摄像头的电子设备；所述方法包括：

通过所述摄像头采集第一图像；

在人脸检测结果满足预设人脸条件的情况下，获取所述第一图像中的脸部位置信息、眼睛位置信息和瞳孔坐标，并基于所述脸部位置信息确定所述第一图像中的脸部区域在所述第一图像中的位置和大小，得到所述第一图像对应的脸部网格；所述脸部位置信息包括脸部区域的相关特征点的坐标；所述眼睛位置信息包括眼睛区域的相关特征点的坐标；所述脸部网格用于表征目标对象与所述摄像头之间的距离；

将目标图像块、所述瞳孔坐标和所述脸部网格输入至注视点估计网络模型；

在基于所述注视点估计网络模型对所述目标图像块进行处理的过程中，基于所述注视点估计网络模型的感兴趣区域池化模块，以对应的预设特征图尺寸对所述目标图像块的感兴趣区域ROI进行处理，得到特征图；所述目标图像块包括脸部图像块、左眼图像块、右眼图像块中的至少一种类型的图像块；不同类型的图像块各自对应有预设特征图尺寸；所述感兴趣区域池化模块包括若干感兴趣区域池化层；所述感兴趣区域池化层用于统一特征图的尺寸；

所述得到特征图之后，所述方法还包括：

基于所述注视点估计网络模型的卷积模块对所述特征图进行卷积处理，提取眼部特征和/或脸部特征；

基于所述注视点估计网络模型的融合模块包括的至少一个全连接层对所述眼部特征和/或脸部特征、所述脸部网格和所述瞳孔坐标进行整合，得到所述目标对象的注视点坐标；所述全连接层用于将提取的特征整合到一起，并映射到样本标记空间；

其中，所述脸部图像块为基于所述脸部位置信息对所述第一图像中的脸部区域进行裁剪得到的图像块；所述左眼图像块为基于所述眼睛位置信息对所述第一图像中的左眼区域进行裁剪得到的图像块；所述右眼图像块为基于所述眼睛位置信息对所述第一图像中的右眼区域进行裁剪得到的图像块。

2.如权利要求1所述的方法，其特征在于，所述以对应的预设特征图尺寸对所述目标图像块的感兴趣区域ROI进行处理，得到特征图，具体包括：

基于所述对应的预设特征图尺寸对所述目标图像块的ROI进行划分，得到若干分块区域；

对所述目标图像块的ROI中的每一个分块区域进行最大池化处理，得到所述特征图；

其中，所述目标图像块的ROI中每一行分块区域的数量与所述对应的预设特征图尺寸中的宽度值相同，所述目标图像块的ROI中每一列分块区域的数量与所述对应的预设特征图尺寸中的高度值相同。

3.如权利要求2所述的方法，其特征在于，在所述目标图像块包括所述脸部图像块、所述左眼图像块和所述右眼图像块的情况下，所述基于所述对应的预设特征图尺寸对所述目标图像块的ROI进行划分，得到若干分块区域，具体包括：

确定所述脸部图像块的ROI，并基于第一预设特征图尺寸对所述脸部图像块的ROI进行划分，得到若干脸部分块区域；

确定所述左眼图像块的ROI，并基于第二预设特征图尺寸对所述左眼图像块的ROI进行划分，得到若干左眼分块区域；

确定所述右眼图像块的ROI，并基于第三预设特征图尺寸对所述右眼图像块的ROI进行划分，得到若干右眼分块区域；

所述对所述目标图像块的ROI中的每一个分块区域进行最大池化处理，得到所述特征图，具体包括：

对所述脸部图像块的ROI中的每一个脸部分块区域进行最大池化处理，得到第一特征图；所述第一特征图为与所述脸部图像块的ROI对应的特征图；

对所述左眼图像块的ROI中的每一个左眼分块区域进行最大池化处理，得到第二特征图；所述第二特征图为与所述左眼图像块的ROI对应的特征图；

对所述右眼图像块的ROI中的每一个右眼分块区域进行最大池化处理，得到第三特征图；所述第三特征图为与所述右眼图像块的ROI对应的特征图；

所述目标图像块的ROI中每一行分块区域的数量与所述对应的预设特征图尺寸中的宽度值相同，所述目标图像块的ROI中每一列分块区域的数量与所述对应的预设特征图尺寸中的高度值相同，具体包括：

所述脸部图像块的ROI中每一行脸部分块区域的数量与所述第一预设特征图尺寸中的宽度值相同，所述脸部图像块的ROI中每一列脸部分块区域的数量与所述第一预设特征图尺寸中的高度值相同；所述左眼图像块的ROI中每一行左眼分块区域的数量与所述第二预设特征图尺寸中的宽度值相同，所述左眼图像块的ROI中每一列左眼分块区域的数量与所述第二预设特征图尺寸中的高度值相同；所述右眼图像块的ROI中每一行右眼分块区域的数量与所述第三预设特征图尺寸中的宽度值相同，所述右眼图像块的ROI中每一列右眼分块区域的数量与所述第三预设特征图尺寸中的高度值相同。

4.如权利要求1-3任一项所述的方法，其特征在于，所述人脸检测结果满足预设人脸条件，具体包括：所述第一图像中检测到人脸。

5.如权利要求1-3任一项所述的方法，其特征在于，所述人脸检测结果满足预设人脸条件，具体包括：所述第一图像中检测到人脸，且所述第一图像中的脸部区域的大小满足预设大小要求；

所述通过所述摄像头采集第一图像之后，所述方法还包括：

在所述第一图像中检测到人脸，且所述第一图像中的脸部区域的大小不满足所述预设大小要求的情况下，进行自适应变焦，并基于所述自适应变焦后的焦距重新采集图像。

6.如权利要求1-5任一项所述的方法，其特征在于，所述基于所述脸部位置信息对所述第一图像中的脸部区域进行裁剪，具体包括：

确定所述第一图像中的脸部区域的相关特征点；

确定第一外接矩形；所述第一外接矩形为所述第一图像中的脸部区域的相关特征点的外接矩形；

基于所述第一外接矩形在所述第一图像中的位置，对所述第一图像进行裁剪；

其中，所述脸部图像块与所述第一外接矩形在所述第一图像中的位置相同；所述脸部图像块与所述第一外接矩形的大小相同；

所述基于所述眼睛位置信息对所述第一图像中的左眼区域进行裁剪，具体包括：

确定所述第一图像中的左眼区域的相关特征点；

确定第二外接矩形；所述第二外接矩形为所述第一图像中的左眼区域的相关特征点的外接矩形；

基于所述第二外接矩形在所述第一图像中的位置，对所述第一图像进行裁剪；

其中，所述左眼图像块与所述第二外接矩形在所述第一图像中的位置相同；所述左眼图像块与所述第二外接矩形的大小相同；

所述基于所述眼睛位置信息对所述第一图像中的右眼区域进行裁剪，具体包括：

确定所述第一图像中的右眼区域的相关特征点；

确定第三外接矩形；所述第三外接矩形为所述第一图像中的右眼区域的相关特征点的外接矩形；

基于所述第三外接矩形在所述第一图像中的位置，对所述第一图像进行裁剪；

其中，所述右眼图像块与所述第三外接矩形在所述第一图像中的位置相同；所述右眼图像块与所述第三外接矩形的大小相同。

7.如权利要求1-5任一项所述的方法，其特征在于，所述基于所述脸部位置信息对所述第一图像中的脸部区域进行裁剪，得到脸部图像块，具体包括：

基于所述脸部位置信息确定所述第一图像中的脸部区域；

以所述脸部区域为第一裁剪框的中心来对所述第一图像进行裁剪，得到所述脸部图像块；所述第一裁剪框的尺寸为第一预设裁剪尺寸；所述脸部图像块与所述第一裁剪框的尺寸相同；

所述基于所述眼睛位置信息对所述第一图像中的左眼区域和右眼区域进行裁剪，得到左眼图像块和右眼图像块，具体包括：

基于所述眼睛位置信息确定所述第一图像中的左眼区域和所述第一图像中的右眼区域；

以所述左眼区域为第二裁剪框的中心来对所述第一图像进行裁剪，得到所述左眼图像块；所述第二裁剪框的尺寸为第二预设裁剪尺寸；所述左眼图像块与所述第二裁剪框的尺寸相同；

以所述右眼区域为第三裁剪框的中心来对所述第一图像进行裁剪，得到所述右眼图像块；所述第三裁剪框的尺寸为第三预设裁剪尺寸；所述右眼图像块与所述第三裁剪框的尺寸相同。

8.如权利要求1-3任一项所述的方法，其特征在于，所述注视点估计网络模型还包括若干激活层；所述感兴趣区域池化模块包括若干感兴趣区域池化层；所述卷积模块包括若干卷积层；所述融合模块包括若干全连接层。

9.一种电子设备，包括显示屏、摄像头、存储器、一个或多个处理器，其特征在于，所述存储器用于存储计算机程序；所述处理器用于调用所述计算机程序，使得所述电子设备执行权利要求1-8中任一项所述的方法。

10.一种计算机存储介质，其特征在于，包括：计算机指令；当所述计算机指令在电子设备上运行时，使得所述电子设备执行权利要求1-8中任一项所述的方法。