CN114706484B

CN114706484B - 视线坐标确定方法及装置、计算机可读介质和电子设备

Info

Publication number: CN114706484B
Application number: CN202210405887.7A
Authority: CN
Inventors: 邱榆清
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2024-08-09
Anticipated expiration: 2042-04-18
Also published as: CN114706484A

Abstract

本公开提供一种视线坐标确定方法及装置、计算机可读介质和电子设备，涉及人机交互技术领域。该方法包括：获取人脸图像；将人脸图像输入到视线估计模型中，确定人脸图像对应的视线估计坐标；获取构建好的视线校正模型，该视线校正模型是通过隐藏式校正过程得到的；通过视线校正模型对视线估计坐标进行校正处理，确定人脸图像对应的视线真实坐标。本公开通过隐藏式校正过程，能够有效提升视线校正模型的校正准确度，进而有效提升视线真实坐标的准确性，同时，隐藏式校正过程并不需要用户进行额外的操作，减少用户操作，降低用户使用时的学习成本，有效提升视线校正模型的构建效率。

Description

视线坐标确定方法及装置、计算机可读介质和电子设备

技术领域

本公开涉及人机交互技术领域，具体涉及一种视线坐标确定方法、视线坐标确定装置、计算机可读介质和电子设备。

背景技术

随着科学技术的飞速发展，视线估计(Gaze Estimation)技术越来越得到人们的关注。视线估计技术可以分为注视点估计、注视目标估计以及三维视线估计。其中注视点估计即估算人双目视线聚焦的落点，注视点估计的应用场景一般是估计人在一个二维平面上的注视点，例如二维平面可以是手机屏幕、电视屏幕等，而模型输入的图像则可以是这些设备的前置摄像头进行采集。

目前，相关的注视点估计校正方案中，需要用户进行专门的校正过程，即在屏幕中的不同位置显示亮点，并指引用户依次盯着每个亮点，该校正过程所需要的操作较复杂，用户的学习成本较高，进而大概率可能导致用户在校正过程出现操作失误，得到的视线校正模型的校正准确度较低；同时，若操作失误可能需要重新进行校正过程，所需要的校正时间较长，导致视线校正模型的构建时间或者更新时间较长。

发明内容

本公开的目的在于提供一种视线坐标确定方法、视线坐标确定装置、计算机可读介质和电子设备，进而至少在一定程度上提升视线校正模型的校正准确度，保证视线真实坐标的准确性，同时提升视线校正模型的构建效率。

根据本公开的第一方面，提供一种视线坐标确定方法，包括：

获取人脸图像；

将所述人脸图像输入到视线估计模型中，确定所述人脸图像对应的视线估计坐标；

获取构建好的视线校正模型，所述视线校正模型是通过隐藏式校正过程得到的；

通过所述视线校正模型对所述视线估计坐标进行校正处理，确定所述人脸图像对应的视线真实坐标。

根据本公开的第二方面，提供一种视线坐标确定装置，包括：

人脸图像获取模块，用于获取人脸图像；

视线估计坐标确定模块，用于将所述人脸图像输入到视线估计模型中，确定所述人脸图像对应的视线估计坐标；

校正模型获取模块，用于获取构建好的视线校正模型，所述视线校正模型是通过隐藏式校正过程得到的；

视线真实坐标确定模块，用于通过所述视线校正模型对所述视线估计坐标进行校正处理，确定所述人脸图像对应的视线真实坐标。

根据本公开的第三方面，提供一种计算机可读介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的方法。

根据本公开的第四方面，提供一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

本公开的一种实施例所提供的视线坐标确定方法，可以在检测到视线输入操作时，获取人脸图像，并将人脸图像输入到视线估计模型中，确定人脸图像对应的视线估计坐标，然后通过隐藏式校正过程得到的视线校正模型对视线估计坐标进行校正处理，确定人脸图像对应的视线真实坐标。一方面，通过视线校正模型对视线估计模型输出的视线估计坐标进行校正，能够有效提升视线真实坐标的准确性，并且视线校正模型可以对不同的用户进行更加个性化的校正，增加校正精度；另一方面，隐藏式校正过程并不需要设置专门的校正过程，并不需要用户进行额外的操作，避免可能由于用户在校正过程出现操作失误导致样本数据出错的问题，能够有效提升视线校正模型的校正准确度，进而有效保证校正得到的视线真实坐标的准确性；再一方面，由于隐藏式校正过程不需要用户进行额外的操作，能够有效减少用户操作，降低用户使用时的学习成本，有效提升视线校正模型的构建效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的一种示例性系统架构的示意图；

图2示意性示出本公开示例性实施例中一种视线坐标确定方法的流程示意图；

图3示意性示出本公开示例性实施例中一种视线隐藏式矫正过程的流程示意图；

图4示意性示出本公开示例性实施例中一种过滤样本视线估计坐标的流程示意图；

图5示意性示出本公开示例性实施例中一种确定图形用户界面的界面范围的示意图；

图6示意性示出本公开示例性实施例中一种过滤样本视线估计坐标的原理示意图；

图7示意性示出本公开示例性实施例中另一种过滤样本视线估计坐标的流程示意图；

图8示意性示出本公开示例性实施例中视线坐标确定装置的组成示意图；

图9示出了可以应用本公开实施例的一种电子设备的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种视线坐标确定方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是各种具有图像处理功能的电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的视线坐标确定方法一般由终端设备101、102、103中执行，相应地，视线坐标确定装置一般设置于终端设备101、102、103中。但本领域技术人员容易理解的是，本公开实施例所提供的视线坐标确定方法也可以由服务器105执行，相应的，视线坐标确定装置也可以设置于服务器105中，本示例性实施例中对此不做特殊限定。

视线估计是通过一张人脸图像，来判断人的眼睛注视的位置。一般来说，视线估计模型可以包括通用的视线估计模型以及校正环节，通用的视线估计模型对任何人都适用。通过增加校正环节，可以对每个人进行更加个性化的校正，增加精度，之所以有校正环节，是因为每个人的眼睛情况有略微不同。

目前，相关的视线校正方案中，一般是通过专门的校正过程，比如屏幕依次在四个角落和中间出现五个亮点，指引用户依次盯着每个亮点。每个亮点拍下来的人脸图像就是一个校正样本。但是，这种视线校正方案中，专门的校正过程所需要的操作较复杂，用户的学习成本较高，进而大概率可能导致用户在校正过程出现操作失误，得到的视线校正模型的校正准确度较低的问题；同时，若操作失误可能需要重新进行校正过程，所需要的校正时间较长，导致视线校正模型的构建时间或者更新时间较长。

基于相关技术中的一个或者多个问题，本公开首先提供了一种视线坐标确定方法，下面以终端设备执行该方法为例对本公开示例性实施方式的视线坐标确定方法和视线坐标确定装置进行具体说明。

图2示出了本示例性实施方式中一种视线坐标确定方法的流程示意图，可以包括以下步骤S210至步骤S240：

在步骤S210中，获取人脸图像。

在一示例性实施例中，人脸图像是指终端设备采集的至少包含用户对象的眼睛区域的图像。可以在终端设备处于视线控制模式时，通过启动图像采集单元获取人脸图像，其中，图像采集单元可以是终端设备的前置摄像头或者后置摄像头，也可以是以无线或者有线方式外接的摄像头，本示例实施例不以此为限。

图像采集单元可以在终端设备处于视线控制模式时一直处于开启状态并采集人脸图像，也可以按照固定采样频率采集图像以确定是否检测到视线输入操作，并在检测到视线输入操作时开启图像采集单元采集人脸图像，例如视线输入操作可以是用户摆出特定动作，图像采集单元在按照固定采样频率采集到包含该特定动作的图像时可以认为检测到视线输入操作，如该特定动作可以是通过手指摆出的特定形状，也可以是睁一只眼闭一只眼的动作等。本示例实施例对人脸图像的采集时机不做特殊限定。

在步骤S220中，将所述人脸图像输入到视线估计模型中，确定所述人脸图像对应的视线估计坐标。

在一示例性实施例中，视线估计模型是指用于对人脸图像中人眼视线关注区域的坐标进行估计的模型，例如，视线估计模型可以是基于卷积神经网络(ConvolutionalNeural Networks，CNN)训练得到的AI(Artificial Intelligence，人工智能)模型，也可以是基于构建的眼部二维模型和眼球三维模型得到的数学拟合模型，本示例实施例对此不做特殊限定。通过视线估计模型可以实现通过一张人脸图像来判断图像中的人眼注视的方向，在本实施例中视线估计模型的输入可以是单帧图像或者连续多帧图像，输出可以是图像用户界面中的坐标值。

视线估计坐标是指通过视线估计模型对人脸图像中人眼视线的落点进行预测估计所得到的视线落点在二维平面中的坐标，可以基于图像采集单元的位置在终端设备的图形用户界面中构建二维平面坐标系，并通过视线估计模型估计人脸图像中人脸视线在该二维平面坐标系的落点，该落点对应的坐标即视线估计坐标。

在步骤S230中，获取构建好的视线校正模型，所述视线校正模型是通过隐藏式校正过程得到的。

在一示例性实施例中，视线校正模型可以是对视线估计模型预测得到的视线估计坐标进行校正的模型，例如，视线校正模型可以是基于最小二乘法的线性模型构建的数学拟合模型，也可以是基于二次多项式的非线性模型构建的数学拟合模型，本示例实施例对视线校正模型的类型不做特殊限定。

由于每个人的眼睛情况可能有所不同，因此在对每个人均通用的视线估计模型之后设置视线校正模型，可以对每个人的眼睛情况进行更加个性化的视线校正，增加视线坐标的检测精度。

隐藏式校正过程是指在用户无感知的情况下构建或者更新视线校正模型的过程，例如，隐藏式校正过程可以是用户在普通使用场景模式(即非视线控制模式)下，采集用户的触控操作并将该触控操作对应的坐标作为样本视线真实坐标，完成视线校正模型的构建或者更新的过程；当然，隐藏式校正过程也可以是通过用户佩戴的眼动仪采集人眼视线的真实坐标完成对视线校正模型的构建或者更新的过程，本示例实施例对隐藏式校正过程的方式不做特殊限定。

一般的视线校正方案中，是通过专门的校正过程，比如图像用户界面中依次在四个角落和中间出现五个亮点，指引用户依次盯着每个亮点。每个亮点拍下来的人脸图像就是一个校正样本。该视线校正过程全程用户感知强烈，是一种显式的校正过程，本实施例中的隐藏式校正过程用户全程无感知，可以在用户日常使用终端设备的过程中就能够采集数据，不需要额外的步骤，也不需要用户花费额外的校正时间，采集得到的样本数据的准确性更高，采集效率更高。

在步骤S240中，通过所述视线校正模型对所述视线估计坐标进行校正处理，确定所述人脸图像对应的视线真实坐标。

在一示例性实施例中，视线真实坐标是指通过视线校正模型对视线估计坐标进行校正后得到的视线坐标，由于视线校正模型是根据每个人的眼睛情况进行个性化校正得到的，因此，视线真实坐标相比于视线估计坐标，准确度更高，更加接近于真实场景中人眼视线关注的坐标。

下面对步骤S210至步骤S240进行详细说明。

在一示例性实施例中，可以通过图3中的步骤实现步骤S230中的隐藏式校正过程，参考图3所示，具体可以包括：

步骤S310，响应于在图像用户界面中检测到触控操作，获取所述触控操作对应的触控位置；

步骤S320，获取检测到所述触控操作时采集的注视人脸图像，并将所述触控位置作为所述注视人脸图像对应的样本视线真实坐标；

步骤S330，将所述注视人脸图像输入到所述视线估计模型中，得到样本视线估计坐标；

步骤S340，基于所述样本视线真实坐标以及所述样本视线估计坐标对预构建的视线校正模型进行参数拟合，得到构建好的视线校正模型。

其中，触控操作是指用户在使用终端设备的过程中通过具有触控功能的显示屏幕输入的控制操作，例如，触控操作可以用户在显示屏幕上输入的点击操作或者长按操作等，也可以是在显示屏幕上输入的滑动操作等，当然，触控操作还可以是通过屏幕指纹解锁功能在显示屏幕上进行的指纹解锁操作，本示例实施例对触控操作的类型不做特殊限定。

触控位置是指输入的触控操作在图形用户界面中对应的位置坐标，例如，触控位置可以是点击操作对应的点击位置坐标，也可以是滑动操作的滑动起始位置对应的位置坐标和/或滑动结束位置对应的位置坐标，当然，触控位置还可以是屏幕指纹解锁操作对应的屏幕指纹识别坐标，具体的触控位置可以根据触控操作的类型进行设置，本实施例不以此为限。

注视人脸图像是指用户在输入触控操作时注视触控位置的人脸图像，例如，在检测到用户对应用程序(Application，APP)图标的点击操作时，用户一般会通过视线注视该应用程序图标，此时采集该点击操作对应的人脸图像，即注视人脸图像，注视人脸图像中人眼视线的落点会在触控位置处。

可以在检测到触控操作时，获取触控操作对应的触控位置，并且将该触控位置作为样本视线真实坐标；同时，可以采集触发触控操作时所对应的注视人脸图像，并将该注视人脸图像输入到通用的视线估计模型中得到样本视线估计坐标；进而可以将样本视线估计坐标以及样本视线真实坐标作为一个样本数据对，可以在采集到目标数量的样本数据对之后，例如，目标数量可以是5，当然也可以是10，具体可以根据实际应用情况进行自定义设置，本实施例不以此为限。最后，可以将目标数量的样本数据对输入到预先构建的视线校正模型中，对该视线校正模型中的校正参数进行拟合，最终得到构建好的视线校正模型。

可选的，预构建的视线校正模型可以是基于最小二乘法的线性模型。举例而言，可以通过关系式(1)表示视线校正模型：

其中，x_e可以表示样本视线估计坐标的横坐标，y_e可以表示样本视线估计坐标的纵坐标，x_t可以表示样本视线真实坐标的横坐标，y_t可以表示样本视线真实坐标的纵坐标，a、b、c、d、e、f可以表示视线校正模型中的校正参数。

在一示例性实施例中，可以通过图4中的步骤对样本视线估计坐标进行筛选，参考图4所示，具体可以包括：

步骤S410，将所述注视人脸图像输入到所述视线估计模型中，得到初始视线估计坐标；

步骤S420，若所述初始视线估计坐标位于所述图像用户界面的界面范围之内，则将所述初始视线估计坐标作为样本视线估计坐标；

步骤S430，若所述初始视线估计坐标位于所述图像用户界面的界面范围之外，则将所述初始视线估计坐标进行删除处理。

其中，初始视线估计坐标是指通过将注视人脸图像输入到视线估计模型中得到的坐标数据，相对而言，初始视线估计坐标是将采集所有的注视人脸图像输入到视线估计模型中得到的所有视线估计坐标，样本视线估计坐标是从初始视线估计坐标筛选得到的符合条件的视线估计坐标。

界面范围是指图形用户界面对应的四个角点在二维平面坐标系中的坐标点所围成的区域。

图5示意性示出本公开示例性实施例中一种确定图形用户界面的界面范围的示意图。

参考图5所示，假设终端设备501的图像采集单元为显示屏幕左上角的前置摄像头502，那么可以将该前置摄像头502对应的坐标作为坐标原点构建二维平面坐标系xy，若该终端设备的图形用户界面503的尺寸是8cm*16cm，那么图形用户界面503在该二维平面坐标系xy中四个角点的坐标分别是A(0，0)、B(8，0)、C(8，16)、D(0，16)，可以确定图形用户界面的界面范围是矩形ABCD。当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。

在得到初始视线估计坐标之后，可以对初始视线估计坐标进行筛选，具体是，若检测到初始视线估计坐标位于图像用户界面的界面范围之内，则将初始视线估计坐标作为样本视线估计坐标；若检测到初始视线估计坐标位于图像用户界面的界面范围之外，则将初始视线估计坐标进行删除处理，即位于图像用户界面的界面范围之外的初始视线估计坐标是错误数据，需要进行剔除。

图6示意性示出本公开示例性实施例中一种过滤样本视线估计坐标的原理示意图。

参考图6所示，假设终端设备601的图像采集单元为显示屏幕左上角的前置摄像头，那么可以将该前置摄像头对应的坐标作为坐标原点构建二维平面坐标系，并且终端设备601对应的图形用户界面在该二维平面坐标系中的界面范围是矩形ABCD。

若将注视人脸图像输入到视线估计模型中得到的初始视线估计坐标602为E(5，8)，那么可以将该初始视线估计坐标602作为样本视线估计坐标，并与样本视线真实坐标构成样本数据对；若将注视人脸图像输入到视线估计模型中得到的初始视线估计坐标603为F(9，8)，则可以认为该注视人脸图像中的人眼视线没有注视图形用户界面或者采集的注视人脸图像模糊，因此可以将该初始视线估计坐标603作为过滤数据进行删除处理。

通过检测初始视线估计坐标与图形用户界面的界面范围之间的包含关系，可以快速过滤无效的初始视线估计坐标，保证得到的样本视线估计坐标的准确性，提高视线校正模型的校正准确度。

在另一示例性实施例中，可以通过图7中的步骤对样本视线估计坐标进行筛选，参考图7所示，具体可以包括：

步骤S710，将所述注视人脸图像输入到所述视线估计模型中，得到初始视线估计坐标；

步骤S720，计算所述样本视线真实坐标与所述初始视线估计坐标的坐标距离；

步骤S730，若检测到所述坐标距离小于预设的距离阈值，则将所述初始视线估计坐标作为样本视线估计坐标；

步骤S740，若检测到所述坐标距离大于或者等于所述距离阈值，则将所述初始视线估计坐标进行删除处理。

其中，坐标距离是指衡量样本视线真实坐标与初始视线估计坐标之间距离的数据，例如，坐标距离可以是样本视线真实坐标与初始视线估计坐标之间的欧氏距离数据，也可以是样本视线真实坐标与初始视线估计坐标之间的像素个数，当然，还可以是其他能够衡量样本视线真实坐标与初始视线估计坐标之间距离的数据，本实施例对此不做特殊限定。

距离阈值是指用于过滤错误样本数据的阈值数据，例如，视线估计模型的平均误差一般是2cm左右，因此距离阈值可以设置为3cm，当然，距离阈值也可以是4cm，具体可以根据实际应用过程进行自定义设置，本示例实施例对此不做特殊限定。

在得到初始视线估计坐标之后，可以对初始视线估计坐标进行筛选，具体是，计算触控操作对应的样本视线真实坐标与初始视线估计坐标之间的坐标距离；若检测到坐标距离小于预设的距离阈值，此时可以认为注视人脸图像中的人眼视线在注视触控位置，则可以将初始视线估计坐标作为样本视线估计坐标；若检测到坐标距离大于或者等于距离阈值，此时可以认为注视人脸图像中的人眼视线没有在注视触控位置或者数据错误，则可以将该初始视线估计坐标作为过滤数据进行删除处理。

通过检测初始视线估计坐标与样本视线真实坐标的坐标距离与距离阈值之间的关系，可以快速过滤无效的初始视线估计坐标，保证得到的样本视线估计坐标的准确性，提高视线校正模型的校正准确度。

在一示例性实施例中，图像用户界面可以包括目标区域，该目标区域是指需要用户视线注视才能够准确完成触控操作的区域，例如，目标区域可以是APP图标对应的区域，可以是图形用户界面中面积尺寸小于预设面积阈值的功能控件对应的区域，本示例实施例对目标区域的类型不做特殊限定。

可以在检测到针对目标区域的触控操作时，启动图像采集单元开始采集注视人脸图像，能够从数据源头上保证采集的的触控操作与注视人脸图像中的人眼视线相对应，可以有效避免诸如用户在阅读电子书时虽然通过滑动操作进行浏览，但是在输入滑动操作时用户的人脸视线在浏览电子书内容而并非触控位置，从而导致图像采集单元采集无效数据产生电量或者内存消耗的问题，能够在保证获取的样本校正数据有效的同时，有效降低终端设备的能源消耗，提升终端设备的续航能力。

在一示例性实施例中，可以在检测到当前状态处于初次开机状态时，启动隐藏式校正过程。其中，初次开机状态是指用户在拿到新的终端设备并初次开机时的状态，当检测到终端设备处于该状态时，可以认为尚未构建视线校正模型，因此需要启动隐藏式校正过程以完成对视线校正模型的构建。

可选的，可以在检测到视线校正模型的最新更新时间与当前系统时间的差值大于或者等于时间间隔阈值时，启动隐藏式校正过程。其中，最新更新时间是指终端设备最近的一次构建好视线校正模型时所对应的时间。时间间隔阈值是指预先设置的用于判断视线校正模型的更新频率的数据，例如，时间间隔阈值可以是48小时，也可以是100小时，具体可以根据实际使用情况进行自定义设置，本示例对此不作特殊性限定。

在确定视线校正模型的最新更新时间与当前系统时间的差值大于或者等于时间间隔阈值时，可以认为用户的眼睛情况或者眼睛使用习惯可能有所变化，此时需要对视线校正模型进行更新，以保证得到的视线真实坐标的准确性。

在一示例性应用场景中，在通过视线估计模型以及视线校正模型得到视线输入操作对应的视线真实坐标之后，可以根据视线真实坐标确定视线输入操作的移动轨迹，例如，在第一时刻检测到视线输入操作对应的视线真实坐标为(1，1)，在第二时刻检测到视线输入操作对应的视线真实坐标为(1，2)，可以基于这两个坐标绘制移动轨迹。

当然，还可以设置波动阈值，在检测到两个时刻的视线真实坐标之间的距离大于或者等于波动阈值时，可以基于这两个时刻的视线真实坐标绘制的移动轨迹生成滑动操作；在检测到两个时刻的视线真实坐标之间的距离小于波动阈值时，可以认为两个时刻之间的视线真实坐标属于正常的视线波动，可以暂时不绘制移动轨迹，继续确定下一时刻的视线真实坐标。

在一示例性应用场景中，在通过视线估计模型以及视线校正模型得到视线输入操作对应的视线真实坐标之后，若检测到视线真实坐标在目标位置处的停留时间大于或者等于时间阈值，例如时间阈值可以是1s、2s、3s等，此时可以在该目标位置处生成点击操作。

综上所述，本示例性实施方式中，可以在检测到视线输入操作时，将视线输入操作对应的人脸图像输入到视线估计模型中，确定人脸图像对应的视线估计坐标，然后通过隐藏式校正过程得到的视线校正模型对视线估计坐标进行校正处理，确定人脸图像对应的视线真实坐标。一方面，通过视线校正模型对视线估计模型输出的视线估计坐标进行校正，能够有效提升视线真实坐标的准确性，并且视线校正模型可以对不同的用户进行更加个性化的校正，增加校正精度；另一方面，隐藏式校正过程并不需要设置专门的校正过程，并不需要用户进行额外的操作，避免可能由于用户在校正过程出现操作失误导致样本数据出错的问题，能够有效提升视线校正模型的校正准确度，进而有效保证校正得到的视线真实坐标的准确性；再一方面，由于隐藏式校正过程不需要用户进行额外的操作，能够有效减少用户操作，降低用户使用时的学习成本，有效提升视线校正模型的构建效率。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图8所示，本示例的实施方式中还提供一种视线坐标确定装置800，可以包括人脸图像获取模块810、视线估计坐标确定模块820、校正模型获取模块830和视线真实坐标确定模块840。其中：

人脸图像获取模块810用于获取人脸图像；

视线估计坐标确定模块820用于将所述人脸图像输入到视线估计模型中，确定所述人脸图像对应的视线估计坐标；

校正模型获取模块830用于获取构建好的视线校正模型，所述视线校正模型是通过隐藏式校正过程得到的；

视线真实坐标确定模块840用于通过所述视线校正模型对所述视线估计坐标进行校正处理，确定所述人脸图像对应的视线真实坐标。

在一示例性实施例中，视线坐标确定装置800包括隐藏式校正单元，该隐藏式校正单元可以用于：

响应于在图像用户界面中检测到触控操作，获取所述触控操作对应的触控位置；

获取检测到所述触控操作时采集的注视人脸图像，并将所述触控位置作为所述注视人脸图像对应的样本视线真实坐标；

将所述注视人脸图像输入到所述视线估计模型中，得到样本视线估计坐标；

基于所述样本视线真实坐标以及所述样本视线估计坐标对预构建的视线校正模型进行参数拟合，得到构建好的视线校正模型。

在一示例性实施例中，视线校正模型可以是基于最小二乘法的线性模型。

在一示例性实施例中，隐藏式校正单元可以用于：

将所述注视人脸图像输入到所述视线估计模型中，得到初始视线估计坐标；

若所述初始视线估计坐标位于所述图像用户界面的界面范围之内，则将所述初始视线估计坐标作为样本视线估计坐标；

若所述初始视线估计坐标位于所述图像用户界面的界面范围之外，则将所述初始视线估计坐标进行删除处理。

在一示例性实施例中，隐藏式校正单元可以用于：

计算所述样本视线真实坐标与所述初始视线估计坐标的坐标距离；

若检测到所述坐标距离小于预设的距离阈值，则将所述初始视线估计坐标作为样本视线估计坐标；

若检测到所述坐标距离大于或者等于所述距离阈值，则将所述初始视线估计坐标进行删除处理。

在一示例性实施例中，图像用户界面可以包括目标区域，人脸图像获取模块810可以用于：

响应于检测到针对所述目标区域的触控操作，开始采集注视人脸图像。

在一示例性实施例中，视线坐标确定装置800还可以包括隐藏式校正启动单元，该隐藏式校正启动单元可以用于：

响应于检测到当前状态处于初次开机状态，启动所述隐藏式校正过程；或者

响应于检测到所述视线校正模型的最新更新时间与当前系统时间的差值大于或者等于时间间隔阈值，启动所述隐藏式校正过程。

在一示例性实施例中，视线坐标确定装置800还包括视线滑动检测单元，该视线滑动检测单元可以用于：

根据所述视线真实坐标确定所述视线输入操作的移动轨迹；

基于所述移动轨迹生成滑动操作。

在一示例性实施例中，视线坐标确定装置800还包括视线点击检测单元，该视线点击检测单元可以用于：

响应于检测到所述视线真实坐标在目标位置处的停留时间大于或者等于时间阈值，在所述目标位置处生成点击操作。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式还提供一种电子设备。该电子设备可以是上述终端设备101、102、103或者服务器105。一般的，该电子设备可以包括处理器与存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行上述视线坐标确定方法。

下面以图9中的移动终端900为例，对该电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图9中的构造也能够应用于固定类型的设备。

如图9所示，移动终端900具体可以包括：处理器901、存储器902、总线903、移动通信模块904、天线1、无线通信模块905、天线2、显示屏906、摄像模块907、音频模块908、电源模块909与传感器模块910。

处理器901可以包括一个或多个处理单元，例如：处理器901可以包括AP(Application Processor，应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit，图形处理器)、ISP(Image Signal Processor，图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor，数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit，神经网络处理器)等。本示例性实施方式中的视线坐标确定方法可以由AP、GPU或DSP来执行，当方法涉及到神经网络相关的处理时，可以由NPU来执行，例如NPU可以加载神经网络参数并执行视线估计模型相关的算法指令。

编码器可以对图像或视频进行编码(即压缩)，以减小数据大小，便于存储或发送。解码器可以对图像或视频的编码数据进行解码(即解压缩)，以还原出图像或视频数据。移动终端900可以支持一种或多种编码器和解码器，例如：JPEG(Joint PhotographicExperts Group，联合图像专家组)、PNG(Portable Network Graphics，便携式网络图形)、BMP(Bitmap，位图)等图像格式，MPEG(Moving Picture Experts Group，动态图像专家组)1、MPEG10、H.1063、H.1064、HEVC(High Efficiency Video Coding，高效率视频编码)等视频格式。

处理器901可以通过总线903与存储器902或其他部件形成连接。

存储器902可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器901通过运行存储在存储器902的指令，执行移动终端900的各种功能应用以及数据处理。存储器902还可以存储应用数据，例如存储图像，视频等文件。

移动终端900的通信功能可以通过移动通信模块904、天线1、无线通信模块905、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块904可以提供应用在移动终端900上3G、4G、5G等移动通信解决方案。无线通信模块905可以提供应用在移动终端900上的无线局域网、蓝牙、近场通信等无线通信解决方案。

显示屏906用于实现显示功能，如显示用户界面、图像、视频等。摄像模块907用于实现拍摄功能，如拍摄图像、视频等。音频模块908用于实现音频功能，如播放音频，采集语音等。电源模块909用于实现电源管理功能，如为电池充电、为设备供电、监测电池状态等。

传感器模块910可以包括一种或多种传感器，用于实现相应的感应检测功能。例如，传感器模块910可以包括惯性传感器，其用于检测移动终端900的运动位姿，输出惯性传感数据。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

此外，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种视线坐标确定方法，其特征在于，包括：

获取人脸图像；

通过所述视线校正模型对所述视线估计坐标进行校正处理，确定所述人脸图像对应的视线真实坐标；

其中，所述隐藏式校正过程包括：

2.根据权利要求1所述的方法，其特征在于，所述视线校正模型是基于最小二乘法的线性模型。

3.根据权利要求1所述的方法，其特征在于，所述将所述注视人脸图像输入到所述视线估计模型中，得到样本视线估计坐标，包括：

4.根据权利要求1或3所述的方法，其特征在于，所述将所述注视人脸图像输入到所述视线估计模型中，得到样本视线估计坐标，包括：

5.根据权利要求1所述的方法，其特征在于，所述图像用户界面包括目标区域，所述响应于在图像用户界面中检测到触控操作，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述视线真实坐标确定所述视线输入操作的移动轨迹；

基于所述移动轨迹生成滑动操作。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种视线坐标确定装置，其特征在于，包括：

人脸图像获取模块，用于获取人脸图像；

视线真实坐标确定模块，用于通过所述视线校正模型对所述视线估计坐标进行校正处理，确定所述人脸图像对应的视线真实坐标；

其中，所述隐藏式校正过程包括：

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至8任一项所述的方法。