CN113900519A

CN113900519A - 注视点获取方法、装置以及电子设备

Info

Publication number: CN113900519A
Application number: CN202111161492.9A
Authority: CN
Inventors: 孙哲
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-07
Also published as: WO2023051215A1

Abstract

本申请实施例公开了一种注视点获取方法、装置以及电子设备。方法包括：获取第一注视点，第一注视点为将注视状态图像输入到第一网络模型所得到的注视点；将第一注视点以及历史注视点分布信息输入到第二网络模型，获取第二网络模型输出的第二注视点，其中，历史注视点分布信息表征第二网络模型历史输出的第二注视点的分布情况；根据第二注视点获取目标注视点。从而通过上述方式使得对于通过第一网络模型所输出的第一注视点，还会进一步与表征第二网络模型历史输出的第二注视点的分布情况的历史注视点分布信息一同输入到第二网络模型，进而根据第二网络模型输出的第二注视点获取目标注视点，从而提升了所目标注视点的精确程度。

Description

注视点获取方法、装置以及电子设备

技术领域

本申请涉及人工智能技术领域，更具体地，涉及一种注视点获取方法、装置以及电子设备。

背景技术

随着技术的发展，电子设备可以对用户的注视屏幕的位置进行检测，从而根据所检测到的用户的注视位置来进行对应的操作。但是，相关的进行用户的注视位置检测的方式还存在检测精度有待提升的问题。

发明内容

鉴于上述问题，本申请提出了一种注视点获取方法、装置以及电子设备，以实现改善上述问题。

第一方面，本申请提供了一种注视点获取方法，应用于电子设备，所述方法包括：获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点；将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，其中，所述历史注视点分布信息表征所述第二网络模型历史输出的第二注视点的分布情况；

根据所述第二注视点获取目标注视点。

第二方面，本申请提供了一种注视点获取装置，运行于电子设备，所述装置包括：第一注视点获取单元，用于获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点；第二注视点获取单元，用于将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，其中，所述历史注视点分布信息表征所述第二网络模型历史输出的第二注视点的分布情况；注视点确定单元，用于根据所述第二注视点获取目标注视点。

第三方面，本申请提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请提供的一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请提供的一种注视点获取方法、装置以及电子设备，获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点，然后再将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，进而根据所述第二注视点获取目标注视点。从而通过上述方式使得对于通过第一网络模型所输出的第一注视点，还会进一步与表征第二网络模型历史输出的第二注视点的分布情况的历史注视点分布信息一同输入到第二网络模型，进而根据第二网络模型输出的第二注视点获取目标注视点，从而提升了所目标注视点的精确程度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的一种注视点获取方法的一种应用场景的示意图；

图2示出了本申请实施例提出的一种注视点获取方法的流程图；

图3示出了本申请实施例中一种获取第一注视点的示意图；

图4示出了本申请实施例中另一种获取第一注视点的示意图；

图5示出了本申请实施例中再一种获取第一注视点的示意图；

图6示出了本申请实施例中一种注视点的示意图；

图7示出了本申请实施例中用户人脸与电子设备的不同间距的示意图；

图8示出了本申请另一实施例提出的一种注视点获取方法的流程图；

图9示出了本申请实施例中历史第二注视点的示意图；

图10示出了本申请实施例中一种注视区域的示意图；

图11示出了本申请实施例中另一种注视区域的示意图；

图12示出了本申请再一实施例提出的一种注视点获取方法的流程图；

图13示出了本申请另一实施例提出的一种注视点获取方法的流程图；

图14示出了本申请一实施例提出一种模型训练方式的示意图；

图15示出了本申请实施例提出的一种注视点获取装置的结构框图；

图16示出了本申请另一实施例提出的一种注视点获取装置的结构框图；

图17示出了本申请提出的一种电子设备的结构框图；

图18是本申请实施例的用于保存或者携带实现根据本申请实施例的注视点获取方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着技术的发展，电子设备可以对用户的注视屏幕的位置进行检测，从而根据所检测到的用户的注视位置来进行对应的操作。例如，在信息浏览场景中，电子设备可以根据检测到的用户的注视点的位置来确定是否进行浏览信息的更新，该更新包括翻页等。再者，在一些场景中，可以根据用户所注视的按键来触发所注视按键对应的控制操作。

但是，发明人在对相关的检测用户注视位置的技术的研究中发现，相关的检测用户注视位置的方法还存在检测精度不够高的问题。并且，在相关的技术中，为了能够提升检测的精确度，需要用户在使用之前，先根据电子设备的提示对电子设备的屏幕中的指定位置进行注视，进而给用户造成了不便。并且，在需要注视的指定位置较多的情况下，还会造成对消耗用户过多的时间。

因此，为了改善上述问题，本申请实施例提出了一种注视点获取方法、装置以及电子设备。该方法通过获取将注视状态图像输入到第一网络模型所得到的注视点作为第一注视点后，再将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，进而根据所述第二注视点获取目标注视点。从而通过上述方式使得对于通过第一网络模型所输出的第一注视点，还会进一步与表征第二网络模型历史输出的第二注视点的分布情况的历史注视点分布信息一同输入到第二网络模型，进而根据第二网络模型输出的第二注视点获取目标注视点，从而提升了所目标注视点的精确程度。

下面先对本申请实施例所涉及的应用场景进行介绍。

在本申请实施例中，所提供的注视点获取方法可以由电子设备执行。在由电子设备执行的这种方式中，本申请实施例提供的注视点获取方法中所有步骤可以均由电子设备执行。再者，也可以由服务器进行执行。在由电子设备执行的这种方式中，本申请实施例提供的注视点获取方法中所有步骤可以均由服务器执行。另外，还可以由电子设备和服务器协同执行。在由电子设备和服务器协同执行的这种方式中，本申请实施例提供的注视点获取方法中的部分步骤由电子设备执行，而另外部分的步骤则由服务器来执行。

示例性的，如图1所示，电子设备100可以执行注视点获取方法包括的：获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点。电子设备100得到第一注视点后，可以将第一注视点发送给服务器200，然后由服务器200来执行注视点获取方法包括的：将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，其中，所述历史注视点分布信息表征所述第二网络模型历史输出的第二注视点的分布情况；根据所述第二注视点获取目标注视点，并且还可以将目标注视点返回给电子设备100。

需要说明的是，在由电子设备和服务器协同执行的这种方式中，电子设备和服务器分别执行的步骤不限于上述示例中所介绍的方式，在实际应用中，可以根据实际情况动态的调整电子设备和服务器分别执行的步骤。其中，电子设备可以为智能手机以及平板电脑等。

下面则结合附图来对本申请所涉及的实施例进行介绍。

请参阅图2，本申请提供的一种注视点获取方法，应用于电子设备，所述方法包括：

S110：获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点。

其中，在本申请实施例中，用户在使用电子设备的过程中，电子设备可以通过其设置的图像采集器件采集用户脸部的图像，进而得到注视状态图像，然后可以将采集的注视状态图像输入到第一网络模型中，以得到第一注视点。也就是说，第一网络模型可以直接根据采集的注视状态图像来对应输出第一注视点。

需要说明的是，作为一种方式，本申请实施例中的获取第一注视点可以理解为电子设备负责将获取的注视状态图像输入到第一网络模型，并获取第一网络模型输出的注视点。在这种方式中，第一网络模型可以直接部署在电子设备的本地，电子设备在通过自身的图像采集器件采集到注视状态图像后，则可以将采集的注视状态图像输入到本地的第一网络模型中，进而获取到第一网络模型输出的第一注视点。示例性的，如图3所示，电子设备100采集了注视状态图像10，然后将注视状态图像10输入到第一网络模型20中，进而得到了第一网络模型20输出的第一注视点。

作为另外一种方式，本申请实施例中的获取第一注视点可以理解为获取其他设备所输出的第一注视点。在这种方式中，电子设备可以理解为用于根据第一注视点而获取最终目标注视点的设备，并可以将所最终所确定的第一注视点再返回给发送第一注视点的设备。示例性的，如图4所示，电子设备200采集了注视状态图像10，然后将注视状态图像10输入到第一网络模型20中，进而得到了第一网络模型20输出的第一注视点，并可以将第一注视点再传输给电子设备100，然后电子设备100在执行本申请实施例提供的注视点获取方法，并且可以在执行注视点获取方法获取目标注视点之后，再将目标注视点返回给电子设备200。

作为再一种方式，电子设备可以在采集注视状态图像后，将所采集的注视状态图像传输给其他的电子设备，然后由其他的电子设备将注视状态图像输入到第一网络模型中，然后由其他电子设备中的第一网络模型输出第一注视点，并将输出的第一注视点再返回给电子设备。示例性的，如图5所示，电子设备100在采集得到注视状态图像10后可以将该注视状态图像10传输给电子设备300，然后，电子设备300再将获取到的注视状态图像10输入到本地的第一网络模型中，在得到本地的第一网络模型输出的第一注视点之后，再将第一注视点返回给电子设备100，进而电子设备100在基于获取的第一注视点执行本申请实施例提供的注视点获取方法。

其中，注视状态图像可以包括眼部特征图像、脸部特征图像以及人脸关键点图像，其中，所述眼部特征图像表征虹膜位置以及眼球位置，所述脸部特征图像表征脸部的五官的分布情况，所述人脸关键点图像表征人脸中关键点的位置。其中，人脸中的五个关键点可以包括有两只眼球中心、鼻子以及两个嘴角。

S120：将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，其中，所述历史注视点分布信息表征所述第二网络模型历史输出的第二注视点的分布情况。

其中，电子设备可以将第二网络模型在开始运行后所输出的第二注视点进行记录，并根据记录的第二注视点得到历史注视点分布信息。那么在每次向第二网络模型输入数据时，除了会包括在S110中获取的第一注视点外，还会包括当前的历史注视点分布信息。并且，在获取到第二网络模型输出的第二注视点后，会将该第二注视点增加到历史注视点分布信息中。示例性的，在历史注视点分布信息中包括有注视点z1、注视点z2、注视点z3、注视点z4以及注视点z5的情况下，在执行S120的过程中，与第一注视点一同输入到第二网络模型的历史注视点分布信息会包括有注视点z1、注视点z2、注视点z3、注视点z4以及注视点z5。若第二网络模型所输出的第二注视点为注视点z6，在将注视点z6增加到历史注视点分布信息后，当前最新的历史注视点分布信息则包括注视点z1、注视点z2、注视点z3、注视点z4、注视点z5以及注视点z6。

需要说明的是，第二网络模型的一个作用是对第一注视点进行修正，以使得所输出的第二注视点可以更加准确的表征注视状态图像所实际对应的注视位置。并且，第二网络模型的输入数据中包括有历史注视点分布信息，则可以使得第二网络模型可以改善用户在不同的位置注视屏幕中的同一位置时会存在误差的问题。示例性的，如图6所示，在电子设备中有位置40，而在相关的注视位置检测方式中，会存在从电子设备不同方位或者不同相对距离关注位置40的情况下，最终电子设备所确定的注视位置并不是位置40的问题。例如，如图7所示，图7的左侧图像和图7的右侧图像分别示出了两种用户握持手机的姿态，其中，在图7的左侧图像中，用户的脸部与所握持的手机的距离，会相比图7的右侧图像中用户的脸部与所握持的手机的距离更小，那么在相关技术中，即使在图7左侧图像和图7右侧图像所示的用户都是在注视同一位置的情况下，电子设备最终所目标注视点可能是不同的，而在本申请实施例中，因为会对第二网络模型输出的第二注视点进行记录以形成历史注视点分布信息，并且会将历史注视点分布信息作为第二网络模型的输入，从而可以通过第二网络模型极大的改善用户在不同的位置注视屏幕中的同一位置时会存在误差的问题。

其中，第二网络模型可以为一种神经网络回归(Quantile RegressionNeuralNetwork,QRNN)。

需要说明的是，在第二网络模型的运行过程中，输入到第二网络模型中的历史注视点分布信息可以是属于同一个用户的信息，即，历史注视点分布信息可以表征的是同一个用户在屏幕中的注视点的分布情况，所以第二网络模型可以能够更好的根据该同一用户的历史注视位置来获取该用户的注视习惯，进而可以更为精确的确定表征用户当前注视位置的第二注视点，进而提升了第二注视点的精度。

S130：根据所述第二注视点获取目标注视点。

其中，在本申请实施例中目标注视点可以理解为电子设备所确定的用户实际在注视的位置。或者说，目标注视点可以理解为作为与注视状态图像所对应的注视点。并且，目标注视点和第二注视点是有关的，则会根据第二注视点获取目标注视点。作为一种方式，电子设备可以将第二注视点作为目标注视点。

本实施例提供的一种注视点获取方法，获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点，然后再将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，进而根据所述第二注视点获取目标注视点。从而通过上述方式使得对于通过第一网络模型所输出的第一注视点，还会进一步与表征第二网络模型历史输出的第二注视点的分布情况的历史注视点分布信息一同输入到第二网络模型，进而根据第二网络模型输出的第二注视点获取目标注视点，从而提升了所目标注视点的精确程度。

请参阅图8，本申请提供的一种注视点获取方法，应用于电子设备，所述方法包括：

S210：获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点。

S220：将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，其中，所述历史注视点分布信息表征所述第二网络模型历史输出的第二注视点的分布情况。

S230：获取多个历史第二注视点，其中，所述历史第二注视点为所述第二网络模型根据输入的历史第一注视点输出，所述历史第一注视点为所述第一网络模型根据在所述注视状态图像输入之前所输入的注视状态图像输出。

示例性的，如图9所示，随着第二网络模型的运行，向第二网络模型输入的第一注视点可以包括第一注视点z7、第一注视点z9、第一注视点z11以及第一注视点z13。其中，在输入第一注视点z7的情况下，第二网络模型对应输出的第二注视点为第二注视点z8。在输入第一注视点z9的情况下，第二网络模型对应输出的第二注视点为第二注视点z10。在输入第一注视点z11的情况下，第二网络模型对应输出的第二注视点为第二注视点z12。在输入第一注视点z13的情况下，第二网络模型对应输出的第二注视点为第二注视点z14。那么在这种情况下，若确定获取的多个历史第二注视点的数量为2，且在S220中输入到第二网络模型的为第一注视点z11，对应的所获取的多个历史第二注视点包括第二注视点z8以及第二注视点z10，再者，若在S220中输入到第二网络模型的为第一注视点z13，对应的所获取的多个历史第二注视点包括第二注视点z10以及第二注视点z12。

S240：将所述第二注视点以及所述多个历史第二注视点输入到第三网络模型，获取所述第三网络模型输出的第三注视点。

其中，第三网络模型可以为一种长短记忆人工神经网络(Long Short-TermMemroy)。长短期记忆网络是一种时间循环神经网络，可以用于解决一般的循环神经网络(Recurrent Neural Network)存在的长期依赖问题，属于时间递归神经网络中的一种。在本申请实施例中，第三网络模型在确定所要输出的注视点的过程中，不仅会参考输入的第二注视点，还会结合该多个历史第二注视点，使得可以更为准确的确定注视状态图像所实际对应的注视点。具体地，在本实施例中，所获取的多个历史第二注视点与根据第一注视点所得到的第二注视点在时间上是连续的，那么也就意味着，输入到第三网络模型中的第二注视点和多个历史第二注视点表征的是用户在最近一段时间内连续的注视操作，而长短记忆人工神经网络可以将上一次的输出内容的相关信息进行记忆并传递给下一次的输出确定过程，进而使得第三网络模型为长短记忆人工神经网络的情况下，第三网络模型可以结合用户最近一段时间内连续的注视操作来确定当前所输出的第三注视点，从而使得所输出的第三注视点可以更加稳定和精确。

S250：将所述第三注视点作为目标注视点。

作为一种方式，获取所述电子设备的数据处理参数，所述处理参数表征所述电子设备的数据处理能力；根据所述数据处理参数确定所获取的所述多个历史第二注视点的数量。

需要说明的是，对于输入到第三网络模型中的数据越多，第三网络模型就相对可以输出更为准确的表征用户实际注视位置的第三注视点。但是，对应的，输入到第三网络模型中的数据越多，第三网络模型所需要处理的数据也就越多，那么在相同的模型运行环境下，第三网络模型所需处理的数据越多，则就会造成每次进行数据输出所消耗的时间越长。为了使得第三网络模型进行第三注视点的输出具有更好的适配性，运行第三网络模型的设备可以根据自身的数据处理参数，进而再根据数据处理参数确定所获取的所述多个历史第二注视点的数量。可选的，若数据处理参数所表征的电子设备的数据处理能力越强，则所获取的多个历史第二注视点的数量越多，对应的，若数据处理参数所表征的电子设备的数据处理能力越弱，则所获取的多个历史第二注视点的数量越少。

可选的，数据处理参数可以包括有多个参数，那么根据所述数据处理参数确定所获取的所述多个历史第二注视点的数量可以包括：获取多个参数各自对应的评分；基于多个参数各自对应的评分来得到总评分；根据所述总评分确定获取的多个历史第二注视点的数量。其中，电子设备可以获取得到多个参数各自对应的评分规则，然后基于每个参数各自对应的评分规则获取每个参数各自对应的评分，并将多个参数各自对应的评分进行相加以得到总评分，然后再根据总评分与历史第二注视点的数量来确定所要获取的多个历史第二注视点的数量。示例性的，该多个参数可以包括有：处理器核数、处理器主频以及可用内存等，在进行评分的过程中，若处理器核数对应的评分为p1，处理器主频对应的评分为p2，可用内存对应的评分为p3，那么则得到的总评分为p1+p2+p3。

本实施例提供的一种注视点获取方法，从而通过上述方式使得对于通过第一网络模型所输出的第一注视点，还会进一步与表征第二网络模型历史输出的第二注视点的分布情况的历史注视点分布信息一同输入到第二网络模型，进而根据第二网络模型输出的第二注视点获取目标注视点，从而提升了所目标注视点的精确程度。

并且，在本实施例中，在得到第二模型输出的第二注视点以后，还可以再将当次输出的第二注视点以及第二网络模型之前输出的多个历史第二注视点一同再输入到第三网络模型中，进而获取第三网络模型输出的第三注视点作为目标注视点，从而通过这种方式，可以再改善不同的用户在注视同一位置时，电子设备所目标注视点不同的问题，进而提升了电子设备最终所目标注视点的精度。并且，在本实施例中，随着第二网络模型所输出的第二注视点的数量的增加，历史注视点分布信息中所包括的第二注视点的数量也就越多，那么历史注视点分布信息也就可以更加准确的记录用户的注视屏幕的习惯，进而在通过第二网络模型输出第二注视点的过程中，随着第二网络模型的运行次数的增加，第二网络模型可以更加精确以及更加稳定的进行第二注视点的输出。

需要说明的是，如前述实施例内容可知，在本申请实施例中，根据所述第二注视点获取目标注视点可以包括直接将第二注视点作为目标注视点。再者，根据所述第二注视点获取目标注视点也可以包括将第二注视点以及多个历史第二注视点输入到第三网络模型，获取所述第三网络模型输出的第三注视点，并将第三注视点作为目标注视点。那么在可以有多种方式根据第二注视点来获取目标注视点的情况下，电子设备可以根据当前的实际需求来确定具体采用何种方式来获取目标注视点。

作为一种方式，电子设备可以根据当前的应用场景来确定具体采用哪种方式来确定获取目标注视点的方式。需要说明的是，用户在使用电子设备来获取自己的注视点的过程中，通常是在使用电子设备的过程，并且，用户在使用电子设备的过程通常是在使用电子设备中的应用程序。发明人在研究中发现，不同的应用程序对于注视点的检测精度需求是有所区别的，有的应用程序对于注视点的检测需要较为精确，而有的应用程序对于注视点的检测需求相对较为粗略。例如，有的应用程序是会提供一个注视区域，若检测到用户对该注视区域的注视时长满足指定时长则会触发对应的操作，而通常该注视区域的面积是较大的，进而使得对注视位置的检测可以有较好的容错率。例如，如图10所示，若检测到用户注视按键1的时长满足指定时长则会触发按键1对应的操作，若检测到用户注视按键2的时长满足指定时长则会触发按键2对应的操作。并且，如图10所示，按键1和按键2各自所覆盖的区域都较大，使得即使在电子设备所检测到的注视点与实际注视点有一定误差的情况下，依然可以较为准确的判断用户是在注视按键1还是按键2。

在另外的应用场景下，对应的注视区域相对较小，则电子设备可能要较为精确的检测到实际注视位置，才能实现较为有效的控制。例如，如图11所示，电子设备所处的为信息浏览场景(例如，网页浏览)，在该信息浏览场景对应的界面中包括有文本区域A、文本区域B、文本区域C、文本区域D、文本区域E、文本区域F以及文本区域G。若电子设备检测到用户长时间注视文本区域A可以向图10所示的上部进行翻页，若电子设备检测到用户长时间注视文本区域G可以向图10所示的下部进行翻页。可以明确的是，图10中所示的每个文本区域都较小(比图9中所示的按键的覆盖区域小)，那么则需要获取较为精确的注视点才能实现准确的翻页操作。

对于本申请实施例提供的两种获取目标注视点的方式中，所获取的第三注视点相比第二注视点更大概率的能够准确的表征实际的注视点。那么基于前述方式，根据所述第二注视点获取目标注视点包括：获取当前的应用场景，获取与当前的应用场景所对应的确定注视点的方式；然后再基于当前的应用场景所对应的确定注视点的方式来获取目标注视点。并且，应用场景所对应的确定注视点的方式与该应用场景所需的检测精度对应。例如，若当前的应用场景所对应的确定注视点的方式为将第二注视点作为目标注视点，那么在获取到第二网络模型输出的第二注视点后，则会将获取到的第二注视点作为目标注视点。若当前的应用场景所对应的确定注视点的方式为将第三注视点作为目标注视点，那么则在获取到第二网络模型输出的第二注视点以后，还会获取多个历史第二注视点，将第二注视点以及多个历史第二注视点输入到第三网络模型，并获取第三网络模型输出的第三注视点作为目标注视点。

可选的，电子设备可以根据在进行注视点检测过程中，电子设备在前台运行的应用程序来确定当前的应用场景。例如，若当前在前台运行的应用程序为文本浏览程序，那么则可以确定当前的场景为信息浏览场景。

请参阅图12，本申请提供的一种注视点获取方法，应用于电子设备，所述方法包括：

S310：获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点。

S320：检测所述第一注视点是否有效。

作为一种方式，所述检测所述第一注视点是否有效，包括：检测所述第一注视点所表征的眼球状态是否满足目标状态；若满足目标状态，确定所述第一注视点有效。其中，目标状态包括眼睛处于睁眼状态。在一些情况下，即使用户的眼睛处于闭眼状态下，第一网络模型依然可以进行第一注视点的输出，只是所输出的第一注视点是无效的。那么通过对第一注视点进行是否有效的筛选，可以将用户实际处于闭眼状态的图像对应输出的注视点进行筛除，以避免将无效的第一注视点再输入到后续的模型中。

S330：若所述第一注视点有效，将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，其中，所述历史注视点分布信息表征所述第二网络模型历史输出的第二注视点的分布情况。

S340：根据所述第二注视点获取目标注视点。

若所述第一注视点无效，结束流程。

本实施例提供的一种注视点获取方法，从而通过上述方式使得对于通过第一网络模型所输出的第一注视点，还会进一步与表征第二网络模型历史输出的第二注视点的分布情况的历史注视点分布信息一同输入到第二网络模型，进而根据第二网络模型输出的第二注视点获取目标注视点，从而提升了所目标注视点的精确程度。并且，在本实施例中，还可以在得到第一注视点之后，可以先对第一注视点是否有效进行判断，进而在第一注视点本身就是无效的情况下，则不会再进行后续的处理，进而有利于提升基于注视点对电子设备进行控制的有效性。

请参阅图13，本申请提供的一种注视点获取方法，所述方法包括：

S410：获取样本注视状态图像以及每个样本注视状态图像各自对应的标注注视点。

S420：通过所述样本注视状态图像以及每个样本注视状态图像各自对应的标注注视点，对第一待训练的网络模型进行训练，得到所述第一网络模型。

S430：获取所述第一待训练的网络模型在训练过程中的输出的注视点作为第一训练注视点。

S440：通过所述第一训练注视点、历史第二训练注视点分布信息以及所述每个样本注视状态图像各自对应的标注注视点，对第二待训练的网络模型进行训练，得到所述第二网络模型，其中，所述历史第二训练注视点分布信息包括所述第二待训练的网络模型在训练过程中输出的注视点的分布情况。

S450：若获取到第二待训练的网络模型输出的第二训练注视点，则获取多个历史第二训练注视点，其中，所述历史第二训练注视点为所述第二待训练的网络模型根据输入的历史第一训练注视点所输出，所述历史第一训练注视点为所述第一待训练的网络模型根据在当前样本注视状态图像之前输入到所述第一待训练的网络模型的样本注视状态图像输出，所述当前样本注视状态图像为所述第二训练注视点对应的样本注视状态图像。

S460：通过所述第二训练注视点以及所述多个历史第二训练注视点对第三待训练的网络模型进行训练，得到所述第三网络模型。

S470：获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点。

S480：将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，其中，所述历史注视点分布信息表征所述第二网络模型历史输出的第二注视点的分布情况。

S490：根据所述第二注视点获取目标注视点。

示例性的，如图14所示，所获取的多个样本注视状态图像中，每个样本注视状态图像包括有左眼图像、右眼图像、人脸图像以及人脸中五个关键点图像。其中，人脸图像表征的是人脸中五官的相对分布位置。其中，人脸中的五个关键点包括有两只眼球中心、鼻子以及两个嘴角。

在获取得到样本注视状态图像以及每个样本注视状态图像各自对应的标注注视点(图13中的坐标点真值)后，会从该样本注视状态图像以及每个样本注视状态图像各自对应的标注注视点中筛选出部分数据以生成批数据(batch数据)，然后将该批数据输入到神经网络模型(第一待训练的网络模型)中使得该神经网络模型进行推理，并输出预测坐标点(第一训练注视点)，然后结合坐标点真值计算损失，再根据计算的损失对神经网络模型进行训练，以优化神经网络模型的梯度，使得后续再计算得到的损失相对降低，直到所计算出的损失最小。

需要说明的是，在本实施例中，S410到S460可以由服务器来执行，在服务器执行完成S410到S460的步骤后，可以将训练完整的第一网络模型、第二网络模型以及第三网络模型部署到电子设备中，从而电子设备再对应执行本申请实施例中的S470到S490的步骤。

本实施例提供的一种注视点获取方法，从而通过上述方式使得对于通过第一网络模型所输出的第一注视点，还会进一步与表征第二网络模型历史输出的第二注视点的分布情况的历史注视点分布信息一同输入到第二网络模型，进而根据第二网络模型输出的第二注视点获取目标注视点，从而提升了所目标注视点的精确程度。并且，在本实施例中提供了一种对于第一网络模型、第二网络模型以及第三网络模型的训练方式。

请参阅图15，本申请提供的一种注视点获取装置500，运行于电子设备，所述装置500包括：

第一注视点获取单元510，用于获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点。

作为一种方式，所述注视状态图像包括眼部特征图像、脸部特征图像以及人脸关键点图像，其中，所述眼部特征图像表征虹膜位置以及眼球位置，所述脸部特征图像表征脸部的五官的分布情况，所述人脸关键点图像表征人脸中关键点的位置。

第二注视点获取单元520，用于将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，其中，所述历史注视点分布信息表征所述第二网络模型历史输出的第二注视点的分布情况。

注视点确定单元530，用于根据所述第二注视点获取目标注视点。

作为一种方式，注视点确定单元530，具体用于获取多个历史第二注视点，其中，所述历史第二注视点为所述第二网络模型根据输入的历史第一注视点输出，所述历史第一注视点为所述第一网络模型根据在所述注视状态图像输入之前所输入的注视状态图像输出；将所述第二注视点以及所述多个历史第二注视点输入到第三网络模型，获取所述第三网络模型输出的第三注视点；将所述第三注视点作为目标注视点。注视点确定单元530，还具体用于获取所述电子设备的数据处理参数，所述处理参数表征所述电子设备的数据处理能力；根据所述数据处理参数确定所获取的所述多个历史第二注视点的数量。

作为一种方式，第二注视点获取单元520还用于在将所述第一注视点以及历史注视点输入到第二网络模型，获取所述第二网络模型输出的第二注视点之前，检测所述第一注视点是否有效；若所述第一注视点有效，执行将所述第一注视点以及历史注视点输入到第二网络模型，获取所述第二网络模型输出的第二注视点。可选的，第二注视点获取单元520具体用于检测所述第一注视点所表征的眼球状态是否满足目标状态；若满足目标状态，确定所述第一注视点有效。

本实施例提供的一种注视点获取装置，获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点，然后再将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，进而根据所述第二注视点获取目标注视点。从而通过上述方式使得对于通过第一网络模型所输出的第一注视点，还会进一步与表征第二网络模型历史输出的第二注视点的分布情况的历史注视点分布信息一同输入到第二网络模型，进而根据第二网络模型输出的第二注视点获取目标注视点，从而提升了所目标注视点的精确程度。

如图16所示，装置500，还包括：

模型训练单元540，用于获取样本注视状态图像以及每个样本注视状态图像各自对应的标注注视点；通过所述样本注视状态图像以及每个样本注视状态图像各自对应的标注注视点，对第一待训练的网络模型进行训练，得到所述第一网络模型。

模型训练单元540，还用于获取所述第一待训练的网络模型在训练过程中的输出的注视点作为第一训练注视点；通过所述第一训练注视点、历史第二训练注视点分布信息以及所述每个样本注视状态图像各自对应的标注注视点，对第二待训练的网络模型进行训练，得到所述第二网络模型，其中，所述历史第二训练注视点分布信息包括所述第二待训练的网络模型在训练过程中输出的注视点的分布情况。

模型训练单元540，还用于若获取到第二待训练的网络模型输出的第二训练注视点，则获取多个历史第二训练注视点，其中，所述历史第二训练注视点为所述第二待训练的网络模型根据输入的历史第一训练注视点所输出，所述历史第一训练注视点为所述第一待训练的网络模型根据在当前样本注视状态图像之前输入到所述第一待训练的网络模型的样本注视状态图像输出，所述当前样本注视状态图像为所述第二训练注视点对应的样本注视状态图像；通过所述第二训练注视点以及所述多个历史第二训练注视点对第三待训练的网络模型进行训练，得到所述第三网络模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性。另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

下面将结合图17对本申请提供的一种电子设备进行说明。

请参阅图17，基于上述的设备控制方法、装置，本申请实施例还提供的一种可以执行前述设备控制方法的电子设备1000。电子设备1000包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104、摄像头106以及音频采集装置108。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备1000的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。作为一种方式，处理器102可以为神经网络芯片。例如，可以为嵌入式神经网络芯片(NPU)。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。

再者，电子设备1000除了前述所示的器件外，还可以包括网络模块110以及传感器模块112。

所述网络模块110用于实现电子设备1000与其他设备之间的信息交互，例如，传输设备控制指令、操纵请求指令以及状态信息获取指令等。而当电子设备200具体为不同的设备时，其对应的网络模块110可能会有不同。

传感器模块112可以包括至少一种传感器。具体地，传感器模块112可包括但并不限于：水平仪、光传感器、运动传感器、压力传感器、红外热传感器、距离传感器、加速度传感器、以及其他传感器。

其中，压力传感器可以检测由按压在电子设备1000产生的压力的传感器。即，压力传感器检测由用户和电子设备之间的接触或按压产生的压力，例如由用户的耳朵与移动终端之间的接触或按压产生的压力。因此，压力传感器可以用来确定在用户与电子设备1000之间是否发生了接触或者按压，以及压力的大小。

其中，加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备1000姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。另外，电子设备1000还可配置陀螺仪、气压计、湿度计、温度计等其他传感器，在此不再赘述。

音频采集装置110，用于进行音频信号采集。可选的，音频采集装置110包括有多个音频采集器件，该音频采集器件可以为麦克风。

作为一种方式，电子设备1000的网络模块为射频模块，该射频模块用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。所述射频模块可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。例如，该射频模块可以通过发送或者接收的电磁波与外部设备进行交互。例如，射频模块可以向目标设备发送指令。

请参考图18，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

综上所述，本申请提供的一种注视点获取方法、装置以及电子设备，获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点，然后再将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，进而根据所述第二注视点获取目标注视点。从而通过上述方式使得对于通过第一网络模型所输出的第一注视点，还会进一步与表征第二网络模型历史输出的第二注视点的分布情况的历史注视点分布信息一同输入到第二网络模型，进而根据第二网络模型输出的第二注视点获取目标注视点，从而提升了所目标注视点的精确程度。并且，在本申请实施例中，因为可以通过第二网络模型以及第三网络模型来使得最终所目标注视点更加精确和稳定，因此，在用户开始使用阶段并不需要用户再根据电子设备提示的注视位置进行标定操作，从而节省了用户的时间，也提升了效率。再者，也使得本申请实施例提供的方案可以更好的适用不同用户，而不会存在

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种注视点获取方法，其特征在于，应用于电子设备，所述方法包括：

获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点；

将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，其中，所述历史注视点分布信息表征所述第二网络模型历史输出的第二注视点的分布情况；

根据所述第二注视点获取目标注视点。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第二注视点获取目标注视点包括：

获取多个历史第二注视点，其中，所述历史第二注视点为所述第二网络模型根据输入的历史第一注视点输出，所述历史第一注视点为所述第一网络模型根据在所述注视状态图像输入之前所输入的注视状态图像输出；

将所述第二注视点以及所述多个历史第二注视点输入到第三网络模型，获取所述第三网络模型输出的第三注视点；

将所述第三注视点作为目标注视点。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述电子设备的数据处理参数，所述所述处理参数表征所述电子设备的数据处理能力；

根据所述数据处理参数确定所获取的所述多个历史第二注视点的数量。

4.根据权利要求1所述的方法，其特征在于，所述将所述第一注视点以及历史注视点输入到第二网络模型，获取所述第二网络模型输出的第二注视点之前还包括：

检测所述第一注视点是否有效；

若所述第一注视点有效，执行所述将所述第一注视点以及历史注视点输入到第二网络模型，获取所述第二网络模型输出的第二注视点。

5.根据权利要求4所述的方法，其特征在于，所述检测所述第一注视点是否有效，包括：

检测所述第一注视点所表征的眼球状态是否满足目标状态；

若满足目标状态，确定所述第一注视点有效。

6.根据权利要求1所述的方法，其特征在于，所述注视状态图像包括眼部特征图像、脸部特征图像以及人脸关键点图像，其中，所述眼部特征图像表征虹膜位置以及眼球位置，所述脸部特征图像表征脸部的五官的分布情况，所述人脸关键点图像表征人脸中关键点的位置。

7.根据权利要求1-6任一所述的方法，其特征在于，所述获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点之前还包括：

获取样本注视状态图像以及每个样本注视状态图像各自对应的标注注视点；

通过所述样本注视状态图像以及每个样本注视状态图像各自对应的标注注视点，对第一待训练的网络模型进行训练，得到所述第一网络模型。

8.根据权利要求7所述的方法，其特征在于，所述获取样本注视状态图像以及每个样本注视状态图像各自对应的标注注视点之后还包括：

获取所述第一待训练的网络模型在训练过程中的输出的注视点作为第一训练注视点；

通过所述第一训练注视点、历史第二训练注视点分布信息以及所述每个样本注视状态图像各自对应的标注注视点，对第二待训练的网络模型进行训练，得到所述第二网络模型，其中，所述历史第二训练注视点分布信息包括所述第二待训练的网络模型在训练过程中输出的注视点的分布情况。

9.根据权利要求8所述的方法，其特征在于，所述获取所述第一待训练的网络模型在训练过程中的输出的注视点作为第一训练注视点之后还包括：

若获取到第二待训练的网络模型输出的第二训练注视点，则获取多个历史第二训练注视点，其中，所述历史第二训练注视点为所述第二待训练的网络模型根据输入的历史第一训练注视点所输出，所述历史第一训练注视点为所述第一待训练的网络模型根据在当前样本注视状态图像之前输入到所述第一待训练的网络模型的样本注视状态图像输出，所述当前样本注视状态图像为所述第二训练注视点对应的样本注视状态图像；

通过所述第二训练注视点以及所述多个历史第二训练注视点对第三待训练的网络模型进行训练，得到所述第三网络模型。

10.一种注视点获取装置，其特征在于，运行于电子设备，所述装置包括：

第一注视点获取单元，用于获取第一注视点，所述第一注视点为将注视状态图像输入到第一网络模型所得到的注视点；

第二注视点获取单元，用于将所述第一注视点以及历史注视点分布信息输入到第二网络模型，获取所述第二网络模型输出的第二注视点，其中，所述历史注视点分布信息表征所述第二网络模型历史输出的第二注视点的分布情况；

注视点确定单元，用于根据所述第二注视点获取目标注视点。

11.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-9任一所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行权利要求1-9任一所述的方法。