CN109313490B

CN109313490B - 使用神经网络的眼睛注视跟踪

Info

Publication number: CN109313490B
Application number: CN201780033419.9A
Authority: CN
Inventors: 德米特里·拉贡; 维德亚·纳瓦尔帕坎
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-06-28
Filing date: 2017-06-28
Publication date: 2020-10-02
Anticipated expiration: 2037-06-28
Also published as: WO2018005594A1; EP3475791A1; US20170372487A1; EP3475791B1; CN109313490A; US10127680B2

Abstract

用于注视位置预测的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。系统之一包括神经网络，其被配置成获得用户的输入面部图像的集合，其中，用户的输入面部图像的集合包括(i)用户的查询图像、(ii)用户的一个或多个校准图像以及(iii)针对用户的一个或多个校准图像中的每一个校准图像标记用户的已知注视位置的相应的校准标签；和子系统，其被配置成使用神经网络处理接收到的用户的输入面部图像的集合以生成表征用户的注视位置的输出。说明书描述注视预测系统的示例，其与已知的注视预测系统相比，需要更少的计算资源，同时实现相同或更高的精度水平。

Description

使用神经网络的眼睛注视跟踪

技术领域

本说明书涉及计算机实现的注视预测。

背景技术

注视预测系统可以在各种设置中使用和应用，包括例如智能手机或平板电脑的计算设备的免提操作，或基于注视的游戏，或者协助在诸如人机交互的领域进行眼睛跟踪研究。

发明内容

如下面更详细讨论的，与已知的注视预测系统相比，本说明书中描述的注视预测系统可能需要更少的计算资源，同时实现改进的可伸缩性和相同或更高的精度水平。

通常，本说明书中描述的主题的一个创新方面能够被体现在注视预测系统中，用于处理用户的输入面部图像的集合以生成预测用户的注视位置的系统输出，该注视预测系统包括：神经网络，该神经网络包括一个或多个神经网络层，其中，该神经网络被配置成：获得用户的输入面部图像的集合，其中用户的输入面部图像的集合包括(i)用户的查询图像，(ii)用户的一个或多个校准图像，以及(iii)针对用户的一个或多个校准图像中的每一个校准图像标记用户的已知注视位置的相应的校准标签；并且使用一个或多个神经网络层处理接收到的用户的输入面部图像的集合以生成表征查询图像中的用户的注视位置的神经网络输出。

此方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序，每个被配置成执行方法的动作。一个或多个计算机的系统能够被配置成，借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定操作或动作，其在操作中可以使系统执行动作。一个或多个计算机程序能够被配置成借助于包括当由数据处理装置执行时使装置执行动作的指令来执行特定操作或动作。

前述和其他实施例无论单独还是组合均能够可选地包括一个或多个下述特征。在一些实施方式中，注视预测系统还包括图像采集系统，其被配置成获得用户的输入面部图像的集合。

在一些实施方式中，注视预测系统在用户设备上实现，其中用户设备包括(i)显示屏幕，和(ii)前置相机。

在一些实施方式中，图像采集系统使用前置相机获得用户的查询图像。

在一些实施方式中，获得用户的一个或多个校准图像包括：确定显示屏幕的大小；将显示屏幕划分为多个区域；并且对于每个区域：在显示屏幕的区域内的位置显示可视标志；使用前置相机获得图像同时可视标志显示在显示屏幕区域内的位置。

在一些实施方式中，在显示屏幕区域内的位置显示可视标志包括根据预定的概率分布来指派区域内的位置。

在一些实施方式中，系统还提取获得的图像的面部区域以获得校准图像。

在一些实施方式中，提取获得的图像的面部区域包括选择获得的图像的眼睛区域。

在一些实施方式中，图像采集系统被配置成：确定获得的图像是否有噪声；并且响应于确定获得的图像有噪声，拒绝获得的图像。

在一些实施方式中，表征注视位置的生成的神经网络输出将查询图像中的用户的用户的注视位置表征为用户设备的显示屏幕上的位置。

在一些实施方式中，用户的一个或多个校准图像包括用户的九个校准图像。

各种实施例涉及通过神经网络的层处理输入以生成输出。神经网络是机器学习模型，其采用一个或多个非线性单元层以预测针对接收到的输入的输出。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中的下一层(即，下一个隐藏层或输出层)的输入。网络的每个层根据相应的参数集的当前值从接收到的输入生成输出。

在一些实施方式中，神经网络包括：第一神经网络，包括一个或多个卷积层；第二神经网络，包括一个或多个完全连接的层；其中第一神经网络被配置成：获得用户的输入面部图像的集合；使用一个或多个卷积层处理用户的输入面部图像的集合以生成第一神经网络输出；将所生成的第一神经网络输出提供给第二神经网络，其中第二神经网络被配置成：接收所生成的第一神经网络输出；使用一个或多个完全连接的层处理所生成的第一神经网络输出以生成表征查询图像中的用户的注视位置的神经网络系统输出。

在一些实施方式中，第二神经网络包括两个或更多个完全连接的层，其被配置成：接收所生成的第一神经网络输出；处理所生成的第一神经网络输出以生成对嵌入输出，其中对嵌入输出包括相应的校准图像中的每一个和查询图像之间的相似性度量。

在一些实施方式中，第二神经网络包括完全连接的层，其被配置成：接收所生成的对嵌入输出；处理所生成的对嵌入输出以生成聚合的嵌入输出，其中聚合的嵌入输出对于每个校准图像包括相应的校准图像和对嵌入输出之间的相乘。

在一些实施方式中，第二神经网络包括完全连接的输出层，其被配置成：接收聚合的嵌入输出；处理聚合的嵌入输出以生成表征查询图像中的用户的注视位置的系统输出。

本说明书中描述的主题能够在特定实施例中实现使得实现下述优点中的一个或多个。

商业注视预测系统是昂贵的并且需要耗费时间和资源的训练过程以便准确地预测特定用户的注视位置。例如，现有的注视预测系统通常需要大量不切实际的训练数据量以实现可接受的预测精度水平。另外，在一些情况下，训练数据可能变得过度拟合并导致注视预测系统的精度和效率降低。此外，这样大量的数据通常能够是有噪声的，例如，包括训练数据图像，其中用户闭着眼睛或正在看除了校准注视点以外的东西，因为标准数据生成任务能够是单调的。噪声数据能够降低注视预测系统的计算效率，并且/或者降低注视预测系统的精度。

与其他注视预测系统相比，本说明书中描述的注视预测系统需要较少的计算资源，更便宜，可扩展，并且可以实现相同或更高的精度水平。本说明书中描述的注视预测系统训练图像识别系统，例如，神经网络，以使用多样化的训练数据集(例如，包括来自数百用户的训练数据)预测或以其他方式表征输入查询图像中的用户的注视位置，使图像识别系统能够实现高水平的预测精度，同时避免过度拟合训练数据的问题。训练数据可以包括针对多个用户的短校准任务，降低训练数据包括噪声数据的可能性，并且从而改进注视预测系统的计算效率和精度。

在运行时，本说明书中描述的注视预测系统处理接收到的用户的查询图像以及少量校准图像，以便于表征接收到的查询图像中的用户的注视位置。通过利用每个接收到的查询图像执行这样的在线校准过程，与需要广泛个性化训练的其他注视预测系统相比，本说明书中描述的注视预测系统有效地利用可用数据以实现更高水平的计算效率。此外，由于在线校准过程，本说明书中描述的注视预测系统可能不需要后续或定期再训练或微调程序。另外，本说明书中描述的注视预测系统使用其中使用的用户设备的前置相机提供现成的眼睛跟踪。

本说明书中描述的注视预测系统可能比其他注视预测系统需要更少的计算资源，并且因此可以被实现为用户设备(例如，移动电话或平板计算机)上的端到端预测系统。使用用户设备理解用户注意力或预测用户的注视位置具有重要且深远的应用。例如，此系统中描述的注视预测系统可以用作面部认证过程的一部分，例如，解锁用户设备上的屏幕-从而改进用户设备的安全性方面。

本说明书中描述的注视预测系统可以在各种设置中使用和应用，包括免提或基于注视的游戏或者在诸如人机交互或用户体验研究的领域中辅助眼睛跟踪研究。此外，与不运行本说明书中描述的注视预测系统的设备相比，本说明书中描述的注视预测系统为用户设备提供增加的可访问性。

在附图和以下描述中阐述本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1A示出示例注视预测系统。

图1B示出示例神经网络。

图2是用于表征查询图像中的用户的注视位置的示例过程的流程图。

图3是用于获得用户的一个或多个校准图像的示例过程的流程图。

图4是用于训练神经网络以进行注视预测的示例过程的流程图。

各种附图中的相同的附图标记和名称指示相同的元件。

具体实施方式

本说明书描述一种用于使用用户设备的前置相机来预测用户的眼睛注视位置的现成的、可扩展的系统和方法。该系统是端到端系统，其获得包括查询图像和一个或多个校准图像的用户的面部图像的集合，并处理面部图像的集合以将用户的注视位置表征为在用户设备的显示屏幕上的位置。

图1A示出示例注视预测系统100。注视预测系统100是在一个或多个位置的一个或多个计算机上实现为计算机程序的系统的示例，其中能够实现下面描述的系统、组件和技术。注视预测系统100的一些或所有组件可以由配有显示屏幕和前置相机的用户设备(例如，移动电话、智能电话、平板计算机、可佩戴式计算设备、膝上型计算机、台式计算机或其他便携式或固定计算设备)实现。在一些实施方式中，注视预测系统100可以在单个用户设备(例如，移动电话、智能电话或平板电脑)中实现。

注视预测系统100可以包括图像采集系统120并且包括神经网络130。图像采集系统120可以被配置成获得用户的输入面部图像的集合。例如，在注视预测系统100由用户设备实现的实施方式中，图像采集系统120可以通过使用户设备上的相机获得输入面部图像来获得用户的输入面部图像的集合。在其他实施方式中，图像采集系统120可以通过使用户设备使用用户设备上的相机获得输入面部图像的集合并且例如通过通信网络将获得的输入面部图像的集合发送到注视预测系统来获得用户的输入面部图像的集合。用户的输入面部图像的集合包括(i)用户的查询图像，例如，其中要确定用户的注视位置的预测的图像，(ii)用户的一个或多个校准图像，以及(iii)针对用户的一个或多个校准图像中的每一个标记用户的已知注视位置的相应的校准标签。在一些实施方式中，用户对校准图像的已知注视位置可以包括预期或预测用户正在观看的注视位置。下面参考图3更详细地描述获得用户的一个或多个校准图像。

神经网络130被配置成接收用户的输入面部图像的集合，例如，查询图像和标记的校准图像102，并且基于输入生成表征用户104的相应的注视位置的神经网络输出。在一些实施方式中，神经网络130从图像采集系统(例如，图像采集系统120)接收用户的输入面部图像的集合。

神经网络130包括多个神经网络层。神经网络130中的每个神经网络层被配置成接收相应的层输入并处理层输入以从该输入生成相应的层输出。神经网络层共同处理由神经网络100接收的神经网络输入以针对每个接收的神经网络输入生成相应的神经网络输出。

神经网络130的一些或所有层与相应的参数集相关联。神经网络层根据用于神经网络层的参数的当前值从输入生成输出。例如，一些层可以将接收的输入乘以当前参数值的相应的参数矩阵，作为从接收的输入生成输出的一部分。

神经网络130包括第一神经网络106和第二神经网络108。第一神经网络106包括一个或多个卷积神经网络层，例如，卷积神经网络层110。卷积神经网络层是其神经元或节点以三维阵列：宽度、高度和深度在逻辑上排列的神经网络层。卷积神经网络层内部的神经元连接到卷积神经网络层之前的层的小区域，称为感受野(receptive field)，并且卷积神经网络层内部的每个神经元检测相同的特征，组成平移不变性的特性。通常，强制执行相邻层的神经元之间的局部连接模式。在2014年10月，编号10，22卷，IEEE/ACM TRANSACTIONS ONAUDIO,SPEECH,AND LANGUAGE PROCESSING的Ossama Abdel-Hamid、Abdel-rahmanMohamed、Hui Jiang、Li Deng、Gerald Penn和Dong Yu的“用于语音识别的卷积神经网络(Convolutional Neural Networks for Speech Recognition)”中更详细地描述卷积神经网络层的示例。

第一神经网络106被配置成获得用户的输入面部图像的集合(例如，查询图像和标记的校准图像)，使用一个或多个卷积神经网络层(例如，卷积神经网络层110)来处理用户的输入面部图像的集合，以生成第一神经网络输出(例如，卷积神经网络输出112)，并将生成的第一神经网络输出提供给第二神经网络108。

尽管为了方便起见在图1中仅描绘一个卷积神经网络层110，第一神经网络106可以包括多个卷积神经网络层。包括在第一神经网络106中的卷积神经网络层的数量可以取决于对神经网络130的输入(或者等效对第一神经网络106的输入)。

第二神经网络108包括一个或多个完全连接的神经网络层，例如，完全连接的神经网络层114。尽管为了方便起见图1中仅描绘一个完全连接的神经网络层114，但是第二神经网络108可以包括多个完全连接的神经网络层。包括在第二神经网络中的完全连接的层的数量可以取决于神经网络被配置成接收的输入面部图像的数量或质量。完全连接的神经网络层是其神经元或节点具有到先前和后续神经网络层中的所有神经网络激活的完全连接的神经网络层。可以使用紧跟偏置偏移和激活函数的矩阵乘法来计算完全连接的神经网络输出。

第二神经网络108被配置成接收所生成的第一神经网络输出(例如，卷积神经网络输出112)，并使用一个或多个完全连接的层处理所生成的第一神经网络输出以生成表征查询图像中的用户的注视位置的神经网络系统输出，例如，位置输出104。下面参考图1B更详细地描述示例性第二神经网络。在一些实施方式中，表征查询图像中的用户的注视位置的生成的输出(例如，位置输出104)将查询图像中的用户的用户的注视位置表征为用户设备的显示屏幕上的位置。例如，注视预测系统100可以确定用户设备的显示屏幕的大小，将水平x轴和垂直y轴指派有对应的原点位置，例如，用户设备的左下角，并生成表示在用户设备上的用户的注视位置的位置输出(x，y)。作为另一示例，所生成的输出可以包括在标准化坐标中的位置输出，其可以允许系统输出推广到不同的用户设备屏幕大小。在一些情况下，注视预测系统100可以确定用户设备的屏幕分辨率并将所生成的位置输出转换成像素坐标。

能够对包括多个训练示例的训练数据训练神经网络130，以便于确定神经网络层的参数的训练值，即，将参数的值从初始值调整成训练值。例如，在训练期间，神经网络130能够处理查询图像的训练集合，针对每个训练查询图像生成相应的神经网络输出。然后能够使用神经网络输出来调整神经网络130的参数的值。在一些实施方式中，神经网络130使用梯度下降和反向传播神经网络训练技术来调整参数的值。下面参考图4更详细地描述训练神经网络130以进行注视预测。

一旦神经网络130被训练，神经网络130可以接收用于处理的新神经网络输入，并且通过神经网络层处理神经网络输入以根据神经网络130的参数的训练值针对该输入生成新神经网络输出。

图1B示出示例第二神经网络108。如上面参考图1A所述，第二神经网络108包括一个或多个完全连接的神经网络层。例如，在一些实施方式中，第二神经网络108可以包括两个完全连接的层A和B，其被配置成接收所生成的第一神经网络输出(例如，卷积神经网络输出112)，并且处理所生成的第一神经网络输出以生成一个或多个对嵌入输出。每个对嵌入输出包括相应的校准图像中的每一个和查询图像中之间的相似性度量。可以基于来自第二神经网络108的输出(例如，嵌入矢量)通过取两个嵌入矢量(例如，用于查询图像的查询图像嵌入矢量和用于校准图像的校准嵌入矢量)之间的差来计算查询图像和校准图像之间的相似性。如果表示对应嵌入矢量之间的差的矢量的分量大部分等于或接近零，则可以将查询图像和校准图像确定为彼此相似。在这种情况下，第二神经网络108可以输出接近校准图像的注视位置的注视预测。如果表示相应嵌入矢量之间的差的矢量的分量大，则可以将查询图像和校准图像确定为彼此不相似。在这种情况下，第二神经网络108可以使用来自与查询图像更相似的其他校准点的信息。

另外，在一些实施方式中，第二神经网络108还可以包括完全连接的层C，其被配置成接收所生成的对嵌入输出，如上所述，并且处理所生成的对嵌入输出以生成聚合的嵌入输出。可以通过级联用于校准图像的标签和将对嵌入与对应图像的标签相乘来获得聚合的嵌入输出。例如，假定x1、y1、x2、y2表示用于两个校准点的注视位置标签。在查询图像和校准图像之间的对嵌入(q，c1)可以由[d1_1，d1_2，d1_3]表示，并且对嵌入(q，c2)可以由[d2_1，d2_2，d2_3]表示，其中例如，嵌入的维数为3。然后可以通过：[x1，y1，d1_1*x1，d1_2*x1，d1_3*x1，d1_1*y1，d1_2*y1，d1_3*y1，x2，y2，d2_1*x2，d2_2*x2，d2_3*x2，d2_1*y2，d2_2*y2，d2_3*y2]给出聚合的嵌入层。

此外，在一些实施方式中，第二神经网络108还可以包括一个或多个完全连接的输出层，例如，完全连接的输出层D，其被配置成接收聚合的嵌入输出并处理聚合的嵌入输出以生成表征查询图像中的用户的注视位置的神经网络输出，例如，位置输出104。例如，为了获得注视位置预测，聚合的嵌入层可以被馈送到完全连接的输出层D，最后一层对于位置坐标(x，y)具有维度等于2的端点。

图2是用于表征查询图像中的用户的注视位置的示例过程200的流程图。为了方便起见，过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，注视预测系统(例如，图1的注视预测系统100)根据本说明书适当地编程，能够执行过程200。

系统接收用户的输入面部图像的集合(步骤202)。用户的输入面部图像的集合包括(i)用户的查询图像，(ii)用户的一个或多个校准图像，以及(iii)针对用户的一个或多个校准图像中的每一个标记用户的已知注视位置或区域的相应的校准标签。在一些实施方式中，用户的一个或多个校准图像包括用户的九个校准图像。

在一些实施方式中，用于表征查询图像中的用户的注视位置的过程200可以由安装在用户设备(例如，手机或平板电脑)上的注视预测系统执行，该用户设备包括(i)显示屏幕以及(ii)前置相机。在这些情况下，系统可以使用前置相机获得用户的输入面部图像的集合。下面参考图3更详细地描述使用图像采集系统获得一个或多个校准图像。

系统使用神经网络处理所接收的用户的输入面部图像的集合以生成表征查询图像中的用户的注视位置的神经网络输出(步骤204)。可以对多个训练示例训练神经网络以表征查询图像中的用户的注视位置。下面参考图4更详细地描述训练用于注视预测的神经网络。

在一些实施方式中，所生成的表征注视位置的神经网络输出将查询图像中的用户的用户的注视位置表征为用户设备的显示屏幕上(例如，直接在用户设备的显示屏幕上)的位置。

图3是用于使用用户设备获得用户的一个或多个校准图像的示例过程300的流程图。为了方便起见，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，图像采集系统(例如，图1的图像采集系统120)，根据本说明书适当地编程，可以执行过程300。

系统确定用户设备的显示屏幕的大小(步骤302)。

系统将显示屏幕划分为多个区域(步骤304)。例如，系统可以将显示屏幕划分为九个大小相等的区域。

对于多个区域中的每一个，系统在显示屏幕的区域内的位置显示可视标志(marker)(步骤306)。在一些实施方式中，系统可以根据预定的概率分布对显示屏幕的区域内的位置随机地采样。例如，系统可以将概率分布(例如，二维高斯分布)指派给显示屏幕的每个区域，并相应地对该区域内的位置进行采样。在其他实施方式中，系统可以指派在显示屏幕的区域内的固定位置，例如，作为显示屏幕区域的中心的位置。

对于多个区域中的每一个，系统使用用户设备上的前置相机获得相应的图像，同时可视标志显示在显示屏幕的区域内的位置(步骤308)。例如，在当获得图像时用户设备的用户正在看着可视标志的假设下，系统可以在显示屏幕的区域内的位置显示可视标志并且使用用户设备上的前置相机获得图像。在一些实施方式中，系统可以经由用户设备上的通知在使用前置相机获得图像之前提示用户看着可视标志。

在一些实施方式中，例如，使用实现包括在注视预测系统中的标准面部识别方法或以其他方式在用户设备上运行的面部识别应用，系统提取所获得的图像的面部区域以获得校准图像。在一些实施方式中，系统可以使用标准计算机视觉技术进一步选择所获得图像的眼睛区域。

可选地，系统可以确定在步骤308中获得的每个图像是否有噪声，例如，图像是否示出用户正在看着显示屏幕上的位置，用户是否睁眼或闭眼，系统是否成功地提取面部区域，或者图像的质量是否足够使用标准计算机视觉技术，例如，面部或眼睛检测应用程序编程接口。响应于确定所获得的图像没有噪声，系统接受该图像作为校准图像。响应于确定所获得的图像有噪声，系统拒绝所获得的图像。系统可以通过重复上面的步骤308来获得第二图像以替换被拒绝的图像。

对于多个区域中的每一个，系统将获得的相应的图像与显示可视标志的位置相关联，以生成(i)用户的相应的校准图像，和(iii)针对校准图像标记已知注视位置或用户区域的相应的校准标签(步骤310)。

图4是用于训练神经网络以进行注视预测的示例过程400的流程图。为了方便起见，过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，注视预测系统(例如，图1的注视预测系统100)，根据本说明书适当地编程，能够执行过程400。

系统获得训练数据，该训练数据针对多个训练示例中的每一个包括对齐的训练查询图像和已知注视点以用于训练查询图像的标记(步骤402)。例如，多个训练示例中的每一个可以包括从用户设备的前置相机拍摄的用户的面部图像以及当拍摄面部图像期望用户正在观看的注视点(例如用户实际上正在观看的注视点)的对应指示。

训练数据可以包括数千个训练示例，例如，一万二千个训练示例，其源自多个参与者，例如，一百个参与者。在一些实施方式中，训练示例可以包括每个参与者和会话的多个注视点，例如，每一分钟会话每个参与者四十个注视点，并且可以包括固定数量的会话中的每个参与者的多个注视点，例如，在三个会话中每个参与者的一百二十个注视点。训练查询图像还可以相对于参与者的姿势、拍摄训练查询图像的照明、从参与者获取训练查询图像的距离、参与者的性别或参与者的种族来变化。在一些实施方式中，可以对包括参与者的九个图像的训练数据训练神经网络，如上面参考图3所述。例如，系统可以获得与多个注视点相对应的每个参与者的第一数量的图像，例如，四十五个图像。系统可以从第一数量的图像生成第二数量的九个图像的集合，例如，九个图像的五个集合，并且使用第二数量的集合训练神经网络。

系统对训练数据训练神经网络以表征所接收的查询图像的用户的注视位置以调整神经网络参数的值以确定参数的训练值(步骤404)。例如，对于每个训练查询图像，系统可以使用神经网络处理训练查询图像以生成预测注视位置，基于预测注视位置和训练查询图像的标记注视点(即，用户的实际注视位置)之间的差来计算梯度，并且通过反向传播梯度来更新神经网络参数的值。

本说明书中描述的主题和功能操作的实施例能够在数字电子电路中，在有形体现的计算机软件或固件中，在计算机硬件(包括本说明书中公开的结构和它们的结构等效物)中，或者它们中的一个或多个的组合中实现。本说明书中描述的主题的实施例能够被实现为一个或多个计算机程序，即，在有形非暂时性程序载体上编码的一个或多个计算机程序指令的模块，用于由数据处理装置执行或控制数据处理装置的操作。可替选地或另外，程序指令能够在人工生成的传播信号，例如，机器生成的电、光或电磁信号上编码，其被生成以编码信息以传输到合适的接收器设备以由数据处理装置执行。计算机存储介质能够是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。然而，计算机存储介质不是传播信号。

术语“数据处理装置”包含用于处理数据的所有种类的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置能够包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还能够包括为所讨论的计算机程序创建执行环境的代码，例如，组成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或者多个的组合的代码

计算机程序(也可以被称为或描述为程序、软件、软件应用程序、模块、软件模块、脚本或代码)能够用任何形式的编程语言编写，包括编译或者解释性语言、或声明性或程序性语言，并且其能够以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。计算机程序可以但不必对应于文件系统中的文件。程序能够被存储在保存其他程序或数据的文件的一部分中，例如，存储在标记语言文档中的一个或多个脚本，专用于所讨论的程序的单个文件中，或者在多个协调文件，例如，存储一个或多个模块、子程序或代码部分的文件中。能够部署计算机程序以在一个计算机上或在位于一个站点或分布在多个站点上的多个计算机上执行。

如在本说明书中所使用的，“引擎”或“软件引擎”指的是软件实现的输入/输出系统，其提供与输入不同的输出。引擎能够是编码的功能块，诸如库、平台、软件开发工具包(“SDK”)或对象。每个引擎能够在任何适当类型的计算设备上实现，例如，服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或包括一个或多个处理器和计算机可读介质的其他固定或便携式设备。另外，两个或更多个引擎可以在同一计算设备上或在不同的计算设备上实现。

本说明书中描述的过程和逻辑流程能够由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也能够由专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)执行，并且装置也能够实现为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合于执行计算机程序的计算机包括，例如，能够基于通用或专用微处理器或两者，或任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括一个或多个大容量存储设备或可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传输到一个或多个大容量存储设备，其用于存储数据，例如，磁盘、磁光盘或光盘。然而，计算机不需要这样的设备。此外，计算机能够被嵌入在另一个设备中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备，例如，通用串行总线(USB)闪存驱动器，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；和CD ROM和DVD-ROM磁盘。处理器和存储器能够由专用逻辑电路补充或被合并在专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例能够计算机上实现，该计算机具有显示设备，例如，CRT(阴极射线管)或LCD(液晶显示器)监视器，用于向用户显示信息；和键盘以及指示设备，例如，鼠标或轨迹球，通过其用户能够将输入提供给计算机。其他类型的设备也能够被用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且能够以任何形式接收来自用户的输入，包括声学、语音或触觉输入。另外，计算机能够通过向用户使用的设备发送文档和从用户使用的设备接收文档；例如，通过响应于从web浏览器接收的请求将网页发送到用户的客户端设备上的web浏览器，来与用户交互。

本说明书中描述的主题的实施例能够在计算系统中实现，该计算系统包括后端组件，例如，作为数据服务器，或者包括中间件组件，例如，应用服务器，或者包括前端组件，例如，具有图形用户界面或Web浏览器的客户端计算机，用户通过其能够与本说明书中描述的主题的实施方式进行交互，或者一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件能够通过任何形式或介质的数字数据通信，例如，通信网络互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如，因特网。

计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系由于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器将数据。例如，HTML页面，发送到用户设备，例如，用于向与充当客户端的用户设备交互的用户显示数据和从该用户设备接收用户输入。能够从服务器处的用户设备接收在用户设备处生成的数据，例如，作为用户交互的结果。

虽然本说明书包含许多具体实施方式细节，但是这些不应被解释为对任何发明或可要求保护的范围的限制，而是作为可以特定于特定发明的特定实施例的特征的描述。在单独实施例的上下文中在本说明书中描述的某些特征也能够在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也能够在多个实施例中单独地或以任何合适的子组合来实现。此外，尽管在上面特征可以描述为以某些组合起作用并且甚至最初如此声明，但是在某些情况下能够从组合中切除来自要求保护的组合的一个或多个特征。

类似地，虽然在附图中以特定顺序描绘操作，但是这不应该被理解为要求以所示的特定顺序或按顺序执行这样的操作，或者执行所有被图示的操作，以实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应理解，所描述的程序组件和系统通常能够集成在单个软件产品中或打包成多个软件产品。

已经描述本主题的特定实施例。其他实施例在以下权利要求的范围内。例如，权利要求中引用的动作能够以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或顺序次序以实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种注视预测系统,用于处理用户的输入面部图像的集合以生成预测所述用户的注视位置的系统输出，所述注视预测系统包括：

图像采集系统，所述图像采集系统由一个或多个计算机实现并且被配置成：

获得所述用户的一个或多个校准图像、以及针对所述校准图像中的每一个校准图像标记所述用户在该校准图像中的已知注视位置的相应的校准标签，

在获得所述一个或多个校准图像之后，获得所述用户的查询图像，以及

生成神经网络输入，所述神经网络输入包括(i)所述用户的所述查询图像，(ii)所述用户的所述一个或多个校准图像，以及(iii)针对所述一个或多个校准图像的相应的校准标签；以及

神经网络，其中，所述神经网络由所述一个或多个计算机实现并且包括一个或多个神经网络层，并且其中，所述神经网络被配置成在运行时以及在所述神经网络已经被训练之后：

使用所述一个或多个神经网络层处理所述神经网络输入以生成表征所述查询图像中的所述用户的注视位置的神经网络输出，所述神经网络输入包括(i)所述用户的所述查询图像，(ii)所述用户的所述一个或多个校准图像，以及(iii)针对所述一个或多个校准图像的相应的校准标签。

2.根据权利要求1所述的系统，其中，所述注视预测系统在用户设备上实现，其中所述用户设备包括(i)显示屏幕，和(ii)前置相机。

3.根据权利要求2所述的系统，其中，所述图像采集系统使用所述前置相机获得所述用户的所述查询图像。

4.根据权利要求3所述的系统，其中，获得所述用户的所述一个或多个校准图像包括：

确定所述显示屏幕的大小；

将所述显示屏幕划分为多个区域；以及

对于每个区域：

在所述显示屏幕的该区域内的位置显示可视标志；

使用所述前置相机获得图像同时所述可视标志显示在所述显示屏幕的该区域内的该位置。

5.根据权利要求4所述的系统，其中，在所述显示屏幕的该区域内的位置显示可视标志包括根据预定的概率分布来指派该区域内的该位置。

6.根据权利要求4所述的系统，还包括：提取获得的图像的面部区域以获得所述校准图像。

7.根据权利要求6所述的系统，其中，提取获得的图像的面部区域包括选择获得的图像的眼睛区域。

8.根据权利要求4所述的系统，其中，所述图像采集系统被配置成：

确定获得的图像是否有噪声；并且

响应于确定获得的图像有噪声，拒绝获得的图像。

9.根据权利要求2所述的系统，其中，表征所述注视位置的生成的神经网络输出将所述查询图像中的所述用户的所述用户的所述注视位置表征为所述用户设备的所述显示屏幕上的位置。

10.根据权利要求1所述的系统，其中，所述用户的所述一个或多个校准图像包括所述用户的九个校准图像。

11.根据权利要求1所述的系统，其中，所述神经网络包括：

第一神经网络，所述第一神经网络包括一个或多个卷积层；

第二神经网络，所述第二神经网络包括一个或多个完全连接的层；

其中，所述第一神经网络被配置成：

获得所述用户的输入面部图像的集合；

使用所述一个或多个卷积层处理所述用户的输入面部图像的集合以生成第一神经网络输出；并且

将生成的第一神经网络输出提供给所述第二神经网络，

其中，所述第二神经网络被配置成：

接收生成的第一神经网络输出；

使用所述一个或多个完全连接的层处理生成的第一神经网络输出以生成表征所述查询图像中的所述用户的注视位置的所述神经网络系统输出。

12.根据权利要求11所述的系统，其中，所述第二神经网络包括两个或更多个完全连接的层，所述两个或更多个完全连接的层被配置成：

接收生成的第一神经网络输出；

处理生成的第一神经网络输出以生成对嵌入输出，其中，所述对嵌入输出包括相应的校准图像中的每一个和所述查询图像之间的相似性度量。

13.根据权利要求12所述的系统，其中，所述第二神经网络包括完全连接的层，所述完全连接的层被配置成：

接收生成的对嵌入输出；

处理生成的对嵌入输出以生成聚合的嵌入输出，其中，所述聚合的嵌入输出针对每个校准图像包括相应的校准图像和对嵌入输出之间的相乘。

14.根据权利要求13所述的系统，其中，所述第二神经网络包括完全连接的输出层，所述完全连接的输出层被配置成：

接收所述聚合的嵌入输出；

处理所述聚合的嵌入输出以生成表征所述查询图像中的所述用户的注视位置的所述系统输出。

15.一种用于表征查询图像中的用户的注视位置的方法，包括：

获得所述用户的一个或多个校准图像，以及针对所述校准图像中的每一个校准图像标记所述用户在该校准图像中的已知注视位置的相应的校准标签；

在获得所述一个或多个校准图像之后，获得所述用户的查询图像；

生成神经网络输入，所述神经网络输入包括(i)所述用户的所述查询图像，(ii)所述用户的所述一个或多个校准图像，以及(iii)针对所述一个或多个校准图像的相应的校准标签；并且

使用神经网络处理所述神经网络输入，所述神经网络输入包括(i)所述用户的所述查询图像，(ii)所述用户的所述一个或多个校准图像，以及(iii)针对所述一个或多个校准图像的相应的校准标签，其中，所述神经网络包括一个或多个神经网络层并且被配置成在运行时以及在所述神经网络已经被训练之后使用所述一个或多个神经网络层处理所述神经网络输入以生成表征所述查询图像中的所述用户的注视位置的神经网络输出。

16.根据权利要求15所述的方法，其中，用于表征查询图像中的所述用户的所述注视位置的方法由用户设备执行，其中，所述用户设备包括(i)显示屏幕，和(ii)前置相机。

17.根据权利要求16所述的方法，其中，表征所述注视位置的生成的神经网络输出将所述查询图像中的所述用户的所述用户的所述注视位置表征为所述用户设备的所述显示屏幕上的位置。

18.根据权利要求16所述的方法，其中，获得所述用户的所述一个或者多个校准图像包括：

确定所述显示屏幕的大小；

将所述显示屏幕划分为多个区域；以及

对于每个区域：

在所述显示屏幕的该区域内的位置显示可视标志；

19.一种计算机存储介质，所述计算机存储介质编码有指令，所述指令当由一个或者多个计算机执行时使所述一个或者多个计算机执行包括以下项的操作：

获得用户的一个或多个校准图像，以及针对所述校准图像中的每一个校准图像标记所述用户在该校准图像中的已知注视位置的相应的校准标签；