CN114450654A

CN114450654A - 眼睛注视跟踪

Info

Publication number: CN114450654A
Application number: CN201980100872.6A
Authority: CN
Inventors: 朱颖璇; 孙文有; 李剑
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2022-05-06
Also published as: WO2021071485A1; US20220229492A1; US11899837B2

Abstract

本公开涉及用于检测跟踪眼睛注视的技术。装置包括可见波长相机、红外(IR)相机和一个或多个处理器。该一个或多个处理器被配置为根据从该IR相机捕获的IR数据生成人脸的三维(3D)点云，根据从可该见波长相机捕获的可见波长数据生成该人脸的二维图像，并基于该3D点云和该二维图像检测该人脸的对称平面。该对称平面将该3D点云分为两部分。该一个或多个处理器还被配置为基于该对称平面重建该3D点云，并基于该重建3D点云跟踪该人脸的眼睛注视。

Description

眼睛注视跟踪

技术领域

本公开总体上涉及眼睛注视跟踪。

背景技术

两侧对称物体相对于对称平面具有对称性。人相对于矢状面是两侧对称的。矢状面将人分成对称的左侧和右侧。可以把整个人体看成一个两侧对称物体，或者把人体的一部分，例如面部，看成一个两侧对称物体。在人这个示例中，矢状面是一个对称平面。无生命的物体，例如球或水杯，也可能是两侧对称的。两侧对称物体不需要相对于对称平面完全对称。例如，大多数人的脸的左右两侧都有一些差异。

发明内容

根据本公开的一个方面，提供了一种用于眼睛注视跟踪的装置。该装置包括：可见波长相机，红外(IR)相机；以及一个或多个处理器。该一个或多个处理器被配置为根据从该IR相机捕获的IR数据生成人脸的三维(3D)点云。该一个或多个处理器被配置为根据从该可见波长相机捕获的可见波长数据生成人脸的二维图像。该一个或多个处理器被配置为基于该3D点云和该二维图像检测该人脸的对称平面。该对称平面将该3D点云分为两部分。该一个或多个处理器被配置为基于该对称平面重建该3D点云。该一个或多个处理器被配置为基于该重建3D点云跟踪该人脸的眼睛注视。

可选地，在前述任一方面中，该一个或多个处理器还被配置为求解成本函数以检测该对称平面，该成本函数包括为该人脸的第一对称半部提供第一权重的第一参数和为该人脸的第二对称半部提供第二权重的第二参数。

可选地，在前述任一方面中，该装置还包括显示屏，以及该一个或多个处理器还被配置为基于该重建3D点云确定该人正在注视的该显示屏上的位置。

可选地，在前述任一方面中，该一个或多个处理器还被配置为响应该人正在注视的该显示屏上位于该显示屏的预定义区域中的位置，自动滚动该显示屏的内容。

可选地，在前述任一方面中，该一个或多个处理器还被配置为响应检测该人正在注视元素，改变显示屏上该元素的外观。

可选地，在前述任一方面中，该一个或多个处理器还被配置为基于长短期记忆(LSTM)单元的序列的输出，预测该人的注视的下一个位置。

可选地，在前述任一方面中，该一个或多个处理器还被配置为将图像配准和图像变换集成到每个该LSTM单元中。

可选地，在前述任一方面中，该一个或多个处理器还被配置为使用长短期记忆(LSTM)单元将该人脸的重建3D点云配准到该人脸的另一个3D点云。

可选地，在前述方面中，另一个3D点云是由该人注视已知位置捕获的标准3D点云。

可选地，在前述任一方面中，该重建3D点云是在第一时间点捕获的第一重建3D点云，另一个3D点云是在第一个时间点之前的第二时间点捕获的第二重建3D点云。

可选地，在前述任一方面中，该一个或多个处理器还被配置为使用长短期记忆(LSTM)单元将该人脸的重建3D点云变换为该人脸的另一个3D点云。

可选地，在前述任一方面中，该人脸包括人脸，该一个或多个处理器还被配置为使用长短期记忆(LSTM)单元确定该人脸的重建3D点云和该人脸的标准3D点云之间的对应点对。该标准3D点云由该人注视已知位置捕获。该一个或多个处理器还被配置为使用该LSTM单元测量该对应点对之间的差异。

可选地，在前述方面中，该一个或多个处理器还被配置为基于该对应点对之间的差异对该人执行面部识别。

可选地，在前述任一方面中，该一个或多个处理器还被配置为确定在第一时间点捕获的该人脸的重建3D点云的第一版本和在第二时间点捕获的该人脸的重建3D点云的第二版本之间的该对应点对，包括确定使用长短期记忆(LSTM)单元的该对应对。该一个或多个处理器还被配置为使用该LSTM单元测量该对应点对之间的差异。

可选地，在前述方面中，该人脸包括人脸，该一个或多个处理器还被配置为基于该对应点对之间的差异确定该人的眼睛注视的方向。

可选地，在前述方面中，该一个或多个处理器还被配置为：根据从该IR相机捕获的IR数据生成两侧对称物体的三维(3D)点云；根据从该可见波长相机捕获的可见波长数据生成该两侧对称物体的二维图像；基于该两侧对称物体的3D点云和该两侧对称物体的二维图像检测该两侧对称物体的对称平面，该对称平面将该3D点云分为两部分；以及基于该对称平面重建该两侧对称物体的3D点云。

可选地，在前述方面中，该一个或多个处理器还被配置为基于该二维图像导出该3D点云中用于体素的颜色信息。

进一步的方面包括一种用于眼睛注视跟踪的方法。该方法包括根据从红外(IR)相机捕获的IR数据生成人脸的三维(3D)点云。该方法包括根据从可见波长相机捕获的可见波长数据生成人脸的二维图像。该方法包括基于该3D点云和该二维图像检测该人脸的对称平面，该对称平面将该3D点云分为两部分。该方法包括基于该对称平面重建该3D点云。该方法包括基于该重建3D点云跟踪该人脸的眼睛注视。

进一步的方面包括一种用于检测眼睛注视的电子设备。该电子设备包括至少一台相机以及一个或多个处理器。该一个或多个处理器被配置为根据从该至少一个相机捕获的数据生成人脸图像；以及将该数据输入到长短期记忆(LSTM)单元中，以确定该人的注视的方向。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并非旨在标识出要求保护的主题的关键特征或必要特征，亦非旨在用作辅助确定要求保护的主题的范围。所要求保护的主题不限于解决背景技术中提及的任何或所有缺点的实现方式。

附图说明

通过示例的方式说明本公开的各方面，并且本公开的各方面不受附图的限制，附图中相同的附图标记指示元件。

图1是用于眼睛注视跟踪的电子设备的实施例的图。

图2是对两侧对称物体执行图像处理的过程的一个实施例的流程图。

图3是基于重建3D点云对人脸执行图像处理的过程的一个实施例的流程图。

图4是基于人正在注视的显示屏上的位置执行动作的过程的一个实施例的流程图。

图5是确定人正在注视的显示屏上的位置的过程的一个实施例的流程图。

图6示出了在两个时间点上人头部和各种几何细节。

图7是确定标准数据的实施例的流程图，其可以用于过程中。

图8描绘了被配置为执行眼睛注视检测的系统的实施例。

图9是通过使用LSTM单元预测下一个眼睛注视点的过程的一个实施例的流程图。

图10描绘了LSTM单元的一个实施例。

图11是响应于检测人正在注视屏幕上的位置，在显示屏上提供人选择选项的电子设备的过程的一个实施例的流程图。

图12A示出了具有第一选项和第二选项的显示屏。

图12B示出了改变图12A的显示屏上第一选项的外观的一个示例。

图13是响应于检测人的眼睛注视执行动作的过程的一个实施例的流程图。

具体实施方式

在将参考附图描述本公开，附图一般涉及用于两侧对称物体的图像处理的装置和方法。在一些实施例中，构建三维(3D)点云以辅助两侧对称物体的图像处理。可以基于由红外(IR)相机捕获的IR数据生成3D点云。二维(2D)可见波长图像也可用于辅助图像处理。例如，将人脸的3D点云与人脸的2D可见波长图像结合以执行面部识别或眼睛跟踪。

一项技术挑战是，由于人脸没有直接对准IR相机，因此3D点云可能会“丢失数据”。同样，根据拍摄图像的环境，人脸左侧和右侧的颜色可能会有很大差异，这主要是因为投射在面部上的光。在一个实施例中，检测人脸(或其他两侧对称物体)的“对称平面”。然后，基于对称平面重建3D点云。在一个实施例中，基于来自对应于两侧对称物体的第二半部的3D点云的第二部分的3D点云数据，填充对应于两侧对称物体的第一半部的3D点云的第一部分中缺失的数据。在一个实施例中，通过求解(例如，最小化)成本函数来检测对称平面。在一个实施例中，使用变分方法来寻找对称平面。本文公开的用于定位对称平面的技术在计算上是有效的。在实施例中，可以无需纹理信息检测对称平面。

一项技术挑战是有效地确定人的眼睛注视。在一个实施例中，数据被输入到一个或多个长短期记忆(long short term memory,LSTM)单元中以检测眼睛注视的方向。在实施例中，LSTM是一种通过短期数据的序列学习长期依赖的机器学习方法。请注意，长期是相对于短期而言的。例如，长期可能只有几秒钟，甚至更短。在实施例中，基于LSTM单元的序列的输出来确定下一个眼睛注视点的预测。在实施例中，此预测是扫视移动的序列中的下一个凝视。

在一个实施例中，LSTM单元用于执行输入数据的配准和/或变换以执行面部识别和/或眼睛跟踪。在一些实施例中，LSTM单元用于执行图像配准和/或图像变换。如本文使用的术语“图像配准”，图像配准是在两个数据集合中(例如两个3D点云)中寻找对应点的图像处理技术。如本文使用的术语“图像变换”，图像变换是将两个数据集合(例如两个3D点云)置于一个坐标系中的图像处理技术。在实施例中，图像变换测量两个数据集合之间的差异。因此，本文定义的术语“图像配准”不要求将两个数据集合置于一个坐标系中。

例如，LSTM单元可用于将上述重建3D点云配准到标准3D点云。在实施例中，当人正在注视已知位置(例如，显示屏上的点)时生成标准3D点云。例如，LSTM单元可用于确定两个3D点云中的对应点。又例如，LSTM单元可用于将上述重建3D点云配准到标准3D点云。例如，LSTM单元可用于测量两个3D点云中上述对应点之间的差异。又例如，LSTM单元可用于将来自一个时间段的用户面部的3D点云配准到先前时间段的用户面部的3D点云。又例如，LSTM单元可用于将来自一个时间段的用户面部的3D点云变换为来自先前时间段的用户面部的3D点云。各种配准和/或变换可用于执行眼睛跟踪。使用一个或多个将配准和变换集成在一起以执行眼睛跟踪的LSTM单元的实施例在计算上是有效的。因此，节省了时间，在某些情况下还节省了电池电量。

应理解，本公开的实施例可以以许多不同的形式实现，并且权利要求范围不应解释为限于本文中所述的实施例。相反，提供这些实施例是为了使本公开透彻和完整，并且将本发明实施例构思充分地传达给本领域技术人员。事实上，本公开旨在涵盖落在所附权利要求所限定的本公开的范围和精神内的所有实施例的修改、替代方案以及等价物。另外，在下面对本公开的实施例详细描述中，提出了大量的具体细节，其目的是提供彻底的理解。然而，对于本领域的普通技术人员显而易见的是，本公开的实施例可以在没有这些具体细节的情况下实践。

图1是用于眼睛注视跟踪的电子设备100的实施例的图。电子设备100具有包括红外(IR)相机104A和可见波长相机104B的图像捕获设备104。图像捕获设备104能够捕获人的头部和/或面部120的图像。电子设备100还具有显示屏102、一个或多个处理器108和存储器116。在一个实施例中，两侧对称物体是人脸。在一个实施例中，电子设备100被配置为执行面部识别。在一个实施例中，电子设备100被配置为执行眼睛跟踪。请注意，可以有不止一台红外相机和/或不止一台可见波长相机。

在一个实施例中，电子设备100是无线通信设备。电子设备100可以是，例如移动电话，但在其他示例中可以是其他设备，例如台式计算机、膝上型计算机、平板电脑、手持计算设备、汽车计算设备和/或其他计算设备。

红外(IR)相机104A包括可用于捕获红外数据的图像传感器104A1(例如，互补性氧化金属半导体(complementary metal-oxide semiconductor,CMOS)图像传感器、电耦合器件(charge coupled device,CCD)传感器)。IR相机104A还包括能够发射IR光的IR发射器104A2。IR发射器104A2可用于将IR光投射到人脸上。在一个实施例中，红外数据通常被称为“近红外”。近红外具有接近可见光的波长。例如，红外(IR)相机104A可以被配置为捕获具有从大约700纳米(nm)到大约1400nm的波长的电磁辐射。IR数据不需要占据700到1400nm的整个范围。红外(IR)相机104A可以感测一些具有低于700nm或高于1400nm的波长的电磁辐射。红外数据可以用于产生深度图像。在一些实施例中，根据红外数据生成3D点云。可以使用多种技术，例如结构光和/或飞行时间(time-of-flight,TOF)传感器。3D点云也可以通过来自可见波长相机的图像生成或增强。

可见波长相机104B包括可用于捕获可见波长图像的图像传感器(例如，CMOS图像传感器、CCD传感器)。在实施例中，可见波长图像是数字图像。可见波长相机104B捕获2D可见波长图像。在实施例中，可见波长相机104B捕获2D彩色(例如，RGB)图像。“可见波长”也称为“可见光谱”，是指电磁波谱中人眼可见的部分。在实施例中，可见波长相机104B可以感测在大约380nm到740nm之间的波段内的电磁辐射。可见波长相机104B不需要感测跨越从380nm到740nm的整个范围的电磁辐射。在一些情况下，可见波长相机104B能够感测低于380nm或高于740nm的电磁辐射。IR相机104A和可见波长相机104B捕获的电磁辐射的波长之间可能存在一些重叠。IR相机104A和可见波长相机104B捕获的电磁辐射的波长之间可能存在间隙。

显示屏102可以用作用户界面以向用户可视地显示项目(例如，图像、选项、指令等)。显示屏102可以可选地接受来自用户的输入。在一个实施例中，显示屏102是触摸屏显示器。在一个实施例中，电子设备100被配置为确定用户正在注视的显示屏102上的位置。

在实施例中，处理器108能够执行两侧对称物体的图像处理。图像处理可以包括，但不限于面部识别、眼睛跟踪和下一个眼睛注视点的预测。处理器108可以用于控制电子设备100的各种其他元件，例如，在存储器116中存储的软件和/或固件的控制下。也可能存在多个处理器108，例如中央处理单元(central processing unit,CPU)和图形处理单元(graphics processing unit,GPU)。处理器108可以执行计算机指令(存储在非暂时性计算机可读介质中)以使处理器执行用于实现本文描述的本技术的实施例的步骤。处理器108被描绘为具有若干组件(或模块)108A、108B、108C、108D。在一个实施例中，通过在处理器108上执行指令集合(从存储器116访问)来实施每个组件。处理单元108可以包括微处理器、微控制器、数字信号处理器、现场可编程门阵列或专用集成电路。

对称平面检测器108A模块被配置为检测两侧对称物体(例如人脸)的对称平面。例如，在图1中，对称平面检测器108A可以检测人脸120的对称平面130。两侧对称物体可以是无生命物体，例如球或水杯。在一些实施例中，对称平面检测器108A求解成本函数以检测对称平面。在一个实施例中，对称平面检测器108A使用两侧对称物体的3D点云和RGB 2D图像。本文公开的技术在计算上非常有效。

3D点云构造器108B被配置为构造和重建3D点云。3D点云包含任何3D坐标系中的点。在一个实施例中，坐标系为笛卡尔(x，y，z)坐标系；然而，可以使用另一个坐标系。在实施例中，3D点云中的每个点包括强度值。在一些实施例中，3D点云中的点被分配颜色(例如，RGB)值。颜色分配可以基于2D可见波长图像。在一些实施例中，3D点云包括深度信息。例如，深度信息可以定义人(或人的部分)与显示屏102(或显示屏102上的特定位置)之间的距离。或者，深度信息可以定义人(或人的部分)与IR相机104A之间的距离。在一些实施例中，3D点云中的点包括体素。在一个实施例中，体素是(x，y，z，i)，其中“i”表示单色强度。在一个实施例中，体素是(x，y，z，r，g，b)，其中“r”是红色强度，“g”是绿色强度，并且“b”是蓝色强度。可以使用不同的颜色方案。在一些实施例中，体素的颜色信息从2D可见波长图像导出。

在一个实施例中，3D点云描述了两侧对称物体。最初，由于IR相机104A捕获的IR数据的限制，两侧对称物体的描述可能是不完整的。例如，人可能正在看IR相机104A的右侧，使得IR相机104A很好地捕获人脸的左侧，但没有捕获大量(如果有的话)关于人脸右侧的信息。例如，人脸右侧的大部分可能没有任何深度信息。在一个实施例中，基于对称平面基于对称平面重建3D点云。在一个实施例中，基于来自对应于两侧对称物体的第二对称半部的3D点云的第二部分的数据，填充对应于两侧对称物体的第一对称半部的3D点云的第一部分中缺失的数据。例如，基于人脸右侧的3D点云数据填充人脸左侧缺失的3D点云数据。

注视方向检测器108C被配置为检测人的注视的方向。在一个实施例中，注视方向检测器108C同时输入重建3D点云和2D彩色(例如，RGB)图像。与仅使用这些输入之一相比，同时使用3D点云和2D颜色(例如，RGB)图像可以更准确地检测注视方向。

注视预测器108D被配置为预测人的下一个注视点。在一些实施例中，基于长短期记忆(LSTM)模型执行注视方向检测器108C和注视预测器108D。

存储器116可用于存储控制电子设备100的软件和/或固件，以及存储使用捕获设备104捕获的图像，但不限于此。可以使用各种不同类型的存储器，包括非易失性和易失性存储器。存储器116可以包括机器可读介质，其上存储有体现本文所描述的一种或多种方法和/或功能的一个或多个可执行指令集合(例如，应用程序)。本文使用的术语“机器可读介质”应理解为包括所有形式的存储介质，无论是作为单一介质还是多种形式的多种介质；例如，集中式或分布式数据库和/或相关的缓存和服务器；一个或多个存储设备，例如存储驱动器(包括，例如磁和光驱动器以及存储机制)，以及一个或多个存储设备或模块的实例(无论是主存储器、处理器内部或外部的缓存存储，还是缓冲区)。术语“机器可读介质”或“计算机可读介质”应理解为包括能够存储或编码由机器执行并且使机器执行任何方法之一的任何有形非暂时性介质的指令序列。术语“非暂态介质”明确包括所有形式的存储驱动器(光、磁等)和所有形式的存储设备(例如，动态随机存取存储器(dynamic random accessmemory,DRAM)、闪存(所有存储设计)、静态随机存取存储器(static random accessmemory,SRAM)、磁性随机存储器(magnetoresistive random accessmemory,MRAM)、相变等，以及设计为存储任何类型信息以供以后检索的所有其他结构。

图2是对两侧对称物体执行图像处理的过程200的一个实施例的流程图。在实施例中，过程200由电子设备100执行。在一个实施例中，两侧对称物体包括人脸，并且图像处理包括眼睛注视跟踪。

步骤210包括生成两侧对称物体的3D点云。在一个实施例中，两侧对称物体是人脸。

在一个实施例中，两侧对称物体是人的整个身体。在一个实施例中，两侧对称物体是无生命物体，例如球或水杯。在实施例中，3D点云是根据来自IR相机104A的IR数据生成的。

在一个实施例中，两侧对称物体包括人脸。在一个实施例中，两侧对称物体包括人的较大部分，直至其整个身体。除了脸，两侧对称物体还可以包括人的身体的部分。

步骤212包括生成两侧对称物体的二维(2D)可见波长图像。在实施例中，根据来自可见波长相机104B的可见波长数据生成2D可见波长图像。在实施例中，2D图像包括彩色(例如，RGB)图像。在实施例中，2D图像是数字图像。步骤210和212可以顺序或并行执行。当顺序执行时，可以先执行任一步骤。

步骤214包括基于3D点云和2D可见波长图像检测两侧对称物体的对称平面。在一个实施例中，对称平面是人的矢状面。在一个实施例中，对称平面是人脸的矢状面。在一个实施例中，2D可见波长图像用于定位两侧对称物体。例如，可以从2D可见波长图像中提取人脸。然后，基于2D可见波长图像到3D点云的映射，可以将两侧对称物体定位在3D点云中。

步骤216包括基于对称平面重建3D点云。步骤216包括，在一个实施例中，基于来自对应于两侧对称物体的第二对称半部的3D点云的第二部分的3D点云数据，填充对应于两侧对称物体的第一对称半部的3D点云的第一部分中缺失的数据。请注意，在实施例中，将来自2D可见波长图像的颜色(例如，RGB)值分配给3D点云中的每个点。

步骤218包括基于重建3D点云执行两侧对称物体的图像处理。在实施例中，步骤218包括执行面部识别。例如，步骤218可以包括确定操作智能电话的人是否是智能电话的所有者。步骤218还可以用于区分正在使用电子设备100的人和刚好在捕获设备104的范围内的旁观者。在实施例中，步骤218包括执行眼睛跟踪。

在实施例中，步骤218包括使用长短期记忆(LSTM)单元将两侧对称物体的重建3D点云配准到两侧对称物体的另一个3D点云。步骤218包括使用长短期记忆(LSTM)单元将两侧对称物体的重建3D点云变换为两侧对称物体的另一个重建3D点云。在实施例中，步骤218包括使用长短期记忆(LSTM)单元确定两侧对称物体的重建3D点云和两侧对称物体的另一个3D点云之间的对应点对，并使用长短期记忆(LSTM)单元测量对应点对之间的差异。下面讨论使用LSTM单元进行图像处理的进一步细节。

图3是基于重建3D点云对人脸执行图像处理的过程300的一个实施例的流程图。在一个实施例中，图像处理包括眼睛注视跟踪。在实施例中，过程300由电子设备100执行。过程300描述了过程200的一个实施例的进一步细节。

步骤310包括将人脸的3D点云与面部的2D可见波长图像集合。在一个实施例中，3D点云是包含人脸细节的3D数据点集合。在实施例中，步骤310包括将来自2D可见波长图像的RGB数据映射到3D点云中的点。因此，在实施例中，将一种颜色(例如，RGB值)分配给3D点云中的每个点。将3D点云与颜色数据结合可以更好地进行两侧对象的图像处理。例如，颜色数据可以使注视检测更加准确。

步骤312包括从2D可见波长图像中提取人脸。在实施例中，面部的2D可见波长图像包含眼睛图像。眼睛图像可以包括明亮瞳孔或暗色瞳孔的角膜反射图像，以及彩色的眼睛图像。对于普通技术人员来说，从2D可见波长图像中提取人脸的技术是已知的。

步骤314包括从3D点云中提取人脸。在一个实施例中，基于2D图像到3D点云的映射进行提取。换句话说，一旦已知映射，连同步骤314的面部提取，可以从3D点云中提取人脸。

步骤316包括检测人脸的对称平面。人脸的对称平面也可以被称为人脸的矢状面。下面描述检测对称平面的进一步细节。在一些实施例中，求解成本函数以检测对称平面。求解成本函数是检测对称平面的一种准确而有效的技术。

步骤318包括基于对称平面重建3D点云。在一个实施例中，步骤318包括，基于来自对应于人脸的第二半部的3D点云的第二部分的3D点云数据，填充对应于人脸的第一半部的3D点云的第一部分中缺失的数据。

步骤320包括基于重建3D点云执行人脸的图像处理。请注意，在实施例中，将来自2D可见波长图像的颜色(例如，RGB)值分配给重建3D点云。在实施例中，步骤320包括执行面部识别。例如，步骤320可以包括确定操作智能电话的人是否是智能电话的所有者。在实施例中，步骤320包括执行眼睛跟踪。在实施例中，步骤320包括使用LSTM单元执行图像处理。在一些实施例中，3D点云可用于检测头部移动，2D可见波长图像可用于眼睛检测。在注视检测中，头部和眼睛的移动可能非常细微。用户和相机之间的距离越远，变化就越细微。结合来自3D点云和眼睛图像(来自2D可见波长图像)的信息，可以为注视检测提供更多细节并获得更好的结果。

以下是检测对称平面(例如矢状面)的一个实施例的细节。检测对称平面可能非常困难。困难的一个原因是3D点云可能由于，例如人没有直视IR相机104A，而丢失一个半部的数据。在一个实施例中，基于变分函数检测对称平面，如下所述。令p＝(x，y，z)成为3D点云中的一个点。函数“g”用于表示g(p)＝0的矢状面，其将人脸的左右两侧分开。等式1描述了矢状面，等式2描述人脸的左半部，等式3描述人脸的右半部。

g(x，y，z)＝0 等式1

g(x，y，z)>0 等式2

g(x，y，z)<0 等式3

此外，令p'相对于矢状面与p对称。即，由p和p'形成的直线垂直于g。由于对称性，p到g的距离应该等于p'到g的距离。也就是说，它们的差值应该是0。当g是矢状面时，下面等式1中的成本函数将为最小。请注意，人脸可能不是完全对称的；因此，成本函数不需要为零。如果人脸完全对称，那么成本函数可以最小化为零。

在等式1中，λ₁和λ₂是与两侧对称物体的左侧和右侧(例如，人脸的左侧和右侧)相关的参数。在一个实施例中，λ₁等于λ₂。对λ₁和λ₂使用不同的值会给两侧对称物体的一侧赋予更多权重。在等式4中，K(g)是赫维赛德函数，在下面的等式5中表示。

请注意，右侧的点数可能与左侧的点数不同，因此可能不是每个p都有p'。为简单起见，重写等式4，如等式6、7和8所示。

在等式6、7和8中，D、D'和K分别表示等式4中的D(p)、D(p')和K(g(x，y，z))。如上所述，在一个实施例中，λ₁等于λ₂。如果λ₁等于λ₂，则可以简化等式8，如等式9所示。

接下来，令E等于[D²+D′²+2(D+D′)²(K²-K)]，保持D和D'固定，推导g的相关欧拉-拉格朗日等式。然后，求解g并使用步长t进行参数化，如等式10所示。

gⁿ＝g^(n-1)+2Δtδ(g(x,y,z))((D+D′)²(2K-1))等式11

在等式11中，Δt是步长。此外，在等式11中，可以进行以下替换，如等式12。

鉴于不是每个点p都有可以形成垂直于f的直线的对称点p'，p'的定义被放宽(或放松)为在距离d内最近的理想点p'，其中d是基于p'的定义期望的放松的程度的参数。另外，利用g(x，y，z)上的点，通过支持矢量机(SVM)得到矢状面，并且g(x，y，z)＝Ax+By+Cz+D，其中A，B、C、D是参数。因此，可以如等式13所示获得p和g之间的距离D(p)。

在一个实施例中，初始对称平面可以是垂直于两眼之间直线的平面，其可以在2D可见波长图像中近似检测到。在一个实施例中，将步长设置为1，赫维赛德函数由等式14给出。

一旦确定了对称平面(例如，矢状面)，就可以基于矢状面对称地制作用户面部的重建3D点云。在一个实施例中，基于来自对应于两侧对称物体的第二对称半部的3D点云的第二部分的3D点云数据，填充对应于两侧对称物体的第一对称半部的3D点云的第一部分中缺失的数据。用于寻找对称平面的技术的实施例在计算上是有效的。因此，可以节省计算时间和功率。此外，如果在电池供电的设备中采用这些技术，则可以节省电池电量。

图4是基于人正在注视的显示屏上的位置执行动作的过程400的一个实施例的流程图。过程400可以由电子设备100、UE 110形成，但不限于此。

步骤410包括基于人脸的重建3D点云和2D可见波长图像检测人的眼睛注视。在步骤410中，可以使用2D可见波长图像来检测人的眼睛，并且可以使用3D点云来确定人的头部位置。步骤412包括确定人正在注视的显示屏102上的位置。可以在过程200的步骤218或过程300的步骤320的一个实施例中执行步骤410和412。

步骤414包括基于人正在注视的位置执行动作。示例动作包括，但不限于突出显示显示屏上的项目、翻到显示器上呈现的文档中的下一页、在显示器上呈现的文档中向上或向下滚动。

图5是确定人正在注视的显示屏上的位置的过程500的一个实施例的流程图。过程500可以由电子设备100、UE 110形成，但不限于此。在过程500之前，收集所谓的“标准数据”。过程500中使用的标准数据包括多个3D点云。但是，标准数据不限于3D点云。在实施例中，与用户注视的显示屏102上的特定位置一起收集每个3D点云。这使得电子设备100能够得知当用户正在注视的显示屏102上的某些点时的3D点云的样子。图7描述了收集标准数据的一个实施例的进一步细节。

步骤510包括访问标准数据，其包括当用户正在注视的显示屏102上的不同点时收集的3D点云。

步骤512包括找到重建3D点云和标准数据之间的最接近的匹配。因此，步骤512实际上确定标准数据中最接近人的当前注视点的注视点。步骤514包括通过配准和变换计算实际(当前)注视点。在一个实施例中，LSTM单元用于执行配准和/或变换。图9示出了图像配准和图像变换的一个实施例的细节。

图6示出了两个时间点人的头部和各种几何细节。一个时间点是收集标准数据的时间。另一个时间点是基于标准数据检测到人正在注视的显示屏上的位置(如在过程500中)的时间。以字母“a”结尾的附图标记与收集标准数据的时间相关。以字母“b”结尾的附图标记与基于标准数据检测到人正在注视的显示屏上的位置的时间相关。请注意，人脸是两侧对称物体的示例。

图6示出了正在注视显示屏102的人的头部602。在两个时间点描绘显示屏102。显示屏102a表示收集标准数据期间的显示屏。显示屏102b表示检测到人的注视时的显示屏。人的眼睛注视指向显示屏102a上的位置606a。直线604al和直线604ar示出了来自人的眼睛612a的注视的方向。更具体地，直线604al对应于左眼，直线604ar对应于右眼。直线614a指示当注视点606a时人的头部的取向。在一个实施例中，直线614a对应于矢状面。直线605a示出了人与显示屏102a之间的距离。标准数据包括3D点云，其基于当人从直线605a给出的距离注视位置606a时捕获的IR数据。

图6还示出了当检测到人正在注视的显示屏上的位置时正在注视显示屏102b的人的头部602。人的眼睛注视指向显示屏102b上的位置606b。直线604bl和604br示出了来自人的眼睛612b的注视的方向，其以虚线描绘。更具体地，直线604al对应于左眼，直线604ar对应于右眼。直线614b指示当注视点606b时人的头部的取向。在一个实施例中，直线614b对应于矢状面。直线605b示出了人与显示屏102b之间的距离。

当前数据包括3D点云，其基于当人从直线604b给出的距离注视位置606b时捕获的IR数据。如果直线604bl和线604br的长度不同，则可以取平均距离。如步骤512的讨论中所述，检查标准数据以找到最接近当前3D点云的3D点云。步骤514涉及这两个3D点云的配准和变换。执行配准和变换将指示两个3D点云之间的差异。因此，这些差异将指示人与显示屏之间距离的差异(如果存在)。在实施例中，这些差异还将指示人的头部角度的差异。根据该信息，可以确定显示屏102b上的位置606b。

图7是确定标准数据的实施例的流程图，其可以用于过程500中。步骤710包括指示人注视显示屏102上的一点。步骤710可以包括突出显示显示屏102的位置并为注视位置提供音频或视觉指令。

步骤712包括从人接收人正在注视位置的指示。来自用户的输入可以是语音、触摸显示屏、使用输入设备(例如，鼠标)进行选择、敲击键盘上的按键等。

步骤714包括为显示屏102上的位置捕获3D点云。步骤714可以包括IR相机74A捕获IR数据。步骤714还包括捕获2D可见波长图像。

步骤716是判断显示屏102上是否有其他可以采集3D点云数据的位置。在一个实施例中，收集大约五个位置的数据。例如，可以为显示屏102的四个角中的每一个和中心生成3D点云。如果要收集更多数据，则过程700返回到步骤710。在一个实施例中，收集大约九个位置的数据。例如，可以为显示屏102的四个角中的每一个、中心以及沿着显示屏102的四个边缘中的每一个的中点生成3D点云。3D点云集合可以存储在存储器116中。在实施例中，将多个3D点云集合存储在非易失性存储器中。然而，不需要将3D点云存储在电子设备70上。

图8描绘了被配置为执行眼睛注视检测的系统800的实施例。在一个实施例中，系统800用于随时间跟踪眼睛注视，并预测下一个眼睛注视点。在一个实施例中，系统800用于实现注视方向检测器108C和注视预测器108D。因此，可以在电子设备100中实现系统800。可以在UE 80中实现方法800。在一个实施例中，通过在处理器108上执行指令实现系统800。

系统800包括几个长短期记忆(LSTM)单元802。在该实施例中，描绘了三个LSTM单元802。系统800可以具有多于或少于三个的LSTM单元802。每个LSTM单元802输入针对时间点的数据(x)。针对每个LSTM单元802的不同时间点输入数据。在该示例中，时间段被称为“t+1”、“t”和“t-1”。输入数据可以包括重建3D点云。也可以将2D可见波长图像数据输入到LSTM单元802。在一个实施例中，2D可见波长图像数据用于将颜色(例如，RGB)值分配给3D点云，在这种情况下，2D可见波长图像不必作为单独的输入。也可以将标准3D点云数据，例如在过程700中收集的，输入到LSTM单元802。请注意，虽然在一些实施例中，系统输入重建3D点云(例如在过程200或300中生成的)，但输入到系统800的3D点云不需要是重建3D点云。换言之，可以以任何合适的方式生成输入到系统800的3D点云。

LSTM单元802可以向另一个LSTM单元802输出信息。在一个实施例中，LSTM单元802向另一个LSTM单元802输出针对时间点的人的眼睛注视的焦点的位置。在一个实施例中，位置由矢量(c_t)描述。接收该信息的LSTM单元802可以修改焦点的位置，或者在某些情况下，不改变焦点的位置。请注意，如下文更全面地描述的，可以在LSTM单元802之间交换附加信息。

在实施例中，每个LSTM单元802具有输入门、输出门和遗忘门。这三个门可以基于当前时间步长(例如，t)和先前时间步长(例如，t-1)来计算各自的输出。在一些实施例中，可以将各种权重应用于门以影响该门对LSTM单元802的最终输出的贡献。结合图10描述LSTM单元802的一个实施例的进一步细节。每个LSTM单元802为集成层804提供输出h_t。LSTM单元802可以提供输出ct作为另一个LSTM单元802的输入。

集成层804从每个LSTM单元802接收输入(h_t)。在一个实施例中，输入(h_t)是描述人的眼睛注视的方向的矢量。在实施例中，输入h_t和矢量c_t的组合可以被传递到下一个LSTM单元802。在实施例中，集成层804输出人的眼睛注视的当前位置。在一个实施例中，集成层804输出人正在注视的显示屏102上的位置。在一个实施例中，集成层804预测下一个人的眼睛注视点。在一个实施例中，集成层804预测一系列扫视移动中的下一个凝视点。

图9是通过使用LSTM单元802预测下一个眼睛注视点的过程900的一个实施例的流程图。过程900可用于图8的系统800中。步骤910包括向LSTM单元802输入数据。输入数据可以包括针对时间点的重建3D点云。输入数据可以包括标准3D点云。输入数据可以包括针对时间点的2D视觉波长图像数据。在一个实施例中，每个LSTM单元802输入针对不同时间点的数据。在实施例中，LSTM单元802共同输入针对时间点的序列的数据。

步骤912包括使用LSTM单元802跟踪眼睛移动。在一个实施例中，每个LSTM单元802确定针对时间点的注视点。在一个实施例中，步骤912包括使用LSTM单元将重建3D点云配准到另一个3D点云。在一个实施例中，步骤912包括使用LSTM单元将重建3D点云变换为另一个3D点云。下面将讨论如何使用LSTM单元来跟踪眼睛移动的进一步细节。

步骤914包括预测下一个眼睛注视点。步骤914可以由集成层804来执行。集成层804输入来自LSTM单元802的矢量，其描述针对不同时间点的用户的眼睛注视的方向。在实施例中，基于这些矢量，集成层804预测下一个注视点。

图10描绘了LSTM单元的一个实施例802。LSTM单元802具有R_s组件1002，其被配置为使用3D点云的标准数据配准3D点云。例如，R_s组件1002可以被配置为使用3D点云的标准数据在重建3D点云中寻找对应点。LSTM单元802具有T_s组件1004，其被配置为使用3D点云的标准数据变换重建3D点云。例如，T_s组件1004可以被配置为测量上述对应点之间的差异。可以通过执行过程200或过程300来提供重建3D点云，但不限于此。

LSTM单元802具有R_T组件1006，其被配置为使用针对先前时间(t-1)的3D点云配准3D点云(用于当前时间，t)。例如，R_T组件1006可以被配置为在两个3D点云中寻找对应点。LSTM单元802具有T_T组件1008，其被配置为使用针对先前时间(t-1)的3D点云变换3D点云。例如，T_T组件1008可以被配置为测量两个3D点云中的上述对应点之间的差异。

LSTM单元802的实施例中的配准寻找两个数据集合之间的关系。例如，配准在两个数据集合中寻找对应点(例如，两个3D点云)。LSTM单元802的实施例中的变换将数据集合从一个坐标系定量地变换到另一个坐标系。例如，变换测量两个数据集合(例如，两个3D点云)之间的差异。配准和变换之间可能有一些重叠。因此，在一些实施例中，不分别执行配准和变换，而是可以(例如，单个步骤中)一起执行配准和变换。

输入(x_t)是指在时间“t”到LSTM单元802的输入数据。输入数据可以包括重建3D点云，以及映射到3D点云的2D可见波长数据。例如，3D点云中的点可能具有分配给它们的RGB强度值。在一个实施例中，使用过程200生成重建3D点云。在一个实施例中，使用过程300生成重建3D点云。

LSTM单元802从另一个LSTM单元802输入针对先前时间段的焦点位置(c_t-1)，并将针对当前时间段的焦点位置(c_t)输出到另一个LSTM单元802。可以在被输出到下一个LSTM单元802之前，由TS组件1004和T_T组件1008的输出修改从另一个LSTM单元802接收的输入焦点位置(c_t-1)。

在一个实施例中，焦点位置(c_t)包括单元状态矢量。在一个实施例中，单元状态矢量指示在时间t的标准注视点P_s和当前注视点P_t。当前注视点P_t指示用户正在观看的显示屏102上的位置，这可以通过结合先前注视点和眼睛注视中的移动来获得。在一个实施例中，单元状态矢量被表示为2乘2矩阵。在一个实施例中，每一行表示显示屏102上的(x，y)坐标。因此，在一个实施例中，一行表示标准注视点(P_s)的(x，y)坐标，而另一行表示当前注视点P_t的(x，y)坐标。

LSTM单元802从另一个LSTM单元802输入针对先前时间段的隐藏变量(H_t-1)，并将针对当前时间段的隐藏变量(H_t)输出到另一个LSTM单元802。因此，H_t从一个LSTM单元传递到另一个。在一个实施例中，H_t＝{S，h_t}，其中S为标准面部数据。例如，可以使用过程700来收集标准面部数据。在一个实施例中，LSTM单元802输出(h_t)，其被提供给集成层804。下面描述了生成h_t的进一步细节。

R_s分量1002和T_s分量1004共同产生针对时间点(f_t)的“遗忘门”结果。在一个实施例中，R_s组件1002在标准数据中寻找最接近3D点云的3D点云。在实施例中，R_s组件1002为T_s组件1004提供点对，每对是两个3D点云中的对应点。在一个实施例中，R_s组件1002执行S和x_t的配准。回想一下，S是标准面部数据，x_t是输入数据。换言之，R_s组件1002可以确定S和x_t中的对应点对。

在一个实施例中，基于来自R_s组件1002的对应点，T_s组件1004执行S和x_t的变换，这确定了S和x_t之间的差异。在一个实施例中，T_s组件1004比较两个3D点云(对于S和x_t)并确定人脸是否是授权用户。在一个实施例中，如果这不是授权用户，则遗忘门输出为零。在一个实施例中，如果这是授权用户，则遗忘门输出为一。基于对应点，T_s组件1004还可以估计面部已经移动的距离(相对于标准数据)。T_s组件1004还可以估计人正在注视的显示屏上的位置。

T_s分量1004输出f_t。等式14描述了R_s分量1002和T_s分量1004可以如何产生f_t。

f_t＝σ_f(W_fT_s(R_s(X_t,H_t-1))) 等式14

等式14，R_s是S和X_t的配准，其提供了标准数据S和当前输入数据X_t之间的对应点对。在等式14中，Ts是S和X_t的变换，其提供了这两个数据集合之间的移动。请注意，可以提供S作为输入H_t-1的一部分。在实施例中，在等式14中，σ_f是赫维赛德函数。在实施例中，在等式14中，σ_f是sigmoid函数。在等式14中，W_f是权重矩阵。

R_T组件1006和T_T组件1008共同产生针对时间点(i_t)的“输入门”结果。在一个实施例中，R_T组件1006为T_T组件1008提供点对，每对是两个最近的3D点云中的对应点。在一个实施例中，R_T组件1006执行x_t和h_t-1的配准。这提供了这两个数据集合的对应点对。请注意，h_t-1与S一起包含在H_t-1中。

在一个实施例中，基于来自R_T组件1006的对应点，T_T组件1008执行X_t和h_t-1的变换，这指示从h_t-1到X_t的眼睛移动。因此，在一个实施例中，T_T组件1008可以比较两个3D点云中的对应点并确定人脸中的移动。基于人脸中的移动，T_T组件1008还可以估计人正在注视的显示屏上的位置。换句话说，基于人脸中的移动，T_T组件1008可以估计眼睛移动。T_T组件1008还可以确定两个时间点之间的眼睛移动，从而确定注视点的移动。

T_T组件1008将其输出。等式15描述了R_T组件1006和T_T组件1008可以如何生成它。

i_t＝tanh(W_iT_T(R_T(X_t,H_t-1))) 等式15

在等式15中，R_T是X_t和h_t-1的配准，其提供了这两个数据集合之间的对应点对。请注意，h_t-1包含在具有S的H_t-1中。但是，只有h_t-1在配准中处于活动状态(即，不涉及S)。在等式15中，T_T是X_t和h_t-1的变换，其提供了这两个数据集合之间的移动。例如，这提供了眼睛移动。W_i是权重矩阵。

在实施例中，乘法器1012被配置为执行逐元素点积。乘法器1012执行输入眼睛矢量c_t-1和T_s分量1004的输出f_t的逐元素点积。加法器1014结合乘法器1012的输出和T_T组件1008的输出i_t。加法器1014的输出是针对时间t的眼睛矢量c_t。等式16总结了眼睛矢量的生成。

在等式17中，符号

表示乘法器1012执行的逐元素点积。“+”符号表示加法器1014的矢量加法。

R_T组件1006向细化组件1010输出所谓的“配准结果”o_t。在一个实施例中，配准结果是h_t-1和X_t中的对应点对。等式17描述了R_T组件1006如何产生配准结果o_t。

o_t＝W_oR_T(X_t,H_t-1) 等式17

在等式17中，R_T是X_t和h_t-1的配准，其提供了这两个数据集合之间的对应点对。W_o是权重矩阵。

细化组件1010从R_T组件1006输入眼睛矢量c_t和配准结果o_t，并输出h_t。细化组件1010将去除或调整数据中的少量不一致。例如，人可能会轻微移动她的嘴唇，但动作非常细微并低于阈值。虽然移动不会改变遗忘门f_t的结果，但是这个少量移动不应该被传递到集成层804或下一个LSTM单元802。

等式18示出了细化组件1010可以如何生成h_t。函数F_R是指细化组件1010进行的上述细化。

h_t＝F_R(o_t,c_t) 等式18

现在再次讨论图8中的集成层804，集成层804基于来自LSTM单元802的输入来预测眼睛注视。在一个实施例中，基于等式19进行预测。

p_n＝∑_tW_tH_t 等式19

在等式19中，p_n是下一个注视点，H_t是指来自每个LSTM单元格802的输入。W_t是LSTM输出H_t的参数，可以通过训练来学习。

图11是响应于检测人正在注视屏幕上的位置，在显示屏上提供人选择选项的电子设备的过程1100的一个实施例的流程图。这是基于人正在注视的显示屏的位置执行动作的示例。步骤1110包括电子设备100检测到人正在注视显示屏102上的选项。图12A示出了具有第一选项1202和第二选项1204的显示屏102。第一选项1202是转到显示屏102上呈现的文档中的下一页(该文档未在图12A中示出)。第二个选项1204是转到显示屏102上呈现的文档中的前一页。例如，电子设备100确定人正在注视第一选项1202。可以使用本文公开的用于检测人正在注视的显示屏上的位置的任何技术。

步骤1112包括改变选项的外观。图12B示出了改变第一选项1202的外观的一个示例。第一选项1202的外观可以以任何合适的方式改变，包括但不限于突出显示、变亮、在选项周围显示环或框等。

步骤1114是确定注视时间是否大于预定时间段。时间段可以是用户可定义的时间段。例如，时间段可以是一秒、两秒、三秒等。如果人的眼睛注视在时间段内停留在选项上，则在步骤1116执行与选项相关联的动作。在本示例中，电子设备100改变显示屏102，从而呈现文档中的下一页。其他类型的动作是可能的。

如果用户的注视在预定时间段内没有停留在选项上(步骤1114＝否)，则过程结束而不采取进一步行动。换句话说，在这种情况下不选择选项。

请注意，步骤1112和1116是基于人正在注视的显示屏的位置来执行动作的示例。因此，步骤1112和1116是步骤414(见图4)的实施例。

过程1100的许多变化是可能的。例如，可以在步骤1114中使用，例如，语音命令形式的附加用户输入。因此，电子设备100可以响应于用户注视选项而突出显示选项，并且在用户保持他们的注视固定在选项上的同时保持突出显示。然而，在实施例中，为了选择选项，用户可以使用语音命令。

图13是响应于检测人的眼睛注视执行动作的过程1300的一个实施例的流程图。过程1300包括基于人正在注视的显示屏的位置执行动作的进一步细节。在一个实施例中，过程1300由电子设备100执行。步骤1310包括在电子设备的显示屏102上显示文档。步骤1312包括电子设备100检测人的眼睛注视在显示屏102上的位置。可以使用本文公开的用于检测人正在注视的显示屏上的位置的任何技术。

步骤1314包括确定眼睛注视是否在显示屏102的顶部。顶部可以是顶部1/3、顶部1/4、顶部1/5或其他某个百分比。如果人正在注视顶部，则在步骤1316中，电子设备将文档向下滚动显示屏102的X百分比。在一个实施例中，虽然X百分比等于在步骤1314中讨论的顶部的尺寸，但是X百分比可以大于或小于顶部的尺寸。这里上下文中的术语“滚动”具有广泛的含义，可以包括文档内容的几次小移动、一次大移动等。在步骤1316之后，过程1300返回到步骤1312以检测眼睛注视。可能存在时间间隙以允许人调整以适应显示屏102上的文档的移动。

如果在步骤1314确定人的注视不在显示屏的顶部(步骤1314＝否)，则过程1300转到步骤1318。步骤1318包括确定眼睛注视是否在显示屏102的底部。在一个实施例中，底部具有与顶部相同的尺寸。然而，底部可以具有与顶部不同的尺寸。如果人正在注视底部，则在步骤1320中，电子设备将文档向下滚动显示屏102的Y百分比。在一个实施例中，在步骤1316中，Y百分比等于X百分比。然而，在步骤1316中，Y百分比不需要等于X百分比。在一个实施例中，虽然Y百分比等于在步骤1318中讨论的底部的尺寸，但是Y百分比可以大于或小于底部的尺寸。在步骤1320之后，过程1300返回到步骤1312以检测眼睛注视。可能存在时间间隙以允许人调整以适应显示屏102上的文档的移动。

请注意，步骤1316和1320是基于人正在注视的显示屏的位置来执行动作的示例。因此，步骤1316和1320是步骤414(见图4)的实施例。

过程1300的许多替代是可能的。在一个实施例中，电子设备100不检测用户的眼睛注视是在显示屏102的顶部(步骤1314)还是底部(步骤1318)，而是确定用户的眼睛注视是否在正在显示屏102上呈现的文档的顶部(步骤1314)或底部(步骤1318)。

可以使用硬件、软件或硬件和软件二者的组合来实现本文描述的技术。所使用的软件存储在上述处理器可读存储设备中的一个或多个上，以对处理器中的一个或多个执行编程以执行本文所述的功能。处理器可读存储设备可以包括计算机可读介质，例如易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质可包括计算机可读存储介质和通信介质。计算机可读存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现。计算机存储介质的示例包括RAM、ROM、EEPROM、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或者其他光盘存储、盒式磁带、磁带、磁盘存储或其他磁存储设备、或者可以用于存储期望的信息并且可以由计算机来访问的任何其他介质。计算机可读介质或介质(不)包括传播、调制或瞬时信号。

通信介质典型地包含计算机可读指令、数据结构、程序模块或例如载波或其他传输机制的传播、调制、瞬时数据信号中的其它数据，并包括任何信息传输介质。术语“调制数据信号”意味着这样的信号：其一个或多于一个的特性被设置或改变，以便在信号中对信息进行编码。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接之类的有线介质，以及诸如RF及其他无线介质之类的无线介质。上述任何项的组合也被包括在计算机可读介质的范围内。

在替代实施例中，一些或全部软件可以由专用硬件逻辑组件代替。例如而非限制，可以使用的说明性类型的硬件逻辑组件可以包括现场可编程门阵列(field-programmablegate array,FPGA)、专用集成电路(application-specific integrated circuit,ASIC)、专用标准产品(application-specific standard product,ASSP)、片上系统(system-on-a-chip system,SOC)、复杂可编程逻辑器件(complex programmable logic device,CPLD)、专用计算机等。在一个实施例中，实现一个或多个实施例的软件(存储在存储设备上)用于编程一个或多个处理器。一个或多个处理器可以与一个或多个计算机可读介质/存储设备、外围设备和/或通信接口通信。

应理解，本主题可以以许多不同的形式体现，并且不应解释为限于本文中所述的实施例。相反，提供这些实施例使得主题将是彻底和完整的，并且将本公开充分地传达给本领域技术人员。事实上，本主题旨在涵盖落在所附权利要求所限定的本主题的范围和精神内的所有实施例的修改、替代方案以及等价物。此外，在本主题的以下详细描述中，将阐述许多具体细节以透彻理解本主题。然而，对于本领域的普通技术人员，显而易见的是，本主题可以在没有这些具体细节的情况下实践。

本文参考根据本公开的实施例的方法、装置(系统)以及计算机程序产品的流程图和/或框图来描述本公开的各方面。应理解，流程图和/或框图中的每个框以及流程图和/或框图中的框的结合可以通过计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得通过计算机或其他可编程指令执行装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的机制。

已经出于说明和描述的目的呈现了本公开的描述，但是并不意图是穷尽的或者限制于以所公开的形式的公开内容。在不脱离本公开的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择并描述本文公开的这些方面是为了最好地解释本公开的原理和实际应用，并且使本领域的其他普通技术人员能够理解具有适用于特定预期用途的各种变型的公开。

为了本文档的目的，与所公开的技术关联的每个过程可以连续地并且由一个或多个计算设备来执行。过程中的每个步骤可以由与其他步骤中使用的计算设备相同或不同的计算设备来执行，并且每个步骤不一定需要由单个计算设备来执行。

尽管用结构特征和/或方法动作专用的语言描述了本发明主题，但可以理解，所附权利要求书中定义的主题不必限于以上所描述的具体特征或动作。更确切而言，以上所描述的具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种用于眼睛注视跟踪的装置，所述装置包括：

可见波长相机；

红外(IR)相机；以及

一个或多个处理器被配置为：

根据从所述IR相机捕获的IR数据生成人脸的三维(3D)点云；

根据从所述可见波长相机捕获的可见波长数据生成人脸的二维图像；

基于所述3D点云和所述二维图像检测所述人脸的对称平面，所述对称平面将所述3D点云分为两部分；

基于所述对称平面重建所述3D点云；以及

基于所述重建3D点云检测和跟踪所述人脸的眼睛注视。

2.根据权利要求1所述的装置，其中为了基于所述对称平面重建所述3D点云，所述一个或多个处理器还被配置为：

基于来自对应于所述人脸的第二对称半部的所述3D点云的第二部分的3D点云数据，填充对应于所述人脸的第一对称半部的所述3D点云的第一部分中缺失的数据。

3.根据权利要求1或2所述的装置，其中所述一个或多个处理器还被配置为：

求解成本函数以检测所述对称平面，所述成本函数包括为所述人脸的第一对称半部提供第一权重的第一参数和为所述人脸的第二对称半部提供第二权重的第二参数。

4.根据权利要求1至3中任一项所述的装置，其中：

所述装置还包括显示屏；以及

所述一个或多个处理器还被配置为基于所述重建3D点云确定所述人正在注视的所述显示屏上的位置。

5.根据权利要求4所述的装置，其中所述一个或多个处理器还被配置为：

响应所述人正在注视的所述显示屏上位于所述显示屏的预定义区域中的位置，自动滚动所述显示屏的内容。

6.根据权利要求5所述的装置，其中所述一个或多个处理器还被配置为：

响应检测所述人正在注视元素，改变显示屏上所述元素的外观。

7.根据权利要求5所述的装置，其中所述一个或多个处理器还被配置为：

基于长短期记忆(LSTM)单元的序列的输出，预测所述人的注视的下一个位置。

8.根据权利要求7所述的装置，其中所述一个或多个处理器还被配置为：

将图像配准和图像变换集成到每个所述LSTM单元中。

9.根据权利要求1至8中任一项所述的装置，其中所述一个或多个处理器还被配置为：

使用长短期记忆(LSTM)单元将所述人脸的重建3D点云配准到所述人脸的另一个3D点云。

10.根据权利要求9所述的装置，其中另一个3D点云是由所述人注视已知位置捕获的标准3D点云。

11.根据权利要求9所述的装置，其中所述重建3D点云是在第一时间点捕获的第一重建3D点云，另一个3D点云是在第一个时间点之前的第二时间点捕获的第二重建3D点云。

12.根据权利要求1至11中任一项所述的装置，其中所述一个或多个处理器还被配置为：

使用长短期记忆(LSTM)单元将所述人脸的重建3D点云变换为所述人脸的另一个3D点云。

13.根据权利要求1至12中任一项所述的装置，其中所述一个或多个处理器还被配置为：

使用长短期记忆(LSTM)单元确定所述人脸的重建3D点云和所述人脸的标准3D点云之间的对应点对，所述标准3D点云由所述人注视已知位置捕获；以及

使用所述LSTM单元测量所述对应点对之间的差异。

14.根据权利要求13所述的装置，其中所述一个或多个处理器还被配置为：

基于所述对应点对之间的差异对所述人进行面部识别。

15.根据权利要求1至14中任一项所述的装置，其中所述一个或多个处理器还被配置为：

确定在第一时间点捕获的所述人脸的重建3D点云的第一版本和在第二时间点捕获的所述人脸的重建3D点云的第二版本之间的所述对应点对，包括确定使用长短期记忆(LSTM)单元的所述对应对；以及

使用所述LSTM单元测量所述对应点对之间的差异。

16.根据权利要求15所述的装置，其中：

所述一个或多个处理器还被配置为基于所述对应点对之间的差异确定所述人的眼睛注视的方向。

17.根据权利要求1至16中任一项所述的装置，其中所述一个或多个处理器还被配置为：

根据从所述IR相机捕获的IR数据生成两侧对称物体的三维(3D)点云；

根据从所述可见波长相机捕获的可见波长数据生成所述两侧对称物体的二维图像；

基于所述两侧对称物体的3D点云和所述两侧对称物体的二维图像检测所述两侧对称物体的对称平面，所述对称平面将所述3D点云分为两部分；以及

基于所述对称平面重建所述两侧对称物体的3D点云。

18.根据权利要求1至17中任一项所述的装置，其中所述一个或多个处理器还被配置为：

基于所述二维图像导出所述3D点云中用于体素的颜色信息。

19.一种用于眼睛注视跟踪的方法，包括：

根据从红外(IR)相机捕获的IR数据生成人脸的三维(3D)点云；

根据从可见波长相机捕获的可见波长数据生成人脸的二维图像；

基于所述对称平面重建所述3D点云；以及

基于所述重建3D点云跟踪所述人脸的眼睛注视。

20.根据权利要求19所述的方法，其中重建基于所述对称平面的所述3D点云包括来自基于代表所述人脸的第二半部的所述3D点云的第二部分的数据，重建代表所述人脸的第一半部的所述3D点云的第一部分。

21.根据权利要求19所述的方法，其中检测所述对称平面包括：

最小化成本函数以检测所述对称平面。

22.根据权利要求19所述的方法，其中：

基于所述重建3D点云检测和跟踪所述人脸的眼睛注视包括将数据输入到长短期记忆(LSTM)单元中，并基于所述LSTM单元的输出预测所述人的下一个注视。

23.根据权利要求19所述的方法，其中基于所述重建3D点云检测和跟踪所述人脸的眼睛的注视包括：

使用长短期记忆(LSTM)单元确定所述人脸的重建3D点云和所述人脸的另一个3D点云之间的对应点对；以及

使用所述LSTM单元测量所述对应点对之间的差异。

24.根据权利要求19所述的方法，其中基于所述重建3D点云检测和跟踪所述人脸的眼睛的注视包括：

访问一组3D点云，其中每一个对应于注视电子设备的显示屏上特定位置的所述人；

在所述组中选择一个最接近所述重建3D点云的3D点云；以及

基于所述选择的3D点云和所述重建3D点云之间的差异，计算对应于所述人的眼睛注视的所述显示屏上的位置。

25.一种用于检测眼睛注视的电子设备，包括：

至少一个相机；以及

一个或多个处理器被配置为：

根据从所述至少一个相机捕获的数据生成人脸图像；以及

将所述数据输入到长短期记忆(LSTM)单元中，以确定所述人的注视的方向。

26.根据权利要求25所述的电子设备，其中，所述一个或多个处理器还被配置为基于所述LSTM单元的序列的输出预测所述人的注视的下一位置。

27.根据权利要求25或26所述的电子设备，其中所述一个或多个处理器还被配置为：

确定在第一时间点捕获的所述人脸的数据的第一版本和在第二时间点捕获的所述人脸的数据的第二版本之间的所述对应点对，包括确定使用所述LSTM单元的所述对应对。

28.根据权利要求27所述的电子设备，其中所述一个或多个处理器还被配置为：

使用所述LSTM单元测量所述对应点对之间的差异。

29.根据权利要求28所述的电子设备，其中所述一个或多个处理器还被配置为：

基于所述对应点对之间的差异确定所述人的注视的方向。

30.根据权利要求25至29中任一项所述的电子设备，其中，所述数据包括3D点云，其中所述一个或多个处理器还被配置为：

使用所述LSTM单元确定所述人脸的3D点云和所述人脸的标准3D点云之间的对应点对，所述标准3D点云由所述人注视已知位置捕获。

31.根据权利要求25至30中任一项所述的电子设备，其中所述一个或多个处理器还被配置为：

使用所述LSTM单元测量所述对应点对之间的差异。

32.根据权利要求25至31中任一项所述的电子设备，其中所述一个或多个处理器还被配置为：

对所述人进行面部识别。

33.根据权利要求25至32中任一项所述的电子设备，其中：

所述电子设备还包括显示屏，以及

所述一个或多个处理器还被配置为基于所述人的注视的方向确定所述人正在注视的所述显示屏上的位置。

34.根据权利要求25至33中任一项所述的电子设备，其中：

所述至少一个相机包括红外相机；以及

所述人脸的图像包括根据从所述红外相机捕获的红外数据形成的3D点云。

35.根据权利要求25至34中任一项所述的电子设备，其中：

所述至少一个相机包括可见波长相机；以及

所述人脸的图像还包括根据由所述可见波长相机捕获的可见波长数据形成的2D图像。