CN111522430A - 注视追踪模型的训练 - Google Patents

注视追踪模型的训练 Download PDF

Info

Publication number
CN111522430A
CN111522430A CN201911324915.7A CN201911324915A CN111522430A CN 111522430 A CN111522430 A CN 111522430A CN 201911324915 A CN201911324915 A CN 201911324915A CN 111522430 A CN111522430 A CN 111522430A
Authority
CN
China
Prior art keywords
gaze
point
image
eye
captured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911324915.7A
Other languages
English (en)
Other versions
CN111522430B (zh
Inventor
大卫·莫林
埃里克·林登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tobii AB
Original Assignee
Tobii AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tobii AB filed Critical Tobii AB
Publication of CN111522430A publication Critical patent/CN111522430A/zh
Application granted granted Critical
Publication of CN111522430B publication Critical patent/CN111522430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0007Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

一种注视追踪模型适用于使用眼睛的图像来预测注视视线。所述模型是使用训练数据来训练,其中训练数据包括眼睛的第一图像、指示当捕捉第一图像时眼睛正朝向其注视的注视点的参考注视数据以及由第一相机和第二相机在一个时间点捕捉的眼睛的图像。所述训练包括:在注视点与由所述模型使用第一图像而预测的注视视线之间形成距离;基于通过所述模型使用由第一相机捕捉的图像而预测的注视视线以及通过所述模型使用由第二相机捕捉的图像而预测的注视视线而形成一致性度量;至少基于所形成的距离和一致性度量而形成目标函数;以及使用目标函数而训练所述模型。

Description

注视追踪模型的训练
技术领域
本公开总的来说涉及注视追踪。
背景技术
已开发不同技术来监视用户正看向哪一方向(或看着显示器上哪一点)。这通常被称为注视追踪或眼睛追踪。这些技术通常涉及眼睛的图像中的某些特征的检测,并且随后基于这些所检测的特征的位置来计算注视方向或注视点。此类注视追踪技术的实例是瞳孔中心角膜反射(PCCR)。基于PCCR的注视追踪使用瞳孔中心的位置以及闪光(照明器在角膜处的反射)的位置以计算眼睛的注视方向或显示器处的注视点。
作为对例如基于PCCR的注视追踪等常规技术的替代(或补充),可使用机器学习来训练算法以执行注视追踪。更具体来说,机器学习使用呈眼睛的图像以及相关联的已知注视点的形式的训练数据以训练算法,以使得经训练的算法可基于眼睛的图像而实时地执行注视追踪。此机器学习通常需要大量训练数据以正确地工作。训练数据可花费相当多的时间和/或资源来收集。在许多状况下,可对训练数据提出某些要求。训练数据应例如优选反映注视追踪算法应该能够处置的所有那些类型的状况/情形。如果训练数据中表示出仅某些类型的状况/情形(例如,仅小注视角度或仅良好照明的图像),那么注视追踪算法可对这些状况/情形良好地表现,但对于在训练阶段期间未曾涉及的其它状况/情形可能表现不是那么好。
将需要提供新的方法来解决上述问题中的一个或更多个。
发明内容
提供具有定义在独立权利要求中的特征的方法、系统和计算机可读存储介质,以解决上述问题中的一个或更多个。优选实施例定义在从属权利要求中。
因此,第一方面提供注视追踪方法的实施例。所述方法包括获得训练数据。训练数据包括成像装置所捕捉的眼睛的第一图像、指示当捕捉第一图像时眼睛正朝向其注视的注视点的参考注视数据以及分别由第一成像装置和第二成像装置在一个时间点(或在一个时例)捕捉的眼睛的图像。所述方法包括使用训练数据而训练注视追踪模型。注视追踪模型适用于使用成像装置所捕捉的那个眼睛的图像而预测此眼睛的注视视线。训练包括:在注视点与通过注视追踪模型使用第一图像而预测的注视视线之间形成距离;至少基于使用由第一成像装置在所述时间点(或在所述时例)捕捉的图像而通过注视追踪模型预测的注视视线以及使用由第二成像装置在所述时间点(或在所述时例)捕捉的图像而通过注视追踪模型预测的注视视线而形成一致性度量;至少基于所形成的距离和一致性度量而形成目标函数;以及使用目标函数而训练注视追踪模型。
包含眼睛的图像以及相关联的真实注视点的训练数据可相对容易地生成,例如通过要求用户看着某些刺激点并同时捕捉用户眼睛的图像。然而,仅基于此训练数据来预测注视视线可能是困难的。实际上,即使所预测的注视视线命中真实注视点,所预测的注视视线也可能显著不同于真实注视视线。包含真实注视视线的训练数据可能相当难以生成,这是因为即使真实注视点是已知的,注视起点的真实位置也通常是未知的。所提议的注视追踪方法中所使用的一致性度量允许注视追踪模型的训练不仅使用已知注视点与所预测的注视视线之间的比较,而且使用注视追踪模型针对由不同成像装置所捕捉的图像而预测的注视视线之间的比较。这是一种方式,用于测量所预测的注视视线是否看上去为现实的,而实际上不需要知晓真实注视视线或真实注视起点。
应了解,用以捕捉第一图像的成像装置不一定要是第一成像装置或第二成像装置。例如可使用第三成像装置来捕捉第一图像。
还应了解,第一图像不一定要在与由第一成像装置和第二成像装置捕捉图像的相同时间点(或相同时例)捕捉。第一图像可例如是在不同时间点捕捉,例如,在完全不同的时机捕捉。
还应了解,在所述时间点捕捉的图像不一定要包括由第一成像装置所捕捉的一个以上图像以及由第二成像装置所捕捉的一个图像。然而,在一些实施例中,训练数据可包含由第一成像装置所捕捉的多个图像和/或由第二成像装置所捕捉的多个图像。
此外,应了解,目标函数可例如是成本函数或损失函数。
第二方面提供注视追踪系统的实施例,其中所述注视追踪系统包括被配置成获得训练数据的处理电路(或一个或更多个处理器)。训练数据包括由成像装置所捕捉的眼睛的第一图像、指示当捕捉第一图像时眼睛正朝向其注视的注视点的参考注视数据以及分别由第一成像装置和第二成像装置在一个时间点捕捉的眼睛的图像。处理电路(或一个或更多个处理器)被配置成使用训练数据而训练注视追踪模型。注视追踪模型适用于使用由成像装置所捕捉的那个眼睛的图像而预测此眼睛的注视视线。处理电路被配置成至少通过以下方式来训练注视追踪模型:在注视点与使用第一图像而通过注视追踪模型预测的注视视线之间形成距离;至少基于使用由第一成像装置在所述时间点捕捉的图像而通过注视追踪模型预测的注视视线以及使用由第二成像装置在所述时间点捕捉的图像而通过注视追踪模型预测的注视视线而形成一致性度量;基于至少所形成的距离和一致性度量而形成目标函数;以及使用目标函数而训练注视追踪模型。
处理电路(或一个或更多个处理器)可例如被配置成执行如本文(换句话说,权利要求书、发明内容或具体实施方式中)所公开的第一方面的任一实施例所定义的方法。所述注视追踪系统可例如包括一个或更多个非暂时性计算机可读存储介质(或一个或更多个存储器),其中所述非暂时性计算机可读存储介质存储指令,所述指令在由处理电路(或一个或更多个处理器)执行时导致注视追踪系统执行如本文所公开的第一方面的任一实施例中定义的方法。
本公开中针对根据第一方面的方法的实施例而呈现的效果和/或优点可也适用于根据第二方面的系统的对应实施例。
第三方面提供非暂时性计算机可读存储介质的实施例,其中所述非暂时性计算机可读存储介质存储指令,所述指令在由注视追踪系统执行时导致注视追踪系统获得训练数据并使用训练数据而训练注视追踪模型。训练数据包括由成像装置所捕捉的眼睛的第一图像、指示当捕捉第一图像时眼睛正朝向其注视的注视点的参考注视数据以及分别由第一成像装置和第二成像装置在一个时间点捕捉的眼睛的图像。注视追踪模型适用于使用由成像装置所捕捉的眼睛的图像而预测此眼睛的注视视线。训练包括:在注视点与使用第一图像而通过注视追踪模型预测的注视视线之间形成距离;至少基于使用由第一成像装置在所述时间点捕捉的图像而通过注视追踪模型预测的注视视线以及使用由第二成像装置在所述时间点捕捉的图像而通过注视追踪模型预测的注视视线而形成一致性度量;基于至少所形成的距离和一致性度量而形成目标函数;以及使用目标函数而训练注视追踪模型。
非暂时性计算机可读存储介质可例如存储指令,所述指令在由注视追踪系统(或由注视追踪系统中所包括的处理电路)执行时导致注视追踪系统执行如本文(换句话说,权利要求书、发明内容或具体实施方式)所公开的第一方面的任一实施例所定义的方法。
非暂时性计算机可读存储介质可例如被提供在计算机程序产品中。换句话说,计算机程序产品可例如包括非暂时性计算机可读存储介质,其中所述非暂时性计算机可读存储介质存储指令,所述指令在由注视追踪系统执行时导致注视追踪系统执行如本文所公开的第一方面的任一实施例所定义的方法。
本公开中针对根据第一方面的方法的实施例而呈现的效果和/或优点可也适用于根据第三方面的非暂时性计算机可读存储介质的对应实施例。
应注意,本公开的实施例涉及权利要求书中所述的特征的所有可能的组合。
附图说明
在下文中,将参照附图来更详细地描述实例实施例,在附图中:
图1是眼睛的前视图;
图2是图1的眼睛的横截面图,这是从眼睛的旁侧观察的;
图3是根据实施例的注视追踪系统的示意性概览图;
图4图示可通过图3中的注视追踪系统而被训练的注视追踪模型;
图5图示定义注视视线的不同方式;
图6是根据实施例的注视追踪方法的流程图;
图7是根据实施例的在图6中的注视追踪方法中如何训练注视追踪模型的流程图;
图8图示根据实施例的在已由图3中的注视追踪系统训练之后可如何使用注视追踪模型;
图9是根据实施例的在注视追踪模型的训练期间约束注视追踪模型的方式;
图10到图11图示注视视线在不同坐标系之间的变换。
所有附图是示意性的,不一定按比例绘制,并且仅大体上示出示出阐明相应实施例所需的部分,而其它部分可被省略或仅被暗示地表示。除非另有指示,否则多幅附图中出现的任何附图标记在这些附图中表示相同物体或特征。
具体实施方式
贯穿本公开,术语“成像装置”表示适用于捕捉图像的装置。成像装置可例如是相机或图像传感器。
下文将参照图3到图9来描述注视追踪方法以及对应的系统和存储介质。首先,将参照图1到图2来描述眼睛的某些特征。
图1是眼睛100的前视图。图2是眼睛100的横截面图,从眼睛100的旁侧观察到。虽然图2几乎示出整个眼睛100,但图1所呈现的前视图仅示出通常从人的面部前方可见的眼睛100的那些部分。眼睛100具有瞳孔101,其中瞳孔101具有瞳孔中心102。眼睛100还具有虹膜103和角膜104。角膜104位于瞳孔101和虹膜103前面。角膜104是弧形的,并且具有被称为角膜曲率的中心105或简称为角膜中心105的曲率中心105。角膜104具有被称为角膜104的半径106或简称为角膜半径106的曲率半径。眼睛100还具有巩膜107。眼睛100具有可也被称为眼球的中心108或简称为眼球中心108的中心108。眼睛100的视轴109穿过眼睛100的中心108并经过眼睛100的中央凹110。眼睛100的光轴111穿过瞳孔中心102和眼睛100的中心108。视轴109相对于光轴111形成角度112。视轴109与光轴111之间的偏差或偏移通常被称为中央凹偏移112。在图2所示的实例中,眼睛100正看着显示器113,并且眼睛100正注视着显示器113处的注视点114。图1还示出照明器在角膜104处的反射115。此反射115也被称为闪光115。
图3是根据实施例的注视追踪系统300的示意性概览图。系统300包括成像装置301到304(例如,相机或图像传感器),用于在眼睛100看着显示器305(其可例如是图2所示的显示器113)时捕捉眼睛100的图像。根据实施例,系统300还包括被配置成执行注视追踪方法的处理电路306。下文将参照图6到图7来进一步描述注视追踪方法。
系统300可视情况包括用于照射眼睛100的一个或更多个照明器307(或光源)。一个或更多个照明器307可例如被布置成在眼睛100的角膜104处提供闪光以用于注视追踪。被布置成提供闪光的照明器307可例如相对于成像装置301到304和/或相对于显示器305布置在已知(或固定)位置处,以使得闪光的位置提供关于眼睛100在空间中的位置的信息。一个或更多个照明器307可例如被布置成增大由成像装置301到304中的一个或更多个成像装置所捕捉的图像中的眼睛100的瞳孔101与虹膜103之间的对比度。照明器307可例如是例如呈发光二极管(LED)形式的红外或近红外照明器。然而,也可设想其它类型的照明器。图3示出位于显示器305的任一侧处的实例照明器307,但照明器307可位于其它位置。系统300可例如包括分布在显示器305周围的照明器307。
处理电路306例如经由有线或无线连接而通信连接到成像装置301到304。处理电路306可还通信地连接到显示器305,例如以控制(或触发)显示器305以展示出用于注视追踪系统300的校准的测试刺激点308。处理电路306可还通信地连接到照明器307,例如用以控制照明器307与由成像装置301到304进行的图像的捕捉同步和/或与由处理电路306执行的图像处理同步。
成像装置301到304相对于彼此且相对于显示器305布置在已知位置处。成像装置301到304可例如安装在用于将成像装置301到304固持在适当位置中的固持装置装置309(例如,器具或机架)上。对成像装置301到304进行校准,使得从3D空间到2D图像空间的转移函数对于每一成像装置301到304来说是已知的。
成像装置301到304可例如是相机或图像传感器。成像装置301到304可例如是电荷耦合器件(CCD)相机或互补金属氧化物半导体(CMOS)相机。然而,也可设想其它类型的相机。图3示出位于显示器305的相应各侧处的实例成像装置301到304,但成像装置301到304可位于其它位置,例如,位于显示器305下方。系统300可例如包括分布在显示器305周围的成像装置。
显示器305可例如是液晶显示器(LCD)或LED显示器。然而,也可设想其它类型的显示器。显示器305可例如是平面显示器或曲面显示器。显示器305可例如是TV屏幕、计算机屏幕,或者可以是例如虚拟现实(VR)或增强现实(AR)装置等头戴式装置的一部分。显示器305可例如放置在用户其中一只眼睛之前。换句话说,对于左眼和右眼可使用单独的显示器305。例如,对于左眼和右眼可使用单独的注视追踪设备(例如,成像装置301到304和/或照明器307)。
处理电路306可用于双眼的注视追踪,或者对于左眼和右眼可存在单独的处理电路306。注视追踪系统300可例如单独地对左眼和右眼执行注视追踪,并且可接着将组合的注视点确定为左眼和右眼的注视点的平均值。
处理电路306可例如包括一个或更多个处理器310。处理器310可例如是被配置成执行特定注视追踪方法的专用集成电路(ASIC)。或者,处理器310可被配置成执行存储在一个或更多个存储器311中的指令(例如,呈计算机程序的形式)。此存储器311可例如包括在注视追踪系统300的电路306中,或可处于注视追踪系统300外部(例如,位于远离注视追踪系统300的位置)。存储器311可存储用于导致注视追踪系统300执行注视追踪方法的指令。
应了解,上文参照图3所述的注视追踪系统300是作为实例来提供,并且可设想许多其它注视追踪系统。例如,成像装置301到304和/或照明器307不一定要被视为注视追踪系统300的一部分。注视追踪系统300可例如仅由处理电路306组成。显示器305可例如包括在注视追踪系统300中,或可被视为与注视追踪系统300分离的。
图4图示可使用上文参照图3所述的注视追踪系统300而被训练的注视追踪模型401。注视追踪模型401适用于使用由成像装置所捕捉的眼睛100的2D图像403而预测或估计眼睛100在3D空间中的注视视线402。注视视线402具有注视起点404。注视追踪模型401可被视为一种映射或函数,其接收图像403作为输入并提供注视视线402作为输出。
上文参照图4所述的注视追踪模型401可例如是机器学习模型。注视追踪模型401可例如基于神经网络。
图5图示定义注视视线的不同方式。第一实例注视视线510开始于3D空间中的第一点511,并且经过3D空间中的第二点512。第一注视视线510可经由第一点511和第二点512来定义。第一点511可被称为第一注视视线510的注视起点。第二实例注视视线520开始于3D空间中的第三点521,并沿着向量522被引导,所述向量522定义第二注视视线520在3D空间中的方向。第二注视视线520可经由第三点521和向量522来定义。第三点521可被称为第二注视视线520的注视起点。上文参照图4所述的注视映射401可例如按沿着注视视线的两个点(例如,沿着第一注视视线510的第一点511和第二点521)或沿着注视视线的某个点以及注视视线的方向(例如,沿着第二注视视线520的第三点521以及向量522)的形式而预测注视视线402。
可使用上文参照图4所述的注视追踪模型401以基于由上文参照图3所述的系统300中的成像装置301到304所捕捉的图像而预测注视视线。在图3所示的实例中,眼睛100的中心108位于空间中的位置322处,并且正看着显示器305处的注视点321。因此,真实注视视线320从眼睛100的位置322朝向真实注视点321。在本实例中,注视追踪模型401基于由成像装置301所捕捉的图像而预测第一注视视线330,基于由成像装置302所捕捉的图像而预测第二注视视线340,并基于由成像装置303所捕捉的图像而预测第三注视视线350。也可使用由成像装置304所捕捉的图像,但在本实例中,并未使用成像装置304。
如图3所示,第一注视视线330在与真实注视点321相距短距离333的点331处到达显示器305,但始于眼睛100外的预测的注视起点332处,该预测的注视起点332与真实注视起点322相距相对长的距离334。因此,虽然事实上所估计的注视点331相当接近真实注视点321,但第一注视视线330相当不同于真实注视视线320。如图3所示,第二注视视线340在与真实注视点321相距相对短的距离343的点341处到达显示器305。第二注视视线340始于预测的注视起点342处,该预测的注视起点342与真实注视起点322相距相对短的距离344。第二注视视线340的方向相当类似于真实注视视线320的方向,但第二注视视线340相比真实注视视线320在空间中位于略有偏差的位置中。如图3所示,第三注视视线350在与真实注视点321相距相对长的距离353的点351处到达显示器305,并始于眼睛100外的预测的注视起点352处,该预测的注视起点352与真实注视起点322相距相对长的距离354。因此,第三注视视线350相当不同于真实注视视线320。
如图3所示,第一注视视线330虽然提供相对良好的所估计的注视点331,但相当不同于真实注视视线320。明确地说,其具有不现实的注视起点332。另一方面,第二注视视线340相当类似于真实注视视线320。由注视追踪模型401所预测的注视视线的准确性可经由注视追踪模型401的训练来被提高。在训练期间,相比如第一注视视线330的注视视线而推崇如第二注视视线340的注视视线将是合需的。然而,用于训练注视追踪模型的训练数据通常仅包含已知注视点以及在眼睛正注视已知注视点的同时捕捉的眼睛的图像。真实注视起点和真实注视视线通常是未知的,因此通常此数据无法在注视追踪模型401的训练期间使用。因此,可难以教导注视追踪模型输出如第二注视视线340的注视视线而不是输出如第一注视视线330的注视视线(第一注视视线330的注视起点332是完全不现实的)。
本发明者已意识到可在注视追踪模型401的训练期间使用立体一致性。更具体来说,只要将成像装置301到304的相对位置和取向考虑在内,那么针对由成像装置301所捕捉的图像,良好的注视追踪模型401应预测与针对由其它成像装置302到304中的任一个同时捕捉的图像类似的注视视线。因此,可在注视追踪模型401的训练期间使用针对相应成像装置301到304而预测的注视视线之间的比较。以此方式,即使真实注视视线和真实注视起点可能在训练数据中不可得,也可执行注视追踪模型401的训练。下文参照图6到图7所述的注视追踪方法使用基于这种认识的一致性度量。
图6是根据实施例的注视追踪方法600的流程图。图7是可如何在方法600中训练注视追踪模型401的流程图。现将参照图3到图7来描述方法600。
注视追踪方法600包括获得601训练数据。训练数据包括由成像装置所捕捉的眼睛100的第一图像、指示当捕捉第一图像时眼睛100正朝向其注视的注视点321的参考注视数据以及分别由第一成像装置和第二成像装置在一个时间点捕捉的眼睛100的图像。换句话说,由第一成像装置在所述时间点捕捉的图像是至少大致上与由第二成像装置在所述时间点捕捉的图像同时被捕捉。
在步骤601的第一实例实施方案中,第一图像由成像装置301捕捉,而第一成像装置和第二成像装置在一个时间点捕捉的图像由成像装置302和303捕捉。因此,在第一实例实施方案中,使用三个成像装置301到303来提供训练数据中所包含的图像(但应了解,训练数据可例如包含由成像装置301到303和/或其它成像装置304所捕捉的其它图像)。相比由成像装置302和303捕捉图像,第一图像可例如是在不同的时间点(例如,不同的日子)捕捉的。因此,与第一图像相关联的注视点相关的参考注视数据不一定与成像装置302和303捕捉其相应图像时的时间点相关。换句话说,针对成像装置302和303捕捉到其相应图像时的时间点的注视点可能是未知的。
在步骤601的第二实例实施方案中,捕捉第一图像的成像装置是第一成像装置。换句话说,第一图像由成像装置301捕捉,并且由第一成像装置和第二成像装置在一个时间点捕捉的图像被成像装置301和302捕捉。因此,在第二实例实施方案中,使用两个成像装置301到302来提供训练数据中所包含的图像(但应了解,训练数据可例如包含由成像装置301到302和/或其它成像装置303到304所捕捉的其它图像)。相比由成像装置301和302捕捉的另外两个图像,第一图像可例如是在不同的时间点(例如,不同的日子)捕捉的。
在步骤601的第三实例实施方案中,第一图像是由第一成像装置和第二成像装置在所述时间点捕捉的图像之一。换句话说,由第一成像装置和第二成像装置在一时间点捕捉的图像由成像装置301和302捕捉,并且第一图像与由成像装置301在所述时间点捕捉的图像或由成像装置302在所述时间点捕捉的图像相一致。因此,在第三实例实施方案中,使用两个成像装置301到302来提供训练数据中所包含的图像(但应了解,训练数据可例如包含成像装置301到302和/或其它成像装置303到304所捕捉的其它图像)。
在步骤601中获得训练数据中所包括的图像可例如按快照的形式获得或作为视频序列的一部分而获得。图像可例如是从成像装置301到303接收,或从成像装置301到303直接接收或从成像装置301到303间接接收(例如,经由系统300的一个或更多个其它部件)。训练数据可例如还包含由其它成像装置304所捕捉的图像和/或由成像装置301到303在其它时间点捕捉的图像。
方法600包括使用训练数据而训练602注视追踪模型401。如上文参照图4所述,注视追踪模型适用于使用由成像装置所捕捉的眼睛100的图像403而预测此眼睛100的注视视线402。训练602用于使注视追踪模型401更好地用于预测注视视线。如下所述,在训练期间使用目标函数(其可例如是成本函数)以指示在预测注视视线时什么训练内容被视为具有良好表现的。
将在下文参照第一实例实施方案来描述训练602注视追踪模型401的子步骤701到704,在所述第一实例实施方案中,使用三个成像装置301到303来捕捉训练数据中所包含的图像。应了解,可同样参照前面描述的第二实例实施方案或第三实例实施方案来描述子步骤701到704,在这些实例实施方案中,使用两个成像装置301到302来捕捉训练数据中所包含的图像。
训练602包括在注视点321与使用第一图像由注视追踪模型401预测的注视视线330之间形成701距离333。换句话说,距离333测量注视点321离所预测的注视视线330有多远。距离333可例如是在沿着最接近注视点321的注视视线330的点之间测量得到。换句话说,距离333可例如被测量为注视视线330与注视点321之间的最小距离。如果注视点321位于显示器(例如,显示器305)处,那么距离333可例如是在注视点321与注视视线330到达显示器305的点之间测量得到。
训练602包括至少基于使用由第一成像装置302在所述时间点捕捉的图像通过注视追踪模型401预测的注视视线340以及使用由第二成像装置303在所述时间点捕捉的图像通过注视追踪模型401预测的注视视线350而形成702一致性度量。一致性度量可用作测量所预测的注视视线340和350彼此多么类似的方式。下文将进一步描述一致性度量的实例。
训练602包括至少基于所形成的距离333和一致性度量而形成703目标函数。目标函数可例如被称为评估函数或评价函数。目标函数可例如是损失函数或成本函数。下文将进一步描述目标函数的实例。
方法602包括使用目标函数而训练704注视追踪模型401。训练704注视追踪模型401可例如包括设置注视追踪模型401的一个或更多个参数。可例如使用机器学习算法来训练704注视追踪模型401。神经网络可例如用于训练704注视追踪模型401。可例如使用卷积神经网络来训练704注视追踪模型401。
方法600中使用的目标函数可按不同方式来表达。令p0表示在步骤601中获得的注视数据所指示的注视点321。令r1表示针对在步骤601中获得的第一图像而预测的注视视线330。令p(ri)表示由注视视线r1在显示器305处提供的注视点331。换句话说,p(ri)是所预测的注视视线ri到达显示器305的点331。令r2和r3为针对由第一成像装置和第二成像装置在所述时间点捕捉的图像而预测的注视视线340和350。因而,目标函数L可表达为:
L=f1(|p0p(r1)|)+f2(r2,r3) (1)
其中f1是注视点p0与所预测的注视点p(r1)之间的距离的函数,并且f2是可被视为所预测的注视视线r2和r3的函数的一致性度量。方程式1中的目标函数L假设呈实数形式的值。目标函数的值取决于由注视追踪模型401所预测的注视视线r1、r2和r3
函数f1和f2的选择可取决于人们有多想要惩罚注视点p0与所预测的注视点p(ri)之间的距离以及当训练注视追踪模型401时所预测的注视视线r2和r3之间的偏差。函数f1通常是递增函数,例如,f1(x)=x或f1(x)=x2,但也可设想其它函数。函数f2通常随着注视视线r2和r3彼此之间的差增大而增大。函数f2可例如测量注视视线r2和r3的注视起点之间的距离和/或注视视线r2和r3的方向之间的差。换句话说,一致性度量f2可例如表达为:
f2(r2,r3)=f3(|o(r2)-o(r3)|) (2)
其中o(r2)是注视视线r2的注视起点,o(r3)是注视视线r3的注视起点,f3是递增函数(例如,f3(x)=x或f3(x)=x2),或表达为:
f2(r2,r3)=f4(dir(r2),dir(r3)) (3)
其中dir(r2)是注视视线r2的方向,dir(r3)是注视视线r3的方向,并且f4是随着注视视线r2和r3的方向变得彼此更为靠近而减小的函数。例如,f4可以是定义所预测的注视视线r2和r3的方向的向量之间的角度的函数(例如,f4(x)=x或f4(x)=x2)。
方程式1到3是在上文关于步骤601所述的第一实例实施方案的设置中表达的。在上文关于步骤601所述的第二实例实施方案中,仅需要两个成像装置,并且前两条注视视线r1和r2重合。在此设置中,来自方程式1的目标函数L可表达为:
L=f1(|p0-p(r2)|)+f2(r2,r3) (4)
因为注视视线r2和r3是基于在同一时间点捕捉的图像而预测的,所以所预测的注视视线r2和r3两者可与注视点p0相比较,因此目标函数L可表达为:
L=f1(|p0-p(r2)|)+f1(|p0-p(r3)|)+f2(r2,r3) (5)
通常,在步骤601中获得的训练数据相比上文所述的训练数据可包含较多图像和较多注视数据。例如,可
Figure BDA0002328122460000142
接收第一组K个图像连同相关联的注视点
Figure BDA0002328122460000143
注视点
Figure BDA0002328122460000144
可以是真实注视点或按任一适当方式估计的注视点。可基于相应图像来预测注视视线rk,并且可将这些注视视线rk在显示器305处的注视点p(rk)与所接收的注视点
Figure BDA0002328122460000145
相比较。可接收第二组N个图像,并且可基于这些图像来预测注视视线rn。可考虑这些注视视线rn之间的一致性。因此,目标函数L可表达为:
Figure BDA0002328122460000141
其中,针对从0到N的所有n
f2(rn,rn)=0。
在上述方程式1到6中,目标函数L已被表达为拟最小化的成本函数或损失函数。换句话说,在训练步骤704期间,训练注视追踪模型401,以使得由注视追踪系统401所预测的注视视线提供目标函数的低值(例如,呈小实数的形式)。训练步骤704可例如力求将目标函数最小化。在训练704期间,可例如修改或扩展注视追踪模型401,以减小目标函数的值或大小。在使用机器学习来训练注视追踪模型401的实施方案中,可例如使用助力(boosting)来扩展注视追踪模型401,以减小目标函数的值或大小。
应了解,函数L可乘以(-1)以产生拟最大化而不是最小化的目标函数。换句话说,在训练步骤704期间,可训练注视追踪模型401,以使得由注视追踪系统401所预测的注视视线提供目标函数的高值(例如,呈大实数的形式)。训练步骤704可例如力求将目标函数最大化。在训练704期间,可例如修改或扩展注视追踪模型401,以增大目标函数的值或大小。在使用机器学习来训练注视追踪模型401的实施方案中,可例如使用助力来扩展注视追踪模型401,以增大目标函数的值或大小。
上文参照图4所述的注视追踪模型401适用于基于眼睛100的图像403来预测注视视线402。所预测的注视视线402可例如是相对于捕捉图像的成像装置的像平面而在坐标系中表示。当针对由不同成像装置所捕捉的图像而预测的注视视线而使用一致性度量时,所预测的注视视线可能需要在被比较之前变换到公用坐标系中。如果注视追踪模型401表达为:
rk=h(imagek) (7)
其中k是捕捉图像imagek的成像装置,rk是所预测的注视视线,并且h是定义注视追踪模型401的映射,那么一致性度量可例如表达为:
Figure BDA0002328122460000151
其中映射gn→0和gm→0将注视视线rn和rm变换到公用坐标系中,并且
Figure BDA0002328122460000152
在公用坐标系中比较注视视线。
因此,根据实施例,形成一致性度量的步骤702可包括:
·使用注视追踪模型401以及由第一成像装置在所述时间点捕捉的图像而预测第一注视视线,
·使用注视追踪模型401以及由第二成像装置在所述时间点捕捉的图像而预测第二注视视线,
·将第一注视视线和第二注视视线变换到公用坐标系,以及
·使用所变换的第一注视视线和第二注视视线而形成一致性度量。
此情况图示在图10中。第一成像装置1010(其可例如是图3中的成像装置301)相对于其像平面具有第一坐标系1011。第一成像装置1010捕捉眼睛100的图像1012,并且注视追踪模型401在第一成像装置1010的第一坐标系1011中预测第一注视视线1013。第二成像装置1020(其可例如是图3中的成像装置302)相对于其像平面具有第二坐标系1021。第二成像装置1020捕捉眼睛100的图像1022,并且注视追踪模型401在第二成像装置1020的第二坐标系1021中预测第二注视视线1023。在本实例实施方案中,一致性度量使用公用坐标系1030,在所述公用坐标系1030中表达拟比较的所预测的注视视线。因此,将第一所预测的注视视线1013变换1014或转换到同一坐标系1030,以使得获得第一所变换的注视视线1015。变换1014可例如是基于对第一坐标系1011如何相对于公用坐标系1030定位的了解而得到。类似地,将第一所预测的注视视线1023变换1024或转换到公用坐标系1030,以使得获得第二所变换注视视线1025。变换1024可例如是基于对第二坐标系1021如何相对于公用坐标系1030定位的了解而得到。
公用坐标系1030可例如是与图3中的显示器305相关联的坐标系,例如,相对于显示器305而定义和/或相对于显示器305而固定的坐标系。公用坐标系1030可例如是与图3中的固持装置309相关联的坐标系,例如,相对于固持装置309而定义和/或相对于固持装置309而固定的坐标系。应了解,这些变换gn→0和gm→0可例如用于方程式2到3中所呈现的实例一致性度量中。
方程式8中所使用的公用坐标系可例如是与成像装置m相关联的坐标系(因此,不需要变换gm→0,这是因为注视视线rm已在公用坐标系中表达)。因此,根据实施例,形成一致性度量的步骤702可包括:
·使用注视追踪模型401以及通过第一成像装置在所述时间点捕捉的图像而预测第一注视视线,
·将第一注视视线变换到与第二成像装置相关联的坐标系,以及
·使用所变换的第一注视视线以及使用由第二成像装置在所述时间点捕捉的图像而通过注视追踪模型401预测的注视视线而形成一致性度量。
此情况图示在图11中。第一成像装置1110(其可例如是图3中的成像装置301)相对于其像平面具有第一坐标系1111。第一成像装置1110捕捉眼睛100的图像1112,并且注视追踪模型401在第一成像装置1110的第一坐标系1111中预测第一注视视线1113。第二成像装置1120(其可例如是图3中的成像装置302)相对于其像平面具有第二坐标系1121。第二成像装置1120捕捉眼睛100的图像1122,并且注视追踪模型401在第二成像装置1120的第二坐标系1121中预测第二注视视线1123。在本实例实施方案中,一致性度量使用第二坐标系1121以比较注视视线。因此,将第一所预测的注视视线1113变换1114或转换到第二坐标系1121,以使得获得第一所变换的注视视线1115。变换1114可例如是基于对第一坐标系1111如何相对于第二坐标系1121定位的了解而得到。第二所预测的注视视线1123已在第二坐标系1121中表达,并且因此不需要变换。
例如方程式1、4到6中使用的映射p也可将所预测的注视视线变换到公用坐标系中,以使得可计算预测的注视视线与显示器305的交点。因此,映射p可表达为:
Figure BDA0002328122460000171
其中
Figure BDA0002328122460000172
计算在公用坐标系中与显示器305的交点。
上文参照图4所述的注视追踪模型401可例如用于由具有不同特性的成像装置所捕捉的图像。成像装置可例如具有不同分辨率、不同焦距、其视域的不同尺寸等。至少一些这样的差异可通过引用根据下式的补偿函数compk→0来解决:
Figure BDA0002328122460000173
补偿函数可例如针对期望的图像分辨率来调整图像,和/或选择较大图像的某部分以获得覆盖预期视域的预期图像尺寸。一旦已针对期望的格式而调整了图像数据,函数
Figure BDA0002328122460000174
便可预测注视视线。
因此,根据实施例,形成一致性度量的步骤702可包括补偿第一成像装置的特性与第二成像装置的特性之间的差异。
不同用户的眼睛可能不同,并且即使一个用户的左眼和右眼也可能具有不同特性。使用同一只眼睛的图像而训练注视追踪模型401允许注视追踪模型401特别善于预测此具体眼睛的注视视线。因此,在上文参照图6所述的方法600的步骤601中获得的训练数据中,第一图像中的眼睛可例如与第一成像装置和第二成像装置在所述时间点捕捉的图像中的眼睛是同一只眼睛。
另一方面,如果使用许多不同眼睛的图像而训练注视追踪模型401,那么注视追踪模型401可能能够也对除注视追踪模型401的训练中所涉及的那些具体眼睛之外的其它眼睛良好地表现。例如当新用户开始使用采用注视追踪模型401的注视追踪系统时,可执行校准过程。因此,在上文参照图6所述的方法600的步骤601中获得的训练数据中,第一图像中的眼睛不一定要与由第一成像装置和第二成像装置在所述时间点捕捉的图像中的眼睛是同一只眼睛。
根据实施例,上文参照图6所述的方法600的步骤601中获得的参考注视数据指示当捕捉第一图像时眼睛正朝向其注视的已知参考点。在捕捉第一图像时,用户可例如已被提示看着已知参考点。换句话说,所指示的注视点321(参见图3)可以是眼睛100的真实注视点。然而,也可设想所指示的注视点321并非真实注视点的实施例。所指示的注视点321可例如是已按某一其它适当方式估计的注视点,并且可用于训练注视追踪模型401。
根据实施例,在上文参照图7所述的步骤702中形成的一致性度量指示使用至少由第一成像装置和第二成像装置所捕捉的图像而通过注视追踪模型401预测的注视视线之间的一致性程度。如方程式6所指示,在一致性度量中例如也可包含其它注视视线。
根据实施例,在步骤601中获得的训练数据可包含成像装置在同一时间点从不同角度捕捉的图像。更具体来说,在步骤702中通过一致性度量来比较的注视视线可由注视追踪模型401使用在同一时间点从不同角度捕捉的图像来预测。在图3所描绘的实例设置中,第一成像装置301从不同于第二成像装置302的角度捕捉眼睛100的图像,这是因为成像装置301和302相对于眼睛100位于不同位置处。如果用于一致性度量的两个或更多个成像装置相互极接近以至于它们从几乎相同的方向/角度观察眼睛100,那么在步骤703到704中将一致性度量用作目标函数的一部分的效果可能相对小。另一方面,如果一致性度量使用分开较远的成像装置(例如,如图3所示的成像装置301到304),那么在步骤703到704中将一致性度量用作目标函数的一部分的效果可能较大。一致性度量可例如使用基于从第一方向面向/观察眼睛100的第一成像装置捕捉的图像而预测的注视视线以及基于从第二方向面向/观察眼睛100的第二成像装置捕捉的图像而预测的注视视线。第一方向和第二方向可例如分开至少10度、或至少20度、或至少30度、或至少45度或至少60度的角度。在实例实施方案中,用于一致性度量的成像装置包含并非共面的成像装置,所述成像装置具有不同的到用户的面部的距离并且在眼睛与成像装置之间具有在水平方向上处于-30到30度的范围中并在垂直方向上处于-10到10度的范围中的角度。
图8图示根据实施例在已由图3中的注视追踪系统300训练之后可如何使用注视追踪模型401。眼睛100正看着显示器801,其中显示器801可例如是与图3中相同的显示器305或不同显示器。成像装置802(例如,相机)被布置成捕捉眼睛100的图像。成像装置802可例如是图3中的成像装置301到304中的一个,或者可以是不同的成像装置。使用所训练的注视追踪模型401来基于所捕捉的图像预测注视视线803。
因此,根据实施例,上文参照图6到图7所述的方法600包括以下任选步骤:获得603由成像装置802所捕捉的眼睛100的又一图像;以及使用又一图像和所训练的注视追踪模型401而预测604注视视线803。换句话说,注视追踪模型401已在具有多个成像装置301到304的设置中被训练,但现在可使用注视追踪模型401通过单个成像装置802来执行注视追踪。所训练的注视追踪模型401可例如用于估计显示器801处的注视点。应了解,所训练的注视追踪模型401可例如也在眼睛100正看着除显示器801外的其它东西的状况下用于注视追踪,只要成像装置802相对于眼睛100适当地定位以捕捉眼睛100的图像。
相比用于训练注视追踪模型401的成像装置301到304,成像装置802可例如具有不同分辨率、不同焦距、其视野的不同尺寸等。至少一些这种差异可通过将类似于上文结合方程式10所述的补偿函数应用到由成像装置802所捕捉的图像来解决。根据实施例,在步骤603中获得的又一图像中的眼睛与在步骤601中获得的图像中的眼睛是同一只眼睛。换句话说,所训练的注视追踪模型401可用于已针对其进行过训练的同一只眼睛,这可有利于良好的注视追踪性能。然而,注视追踪模型401可例如使用许多不同眼睛的图像来训练,以使得也能够针对除注视追踪模型401的训练中所涉及的那些具体眼睛之外的其它眼睛来执行注视追踪。例如当新用户开始使用采用所训练的注视追踪模型401的注视追踪系统时,可执行校准过程。
如图8所示,处理电路804可通信地连接到成像装置802,以从成像装置802接收图像。类似于图3中的处理电路306,处理电路804可包括一个或更多个处理器805和一个或更多个存储器806。处理电路804可例如执行方法步骤603和604。处理电路804可例如与图3中的处理电路306相一致,因此,处理电路804可执行方法600的所有步骤601到604。
所训练的注视追踪模型401可例如包括在处理电路306或存储器311中,并且可在物理上传送至图8中的新设置,在那里,所训练的注视追踪模型401将用于注视追踪。或者,所训练的注视追踪模型401可按软件的形式来存储,并且可复制或传输或下载到处理电路804中以用于注视追踪中。
如果已使用照明器在注视追踪模型401的训练期间提供闪光,那么在通过所训练的注视追踪模型401执行注视追踪时,可使用对应的照明器807。
根据实施例,注视追踪模型401适用于沿着其预测的注视视线402估计眼睛100的参考点。注视追踪模型401预测的眼睛100的参考点可例如是所预测的注视视线402的注视起点404,其中如果已正确地预测注视视线402,那么注视起点404应位于眼睛100处(或眼睛100中)。眼睛100的参考点可例如是眼睛100的中心108、角膜104的中心105或瞳孔中心102。应了解,由注视追踪模型401所估计的眼睛的参考点(或注视起点)是一个点,其不同于可通过将所预测注视视线与眼睛100所观察的显示器305相交而获得的眼睛100的注视点。在图3所示的实例中,眼睛的所估计的参考点是按相应的所预测的注视视线330、340和350的所估计的注视起点332、342和352的形式来提供。根据实施例,方法600中的形成702一致性度量的步骤包括在针对由第一成像装置(例如,图3中的成像装置302)在所述时间点捕捉的图像而估计的参考点(例如,图3中的注视起点342)与针对由第二成像装置(例如,图3中的成像装置303)在所述时间点捕捉的图像而估计的参考点(例如,图3中的注视起点352)之间形成距离(例如,图3中的距离380)。这示范在上文的方程式2中,其中一致性度量是基于针对所预测的注视视线r2和r3所估计的注视起点之间的差/距离。如上文结合方程式6所述,一致性度量可例如包含两个以上所预测的注视视线之间的一致性的评估。例如,一致性度量可包含所估计的注视起点332与342之间的距离360、所估计的注视起点332与352之间的距离370以及所估计的注视起点342与352之间的距离380。
根据实施例,注视追踪模型401适用于估计眼睛的注视方向,其中注视追踪模型401因此估计注视视线402。所估计的注视方向对应于所预测的注视视线402的方向,并且可例如按照平行于注视视线402的向量的形式来提供,如图5中的向量522所示范。在本实施例中,方法600中的形成一致性度量的步骤702包括在通过注视追踪模型401针对由第一成像装置(例如,图3中的成像装置302)在所述时间点捕捉的图像而估计的注视方向与通过注视追踪模型401针对由第二成像装置(例如,图3中的成像装置303)在所述时间点捕捉的图像而估计的注视方向之间形成差异。这示范在上文的方程式3中,其中一致性度量是基于所预测的注视视线r2和r3的方向。所预测的注视视线的方向之间的差异可按不同方式来表达。一种方式是将该差异表达为形成在定义相应所预测的注视视线r2和r3的方向的向量之间的角度。换句话说,一致性度量可例如基于形成在定义相应的所预测的注视视线r2和r3的方向的向量之间的角度。一旦已正确地训练注视追踪模型401,所预测的注视视线之间的合理角度可例如是0到2度。
图9示出根据实施例在注视追踪模型401的训练期间约束注视追踪模型401的方式。图9示出眼睛100、眼睛100的中心901以及相对于眼睛100的中心901的距离902。真实注视视线始于眼睛100。取决于偏好,人们可以规定,注视视线始于中央凹110(参见图2)、眼球中心108、角膜中心105或瞳孔中心103。然而,由注视追踪模型401所预测的注视视线应经过眼睛100的一部分或至少相当接近眼睛100。在注视追踪模型401的训练期间,人们可因此要求由注视追踪模型401所预测的注视视线相对于眼睛100的中心901在某一距离902内经过。
因此,根据实施例,方法600包括至少基于由第一成像装置和第二成像装置在所述时间点捕捉的图像而估计眼睛的位置901。眼睛100的位置901可例如经由三角测量或经由基于PCCR的注视追踪方法来估计。在本实施例中,注视追踪模型401适用于沿着由注视追踪模型401所预测的注视视线估计眼睛100的参考点(或注视起点)。在本实施例中,训练注视追踪模型401的步骤602是受制于以下条件下执行的:所估计的参考点(或注视起点)应该(或需要)相对于眼睛100的所估计的位置901处于某一距离902内。距离902可例如是眼睛100的半径,以使得所预测的注视视线被迫与眼睛100相交,因此注视追踪模型401不会提供不现实的注视视线(例如,图3中的注视视线330)。距离902可例如略大于眼睛100的半径,以允许所预测的注视视线至少几乎与眼睛相交。
上文参照图4到图9所述的方法表示本公开的第一方面。上文参照图3所述的注视追踪系统300表示本公开的第二方面。系统300(或系统300的处理电路306)可例如被配置成执行上文所述的第一方面的任一实施例的注视追踪方法。系统300可例如被配置成执行上文参照图6到图7所述的方法600。
根据实施例,注视追踪系统300包括处理电路306,该处理电路306被配置成获得训练数据并使用训练数据而训练注视追踪模型。训练数据包括由成像装置所捕捉的眼睛的第一图像、指示当捕捉第一图像时眼睛正朝向其注视的注视点的参考注视数据以及分别由第一成像装置和第二成像装置在一个时间点捕捉的眼睛的图像。注视追踪模型适用于使用由成像装置所捕捉的眼睛的图像而预测此眼睛的注视视线。处理电路被配置成通过至少以下步骤而训练注视追踪模型:
·在注视点与使用第一图像而通过注视追踪模型预测的注视视线之间形成距离;
·至少基于使用由第一成像装置在所述时间点捕捉的图像而通过注视追踪模型预测的注视视线以及使用由第二成像装置在所述时间点捕捉的图像而通过注视追踪模型预测的注视视线而形成一致性度量;
·至少基于所形成的距离和一致性度量而形成目标函数;以及
·使用目标函数而训练注视追踪模型。
如上文参照图3所述,注视追踪系统300不一定要包括图3所示的所有元件。例如,注视追踪系统300可使用三个成像装置,而不是图3所示的四个成像装置,并且系统不一定要使用任何照明器307。
应了解,系统300不一定要使用显示器305。可例如针对除显示器305处的注视点之外的其它注视点来执行上文参照图6到图7所述的注视追踪方法600。方法600中使用的注视点可例如是用户正朝向其观察的表面处的注视点。
本公开的第三方面由非暂时性计算机可读存储介质311的实施例表示,其中非暂时性计算机可读存储介质311存储指令,所述指令在由注视追踪系统300执行时导致注视追踪系统300执行上文所述的第一方面的任一实施例的方法(例如,上文参照图6到图7所述的方法600)。
根据实施例,非暂时性计算机可读存储介质311存储指令,所述指令在由注视追踪系统300执行时导致注视追踪系统300获得训练数据并使用该训练数据而训练注视追踪模型。训练数据包括由成像装置所捕捉的眼睛的第一图像、指示当捕捉第一图像时眼睛正朝向其注视的注视点的参考注视数据以及分别由第一成像装置和第二成像装置在一个时间点捕捉的眼睛的图像。注视追踪模型适用于使用由成像装置所捕捉的眼睛的图像而预测此眼睛的注视视线。训练包括:
·在注视点与使用第一图像而由注视追踪模型预测的注视视线之间形成距离;
·至少基于使用由第一成像装置在所述时间点捕捉的图像而通过注视追踪模型预测的注视视线以及使用由第二成像装置在所述时间点捕捉的图像而通过注视追踪模型预测的注视视线而形成一致性度量;
·至少基于所形成的距离和一致性度量而形成目标函数;以及
·使用目标函数而训练注视追踪模型。
如上文参照图3所述,存储介质311不一定要包括在系统300中。
本领域的技术人员应意识到,本发明绝不限于上文所述的优选实施例。相反,许多修改和变化在随附权利要求书的范围内是可能的。例如,上文参照图1到图9所述的实施例可组合以形成其它实施例。此外,应了解,图3所示的注视追踪系统300仅希望作为实例,并且其它注视追踪系统也可执行上文参照图5到图6所示的方法。还应了解,上文参照图5到图6所述的方法步骤不一定要按这些图中所示的具体次序执行。
应了解,图3所图示的注视视线仅出于说明的目的而示出,这些实例注视视线不一定由实际注视映射模型410预测。
应了解,处理电路304(或处理器)可包括以下各者中的一个或更多个的组合:微处理器、控制器、微控制器、中央处理单元、数字信号处理器、专用集成电路、现场可编程门阵列或任何其它适当计算装置、资源,或硬件、软件和/或编码逻辑的组合,其可操作以独自地或结合其它计算机部件(例如,存储器或存储介质)提供计算机功能。
还应了解,存储器或存储介质311(或计算机可读介质)可包括任何形式的易失性或非易失性计算机可读存储器,包含(但不限于)永久存储装置、固态存储器、远程安装存储器、磁性介质、光学介质、随机存取存储器(RAM)、只读存储器(ROM)、海量存储介质(例如,硬盘)、可移动存储介质(例如,闪速存储器、光盘(CD)或数字视频光盘(DVD))和/或任何其它易失性或非易失性、非暂时性可读装置和/或计算机可执行存储器装置,其存储可由处理器或处理电路使用的信息、数据和/或指令。
此外,所公开的实施例的变化可被本领域的技术人员在实践所主张的发明时从附图、公开内容和随附权利要求书的研读来理解和实行。在权利要求书中,用词“包括”不排除其它元件或步骤,并且用词“一”或“一个”不排除多个。在权利要求书中,用词“或”不应解释为互斥或(有时被称为“XOR”)。相反,除非另有指示,否则例如“A或B”等表达涵盖“A且非B”、“B且非A”和“A和B”等所有状况。在相互不同的从属权利要求中引述某些措施这一单纯事实不指示这些措施的组合无法有利使用。权利要求书中的任何附图标记不应解释为限制范围。

Claims (20)

1.一种注视追踪方法(600),所述注视追踪方法包括:
获得(601)训练数据,其中所述训练数据包括:
由成像装置(301、302)所捕捉的眼睛(100)的第一图像;
参考注视数据,其指示当捕捉所述第一图像时所述眼睛正朝向其注视的注视点(321);以及
分别由第一成像装置(302)和第二成像装置(303)在一个时间点捕捉的眼睛的图像;以及
使用所述训练数据而训练(602)注视追踪模型(401),
其中所述注视追踪模型适于使用由成像装置所捕捉的眼睛的图像(403)而预测所述眼睛的注视视线(402),
其中所述训练包括:
在所述注视点与通过所述注视追踪模型使用所述第一图像而预测的注视视线(330)之间形成(701)距离(333);
至少基于通过所述注视追踪模型使用由所述第一成像装置在所述时间点捕捉的所述图像而预测的注视视线(340)以及通过所述注视追踪模型使用由所述第二成像装置在所述时间点捕捉的所述图像而预测的注视视线(350)而形成(702)一致性度量;
至少基于所形成的所述距离和所述一致性度量而形成(703)目标函数;以及
使用所述目标函数而训练(704)所述注视追踪模型。
2.根据权利要求1所述的方法,其中捕捉所述第一图像的所述成像装置是所述第一成像装置(302)。
3.根据前述权利要求中任一项所述的方法,其中所述第一图像是在所述时间点捕捉的所述图像中的一个。
4.根据前述权利要求中任一项所述的方法,其中所述第一图像中的所述眼睛与在所述时间点捕捉的所述图像中的眼睛是同一只眼睛。
5.根据前述权利要求中任一项所述的方法,其中所述第一图像是在所述第一图像中的所述眼睛正朝向已知参考点(321)注视时捕捉的,并且其中所述参考注视数据指示所述已知参考点。
6.根据前述权利要求中任一项所述的方法,其中所述一致性度量指示通过所述注视追踪模型使用由至少所述第一成像装置和所述第二成像装置所捕捉的图像而预测的注视视线之间的一致性程度。
7.根据前述权利要求中任一项所述的方法,还包括:
获得(603)由成像装置(802)所捕捉的眼睛(100)的又一图像;以及
使用所述又一图像和所述所训练的注视追踪模型而预测(604)注视视线。
8.根据权利要求7所述的方法,其中所述又一图像中的所述眼睛与在所述时间点捕捉的所述图像中的眼睛是同一只眼睛。
9.根据前述权利要求中任一项所述的方法,其中所述注视追踪模型按至少以下的形式来预测注视视线(510、520):
沿着所述注视视线的两个点(511、512);或者
沿着所述注视视线的点(511、512、521)以及所述注视视线的方向(522)。
10.根据前述权利要求中任一项所述的方法,其中所述注视追踪模型适于沿着所述注视视线(330、340、350)估计眼睛的参考点(332、342、352),并且其中形成所述一致性度量包括:
在针对由所述第一成像装置在所述时间点捕捉的所述图像而估计的所述参考点(342)与针对由所述第二成像装置在所述时间点捕捉的所述图像而估计的所述参考点(352)之间形成距离(380)。
11.根据前述权利要求中任一项所述的方法,其中所述注视追踪模型适于估计眼睛的注视方向(522),并且其中形成所述一致性度量包括:
在通过所述模型针对由所述第一成像装置在所述时间点捕捉的所述图像而估计的所述注视方向与通过所述模型针对由所述第二成像装置在所述时间点捕捉的所述图像而估计的所述注视方向之间形成差异。
12.根据前述权利要求中任一项所述的方法,还包括:
针对在所述时间点捕捉的所述图像中的所述眼睛,至少基于在所述时间点捕捉的所述图像而估计所述眼睛的位置(901),
其中所述注视追踪模型适于沿着所述注视视线(330、340、350)估计所述眼睛的参考点(332、342、352),其中所述注视追踪模型的所述训练是受制于以下条件下执行的:所估计的所述参考点应相对于所估计的所述眼睛的所述位置处于某一距离(902)内。
13.根据前述权利要求中任一项所述的方法,其中形成所述一致性度量包括:
a)使用所述注视追踪模型以及由所述第一成像装置(1110)在所述时间点捕捉的所述图像(1112)而预测第一注视视线(1113),将所述第一注视视线变换到与所述第二成像装置(1120)相关联的坐标系(1121),以及使用所述所变换的第一注视视线(1115)以及通过所述注视追踪模型使用由所述第二成像装置在所述时间点捕捉的所述图像(1122)而预测的注视视线(1123)而形成所述一致性度量;或者
b)使用所述注视追踪模型以及由所述第一成像装置(1010)在所述时间点捕捉的所述图像(1012)而预测第一注视视线(1013),使用所述注视追踪模型以及由所述第二成像装置(1020)在所述时间点捕捉的所述图像(1022)而预测第二注视视线(1023),将所述第一注视视线和所述第二注视视线变换到公用坐标系(1030),以及使用所述所变换的第一注视视线和第二注视视线(1015、1025)而形成所述一致性度量。
14.根据前述权利要求中任一项所述的方法,其中形成所述一致性度量包括:
补偿所述第一成像装置的特性与所述第二成像装置的特性之间的差异。
15.根据前述权利要求中任一项所述的方法,其中所述注视追踪模型是机器学习模型。
16.根据前述权利要求中任一项所述的方法,其中使用所述目标函数而训练所述注视追踪模型包括:
修改或扩展所述注视追踪模型以减小所述目标函数的值;或者
修改或扩展所述注视追踪模型以增大所述目标函数的值。
17.根据前述权利要求中任一项所述的方法,其中通过所述第一成像装置在所述时间点捕捉的所述图像是从与通过所述第二成像装置在所述时间点捕捉的所述图像的角度不同的角度捕捉的。
18.一种注视追踪系统(300),所述注视追踪系统包括处理电路(306),所述处理电路(306)被配置成:
获得训练数据,其中所述训练数据包括:
由成像装置(301)所捕捉的眼睛(100)的第一图像;
参考注视数据,其指示当捕捉所述第一图像时所述眼睛正朝向其注视的注视点(321);以及
分别由第一成像装置(302)和第二成像装置(303)在一个时间点捕捉的眼睛的图像;以及
使用所述训练数据而训练注视追踪模型(401),其中所述注视追踪模型适于使用由成像装置所捕捉的眼睛的图像(403)而预测所述眼睛的注视视线(402),其中所述处理电路被配置成通过至少以下步骤而训练所述注视追踪模型:
在所述注视点与通过所述注视追踪模型使用所述第一图像而预测的注视视线(330)之间形成距离(333);
至少基于通过所述注视追踪模型使用由所述第一成像装置在所述时间点捕捉的所述图像而预测的注视视线(340)以及通过所述注视追踪模型使用由所述第二成像装置在所述时间点捕捉的所述图像而预测的注视视线(350)而形成一致性度量;
至少基于所形成的所述距离和所述一致性测度量而形成目标函数;以及
使用所述目标函数而训练所述注视追踪模型。
19.根据权利要求18所述的注视追踪系统,其中
a)所述注视追踪模型适于沿着所述注视视线(330、340、350)估计眼睛的参考点(332、342、352),所述处理电路被配置成通过至少以下步骤而形成所述一致性度量:
在针对通过所述第一成像装置在所述时间点捕捉的所述图像而估计的所述参考点(342)与针对通过所述第二成像装置在所述时间点捕捉的所述图像而估计的所述参考点(352)之间形成距离(380);和/或
b)所述注视追踪模型适于估计眼睛的注视方向(522),并且其中所述处理电路被配置成通过至少以下步骤而形成所述一致性度量:
在通过所述模型针对由所述第一成像装置在所述时间点捕捉的所述图像而估计的所述注视方向与通过所述模型针对由所述第二成像装置在所述时间点捕捉的所述图像而估计的所述注视方向之间形成差异。
20.一种非暂时性计算机可读存储介质(311),所述计算机可读存储介质存储指令,所述指令在由注视追踪系统(300)执行时导致所述注视追踪系统进行以下动作:
获得训练数据,其中所述训练数据包括:
由成像装置(301)所捕捉的眼睛(100)的第一图像;
参考注视数据,其指示当捕捉所述第一图像时所述眼睛正朝向其注视的注视点(321);以及
分别由第一成像装置(302)和第二成像装置(303)在一个时间点捕捉的眼睛的图像;以及
使用所述训练数据而训练注视追踪模型(401),
其中所述注视追踪模型适于使用由成像装置所捕捉的眼睛的图像(403)而预测所述眼睛的注视视线(402),
其中所述训练包括:
在所述注视点与通过所述注视追踪模型使用所述第一图像而预测的注视视线(330)之间形成距离(333);
至少基于通过所述注视追踪模型使用由所述第一成像装置在所述时间点捕捉的所述图像而预测的注视视线(340)以及通过所述注视追踪模型使用由所述第二成像装置在所述时间点捕捉的所述图像而预测的注视视线(350)而形成一致性度量;
基于至少所形成的所述距离和所述一致性度量而形成目标函数;以及
使用所述目标函数而训练所述注视追踪模型。
CN201911324915.7A 2018-12-21 2019-12-20 注视追踪模型的训练 Active CN111522430B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE1851661 2018-12-21
SE1851661-7 2018-12-21

Publications (2)

Publication Number Publication Date
CN111522430A true CN111522430A (zh) 2020-08-11
CN111522430B CN111522430B (zh) 2023-11-07

Family

ID=71517080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911324915.7A Active CN111522430B (zh) 2018-12-21 2019-12-20 注视追踪模型的训练

Country Status (2)

Country Link
US (1) US10996751B2 (zh)
CN (1) CN111522430B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114616598A (zh) * 2020-10-09 2022-06-10 谷歌有限责任公司 使用眼睛注视数据的文本布局解释

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11340701B2 (en) * 2019-12-16 2022-05-24 Nvidia Corporation Gaze determination using glare as input
US11391945B2 (en) * 2020-08-31 2022-07-19 Sony Interactive Entertainment LLC Automatic positioning of head-up display based on gaze tracking
WO2022081235A1 (en) * 2020-10-12 2022-04-21 Xiaochun Nie Systems and methods for measuring visual axis of the eye
CN113537295B (zh) * 2021-06-22 2023-10-24 北京航空航天大学 基于离群点引导的视线估计跨场景适配方法和装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742623B1 (en) * 2008-08-04 2010-06-22 Videomining Corporation Method and system for estimating gaze target, gaze sequence, and gaze map from video
US20140049452A1 (en) * 2010-07-23 2014-02-20 Telepatheye, Inc. Eye gaze user interface and calibration method
US8878749B1 (en) * 2012-01-06 2014-11-04 Google Inc. Systems and methods for position estimation
US20150003819A1 (en) * 2013-06-28 2015-01-01 Nathan Ackerman Camera auto-focus based on eye gaze
CN104871525A (zh) * 2012-12-26 2015-08-26 索尼公司 图像处理装置、以及图像处理方法及程序
US20150242680A1 (en) * 2014-02-26 2015-08-27 Vaibhav Thukral Polarized gaze tracking
US20160004303A1 (en) * 2014-07-07 2016-01-07 Logitech Europe Sa Eye gaze tracking system and method
US20160011658A1 (en) * 2014-04-11 2016-01-14 Javier San Agustin Lopez Systems and methods of eye tracking calibration
CN107392156A (zh) * 2017-07-25 2017-11-24 北京七鑫易维信息技术有限公司 一种视线估计方法及装置
CN107771051A (zh) * 2014-11-14 2018-03-06 Smi创新传感技术有限公司 眼睛追踪系统以及检测优势眼的方法
CN108171152A (zh) * 2017-12-26 2018-06-15 深圳大学 深度学习人眼视线估计方法、设备、系统及可读存储介质
CN108351514A (zh) * 2015-11-02 2018-07-31 欧库勒斯虚拟现实有限责任公司 使用结构光的眼睛追踪
US10061383B1 (en) * 2015-09-16 2018-08-28 Mirametrix Inc. Multi-feature gaze tracking system and method
US20180308252A1 (en) * 2017-04-19 2018-10-25 The Nielsen Company (Us), Llc Methods and systems to increase accuracy of eye tracking
CN108985172A (zh) * 2018-06-15 2018-12-11 北京七鑫易维信息技术有限公司 一种基于结构光的视线追踪方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9563805B2 (en) * 2014-09-02 2017-02-07 Hong Kong Baptist University Method and apparatus for eye gaze tracking
WO2017179279A1 (ja) * 2016-04-12 2017-10-19 パナソニックIpマネジメント株式会社 視線測定装置および視線測定方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742623B1 (en) * 2008-08-04 2010-06-22 Videomining Corporation Method and system for estimating gaze target, gaze sequence, and gaze map from video
US20140049452A1 (en) * 2010-07-23 2014-02-20 Telepatheye, Inc. Eye gaze user interface and calibration method
US8878749B1 (en) * 2012-01-06 2014-11-04 Google Inc. Systems and methods for position estimation
CN104871525A (zh) * 2012-12-26 2015-08-26 索尼公司 图像处理装置、以及图像处理方法及程序
US20150003819A1 (en) * 2013-06-28 2015-01-01 Nathan Ackerman Camera auto-focus based on eye gaze
US20150242680A1 (en) * 2014-02-26 2015-08-27 Vaibhav Thukral Polarized gaze tracking
US20160011658A1 (en) * 2014-04-11 2016-01-14 Javier San Agustin Lopez Systems and methods of eye tracking calibration
US20160004303A1 (en) * 2014-07-07 2016-01-07 Logitech Europe Sa Eye gaze tracking system and method
CN107771051A (zh) * 2014-11-14 2018-03-06 Smi创新传感技术有限公司 眼睛追踪系统以及检测优势眼的方法
US10061383B1 (en) * 2015-09-16 2018-08-28 Mirametrix Inc. Multi-feature gaze tracking system and method
CN108351514A (zh) * 2015-11-02 2018-07-31 欧库勒斯虚拟现实有限责任公司 使用结构光的眼睛追踪
US20180308252A1 (en) * 2017-04-19 2018-10-25 The Nielsen Company (Us), Llc Methods and systems to increase accuracy of eye tracking
CN107392156A (zh) * 2017-07-25 2017-11-24 北京七鑫易维信息技术有限公司 一种视线估计方法及装置
CN108171152A (zh) * 2017-12-26 2018-06-15 深圳大学 深度学习人眼视线估计方法、设备、系统及可读存储介质
CN108985172A (zh) * 2018-06-15 2018-12-11 北京七鑫易维信息技术有限公司 一种基于结构光的视线追踪方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114616598A (zh) * 2020-10-09 2022-06-10 谷歌有限责任公司 使用眼睛注视数据的文本布局解释
CN114616598B (zh) * 2020-10-09 2023-08-04 谷歌有限责任公司 使用眼睛注视数据的文本布局解释
US11941342B2 (en) 2020-10-09 2024-03-26 Google Llc Text layout interpretation using eye gaze data

Also Published As

Publication number Publication date
CN111522430B (zh) 2023-11-07
US10996751B2 (en) 2021-05-04
US20200225745A1 (en) 2020-07-16

Similar Documents

Publication Publication Date Title
CN111522430B (zh) 注视追踪模型的训练
JP6340503B2 (ja) 目追跡システム及び利き目を検出する方法
US8958599B1 (en) Input method and system based on ambient glints
WO2019153370A1 (en) 3d gazing point detection by binocular homography mapping
US10354136B2 (en) Head mounted eye tracking device and method for providing drift free eye tracking through a lens system
CN109472189B (zh) 瞳孔半径补偿
EP3108292A1 (en) Stereoscopic display responsive to focal-point shift
TWI688254B (zh) 立體顯示裝置及其參數校正方法
CN111124104A (zh) 使用瞳孔中心位置的映射进行注视跟踪
WO2019010959A1 (zh) 用于确定视线的方法、设备和计算机可读存储介质
CN108369744B (zh) 通过双目单应性映射的3d注视点检测
JP6631951B2 (ja) 視線検出装置及び視線検出方法
CN110537897B (zh) 视线追踪方法和装置、计算机可读存储介质、电子设备
TWI570638B (zh) 凝視分析方法與裝置
JP6324119B2 (ja) 回転角度算出方法、注視点検出方法、情報入力方法、回転角度算出装置、注視点検出装置、情報入力装置、回転角度算出プログラム、注視点検出プログラム及び情報入力プログラム
CN111513670A (zh) 用于眼睛追踪中的角膜半径的估计
EP3542308B1 (en) Method and device for eye metric acquisition
CN114415826A (zh) 一种数据处理方法及其设备
US11061473B2 (en) Updating a cornea model
KR101817436B1 (ko) 안구 전위 센서를 이용한 영상 표시 장치 및 제어 방법
US11941172B2 (en) Training an eye tracking model
JP6496917B2 (ja) 視線測定装置および視線測定方法
CN111464808B (zh) 立体显示装置及其参数校正方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant