CN118170249A - 眼动跟踪系统及对应的方法 - Google Patents

眼动跟踪系统及对应的方法 Download PDF

Info

Publication number
CN118170249A
CN118170249A CN202311656732.1A CN202311656732A CN118170249A CN 118170249 A CN118170249 A CN 118170249A CN 202311656732 A CN202311656732 A CN 202311656732A CN 118170249 A CN118170249 A CN 118170249A
Authority
CN
China
Prior art keywords
camera
calibration
eye
user
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311656732.1A
Other languages
English (en)
Inventor
马格努斯·伊瓦森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tobii AB
Original Assignee
Tobii AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tobii AB filed Critical Tobii AB
Publication of CN118170249A publication Critical patent/CN118170249A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B21/00Measuring arrangements or details thereof, where the measuring technique is not covered by the other groups of this subclass, unspecified or not relevant
    • G01B21/02Measuring arrangements or details thereof, where the measuring technique is not covered by the other groups of this subclass, unspecified or not relevant for measuring length, width, or thickness
    • G01B21/04Measuring arrangements or details thereof, where the measuring technique is not covered by the other groups of this subclass, unspecified or not relevant for measuring length, width, or thickness by measuring coordinates of points
    • G01B21/042Calibration or calibration artifacts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/38Registration of image sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Optics & Photonics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Eye Examination Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种对眼动跟踪系统进行校准的方法,其中眼动跟踪系统从相机获得用户眼睛的多个图像、使用归一化处理将图像转换到归一化图像空间、以及使用注视点确定处理来确定用户眼睛的注视的估计,对眼动跟踪系统进行校准的方法包括:在用户被指示观看校准点时,从相机获得用户眼睛的校准图像;获得相机的至少一种固有特性的潜在值;使用归一化处理基于相机的至少一种固有特性的潜在值来转换校准图像,以生成对应的归一化校准图像;使用注视点检测处理来处理归一化校准图像;以及确定相对于在用户观看校准点时的预期注视点,归一化校准图像中的哪一个最佳地估计了用户眼睛的注视点;以及设置归一化处理以供眼动跟踪系统后续使用。

Description

眼动跟踪系统及对应的方法
技术领域
本公开内容涉及眼动跟踪系统、可以包括注视检测系统的方法以及可以使用诸如神经网络等深度学习系统来从用户眼睛的一个或多个图像检测注视点的方法。
背景技术
与计算设备的交互是当今世界的一种基本行为。诸如个人计算机、平板计算机和智能电话等计算设备在日常生活中随处可见。另外,诸如可穿戴头戴设备(例如,虚拟现实头戴装置和增强现实头戴装置)等可穿戴计算设备正变得越来越流行。用于与这种设备进行交互的系统和方法定义了如何使用它们以及它们用于何种用途。
眼动跟踪技术的进步已使得可以使用人的注视点信息(换句话说,用户正在观看的显示器上的位置)来与计算设备进行交互。此信息可以单独地、或与基于接触的基于交互的技术(例如,使用用户输入设备,诸如键盘、鼠标、触摸屏或其他输入/输出接口)结合地用于交互。
先前提出的用于使用深度学习系统从用户眼睛的图像确定注视点信息的系统和方法可以在EP 3 547 216中找到,该专利通过引用并入本文。
一般而言,先前已知的使用深度学习系统来确定用户注视点的系统和方法或者被配置为与特定相机一起使用以获得用户眼睛的图像,或者是基于对用于获得用户眼睛的图像的相机的特性的详细了解。
然而,期望能够不限于特定相机或不需要详细了解相机的配置地执行注视跟踪,使得即使不详细了解相机的配置,也可以使用更广范围的相机进行注视跟踪。
根据本公开内容,提供了一种对与相机一起使用的眼动跟踪系统进行校准的方法,其中,在使用时,眼动跟踪系统从相机获得用户眼睛的多个图像、使用归一化处理以基于相机的至少一种固有特性来将图像转换到归一化图像空间、以及使用注视点确定处理以基于归一化图像来确定用户眼睛的注视点的估计,对眼动跟踪系统进行校准的方法包括:
在用户被指示观看校准点时,从相机获得用户眼睛的校准图像;获得相机的至少一种固有特性的潜在值;使用归一化处理基于相机的至少一种固有特性的潜在值来转换校准图像,以生成对应的归一化校准图像;使用注视点检测处理来处理归一化校准图像;以及确定相对于在用户观看校准点时的预期注视点,多个归一化校准图像中的哪一个最佳地估计了用户眼睛的注视点;以及设置归一化处理以供眼动跟踪系统后续使用以使用相机的至少一种固有特性的值,该值被用于生成最佳地估计了在用户观看校准点时的预期注视点的归一化校准图像。
在一种布置中,相机的至少一种固有特性——其潜在值被用于生成对应的归一化校准图像——包括相机的视域、相机的焦距以及相机的像主点中的至少一者。
在一种布置中,被用于生成归一化校准图像的潜在值包括相机的对角视域的值。
在一种布置中,相机的对角视域的潜在值是在40°到100°的范围内,可选地在50°到90°的范围内,可选地在60°到80°的范围内。
在一种布置中,相机的对角视域的潜在值跨一定范围并且被以10°、5°、3°或1°之一的间隔提供。
在一种布置中,从相机获得用户眼睛的多个校准图像,每个校准图像与在获得校准图像时指示用户观看的不同校准点相关联;基于相机的至少一种固有特性的潜在值来将每个校准图像转换为归一化校准图像,以提供多个归一化校准图像组,每个归一化校准图像组包括与指示用户观看的每个校准点相对应的归一化校准图像,并且在该组中的每个归一化校准图像是以相机的至少一种固有特性的相同潜在值生成的;并且该方法包括:使用注视点确定处理来处理多个归一化校准图像组,并且确定相对于在用户观看校准点时的预期注视点,多组归一化校准图像组中的哪一组最佳地估计了用户眼睛的注视点;以及设置归一化处理以供眼动跟踪系统后续使用以使用相机的至少一种固有特性的值,该值与最佳地估计了在用户观看校准点时的预期注视点的归一化校准图像组相关联。
在一种布置中,确定相对于在用户观看校准点时的预期注视点,哪组归一化校准图像组最佳地估计了用户眼睛的注视点包括:针对每个归一化校准图像组确定针对每个校准点的估计注视点与预期注视点之间的平均差。
在一种布置中,在用户被指示观看该校准点或每个校准点时,从相机获得用户眼睛的多个校准图像;以及使用相机的至少一种固有特性的多个潜在值中的每个潜在值将与校准点相对应的每个校准图像转换为相应的归一化校准图像,这些归一化校准图像被用于确定相机的至少一种固有特性的哪个值要被用于归一化处理以供眼动跟踪系统后续使用。
在一种布置中,在眼动跟踪系统中使用的归一化处理附加地使用相机的未使用归一化校准图像确定的至少一种固有特性。
在一种布置中,对眼动跟踪系统进行校准的方法包括从相机获得识别相机的至少一种固有特性的数据。
在一种布置中,对眼动跟踪系统进行校准的方法包括根据由相机提供的图像数据来确定相机的至少一种固有特性的值。
在一种布置中,相机的至少一种固有特性的潜在值是预先确定的,并且该方法包括从与眼动跟踪系统相关联的存储器获得潜在值。
在一种布置中,眼动跟踪系统被配置为与显示器一起使用;并且对眼动跟踪系统进行校准的方法包括在显示器上提供图像以提供在获得校准图像时供用户观看的校准点。
在一种布置中,该方法包括从用户那里获得数据,该数据与相机相对于显示器的位置和相机相对于显示器的取向中的至少一者相对应。
在一种布置中,该方法包括指示用户将相机与显示器的平面对准。
在一种布置中,该方法包括通过跟踪用户将设置在显示器上的图标移动到最靠近相机的位置来获得与相机相对于显示器的位置相对应的数据。
在一种布置中,相机和显示器的相对位置是固定的。
根据本公开内容,提供了一种使用眼动跟踪系统来跟踪用户的注视的方法,包括使用根据上面讨论的布置中的任一种来对眼动跟踪系统进行校准。
根据本公开内容,提供了一种与相机一起使用的眼动跟踪系统,其中,眼动跟踪系统被配置为从相机获得用户眼睛的多个图像、使用归一化处理以基于相机的至少一种固有特性将图像转换到归一化图像空间、以及使用注视点确定处理以基于归一化图像来确定用户眼睛的注视的估计;并且眼动跟踪系统进一步被配置为:在用户被指示观看校准点时,从相机获得用户眼睛的校准图像;获得相机的至少一种固有特性的潜在值;使用归一化处理基于相机的至少一种固有特性的潜在值来转换校准图像,以生成对应的归一化校准图像;使用注视检测处理来处理归一化校准图像;确定相对于在用户观看校准点时的预期注视点,多个归一化校准图像中的哪一个最佳地估计了用户眼睛的注视点;以及设置归一化处理以供眼动跟踪系统后续使用以使用相机的至少一种固有特性的值,该值被用于生成最佳地估计了在用户观看校准点时的预期注视点的归一化校准图像。
在一种布置中,相机的至少一种固有特性——潜在值被用于对该固有特性生成对应的归一化校准图像——包括相机的视域、相机的焦距以及相机的像主点中的至少一者。
在一种布置中,被用于生成归一化校准图像的潜在值包括相机的对角视域的值。
在一种布置中,相机的对角视域的潜在值是在40°到100°的范围内,可选地在50°到90°的范围内,可选地在60°到80°的范围内。
在一种布置中,相机的对角视域的潜在值跨一定范围并且被以10°、5°、3°或1°之一的间隔提供。
在一种布置中,眼动跟踪系统被配置成使得从相机获得用户眼睛的多个校准图像,每个校准图像与在获得校准图像时指示用户观看的不同校准点相关联;基于相机的至少一种固有特性的潜在值来将每个校准图像转换为归一化校准图像,以提供归一化校准图像组,每个归一化校准图像组包括与指示用户观看的每个校准点相对应的归一化校准图像,并且在该组中的每个归一化校准图像是以相机的至少一种固有特性的相同潜在值生成的;并且眼动跟踪系统进一步被配置为使用注视点确定处理来处理归一化校准图像组,并且确定相对于在用户观看校准点时的预期注视点,归一化校准图像组中的哪一组最佳地估计了用户眼睛的注视点;以及设置归一化处理以供眼动跟踪系统后续使用以使用相机的至少一种固有特性的值,该值与最佳地估计了在用户观看校准点时的预期注视点的归一化校准图像组相关联。
在一种布置中,确定相对于在用户观看校准点时的预期注视点,哪个归一化校准图像组最佳地估计了用户眼睛的注视点包括针对每个归一化校准图像组确定针对多个校准点中的每个校准点的估计注视点与预期注视点之间的平均差。
在一种布置中,在用户被指示观看该校准点或每个校准点时,从相机获得用户眼睛的多个校准图像;以及使用相机的至少一种固有特性的多个潜在值中的每个潜在值将与校准点相对应的每个校准图像转换为相应的归一化校准图像,这些归一化校准图像被用于确定相机的至少一种固有特性的哪个值要被用于归一化处理以供眼动跟踪系统后续使用。
在一种布置中,在眼动跟踪系统中使用的归一化处理附加地使用相机的未使用归一化校准图像确定的至少一种固有特性。
在一种布置中,眼动跟踪系统被配置为从相机获得识别相机的至少一种固有特性的数据。
在一种布置中,眼动跟踪系统被配置为根据由相机提供的图像数据来确定相机的至少一种固有特性的值。
在一种布置中,相机的至少一种固有特性的潜在值是预先确定的,并且眼动跟踪系统被配置为从与眼动跟踪系统相关联的存储器获得潜在值。
在一种布置中,眼动跟踪系统被配置为与显示器一起使用;并且眼动跟踪系统被配置为在显示器上提供图像以提供在获得校准图像时供用户观看的校准点。
在一种布置中,眼动跟踪系统被配置为从用户获得数据,该数据与相机相对于显示器的位置和相机相对于显示器的取向中的至少一项相对应。
在一种布置中,眼动跟踪系统被配置为指示用户将相机与显示器的平面对准。
在一种布置中,眼动跟踪系统被配置为通过跟踪用户将设置在显示器上的图标移动到最靠近相机的位置来获得与相机相对于显示器的位置相对应的数据。
在一种布置中,相机和显示器的相对位置是固定的。
根基本公开内容,提供了一种计算机程序产品,其包括指令,这些指令当在处理器上执行时使处理器执行上面讨论的任何一种布置的方法。
根据本公开内容,提供了一种上面讨论的计算机程序产品,其包括存储指令的非暂态计算机可读介质。
附图说明
图1示意性地描绘了眼动跟踪系统。
图2描绘了操作眼动跟踪系统的方法。
图3描绘了对眼动跟踪系统进行校准的方法。
图4描绘了对眼动跟踪系统进行校准的方法。
图5描绘了在对眼动跟踪系统进行校准的方法中使用的显示器。
图6描绘了在对眼动跟踪系统进行校准的方法中使用的显示器。
具体实施方式
图1示意性地描绘了本公开内容的眼动跟踪系统的示例。如图所示,提供相机10以获得用户眼睛15的图像。相机10可以被提供为使得当用户正在观看显示器20时该相机可以捕获用户眼睛15的图像,例如以确定用户正在观看显示器20上的哪个点。相机10连接到处理系统25,该处理系统被配置为处理来自相机10的图像以便提供对用户的注视点的确定。
应该理解的是,相机10可以通过任何适当的手段连接到处理系统25,以便将包括图像数据的数据从相机10提供给处理系统25。例如,相机10可以通过使用任何适合的协议的有线连接或无线连接来连接到处理系统25。
还应该理解的是,处理系统25不需要如图1示意性地描绘的那样设置在计算机硬件的单个单元内,而是可以是分布式的,使得一些处理是在眼动跟踪系统硬件内或在被配置为执行眼动跟踪的计算设备上本地执行的,而一些处理是远程执行的。例如,一些计算密集的处理任务(诸如基于深度学习系统的处理任务)可以是远程执行的,诸如通过云托管服务来执行。
图2概述了通过诸如图1中描绘的眼动跟踪系统执行的方法。在第一步骤30中,获得用户眼睛15的一个或多个图像。然后使用归一化处理35处理一个或多个图像,以基于相机10的至少一种固有特性40将图像转换到归一化图像空间。归一化图像经历注视点确定处理45以便确定用户眼睛15的注视点的估计50。如前面所讨论的,注视点确定处理可以基于深度学习系统,例如使用神经网络。在使用眼动跟踪系统之前,使用用户眼睛的多个图像来训练深度学习系统。使用归一化图像,深度学习系统可以基于由相机10捕获的图像来执行注视确定,该相机具有与用于捕获被使用以便训练深度学习系统的训练图像的相机不同的相机固有特性值,诸如图像分辨率、焦距或视域。因此,深度学习系统不需要针对每个不同的相机单独地进行训练。
在一种布置中,如EP 3 547 216 A1中详细讨论的,相机捕捉用户注视3D空间中的点的二维(2D)图像。根据该2D图像估算相机与用户眼睛之间的粗略距离。2D图像被归一化,以高分辨率生成以用户眼睛为中心的扭曲图像,而以低分辨率生成用户脸部周围的扭曲图像。这些扭曲的图像被输入到神经网络,该神经网络进而预测每一只眼的2D注视向量以及针对粗略距离的距离校正。基于粗略距离和距离校正以及相机在3D空间中的位置来估计眼睛在3D空间中的位置。基于2D空间与3D空间之间的映射函数,每个2D注视向量被映射到3D注视方向。眼睛的3D位置及其3D注视方向指示与该只眼睛相关联的3D注视点。
因为使用了归一化的2D图像,并且因为神经网络预测距离校正和2D注视向量,所以神经网络的预测不依赖于相机和屏幕配置。因此,相同的经训练的神经网络可以在不同的眼动跟踪系统中使用,这些眼动跟踪系统包括与不同类型的智能手机、平板计算机、膝上型计算机、可穿戴头戴设备(例如,虚拟现实头戴装置和增强现实头戴装置)整合的眼动跟踪系统以及独立的眼动跟踪系统。进一步地,因为检测到3D注视点,所以可以支持立体显示和3D应用。
神经网络的训练通常依赖于训练图像,这些训练图像在注视点相对于用于捕获训练图像的相机的2D平面(例如,对于每个相机,垂直于相机视线的XY平面)的位置是分集的。具体来说,一些训练图像示出注视位于相机的2D平面中的注视点的用户眼睛,而其他训练图像示出注视2D平面之外的注视点的用户眼睛。在训练期间,神经网络寻找用户眼睛-相机与用户使用-注视点之间的注视角度以及眼睛到相机的距离。因为使用了分集,所以神经网络可以正确地找到角度和距离。根据注视角度预测注视线(也称为注视光线),并且计算注视点与注视线之间的距离(注视点到注视线的距离)。神经网络的损失函数涉及注视点到注视线的距离。在训练期间,更新神经网络的参数(例如,在不同层处的节点之间的连接权重),以通过使真实的注视点到注视线的距离与预测的注视点到注视线的距离之间的差最小化来使损失函数最小化。为了简洁起见,从这里开始,图像指的是2D图像,除非另有说明。
可以在归一化处理35中使用以将由相机10捕获的图像转换到归一化图像空间的相机10固有特性可以包括相机的视域、相机的焦距、相机的像主点以及相机的分辨率中的至少一者。因此,为了执行归一化处理35,需要向处理系统25提供归一化处理35所需的相机10的每个固有特性40的值。
在一些布置中,可以在操作眼动跟踪系统之前获得相机10的至少一种固有特性40。例如,处理系统25可能能够直接从相机10获得相机10的一种或多种固有特性40的值。
可替代地或附加地,处理系统25可能能够从相机10本身或者通过用户经由用户界面的输入获得相机10的型号,并且在查找表中查找该型号的相机10的固有特性的值,该查找表可以被保存在处理系统内或者可以经由诸如互联网等网络访问。
可替代地或附加地,眼动跟踪系统可以提示用户经由用户界面输入相机10的固有特性40的值。
可替代地或附加地,处理系统25可能能够根据由相机10提供的图像数据本身来确定相机10的至少一种固有特性40的值。例如,处理系统25可能能够根据由相机10提供的图像数据确定相机10的图像分辨率。
然而,在一些情况下,在操作眼动跟踪系统之前获得相机10的至少一种固有特性40可能是无法实现的或不合需的。因此,本公开内容提供了一种对与相机10一起使用的眼动跟踪系统进行校准的方法,以便提供相机10的至少一种固有特性40的值以用在归一化处理35中,该归一化处理用于生成在注视点确定处理45中使用的归一化图像。在确定要在眼动跟踪系统的后续操作中使用的相机10的至少一种固有特性的值时,可以选择导致在后续使用中最准确的注视估计的值,无论该值是否最准确地估计了相机10的固有特性的值。
应该理解的是,校准方法可以在操作眼动跟踪系统之前使用和/或在眼动跟踪系统的操作期间定期地使用。
图3描绘了根据本公开内容的对眼动跟踪系统进行校准的方法的步骤。在第一步骤60中,指示用户观看校准点,该校准点被选择以使得眼动跟踪系统具有与用户观看校准点时的预期注视点相对应的数据。
在下一个步骤65中,在用户正在观看校准点时从相机10获得用户眼睛15的校准图像。同时,在单独的步骤70中,获得相机10的至少一种固有特性40的多个潜在值。
相机10的至少一种固有特性40的多个潜在值可以是预定范围的潜在值,例如是基于可以与眼动跟踪系统一起使用的相机10的已知范围的可能值,或可以基于眼动跟踪系统已经获得的关于正在使用的相机10的信息来确定。与相机10的至少一种固有特性40的潜在值相关的任何数据可以被存储在与眼动跟踪系统相关联的存储器中并且从该存储器获得。这样的存储器可以是眼动跟踪系统的一部分,例如被包括在眼动跟踪系统的处理系统25内,或者可以与眼动跟踪系统分离但可由其访问。
在校准方法的下一个步骤75中,眼动跟踪系统的归一化处理35使用相机10的至少一种固有特性40的多个潜在值中的每一个潜在值将从相机10获得的校准图像转换成相应的归一化校准图像。在获得相机10的仅一种固有特性40的多个潜在值的情况下,可以针对相机10的一种固有特性的每个潜在值从校准图像生成归一化校准图像。当相机10的多种固有特性40是未知的并且每种固有特性的潜在值被获得时,可以针对相机10的固有特性40的潜在值的每个组合生成归一化校准图像。
在随后的步骤80中,使用眼动跟踪系统的注视检测处理45来处理每个归一化校准图像,以便为每个校准图像提供相应的注视点估计。然后,在比较步骤90中,将由注视点检测处理45生成的每个注视点估计与用户正在观看校准点时的预期注视点进行比较,以便确定哪个归一化校准图像最佳地估计了在观看校准点时用户眼睛15的注视点。例如,可以将预期注视点与由注视检测处理45生成的注视点估计生成的每个注视点估计进行比较,以确定哪个最接近在用户正在观看校准点时的预期注视点。因此,最佳估计可以是最接近在用户正在观看校准点时的预期注视点的注视点估计。
在随后的步骤95中,相机10的用于生成归一化校准图像(其最佳地估计了在用户观看校准点时的预期注视点)的至少一种固有特性的值被设置为在眼动跟踪系统后续使用中的归一化处理35中后续地用作相机10的至少一种固有特性40的值。这可以使眼动跟踪系统能够基于深度学习算法,尽管事实上深度学习算法可能已经使用从一个或多个相机(其具有与来自与眼动跟踪系统一起使用的相机的固有特性值不同的相机固有特性值,诸如图像分辨率、焦距以及视域)捕获的图像进行训练,并且尽管事实上与眼动跟踪系统一起使用的相机的这些固有特性中的至少一个的值是未知的。
应该理解的是,上述校准方法实际上可以估计相机的至少一种固有特性40的值。然而,情况并非一定如此。例如,相机10的固有特性的另一个潜在值可以是相机的实际固有特性的更准确的估计。然而,上述方法最终确定在图像归一化处理35中应该使用相机的固有特性的哪个值以在操作眼动跟踪系统时为用户眼睛提供最佳注视点估计。
在一种布置中,相机的通过生成对应的校准图像来获得并测试多个潜在值的至少一种固有特性40可以包括相机的视域、相机的焦距以及相机的像主点中的至少一者。在一种布置中,用于生成归一化校准图像的潜在值可以包括相机的对角视域的值。
在相机10的对角视域的值未知的布置中,潜在值可以设置在40°到100°的范围内,可选地在50°到90°的范围内,可选地在60°到80°的范围内。将理解的是,提供更宽范围的潜在值增大了与眼动跟踪系统一起使用的相机10的实际值落入该范围内的可能性。然而,测试的值范围越宽,要么是计算工作量越大(例如,如果这导致测试更多数量的潜在值),要么是潜在值之间的间隔越大(例如,如果测试任意范围内固定数量的潜在值),这可能会降低相机10的固有特性的所选值与其真实值的匹配准确度。
在一种布置中,其中通过基于潜在值生成归一化校准图像来测试相机10的对角视域的潜在值,潜在值可以跨诸如上面所讨论的范围,并且可以被以例如10°、5°、3°或1°的间隔提供。例如,在一种布置中,其中以5°间隔在50°到90°的范围内提供相机的对角视域的潜在值,在步骤70中提供的用于将校准图像转换成相应的归一化校准图像的多个潜在值可以是50°、55°、65°、70°、75°、80°、85°以及90°。
同样,将理解的是,通过将间隔设置得越小,多个校准图像中的一个校准图像提供与用户的正在观看校准点时的预期注视紧密匹配的注视点估计的可能性就越大。然而,间隔越小,需要使用注视检测处理45生成并处理的归一化校准图像的数量越大,即,计算工作量越大。因此,在设置要在校准方法中使用的相机10的固有特性40的多个潜在值时,有必要认识到执行校准眼动跟踪系统的方法的计算工作量和/或速度与校准处理的质量(即,操作中眼动跟踪系统的注视点确定的后续准确性)之间的权衡。
还应该理解的是,尽管在上面的示例中,使用了跨一定范围的潜在值的均匀分布,但情况并非一定如此,并且用于选择要在校准方法中使用的相机10的固有特性40的多个潜在值的其他选项可能是合适的。例如,可以知道相机10的固有特性的一组值对于可以与眼动跟踪系统一起使用的相机来说是最常见的。因此,要在校准方法中使用的多个潜在值可以被设置为可以与眼动跟踪系统一起使用的相机的一组最常用的值。
在一种布置中,在用户被指示观看校准点时,可以从相机10获得用户眼睛的多个校准图像。可以使用相机10的固有特性40的多个潜在值中的每个潜在值对校准点的多个校准图像中的每个校准图像进行归一化以生成校准图像。进而可以使用注视点检测处理45来处理每个校准图像以生成注视点估计。因此,对于相机10的至少一种固有特性40的多个潜在值中的每个潜在值,校准方法可以生成多个注视点估计,针对在用户正在观看校准点时获得的每个校准图像生成一个注视点估计。
在这样的布置中,被选择用于后续在眼动跟踪系统的操作中使用的相机10的至少一种固有特性40的值可以通过以下方式来选择:识别一个值,该值导致与相机10的至少一种固有特性40的值相关联的注视点估计与用户正在观看校准点时的预期注视点之间的最小平均差。
将理解的是,在用户观看校准点时获得并处理多少个校准图像的选择是一种权衡。使用更多数量的校准图像可以提高在眼动跟踪系统的后续操作中使用的相机10的至少一种固有特性40的值的选择质量。然而,它也增加了完成校准处理的计算工作量。在一种布置中,在用户观看校准点时,可以捕获10至15个校准图像中的任何一个。
图4描绘了上面描述的和图3中所示的方法的变例。特别地,在图4中描绘的方法中,在第一步骤160中指示用户连续地观看多个不同的校准点。在用户正在观看每个校准点时,在步骤165中从相机10获得对应的校准图像,使得每个校准图像与不同的校准点相关联。
以与上面关于图3讨论的方式类似的方式,在步骤170中获得要测试的相机10的固有特性40的多个潜在值,并且在步骤175中使用这些潜在值来生成归一化校准图像。特别地,生成归一化校准图像组,每个归一化校准图像组包括与指示用户观看的每个校准点相对应的归一化校准图像。附加地,在每个校准图像组中,对于相机10的至少一种固有特性40,所有校准图像都以相同的(多个)潜在值生成。
在随后的步骤180中,所有归一化校准图像都经历眼动跟踪系统的注视点确定处理45,以生成与归一化校准图像组相对应的注视点估计组。随后,在确定处理190中,确定相对于在用户观看对应的校准点时的预期注视点,多个归一化校准图像组中的哪个组最佳地估计了用户眼睛15的注视点。与上面关于图3所讨论的方法一样,在最后的步骤195中,针对与归一化校准图像组相关联的相机10的至少一种固有特性40的(多个)值(其最佳地估计了在用户观看校准点时的预期注视点)被设置用于在眼动跟踪系统的操作期间后续使用归一化处理35。
将理解的是,可以以多种方式执行确定哪个归一化校准图像组最佳地估计了在用户观看校准点时的预期注视点。例如,步骤190可以包括对于每个归一化校准图像组确定针对每个校准点的估计注视点与预期注视点之间的平均差,并且选择具有最小平均差的归一化校准图像组。
以与上面关于图3所讨论的方式类似的方式,在一种布置中,在用户被指示观看每个校准点时,可以从相机10获得用户眼睛的多个校准图像。可以使用相机10的固有特性40的多个潜在值中的每个潜在值对每个校准点的多个校准图像中的每个校准图像进行归一化以生成校准图像。进而可以使用注视点检测处理45来处理每个校准图像以生成注视点估计。因此,对于相机10的至少一种固有特性40的多个潜在值中的每个潜在值,校准方法可以生成多个注视点估计,针对在用户正在观看每个校准点时获得的每个校准图像生成一个注视点估计。
在这样的布置中,被选择用于后续在眼动跟踪系统的操作中使用的相机10的至少一种固有特性40的值可以通过以下方法来选择:识别一个值,该值导致与相机10的至少一种固有特性40的值相关联的注视点估计与用户正在观看每个校准点时的预期注视点之间的最小平均差。
将理解的是,针对每个校准点选择获得并处理多少个校准图像是一种权衡。对于每个校准点使用更多数量的校准图像可以提高在眼动跟踪系统的后续操作中使用的相机10的至少一种固有特性40的值的选择质量。然而,它也增加了完成校准处理的计算工作量,特别是因为这种计算工作量也随着所使用的校准点的数量而增加。在一种布置中,可以针对使用的每个校准点而捕获10至15个校准图像中的任何一个。
上述的对眼动跟踪系统进行校准的方法可以由眼动跟踪系统的处理系统25执行。可替代地或附加地,对眼动跟踪系统进行校准的方法的一些或部分可以在单独的处理系统(其可以是眼动跟踪系统的一部分或与眼动跟踪系统分离)中执行。例如,如果在由眼动跟踪系统执行时校准处理太慢,则与眼动跟踪系统分离的单独的处理系统可能是有益的。
在一种布置中,在获得校准图像时指示用户观看的一个或多个校准点可以是相对于相机10的固定点。例如,可以指示用户测量距相机10的设定距离并且在该位置处观看。
在眼动跟踪系统被配置为与显示器20一起使用的布置中,对眼动跟踪系统进行校准的方法可以包括在显示器上提供图像以提供在获得校准图像时供用户观看的校准点。例如,如图5所示,在使用多个校准点的布置中,显示器可以在显示器上的期望位置处连续地提供在获得相应的校准图像时供用户观看的图像100。虽然图5中示出了四个图像100以提供四个校准点供用户观看,但将理解的是,该方法可以使用不同数量的校准点。例如,对眼动跟踪系统进行校准的方法可以使用5到9个校准点中的任意一个。
在一种布置中——其中在显示器20上提供图像以提供一个或多个校准点供用户观看——用户的预期注视点可以根据关于图像100在显示器20上的位置和相机10相对于显示器20的位置的信息来确定。
在一些布置中,相机10和显示器20的相对位置可以是固定的,确保了解它们的相对位置。
在相机10相对于显示器20不固定的布置中,可以例如经由用户界面从用户获得数据,提供相机10相对于显示器20的位置和相机10相对于显示器20的取向中的至少一者。
可替代地或附加地,可以指示用户将相机10与显示器20的平面对准和/或将相机10移动到相对于显示器20的特定位置。
可替代地或附加地,如图6所描绘的,用户可以通过将显示器20上的图标110的图像移动到最靠近相机10的位置来提供与相机10相对于显示器20的位置相对应的数据。在这样的布置中,对图标110的图像在显示器上的位置的了解可以提供相机10和显示器20的相对位置的所需数据。
将理解的是,可以提供其他布置来获得关于相机10和显示器20的相对位置的信息。还应该理解的是,不是在显示器20上的固定位置处显示图像来提供校准点,而是可以在显示器20上提供指示用户跟随的移动图像。
本发明的另一个方面涉及一种计算机程序,该计算机程序包括使处理器执行图2至图4中的任一个所示的方法的指令。本发明的另一个方面涉及一种计算机可读介质,该计算机可读介质具有存储在其上的计算机程序。

Claims (21)

1.一种对与相机(10)一起使用的眼动跟踪系统进行校准的方法,其中,在使用时,所述眼动跟踪系统从所述相机(10)获得用户眼睛(15)的多个图像、使用归一化处理(35)以基于所述相机(10)的至少一种固有特性(40)将所述图像转换到归一化图像空间、以及使用注视点确定处理(45)以基于所述归一化图像来确定所述用户眼睛的注视点的估计(50),对所述眼动跟踪系统进行校准的方法包括:
在所述用户被指示观看校准点(60)时,从所述相机(10)获得(65)用户眼睛(15)的校准图像;
获得所述相机(10)的至少一种固有特性(40)的潜在值(70);
使用所述归一化处理基于所述相机(10)的所述至少一种固有特性(40)的所述潜在值来转换(75)所述校准图像,以生成对应的归一化校准图像;
使用所述注视检测处理(45)来处理(80)所述归一化校准图像;以及
确定(95)相对于在所述用户观看所述校准点时的预期注视点,所述归一化校准图像中的哪一个最佳地估计了用户眼睛的注视点;以及
设置所述归一化处理(35)以供所述眼动跟踪系统后续使用以使用所述相机(10)的所述至少一种固有特性(40)的值,所述值被用于生成最佳地估计了在所述用户观看所述校准点时的所述预期注视点的归一化校准图像。
2.如权利要求1所述的方法,其中,所述相机(10)的所述至少一种固有特性(40)包括所述相机的视域、所述相机的焦距以及所述相机的像主点中的至少一者,针对所述至少一种固有特性,使用所述潜在值生成对应的归一化校准图像。
3.如权利要求2所述的方法,其中,被用于生成所述归一化校准图像的所述潜在值包括所述相机的对角视域的值。
4.如权利要求3所述的方法,其中,所述相机的所述对角视域的所述潜在值是在40°到100°的范围内,可选地在50°到90°的范围内,可选地在60°到80°的范围内。
5.如权利要求3或4所述的方法,其中,所述相机的所述对角视域的所述潜在值跨一定范围并且被以10°、5°、3°或1°之一的间隔提供。
6.如前述权利要求中任一项所述的方法,其中,从所述相机(10)获得(165)用户眼睛的多个校准图像,每个校准图像与在获得所述校准图像时指示所述用户观看(160)的不同校准点相关联;
基于所述相机(10)的所述至少一种固有特性(40)的所述潜在值来将每个校准图像转换(175)为归一化校准图像,以提供多个归一化校准图像组,每个归一化校准图像组包括与指示所述用户观看的每个校准点相对应的归一化校准图像,并且在所述归一化校准图像组中的每个归一化校准图像是以所述相机的所述至少一种固有特性的相同潜在值生成的;
并且所述方法包括:
使用所述注视点确定处理(45)来处理(180)多个所述归一化校准图像组,并且确定(195)相对于在所述用户观看所述校准点时的预期注视点,多个所述归一化校准图像组中的哪一组最佳地估计了用户眼睛的注视点;以及
设置所述归一化处理(35)以供所述眼动跟踪系统后续使用以使用所述相机(10)的所述至少一种固有特性(40)的值,所述值与最佳地估计了在所述用户观看所述校准点时的所述预期注视点的归一化校准图像组相关联。
7.如权利要求6所述的方法,其中,确定(195)相对于在所述用户观看所述校准点时的所述预期注视点,哪个归一化校准图像组最佳地估计了用户眼睛的注视点包括:针对每个归一化校准图像组确定针对每个所述校准点的所述估计注视点与所述预期注视点之间的平均差。
8.如前述权利要求中任一项所述的方法,其中,在所述用户被指示观看所述校准点或每个校准点(60;160)时,从所述相机(10)获得(65;165)用户眼睛的多个校准图像;以及
使用所述相机的所述至少一种固有特性的多个所述潜在值中的每个潜在值,将与校准点相对应的每个校准图像转换(75;175)为相应的归一化校准图像,所述归一化校准图像被用于确定(95;195)所述相机的所述至少一种固有特性的哪个值要被用于所述归一化处理(35)以供所述眼动跟踪系统后续使用。
9.如前述权利要求中任一项所述的方法,其中,在所述眼动跟踪系统中使用的所述归一化处理(35)附加地使用所述相机(10)的未使用所述归一化校准图像确定的至少一种固有特性(40)。
10.如权利要求9所述的方法,其中,对所述眼动跟踪系统进行校准的方法包括从所述相机(10)获得识别所述相机的至少一种固有特性(40)的数据。
11.如权利要求9或10所述的方法,其中,对所述眼动跟踪系统进行校准的方法包括根据由所述相机提供的图像数据来确定所述相机(10)的至少一种固有特性(40)的值。
12.如前述权利要求中任一项所述的方法,其中,所述相机(10)的所述至少一种固有特性(40)的所述潜在值是预先确定的,并且所述方法包括从与所述眼动跟踪系统相关联的存储器获得所述潜在值。
13.如前述权利要求中任一项所述的方法,其中,所述眼动跟踪系统被配置为与显示器(20)一起使用;并且对所述眼动跟踪系统进行校准的方法包括在所述显示器上提供图像(100)以提供在获得校准图像时供所述用户观看的校准点。
14.如权利要求13所述的方法,其中,所述方法包括从所述用户获得与所述相机(10)相对于所述显示器(20)的位置和所述相机相对于所述显示器的取向中的至少一者相对应的数据。
15.如权利要求13或14所述的方法,其中,所述方法包括指示所述用户将所述相机(10)与所述显示器(20)的平面对准。
16.如权利要求13至15中任一项所述的方法,其中,所述方法包括通过跟踪所述用户将设置在所述显示器上的图标(110)移动到最靠近所述相机的位置来获得与所述相机(10)相对于所述显示器(20)的位置相对应的数据。
17.如权利要求13所述的方法,其中,所述相机(10)和所述显示器(20)的相对位置是固定的。
18.一种使用眼动跟踪系统来跟踪用户的注视点的方法,包括使用根据前述权利要求中任一项所述的方法来对所述眼动跟踪系统进行校准。
19.一种与相机(10)一起使用的眼动跟踪系统,其中,所述眼动跟踪系统被配置为从所述相机(10)获得用户眼睛(15)的多个图像、使用归一化处理(35)以基于所述相机(10)的至少一种固有特性(40)将所述图像转换到归一化图像空间、以及使用注视点确定处理(45)以基于所述归一化图像来确定所述用户眼睛的注视点的估计(50);并且
所述眼动跟踪系统进一步被配置为:
在所述用户被指示观看校准点(60)时,从所述相机(10)获得(65)用户眼睛(15)的校准图像;
获得所述相机(10)的至少一种固有特性(40)的潜在值(70);
使用所述归一化处理基于所述相机(10)的所述至少一种固有特性(40)的所述潜在值来转换(75)所述校准图像,以生成对应的归一化校准图像;
使用所述注视点检测处理(45)来处理(80)所述归一化校准图像;
确定(95)相对于在所述用户观看所述校准点时的预期注视点,多个所述归一化校准图像中的哪一个最佳地估计了用户眼睛的注视点;以及
设置所述归一化处理(35)以供所述眼动跟踪系统后续使用以使用所述相机(10)的所述至少一种固有特性(40)的值,所述值被用于生成最佳地估计了在所述用户观看所述校准点时的所述预期注视点的归一化校准图像。
20.一种计算机程序产品,包括指令,所述指令当在处理器上执行时使所述处理器执行如权利要求1至18中任一项所述的方法。
21.如权利要求20所述的计算机程序产品,包括非暂态计算机可读介质,所述非暂态计算机可读介质存储所述指令。
CN202311656732.1A 2022-12-08 2023-12-04 眼动跟踪系统及对应的方法 Pending CN118170249A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE2230401-8 2022-12-08
SE2230401A SE2230401A1 (en) 2022-12-08 2022-12-08 An eye tracking system and a corresponding method

Publications (1)

Publication Number Publication Date
CN118170249A true CN118170249A (zh) 2024-06-11

Family

ID=88837542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311656732.1A Pending CN118170249A (zh) 2022-12-08 2023-12-04 眼动跟踪系统及对应的方法

Country Status (4)

Country Link
US (1) US20240192489A1 (zh)
EP (1) EP4383047A1 (zh)
CN (1) CN118170249A (zh)
SE (1) SE2230401A1 (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015154882A1 (en) * 2014-04-11 2015-10-15 The Eye Tribe Aps Systems and methods of eye tracking calibration
WO2016075532A1 (en) * 2014-11-14 2016-05-19 The Eye Tribe Aps Dynamic eye tracking calibration
US20160225191A1 (en) * 2015-02-02 2016-08-04 Daqri, Llc Head mounted display calibration
CN106056092B (zh) * 2016-06-08 2019-08-20 华南理工大学 基于虹膜与瞳孔的用于头戴式设备的视线估计方法
US10558895B2 (en) 2018-03-30 2020-02-11 Tobii Ab Deep learning for three dimensional (3D) gaze prediction
US11513593B2 (en) * 2018-11-29 2022-11-29 Blink Technologies Inc. Systems and methods for anatomy-constrained gaze estimation
KR20200067641A (ko) * 2018-12-04 2020-06-12 삼성전자주식회사 3차원 증강 현실을 위한 캘리브레이션 방법 및 그 장치
US11042034B2 (en) * 2018-12-27 2021-06-22 Facebook Technologies, Llc Head mounted display calibration using portable docking station with calibration target
EP4233004A1 (en) * 2020-10-23 2023-08-30 Eyeware Tech SA Automated calibration method of a system comprising an external eye tracking device and a computing device

Also Published As

Publication number Publication date
US20240192489A1 (en) 2024-06-13
SE2230401A1 (en) 2024-06-09
EP4383047A1 (en) 2024-06-12

Similar Documents

Publication Publication Date Title
US11276225B2 (en) Synthesizing an image from a virtual perspective using pixels from a physical imager array weighted based on depth error sensitivity
KR101278430B1 (ko) 실시간으로 몇몇 사람들의 눈을 인식하고 추적하기 위한 방법 및 회로 장치
CN110793544B (zh) 路侧感知传感器参数标定方法、装置、设备及存储介质
JP5772821B2 (ja) 顔特徴点位置補正装置、顔特徴点位置補正方法および顔特徴点位置補正プログラム
JP6405891B2 (ja) 位置・姿勢推定装置、位置・姿勢推定方法、及び、プログラム
JP5664064B2 (ja) 視線検出装置および補正係数算出プログラム
EP3763119B1 (en) Method for generating depth information and electronic device supporting the same
JP2019190974A (ja) キャリブレーション装置、キャリブレーション方法、及びプログラム
WO2019093457A1 (ja) 情報処理装置、情報処理方法及びプログラム
US10866635B2 (en) Systems and methods for capturing training data for a gaze estimation model
CN110211021B (zh) 图像处理装置、图像处理方法和存储介质
WO2020149044A1 (ja) パラメータ選定装置、パラメータ選定方法、およびパラメータ選定プログラム
AU2010338191B2 (en) Stabilisation method and computer system
JP2012181710A (ja) オブジェクト追跡装置、方法、及びプログラム
JP2009302731A (ja) 画像処理装置、画像処理プログラム、画像処理方法、および電子機器
CN118170249A (zh) 眼动跟踪系统及对应的方法
JP7475959B2 (ja) 画像処理装置、画像処理方法、及びプログラム
KR101886856B1 (ko) 이종센서 탐색기의 비정형 객체추적에 대한 데이터 결합시스템 및 방법
US11935182B2 (en) Information processing apparatus, information processing method, and storage medium
WO2023007730A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
US20240029288A1 (en) Image processing apparatus, image processing method, and storage medium
KR20170123375A (ko) 카메라 및 신호 처리기를 포함하는 이미지 장치
JP6448458B2 (ja) 回転状態算出装置
CN118301314A (zh) 一种视线估计方法及电子设备
JP2014110030A (ja) ポインティングシステム、ポインティング方法、表示装置、および電子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination