CN112666714B - 注视方向映射 - Google Patents

注视方向映射 Download PDF

Info

Publication number
CN112666714B
CN112666714B CN202110079634.0A CN202110079634A CN112666714B CN 112666714 B CN112666714 B CN 112666714B CN 202110079634 A CN202110079634 A CN 202110079634A CN 112666714 B CN112666714 B CN 112666714B
Authority
CN
China
Prior art keywords
image
gaze
subset
determining
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110079634.0A
Other languages
English (en)
Other versions
CN112666714A (zh
Inventor
安德烈·阿尔戈特松
安德斯·克劳森
杰斯珀·霍斯特罗姆
乔纳斯·霍斯特罗姆
托拜厄斯·林格伦
拉斯马斯·彼得松
马田·斯科郭
威尔基·王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tobii AB
Original Assignee
Tobii AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tobii AB filed Critical Tobii AB
Publication of CN112666714A publication Critical patent/CN112666714A/zh
Application granted granted Critical
Publication of CN112666714B publication Critical patent/CN112666714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • G02B2027/0187Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Optics & Photonics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Lubricants (AREA)
  • Semiconductor Lasers (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

公开了一种用于确定注视方向和可穿戴设备周围环境之间的对应性的方法。该可穿戴设备可以包括眼球追踪装置和面朝外图像传感器。该方法可以包括接收输入参数和来自该面朝外图像传感器的至少一个场景图像。该方法可以进一步包括至少利用所述眼球追踪装置,确定可穿戴设备的穿戴者在一时间点的至少一个注视方向,该时间点对应于该场景图像被面朝外图像传感器捕获的时刻。该方法额外可以包括至少部分基于该输入参数来确定特定场景图像包括预定义图像的至少一部分。此外该方法可以包括基于所述至少一个注视方向来确定在所述特定场景图像上的至少一个注视点。

Description

注视方向映射
相关申请的交叉引用
本申请主张于2015年11月30日提交的、申请号为14/954,026的美国临时专利申请的优先权,该美国临时专利申请主张于2015年8月7日提交的、申请号为62/202,582的美国临时专利申请的优先权,二者的名称均为“注视方向映射”(GAZE DIRECTION MAPPING),此处用于所有目的而通过引用将二者的整个公开内容并入到本文,等同于在本文中完整地叙述。
背景技术
本发明的实施例大致涉及用于将至少一人的注视方向映射到这个人周围的环境上的系统和方法,具体地,涉及结合了可穿戴设备来使用计算机视觉方法的系统和方法,该可穿戴设备至少使用来自与该可穿戴设备连接的场景摄像机的信息。
发明内容
在一个实施例中,提供了一种用于确定在注视方向与可穿戴设备周围环境之间的对应的方法。该可穿戴设备可以包括眼球追踪装置和面朝外图像传感器。该方法可以包括接收输入参数。该方法还可以包括接收来自该面朝外图像传感器的至少一个场景图像。该方法可以进一步包括至少利用所述眼球追踪装置,确定可穿戴设备的穿戴者在一时间点的至少一个注视方向,该时间点对应于该场景图像被面朝外图像传感器捕获的时刻。该方法额外可以包括至少部分基于该输入参数来确定特定场景图像包括预定义图像的至少一部分。此外该方法可以包括基于所述至少一个注视方向来确定在所述特定场景图像上的至少一个注视点。
在另一个实施例中,提供了一种用于确定在注视方向与可穿戴设备周围环境之间的对应的不同方法。该可穿戴设备可以包括眼球追踪装置和面朝外图像传感器。该方法可以包括接收来自该面朝外图像传感器的至少一个场景图像。该方法还可以包括至少利用所述眼球追踪装置来确定可穿戴设备的穿戴者在一时间点的至少一个注视方向,该时间点对应于该场景图像被面朝外图像传感器捕获的时刻。该方法可以进一步包括至少基于输入参数来确定特定场景图像包括预定义图像的至少一部分。该方法可以额外包括基于至少一个注视方向来确定在该特定场景图像上的至少一个注视点。此外该方法可以又包括使该场景图像带有覆盖视觉指示地被显示,其中该覆盖视觉指示对应于该预定义图像的至少一部分。该方法可以再又包括接收关于所述覆盖视觉指示的调整的用户反馈。该方法可以还包括至少部分基于所述用户反馈,调整所述输入参数。该方法可以进一步包括至少基于该输入参数来确定未来场景图像包括预定义图像的至少一部分。
在另一个实施例中,提供了一种用于确定在注视方向与可穿戴设备周围环境之间的对应的方法。该可穿戴设备可以包括眼球追踪装置和面朝外图像传感器。该方法可以包括接收来自该面朝外图像传感器的至少一个场景图像。该方法还可以包括至少利用所述眼球追踪装置来确定可穿戴设备的穿戴者在一时间点的至少一个注视方向,该时间点对应于该场景图像被面朝外图像传感器捕获的时刻。该方法可以进一步包括至少部分基于输入参数来确定特定场景图像包括预定义图像的至少一部分。该方法可以额外包括基于至少一个注视方向来确定在该特定场景图像上的至少一个注视点。此外该方法可以又包括确定置信值,该置信值为至少一个注视点与预定义图像相关可能性程度的表征。
在另一个实施例中,提供了一种用于确定在注视方向与可穿戴设备周围环境之间的对应的方法。该可穿戴设备可以包括眼球追踪装置和面朝外图像传感器。该方法可以包括接收来自该面朝外图像传感器的至少一个场景图像。该方法还可以包括至少利用所述眼球追踪装置来确定可穿戴设备的穿戴者在一时间点的至少一个注视方向,该时间点对应于该场景图像被面朝外图像传感器捕获的时刻。该方法可以进一步包括至少部分基于输入参数来确定特定场景图像包括预定义图像的至少一部分。该方法可以额外包括基于至少一个注视方向来确定在该特定场景图像上的至少一个注视点。此外该方法又包括确定质量值,所述质量值为在特定场景图像上所确定的至少一个注视点的误差度表征。
附图说明
结合附图对本发明进行说明:
图1为用于本发明各种实施例的、具有眼球追踪装置和场景摄像机的可穿戴设备的轴测图;
图2为用于确定相对于在场景图像中发现的预定义图像的注视点的本发明的一种方法的方框图;
图3为基于用户反馈来更新用于识别场景图像中的预定义图像的输入参数的本发明的另一种方法的方框图;
图4为用于确定与对应于预定义图像的出现的注视点相关的置信值和质量值的本发明的另一种方法的方框图;
图5为示例性计算机系统的方框图,该计算机系统能够被用在本发明的装置或系统中的至少某个部分中,或者能够实施本发明的方法的至少某个部分。
具体实施方式
下述描述仅为提供示例性的实施例,不是意图限制本公开的范围、适用性或者结构。更确切地说,示例性实施例的下述描述将给本领域普通技术人员提供可行的描述,以实施一个或多个示例性实施例。可以理解的是,可以对要素的功能和布置作出各种改变,而不偏离如所附权利要求所述的本发明的精神和范围。
例如,关于一个实施例所讨论的任何细节可能存在于或可能不存在于该实施例的所有可想到的方案中。同样地,关于一个实施例所讨论的任何细节可能存在于或可能不存在于这里所讨论的其他实施例的所有可想到的方案中。最后,关于本文实施例所缺失的任何细节讨论,应当是这样的隐含认知:该细节可能存在于或可能不存在于这里所讨论的任何实施例的任何版本中。
在下面的描述中给出了具体细节,以对实施例提供全面的理解。然而,要理解的是,没有这些具体细节本领域的普通技术人员仍可以实施这些实施例。例如,本发明中的电路、系统、网络、过程以及其他元件可以显示如方框图形式中的组件,以便不在不必要的细节上造成实施例模糊。在其他例子中,可以以没有不必要细节方式展示已知的电路、过程、算法、结构和技术,以避免造成实施例模糊不清。
还有需要理解的是,单个实施例可以被描述为以流程图、流程框图、数据流程框图、结构框图或方框图表示的过程。虽然流程图可以将步骤描述为顺序过程,但是许多步骤可以并列或同时执行。此外,可以重新安排步骤的顺序。当过程的步骤完成时,可以终止过程,但过程也可以包括未讨论或未包含在附图中的额外步骤。另外,不是任何具体描述的过程中的所有步骤都会出现在所有的实施例中。过程可以对应于方法、函数、进程、子例程、子程序等。当过程对应于函数时,它的终止对应于到调用函数或主函数的函数返回。
术语“机器可读介质”包括但不限于暂态的与非暂态的、便携或固定的存储装置,光学存储装置,无线通道,和能够存储、包含或执行(一个或多个)指令和/或数据的各种其他介质。代码段或机器可执行指令可以表示进程、函数、子程序、程序、例程、子例程、模块、软件包、类,或指令、数据结构或程序语句的任意组合。通过对信息、数据、变量、参数或存储内容的传递和/或接收,可以将一个代码段连接到另一个代码段或者硬件电路。可以通过适当手段来传递、转发或传送信息、变量、参数、数据等,该当手段包括内存共享、消息传递、令牌传递、网络传输等。
另外,可以至少部分地或手动或自动来实施本发明的实施例。可以通过使用机器、硬件、软件、固件、中间件、微码、硬件描述语言或其任意组合来执行或至少协助手动或自动实施。当在软件、固件、中间件或微码中实施时,用于执行必要任务的该程序代码或代码段可以存储在机器可读介质中。(一个或多个)处理器可以执行必要的任务。
可穿戴设备为能够被用户穿戴的设备,它们通常采用一副眼镜、头盔和/或类似的形式等。眼镜中可以并入有各种形式的传感器、显示器和/或电子产品。例如可穿戴设备可以包含用于捕获穿戴者周围的场景的图像和视频的图像传感器。
该可穿戴设备还可以包括眼球追踪装置。例如,瑞典斯德哥尔摩的丹德吕德的Tobii集团销售被称为“Tobii Pro Glasses 2”的这种可穿戴设备。该设备包括与眼球追踪装置相结合的场景摄像机。因此能够将由该场景摄像机捕获的图像与来自该眼球追踪装置的信息相结合,以确定用户正在看的特定场景。
进一步地,能够将位置装置并入可穿戴设备,位置装置例如微机电系统(MEMS),其可以包括陀螺仪、加速度计和/或类似等。在于2015年3月5日提交的、名称为“便携式眼球追踪装置”(PORTABLE EYE TRACKING DEVICE)、专利公开号为2015/0061995的美国专利申请中公开了这样的系统,此处用于所有目的而通过引用将其整个公开内容并入到本文,等同于在本文中完整地叙述。
然而所需求的是这样的方法或系统:不需要大量的手动处理,来确定用户在其周围环境中所注视过的地方,以及用户是否注视过特定物品,这些特定物品可以是在该环境中的不同地方处被一致地或不一致地发现的物品。如果这样的系统能确定用户的位置,且能映射该用户周围的环境,则是进一步的优点。本发明的实施例寻求提供这样的方法和系统。
根据本发明的一个实施例,提供了一种利用来自可穿戴设备的信息来映射环境的方法。通常从图像传感器获取来自可穿戴设备的信息。在一个实施例中,该图像传感器从可穿戴设备面朝外,而该可穿戴设备还配备有眼球追踪装置。该眼球追踪装置可以包括至少一个图像传感器以及至少一个红外照明器,该图像传感器和照明器面向穿戴者的至少一只眼睛。在实践中,该红外照明器发射红外光到用户的角膜上,图像传感器捕获包括有该红外光反射的图像。然后控制器可以分析该捕获的图像,以确定用户的注视方向。还可以采用其他眼球追踪的方法。
图1中显示了一个这样的可穿戴设备。可穿戴设备100由眼镜架构成,该眼镜架包括眼球追踪装置110、图像传感器120(这里还可称作“场景摄像机”)以及控制单元130。眼球追踪装置110和图像传感器120可以将从其中获得的信息转播到控制单元130,用于处理,和/或用于无线或有线通信以回到另一个计算/处理的装置/系统(未显示)。眼球追踪装置110和图像传感器120的电源也可以通过控制单元130来提供。
使用上述的硬件或类似等时,根据本发明的一种方法的特征可以是具有下述步骤:
1.获取来自可穿戴设备上的面朝外图像传感器的场景图像、多图像或视频。
2.在一时间点捕获该可穿戴设备的穿戴者的注视方向,所述时间点对应于步骤1中的场景图像、多图像或视频被获取的时刻。
3.基于输入参数(即,该输入参数是为标识着在场景图像中所寻找的感兴趣物体的用户指令)在来自步骤1的场景图像、多图像或视频中搜索,以寻找预定义图像的存在。因此,该输入参数可以是指定了感兴趣物体的视觉表征(包括其尺寸和形状)的信息。该预定义图像还可以由文本消息(文本字符串)组成,可能以任何字体或格式。
4.对于在步骤3中找到的预定义图像的每次出现,将步骤2中的注视方向作为注视点映射到具有预定义图像的该次出现的特定场景图像、多图像或视频上。
5.为在步骤4中映射的每个注视点确定置信值。该置信值可以表征该被映射的注视点与该预定义图像相关的可能性程度。该置信值还可以包括消息,例如“被遮挡”、“照明弱”等,其提供与被映射的注视点相关联的注视方向探测特性的指示。
作为以上步骤的前置,可以定义特定的输入或参数以增强步骤的准确度。这些输入和参数在下文称为“输入参数”,并会在下面进一步具体地描述。在一些实施例中,这些输入由用户提供,但它们也可以自动提供。
可选地,可以基于任何可能的误差源确定用于确定眼球追踪数据质量的质量量度。这些误差源可以例如包括眼动仪、用户输入以及涉及场景摄像机和眼动仪数据之间的时序的误差等。后者可以通过以下方法举例说明:如果以50Hz捕获眼球追踪数据,而面朝外传感器在25Hz,那么快速的头部运动会在用户实际看的场景部分产生模糊。通过记录降低的映射质量分数(这里也可称作质量值或质量量度)可以识别这些情况。
当情况为映射点收到了高置信分数但是低质量分数时,该映射注视点不应当被解释为是单个点,而是用户可能注视之处的更大的“注视区域”。相反,当置信分数低,但质量分数高时,由于映射会能是不准确的,用户应当手动检查这些点,并在需要时校正它们。
以其预期用途的一个可能实例为上下文来考虑以上方法。用户穿戴着可穿戴设备进入超市。该可穿戴设备配备有面朝外场景摄像机和注视方向追踪装置两者。该面朝外场景摄像机记录用户前方场景的场景视频,注视方向追踪装置记录相对于该场景的用户注视。将该场景视频和注视信息传输到处理装置。处理装置加载有预定义图像,例如麦片盒或包含许多产品的特定货架。然后处理装置分析所引入的场景视频,可选地有注视信息,以查找预定义图像的存在。当预定义图像被找到时,存储相对于该预定义图像的注视方向(其能够由在场景视频上或视频的特定图像框内的注视点表示)。对于每个单个注视方向,赋予值以表示该注视方向的准确度的置信等级。还可以存储对于单个注视方向的质量信息。
传输到处理装置和由其进行的分析可以实时地执行,或者可以对预记录的场景视频和注视信息执行。
现在将对本发明的实施例进一步具体地描述。
输入参数
输入参数的设定允许本发明的方法以更加有效的方式运行。以下为可能的输入参数的描述。
手动映射点。已经由用户或单独的算法手动识别为属于或映射到预定义图像中的出现的图像点(可能是由眼动仪提供的注视点的位置)。图像点可以与由面朝外图像传感器捕获的图像、多图像或视频中的任意物品相关。由此在预定义图像中和面朝外摄像机的视频图像中均定义了该点。
感兴趣区域的手动映射点。在由面朝外图像传感器捕获的图像、多图像或视频内,可以标识感兴趣区域。这可以是预定义图像的出现,或者其可以是在图像、多图像或视频内的另一个感兴趣物品。提供该输入参数的合适方法的一个例子是,允许用户将预定义图像的至少一部分的透明和/或变形版本拖拽覆盖到图像、多图像或视频上。用户可以通过用鼠标或其他指向装置拖拽边界点来更改该版本预定义图像的形状,以使用户能够将该版本的预定义图像与图像、多图像或视频中的预定义图像的出现相匹配。这允许用户为本发明的方法提供输入,该输入明确地展示了将预定义图像映射到在图像、多图像或视频中的预定义图像的出现的例子。
预定义图像的存在。用户可以手动指出来自面朝外传感器的一个或多个图像或视频中的预定义图像的存在。然后能够在这些图像或视频上更加具体地执行本方法,特别地,在被标记为有高似然率存在预定义图像的出现的图像或视频上,步骤3-5可以被多次执行,或者以较慢速度被执行。
自动反馈。本发明的方法可以提供以预定义图像的突出出现的形式的可选输出。然后用户可以查看这些突出出现,以校正误差。然后本方法可以利用这一校正过的信息作为步骤3-5的输入。为了进一步说明,本方法可以根据执行本方法至少一次(优选地为多次)的结论,来提供图像、多图像或视频中的预定义图像的突出出现。用户可以之后通过更改这些突出出现的形状和/或位置,来调整这些突出出现,以更好地映射预定义图像的实际出现。然后当再次执行该方法时,本方法可以使用该更新数据。
步骤3-预定义图像识别
现在描述本发明一些方法的步骤3。通常可穿戴设备提供由面朝外图像传感器记录的视频数据。该视频数据包括一系列的图像或帧。根据本发明的实施例,分析这些单个图像和帧,以定位预定义图像的每次出现或该预定义图像的至少一部分。预定义图像之前已经提供。在计算机视觉领域,分析图像以确定一个图像和另一个图像相似度的方法为公知方法。其通常通过匹配两个图像的特征以找到对应性来执行。
其意图是,本发明的实施例利用将预定义图像与图像或视频帧进行匹配的任意方法来运作。
步骤4-注视方向映射
可穿戴设备捕获与穿戴者的注视方向相关的信息。该注视方向信息可以是以表示注视方向的单个x,y坐标的形式,且对每一图像或对视频数据中的每一帧都进行存储。使用眼睛位置时,注视方向还可以为x,y,z三维坐标的形式。如在本文件进一步讨论地,在利用三维模型时,该形式的注视方向信息是有利的。一旦在步骤3中找到了预定义图像的出现,则提取与预定义图像的位置重叠的注视方向。
步骤5-置信值确定
对于在步骤4中找到的每个注视方向,有利的是确定一值,该值表示用户实际注视了作为预定义图像的主体的物体的似然率。这被称为置信值(confidence value)。
置信值严格地与映射注视点的状态相关,其不反映由眼动仪获取的眼球追踪信息的质量。然而低置信值可以提供关于何种原因导致低置信的信息。例如置信值可以指示具有遮挡物体的区域,具有由用户运动所产生的高动感模糊的间隙,或者可能由于一些包装袋被移除或添加,在商店中观察到的货架与预定义图像相比变化了许多。
置信值可以通过许多方法计算。例如可以通过比较预定义图像的局部区域和来自面朝外传感器的图像之间的相似度,或者通过探测能够影响映射置信的特定事件来计算它们。本领域的技术人员可以知晓和理解进一步的方法。
基于相似度的、用于确定置信值的方法的一个例子是,提取注视点周围的视频图像的小子集,以及注视点周围的预定义图像的小子集。然后两个子集可以被比较以确定相似度,这可以使用与步骤3中所描述的方法相同或相似的方法,或者可以使用不同的方法。然后可以赋予表示两个子集之间相似度等级的值。
另一个基于相似度的方法是,创建预定义图像的3D模型。然后能够通过比较局部3D信息并量度它们有多相似(例如,球形物体不太与平面物体相匹配,尽管二者在2D图像中的外观可能是相似的)来计算置信值。
下面是关于如何为预定义图像建立3D模型的两个例子:
1.找到预定义图像和面朝外传感器的视频/图像之间的特征配对,通过使用从运动恢复结构(structure-from-motion)来对这些点作三角测量。
2.使用多个图像而不是一个单个预定义图像。每个图像显示同一个场景,但是是从不同的观察点。然后通过找到图像间的特征对应性,能够对这些点作三角测量,并计算每个图像的外部摄像机参数。
用于计算置信值的基于事件方法的例子为,利用3D信息来探测环境中的变化。就是说,例如从商店的货架上移除一个物体。如果探测到该行为,则本发明的实施例可以给整个区域标记标签,例如“有改动”,并给对应于该区域的每个注视点提供低置信值。
一旦确定了置信值,它能以多种方法被使用。例如它可以用于过滤掉具有低置信值的注视方向,或者标记这些注视方向以用于进一步的行动,例如映射过程或手动分析的再运行。
非静态环境
在非静态环境、例如超市中,本发明的性能面临独一无二的挑战。在这样的环境中,由面朝外图像传感器捕获的图像、多图像和视频,将随着包含图像传感器的设备的穿戴者周围环境的变化而变化。本发明是通过允许设定多个预定义图像来处理这样的问题,这些预定义图像表示在不同的时间捕获的单个观察点。以这种方式,可以生成模型以演示环境是如何随时间变化的。这可以用作到对置信值的确定中的输入。
此外,能够确定用来表示环境中的变化度的质量量度或置信量度。
三维信息
不用任何前序步骤地建立三维世界并映射注视,已经在下面的文章中之前建议过:Susan M.Munn,Jeff B.Pelz(2008),“便携式单眼视频眼动仪的3D关注点、位置和头部方位”(“3D point-of-regard,position and head orientation from a portablemonocular video-based eye tracker”)。该方法没有足够地解决遮挡、快速移动、弱照明条件和运动模糊的问题。缺乏其他外部传感器也给系统带来沉重的计算负担。
因此,提议了将注视数据映射到可穿戴设备穿戴者周围环境的三维(3D)模型上。该方法可以要求在穿戴着可穿戴式设备的用户进入环境前,使用3D摄像机以建立环境的3D地图,然后在用户与环境交互之后,利用方法以确定3D地图与来自可穿戴设备中的面朝外摄像机的内容之间的对应性。这些能在下面的文章中看到:Lucas Paletta,KatrinSantner,Gerald Fritz(2013),“用于3D注视恢复和人类注意力语义分析的集成系统”(Anintegrated system for 3D gaze recovery and semantic analysis of humanattention)。
根据本发明的一些实施例,提供了改进并更加有效的方法。这一方面的一些实施例提供了向可穿戴设备中安装3D传感器。通过向可穿戴设备中安装3D传感器,可以建立用户所处环境的3D地图。对于本领域的技术人员来说,合适的3D传感器应当是显而易见的,然而一些合适的例子是利用结构光传感器或飞行时间传感器,或可能有或没有主动照明地成像的传统立体相机。通过实时使用3D传感器,能够在非静态环境中允许注视映射。
优选地,将来自3D传感器的信息与来自MEMS(MEMS)设备的信息相结合。来自MEMS设备的信息提供与可穿戴设备的方位和位置相关的数据,通过将该数据与来自3D传感器的数据相结合,能够调整3D信息以使其在用户运动时准确。
举例来说,存在有很多的环境,在其中使用主动照明时3D摄像机表现不佳。例如在有很强阳光的环境中;或在同时使用多个可穿戴眼动仪的研究项目处。在这些情况,MEMS数据能够被用来填补3D摄像机信息不可靠、不完整或有错误的空白,因为传感器不会受到照明情况的影响。
追踪多个图像
根据本发明的一个实施例,提供一种系统,其使用户能同时输入多个预定义图像。在该过程中,系统寻找图像之间的关系(例如:系统可以定位3张一起发生的图像,而它们是例如同一个货架的部分)。这可以通过将每张图像映射到3D世界并检查靠近度来完成,或者可以通过对于本领域技术人员来说毫无疑义的其他方法来实现。
该系统提供了效率,因为许多幅预定义图像被一次分析了,而不是单个地为每个图像执行单独的过程。
在进一步的改进中,有利的是,先于映射过程的开始而允许用户输入关于预定义图像间的关系的信息。例如,当属于特定货架或环境时,一些预定义图像可以被分组。也可以提供它们的拓扑关系(例如“图像1位于图像3的左边”等)。
人类行为分析
上面的方法可以用来分析环境中的人类行为。例如根据本发明的实施例、当至少一个人穿戴着可穿戴设备时,由场景摄像机捕获的信息可以与位置信息和注视信息相结合,以映射用户周围的环境。因此能够建立用户周围环境的3D地图、在该环境中用户行进的路径以及在该环境中用户行进的属性。属性可以包括位置、注视方向、行进速度、行进方向、到地板的垂直距离等。仅仅通过举例的方式,前述内容在这样一种场景中可能是有用的:超市或其它大型商店的情形。传统地,为了映射在超市周围的用户的路径,必须知道商店的楼层地图,然后搜集关于用户在商店中的数据。这可以是由位置装置收集的位置数据,该位置装置测量用户的位置、速度等。
本发明的实施例因此提供直接的改进,根据这些实施例用户可以穿戴着可穿戴设备置身商店中。当穿戴这些装置时,这些装置可以创建每个用户周围的环境的地图。通过将该地图与用户的注视信息和位置信息相结合,许多实施例允许结合用户的注视方向、位置信息、速度、方向等来构建商店地图(环境)。因此能够提供在商店环境中用户的可视化,不仅表征在商店内他们的位置和路径,而且还有他们的移动速度和商店内吸引用户注视的特定区域。
作为该实施例的另一个优点,能够为每个映射注视方向提供观察角度,指示用户观察映射注视点所自的角度。注视方向是到用户立足点的注视矢量,而观察角度是从目标上的注视点到用户的矢量。为了计算观察角度,必须使用位置信息。
这一方面的一些实施例允许创建表示环境中的用户路径或活动区域的热图,只要你确定了与用户注视相关的位置和角度信息两者。热图是具有突出区域的环境的视觉表征,该突出区域显示了受到用户最多关注的区域。可以基于用户的观察角度或任何其他属性来调整该视觉表征。例如可以将在环境内的多个用户注视信息和属性(如之前所描述)相结合,以提供视觉表征,该视觉表征显示了环境中哪些区域受到了最多关注。该突出可以采用常用的热图的形式,其中例如接近红色、橙色等颜色显示了高度关注的区域,而接近蓝色、绿色等颜色显示了较少关注的区域。然而可以使用任何形式的视觉表征,例如形状、logos、图像等。
遮挡物品
当分析由场景摄像机捕获的图像时——例如在一些实施例的步骤4中,以便提供如步骤5所述的置信值时——能够结合注视探测系统所提供的注视信息。如果在由场景摄像机捕获的图像中有遮挡(遮挡视线的移动或非移动物体),则出现了问题。一些实施例以两种方式解决这些问题,第一种是通过如步骤5中所提供的置信值的设定,如果被遮挡物体被映射到预定义图像上(替代性地,它将被定义为不映射到预定义图像上,而在这种情况下,最有可能地具有高置信值),则该被遮挡物体会收到低置信值,第二种是当建立环境的3D地图时,通过MEMS数据的使用。例如,3D环境的地图的创建将是困难的,这是因为:所使用的任何算法都必须准确地区分静态环境和被遮挡物体,和/或当用户是看着遮挡物体而不是在预定义图像中所表征的环境时,任何映射注视方向都将是无效的。因此为了适应和解决这些问题,根据一些实施例的一方面,有可能利用来自MEMS传感器的信息。
在第一个例子中,为解决用于建立3D环境的地图的算法必须区分静态环境和被遮挡物体这一问题,提议了通过在图像中搜寻行为方式与摄像机的自运动不一致的区域,来过滤掉移动物体。一个适当的过滤器的例子如下:
1.确定作为第一输入的MEMS数据。
2.计算图像中所有特征点的运动。
3.与MEMS传感器提供的预期运动进行比较。
4.将不符合预期运动的所有特征点标记为异常值。
5.使用正常值来确定摄像机的真实运动并生成(三角测量)3D世界。
此外,通过提供可穿戴设备的用户的定位信息,能够将前次获得的数据(例如用户对环境中的特定地点的前次访问)与新获取的场景摄像机数据相结合,以处理并移除遮挡。
为解决由于用户注视着遮挡物、而不是预定义图像的主体所造成的无效注视方向的问题,提议了向映射注视方向赋予低置信值,以使映射注视方向被过滤掉或忽略掉。替代性地,注视方向可以不被映射到预定义图像上,在这种情况下其很可能具有高置信值。
场景之间的过渡
当分析由场景摄像机捕获的连续场景时,在一些情形中场景之间可能会有失真,这可能是由于可穿戴设备的抖动或其它运动。在这样的情况中,能够使用从MEMS装置提供的信息衍生出的位置信息——例如位置、方位、旋转等,以补偿该运动。例如,如果第一场景图像是由场景摄像机捕获的,且注视信息被应用到该场景,则由于可穿戴设备在用户头上的移动,捕获的下一场景可以轻微地旋转。每个场景的捕获时间点的MEMS信息能够被用以确定在每个场景的捕获时刻可穿戴设备的位置和方位的变化,如果两者有差异,可以相应调整场景信息。
为了加强对于这一方面的某些实施例的理解,考虑下面这个例子:用户注视着商店中的货架,该货架对应于预定义图像。追随该注视,用户可以转动他或她的头,并在转回注视到货架上之前朝另一个方向注视几秒钟。通过使用MEMS数据,可以利用给定已知起点的面朝外图像传感器获得的信息来重建这些运动,且能够在来自面朝外图像传感器的视频/序列图像的后面部分中获得关于来自面朝外图像传感器的图像期望位置的信息。该方法提供许多好处:
1.减少了搜索来自面朝外图像传感器的视频/序列图像的时间,因为通过使用MEMS数据,能够接近在来自面朝外图像传感器的视频/序列图像中寻找预定义图像的位置。
2.提供抗运动模糊的稳健性。考虑一长串快速的头部运动。仅使用来自面朝外图像传感器的视觉信息将很难来追踪这些运动,然而通过使用MEMS信息,能够接近来自面朝外图像传感器的每个稳定场景/图像间的运动。这将使得图像搜寻、注视映射和用户3D定位容易许多。
对于该方面有两个关键部分:
1.MEMS数据提供如上所说明的快速而稳健的运动恢复结构。
2.进一步能够通过与获取自面朝外图像传感器的运动进行传感器融合,来细化MEMS数据。由此,能够补偿MEMS传感器的漂移和其它不准确性。当这些被完成后,就能够输出细化后的运动数据。
在3D环境中的注视分析
当分析注视信息时,考虑3D环境的知识是有益的。例如,能够创建3D固视过滤器。举例来说,其在下面的方式中是很有用的:人在桌子周围走动,始终将他的注视固视在特定3D物体上(例如咖啡杯)。通过使用3D环境的知识,能够毫无疑义的确定用户正在看着同一个物体,尽管用户的位置和观察角度一直在改变。
该3D环境知识还能使注视信息准确地映射到难以在二维图像中捕获的复杂结构上,例如雕塑。
进一步能够使用3D模型作为输入(或者从不同观察点拍摄的同一个物体的多个图像),而不是预定义图像。
用于探测移动物体的过滤器(如之前所述)还可以用来追踪特定移动物体,例如足球。为此,获得世界上所有静态部分的3D环境的第一知识(如之前所述);然后将所有移动部分的识别和定位与3D环境的知识相比较,注视信息最终被映射到3D环境知识上。例如该信息可以被用来确定购物者何时拿起物品,之后查看物品和将其还回货架上,对于本发明来说通过使用过滤器能够标记这样的出现。
感兴趣区域
根据一些实施例的另一方面,能够识别由面朝外图像传感器提供的图像中的感兴趣区域(AOI)。可以以多种方式来利用该AOI。例如能够标注AOI在由面朝外图像传感器提供的任何视频/序列图像中的出现。因此能够分析由面朝外图像传感器捕获的视频,将注视信息映射到前面所述的视频上,然后再输出度量,说明在视频长度的多少百分比中AOI对用户是可见的(“可见”定义为存在于由面朝外图像传感器提供的图像中),以及视频的多少百分比中用户注视在AOI上。通过知晓何时AOI存在在视频的帧中,也能分析注视信息以确定从AOI变得对用户可见时到用户第一次注视AOI所花费的时间。
此外根据某些实施例通过使用来自可穿戴设备的运动信息,能够确定用户何时靠近感兴趣区域(例如一个人走向某个商业海报或商店中的货架)。这能够通过使用用户的运动信息来实现。还能够通过简单地找到图像中的AOI并计算其在视频图像中的相对大小来实现。随着用户接近该快照,它将占用记录中越来越大的空间。
一旦在视频图像中准确找到AOI,就可以在录制视频时绘制AOI的边界。因此在播放视频时,对于人来说可以更容易看到AOI。还可能覆盖在实时视频中计算的热图上。为此,预定义图像中的图像点必须变换为视频图像中的域。这是与此处讨论的步骤4中映射注视方向时的执行相比的逆变换。如本领域的技术人员所理解其也能够以其它方法实现。
用户输入
根据一些实施例的进一步增强,我们进一步建议一种在执行算法前用户能够提供给映射系统信息的系统。这样的信息的例子可以是:
1.视频帧的位置,其中AOI为可见且容易找到
2.在视频的帧与预定义图像之间的对应点(由用户手动映射)
3.视频帧中的AOI的大致位置的边界矩形
通过允许用户提供这种信息,这里所述的方法可以针对这些由用户突出的区域或者可以调整方法中的参数。这使得在捕获的注视方向和预定义图像之间执行的映射更加有效率。
与手动分析相结合
本发明的一些实施例的目的是,减轻由可穿戴设备面朝外图像传感器记录的图像、视频的手动分析耗时过程。能使用此处的实施例,结合手动分析,以减少分析所占用的总时间。以这种方式能利用产生的置信值来确定场景摄像机记录视频的哪些映射注视点或段需要进一步分析。
该方面以下面的方式运行:
1.获取来自可穿戴设备的面朝外的图像传感器的图像、多图像或视频。
2.在相近于步骤1中图像、多图像或视频被获取时刻的一时间点,捕获该可穿戴设备的穿戴者的注视方向。
3.搜寻步骤1的图像、多图像或视频,以寻找存在的预定义图像。
4.对于在步骤3中找到的每一个发现,将步骤2中的注视方向映射到预定义图像上。
5.确定在步骤4中被映射的每个注视方向的置信值。该置信值表征注视方向与预定义图像中映射点相关的可能性,例如“被遮挡”、“照明弱”等,及提供关于映射注视方向状态的指示。
6.执行手动分析以确定注视数据点是否与预定义图像相关,注视数据具有满足一定条件的置信值。
不需要对每个注视方向执行手动分析,而是对捕获数据的特定部分选择代表性的注视方向。
特定条件可以是低置信值、在一定范围内的置信值或者具有例如“被遮挡”、“继续输入”等预定义消息。
进一步可以纯粹基于用户的偏好来调整自动计算的映射注视方向。例如,用户可以查看所有映射注视方向或其一部分子集,并独立决定手动调整哪一个。手动调整可以将映射注视方向标记为相关、不相关、改变映射注视方向主体等。
作为进一步的改进,能够将置信值可视化为随时间变化的图表,即允许用户简单确定面朝外图像传感器的视频/图像的哪一部分要求进一步的手动工作,并接收映射质量的总览图。
注视的交互
根据一些实施例,提供一种用于映射可穿戴眼动仪注视点到一个或多个预定义图像的系统和方法。可以进一步地由面朝外图像传感器捕获预定义图像。该映射允许用户和环境之间的交互。例如,当用户注视博物馆里的一幅画时,实施例可以将注视信息映射到画上,并使用此处所述的系统和方法识别用户正在注视特定的画。然后该信息可以被通讯传输到外部(或内部)系统,其可以通过扬声器(或耳塞)读出关于该画的信息。进一步能创建交互工具,其中用户可以“点击”简单地画在墙上的按钮。
作为另一个例子,可以利用来自面朝外图像传感器的多人穿过区域的数据创建地图。地图将数据相结合,以便能选择地图中的物品,例如商店中的货架。然后可以通过拼接来自多个面朝外图像传感器的数据创建预定义图像。
部分动态的预定义图像
在本发明的许多实施例中进一步能够利用部分动态预定义图像。其中预定义图像设有标记的图像动态区域。这些动态区域在预定义图像的各种实例间不一样,因此当预定义图像与由面朝外场景摄像机捕获的图像进行比较时,动态区域可以从图像处理步骤中排除。即可允许纠正预定义图像的识别。
适用于本发明所有实施例的一般信息
虽然已经描述了本发明参考了MEMS装置,该MEMS装置作用为位置传感器或是测量在位置和/或方位和/或加速度上变化的传感器,但是是能将提供位置信息的任意形式的装置应用到本发明的其他实施例中的。这包括在可穿戴设备外部的装置,例如外部摄像机可以用来捕获可穿戴设备的位置,这些摄像机可以使用红外光和/或可以在可穿戴设备上放置反光标记。本领域的技术人员可以毫无疑义的理解位置装置。
虽然参考预定义图像描述了本发明的实施例。需要理解的是任何信息可以用来替代预定义图像。例如为了替代图像,可以使用物体或图像的特征。以这种方式,可以提供球的特征(“球形”、“黑色“等)而不是提供球的图像。
虽然参考了一个面朝外图像传感器描述本发明的实施例,但是还可想到的是可以有超过一个的面朝外图像传感器。例如如果设有两个面朝外图像传感器,立体数据可以由两个图像传感器来获得,而如本领域的技术人员毫无疑义理解的那样,该立体数据允许更容易的计算3D信息。
实施例的说明实例
图2显示了本发明的一个用于确定注视方向和可穿戴设备周围环境之间对应性的方法200的方框图,其中可穿戴设备包括眼球追踪装置和面朝外图像传感器。
在方框210中,可以接收输入参数,该输入参数允许方法200确定哪个(一个或多个)预定义图像会使注视点被映射到给定的场景图像中。如上所讨论的,可以由用户接收该输入参数,但在一些实施例中也可以自动确定。
在方框220中,由图像传感器接收场景多图像或视频。在方框230中,对应于收到多图像或视频的时间确定可穿戴设备用户的注视方向。
在方框240中,基于输入参数,分析多图像或视频以确定是否和何时他们包含(一个或多个)预定义图像(或其某部分)。在方框250中,对于在包含预定义图像的多图像或视频内的每个具体图像,基于注视方向确定在这些多图像或视频上的注视点。然后能通过其他方法分析预定义图像和注视点的相对位置,以得出对于由预定义图像表征的物体关于用户反应的相关性和/或结论。
图3显示了本发明的另一个用于确定注视方向和可穿戴设备周围环境之间对应性的方法300的方框图,其中可穿戴设备包括眼球追踪装置和面朝外图像传感器。
在方框310中,由图像传感器接收场景多图像或视频。在方框320中,对应于收到多图像或视频的时间确定可穿戴设备用户的注视方向。
在方框330中,基于输入参数,分析多图像或视频以确定是否和何时他们包含(一个或多个)预定义图像(或其某部分)。如上所讨论的,可以由用户接收该输入参数,但在一些实施例中也可以自动确定。
在方框340中,对于在包含预定义图像的多图像或视频内的每个具体图像,基于注视方向确定在这些多图像或视频上的注视点。
在方框350中,场景图像显示具有覆盖视觉指示,其中覆盖视觉指示对应于预定义图像(或至少其部分)。在方框360中,可以收到关于覆盖视觉指示调整的用户反馈。仅做举例来说,用户可以操控覆盖在预定义图像上的多边形的尺寸和形状。
在方框370中,至少基于部分用户反馈调整原本用于确定存在的预定义图像的输入参数。在方框380中,基于调整后的输入参数分析未来场景图像,以确定是否存在预定义图像。
图4显示了本发明的另一个用于确定注视方向和可穿戴设备周围环境之间对应性的方法400的方框图,其中可穿戴设备包括眼球追踪装置和面朝外图像传感器。
在方框410中,由图像传感器接收场景多图像或视频。在方框420中,对应于收到多图像或视频的时间确定可穿戴设备用户的注视方向。
在方框430中,基于输入参数,分析多图像或视频以确定是否和何时他们包含(一个或多个)预定义图像(或其某部分)。如上所讨论的,可以由用户接收该输入参数,但在一些实施例中也可以自动确定。
在方框440中,对于在包含预定义图像的多图像或视频内的每个具体图像,基于注视方向确定在这些多图像或视频上的注视点。
在方框450中,可以确定置信值,所述置信值为所述至少一个注视点与所述预定义图像中映射点相关可能性程度的表征。替代性地,或额外地,在方框460中,可以确定质量值,所述质量值为在所述特定场景图像上的所确定的至少一个注视点的误差度的表征。
能够实施本发明一个或多个实施例的实例硬件
图5为说明示例性计算机系统500的方框图,从而可实施本发明的实施例。该实例图示了计算机系统500,例如可以整个、部分或具有各种改进的被使用,以提供本发明组件的例如上述的功能。例如,可以由计算机系统500控制可穿戴眼球追踪装置的各种功能。
计算机系统500显示包括可以通过总线580电气连接的硬件元件。硬件元件可以包括一个或多个中央处理器510、一个或多个输入设备520(例如鼠标、键盘、眼球追踪装置等)以及一个或多个输出设备530(例如显示装置、打印机等)。计算机系统500还可以包括一个或多个存储设备540。举例来说,(一个或多个)存储设备540可以是硬盘、光学存储设备、固态存储设备例如随机存储器(“RAM”)和/或只读存储器(“ROM”),其能够为可编程、可闪存更新和/或类似的等。
计算机系统500可以额外包括计算机可读的存储介质读取器550、通讯系统560(例如调制解调器、网卡(无线或有线)、红外通讯设备、蓝牙设备、蜂窝通讯设备等)以及工作内存8570,其可以包括如上所述的RAM和ROM设备。在一些实施例中,计算机系统500还可以包括处理加速单元590,该处理加速单元590能包括数字信号处理器、特殊用途处理器和/或类似的等。
计算机可读存储介质读取器550能进一步连接到计算机可读存储介质,其一起(和可选择的,与(一个或多个)存储设备540)相组合广泛地代表远程的、本地的、固定的和/或可移动的存储设备以及临时地/或永久性地包含计算机可读信息的存储介质。通讯系统560可以允许利用网络、系统、计算机和/或上述其他组件来交换数据。
计算机系统500还可以包括被示出为当前正位于工作内存570中的软件元件,包括操作系统574和/或其他代码578。应当认识到,计算机系统500的替代实施例可以具有上述实施例的许多变体。例如,还可使用定制的硬件和/或用硬件、软件(包括便携式软件,如applets)或两者均使用来实施特定的元件。此外,也可以产生与例如网络输入/输出和数据获取设备之类的其他计算设备的连接。
计算机系统500的软件可以包括用于实施如这里描述的结构的各种元件的任何或者所有功能的代码578。例如,存储于例如系统500的计算机系统上并被其执行的软件能提供例如以上讨论的可穿戴眼球追踪装置的功能和/或其它组件。通过在某些这些组件上的软件可实施的方法已经在上面更具体讨论过了。
出于清楚和理解的目的,本发明现在已经被具体描述过了。然而,要认识到在所附权利要求的范围内某些改变和改进是可以实施的。

Claims (18)

1.一种用于确定注视方向与可穿戴设备周围环境之间的对应的方法,其中所述可穿戴设备包括眼球追踪装置和面朝外图像传感器,且其中所述方法包括:
接收来自所述面朝外图像传感器的至少一个场景图像;
至少利用所述眼球追踪装置,确定所述可穿戴设备的穿戴者在一时间点的至少一个注视方向,所述时间点对应于所述场景图像被所述面朝外图像传感器捕获的时刻;
确定特定场景图像包括预定义图像的至少一部分;
基于所述至少一个注视方向,确定在所述特定场景图像上的至少一个注视点;
为所述至少一个注视点确定置信值,所述置信值表征所述至少一个注视点与所述预定义图像相关的概率;
基于所述置信值和所述至少一个注视点,确定与所述至少一个注视点相关联的注视区域;以及
使得所述场景图像带有所述注视区域的覆盖视觉指示地被显示,其中所述覆盖视觉指示对应于所述预定义图像的至少一部分。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
为所述至少一个注视点确定质量值,所述质量值表征所述特定场景图像上的所述至少一个注视点的误差度,其中确定与所述至少一个注视点相关联的注视区域是进一步基于所述质量值的。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
比较所述置信值和所述质量值,其中确定所述注视区域进一步基于以下:基于对所述置信值和所述质量值的比较,确定所述置信值高而所述质量值低。
4.根据权利要求1所述的方法,其特征在于,所述置信值是基于所述预定义图像中的局部区域与所述场景图像之间的相似度的比较而确定的。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定在另一时间点的另一注视方向,所述另一时间点对应于另一场景图像被所述面朝外图像传感器捕获的时刻;
确定所述另一场景图像包括所述预定义图像的至少一部分;
基于所述另一注视方向,确定在所述另一场景图像上的另一注视点;
为所述另一注视点确定另一置信值,以及
基于所述另一置信值,提供所述另一注视方向将被手动地分析的指示。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述注视点的位置,选择所述场景图像的子集,所述场景图像的子集在所述注视点周围;
基于所述注视点的位置,选择所述注视点周围的所述预定义图像的子集,所述预定义图像的子集对应于所述场景图像的子集;以及
比较所述场景图像的子集和所述预定义图像的子集,其中所述置信值是基于比较所述场景图像的子集与所述预定义图像的子集之间的相似度而确定的。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述预定义图像的3D模型;
基于所述注视点的位置,选择所述场景图像的子集,所述场景图像的子集在所述注视点周围;
基于所述注视点的位置,选择所述注视点周围的所述3D模型的子集,所述3D模型的子集对应于所述场景图像的子集;以及
比较所述场景图像的子集和所述3D模型的子集,其中所述置信值是基于比较所述场景图像的子集和所述3D模型的子集之间的相似度而确定的。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
确定所述预定义图像的第一特征;
确定所述场景图像的第二特征;
将所述第一特征与所述第二特征进行匹配;以及
基于所述第一特征与所述第二特征的匹配来对3D点作三角测量,其中所述预定义图像的3D模型是基于三角测量的3D点所建立的3D模型。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
接收来自所述面朝外图像传感器的另一场景图像;
确定所述另一场景图像的第一特征;
确定所述场景图像的第二特征;
将所述第一特征与所述第二特征进行匹配;以及
基于所述第一特征与所述第二特征的匹配来对3D点作三角测量,其中所述预定义图像的3D模型是基于三角测量的3D点所建立的3D模型。
10.一种用于确定注视方向与可穿戴设备周围环境之间的对应的系统,其中所述系统包括:
可穿戴设备,所述可穿戴设备包括眼球追踪装置和面朝外图像传感器;以及
一个或多个处理器,所述一个或多个处理器被配置为进行操作,所述操作包括:
接收来自所述面朝外图像传感器的至少一个场景图像;
至少利用所述眼球追踪装置,确定所述可穿戴设备的穿戴者在一时间点的至少一个注视方向,所述时间点对应于所述场景图像被所述面朝外图像传感器捕获的时刻;
确定特定场景图像包括预定义图像的至少一部分;
基于所述至少一个注视方向,确定在所述特定场景图像上的至少一个注视点;
为所述至少一个注视点确定置信值,所述置信值表征所述至少一个注视点与所述预定义图像相关的概率;
基于所述置信值和所述至少一个注视点,确定与所述至少一个注视点相关联的注视区域;以及
使得所述场景图像带有所述注视区域的覆盖视觉指示地被显示,其中所述覆盖视觉指示对应于所述预定义图像的至少一部分。
11.根据权利要求10所述的系统,其特征在于,所述操作还包括:
为所述至少一个注视点确定质量值,所述质量值表征所述特定场景图像上的所述至少一个注视点的误差度,其中确定与所述至少一个注视点相关联的注视区域是进一步基于所述质量值的。
12.根据权利要求11所述的系统,其特征在于,所述操作还包括:
比较所述置信值和所述质量值,其中确定所述注视区域还基于以下:基于对所述置信值和所述质量值的比较,确定所述置信值高而所述质量值低。
13.根据权利要求10所述的系统,其特征在于,所述置信值是基于所述预定义图像中的局部区域和所述场景图像之间的相似度的比较而确定的。
14.根据权利要求10所述的系统,其特征在于,所述操作还包括:
确定在另一时间点的另一注视方向,所述另一时间点对应于另一场景图像被所述面朝外图像传感器捕获的时刻;
确定所述另一场景图像包括所述预定义图像的至少一部分;
基于所述另一注视方向,确定在所述另一场景图像上的另一注视点;
为所述另一注视点确定另一置信值,以及
基于所述另一置信值,提供所述另一注视方向将被手动地分析的指示。
15.根据权利要求10所述的系统,其特征在于,所述操作还包括:
基于所述注视点的位置,选择所述场景图像的子集,所述场景图像的子集在所述注视点周围;
基于所述注视点的位置,选择所述注视点周围的所述预定义图像的子集,所述预定义图像的子集对应于所述场景图像的子集;以及
比较所述场景图像的子集和所述预定义图像的子集,其中所述置信值是基于比较所述场景图像的子集和所述预定义图像的子集之间的相似度而确定的。
16.根据权利要求10所述的系统,其特征在于,所述操作还包括:
接收所述预定义图像的3D模型;
基于所述注视点的位置,选择所述场景图像的子集,所述场景图像的子集在所述注视点周围;
基于所述注视点的位置,选择所述注视点周围的所述3D模型的子集,所述3D模型的子集对应于所述场景图像的子集;以及
比较所述场景图像的子集和所述3D模型的子集,其中所述置信值是基于比较所述场景图像的子集与所述3D模型的子集之间的相似度而确定的。
17.根据权利要求16所述的系统,其特征在于,所述操作还包括:
确定所述预定义图像的第一特征;
确定所述场景图像的第二特征;
将所述第一特征与所述第二特征进行匹配;以及
基于所述第一特征与所述第二特征的匹配来对3D点作三角测量,其中所述预定义图像的3D模型是基于三角测量的3D点所建立的3D模型。
18.根据权利要求16所述的系统,其特征在于,所述操作还包括:
接收来自所述面朝外图像传感器的另一场景图像;
确定所述另一场景图像的第一特征;
确定所述场景图像的第二特征;
将所述第一特征与所述第二特征进行匹配;以及
基于所述第一特征与所述第二特征的匹配来对3D点作三角测量,其中所述预定义图像的3D模型是基于三角测量的3D点所建立的3D模型。
CN202110079634.0A 2015-08-07 2016-08-05 注视方向映射 Active CN112666714B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201562202582P 2015-08-07 2015-08-07
US62/202,582 2015-08-07
US14/954,026 US9829976B2 (en) 2015-08-07 2015-11-30 Gaze direction mapping
US14/954,026 2015-11-30
CN201680059091.3A CN108351522B (zh) 2015-08-07 2016-08-05 注视方向映射
PCT/US2016/045717 WO2017027352A1 (en) 2015-08-07 2016-08-05 Gaze direction mapping

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201680059091.3A Division CN108351522B (zh) 2015-08-07 2016-08-05 注视方向映射

Publications (2)

Publication Number Publication Date
CN112666714A CN112666714A (zh) 2021-04-16
CN112666714B true CN112666714B (zh) 2023-03-24

Family

ID=56877112

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201680059091.3A Active CN108351522B (zh) 2015-08-07 2016-08-05 注视方向映射
CN202110079634.0A Active CN112666714B (zh) 2015-08-07 2016-08-05 注视方向映射

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201680059091.3A Active CN108351522B (zh) 2015-08-07 2016-08-05 注视方向映射

Country Status (5)

Country Link
US (3) US9829976B2 (zh)
EP (1) EP3332285B1 (zh)
CN (2) CN108351522B (zh)
ES (1) ES2940634T3 (zh)
WO (1) WO2017027352A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017001146A1 (en) * 2015-06-29 2017-01-05 Essilor International (Compagnie Générale d'Optique) A scene image analysis module
US9829976B2 (en) 2015-08-07 2017-11-28 Tobii Ab Gaze direction mapping
US9870051B2 (en) 2015-08-07 2018-01-16 Tobii Ab Gaze direction mapping
WO2017153355A1 (de) * 2016-03-07 2017-09-14 SensoMotoric Instruments Gesellschaft für innovative Sensorik mbH Verfahren und vorrichtung zum durchführen einer blickabbildung
JP6744747B2 (ja) * 2016-04-01 2020-08-19 キヤノン株式会社 情報処理装置およびその制御方法
CN108463765A (zh) * 2016-04-08 2018-08-28 谷歌有限责任公司 基于姿势信息在头戴式显示装置处编码图像数据
EP3276530A1 (en) * 2016-07-29 2018-01-31 Neopost Technologies Assisted manual mail sorting system and method
US20190253743A1 (en) * 2016-10-26 2019-08-15 Sony Corporation Information processing device, information processing system, and information processing method, and computer program
WO2019045719A1 (en) * 2017-08-31 2019-03-07 Tobii Ab CARTOGRAPHY OF DIRECTION OF LOOK
US11393251B2 (en) 2018-02-09 2022-07-19 Pupil Labs Gmbh Devices, systems and methods for predicting gaze-related parameters
EP3750029A1 (en) 2018-02-09 2020-12-16 Pupil Labs GmbH Devices, systems and methods for predicting gaze-related parameters using a neural network
WO2019154509A1 (en) 2018-02-09 2019-08-15 Pupil Labs Gmbh Devices, systems and methods for predicting gaze-related parameters
US10748021B2 (en) * 2018-05-11 2020-08-18 Samsung Electronics Co., Ltd. Method of analyzing objects in images recorded by a camera of a head mounted device
CN110547759A (zh) * 2018-05-31 2019-12-10 托比股份公司 鲁棒会聚信号
US10885882B2 (en) * 2018-12-06 2021-01-05 Tobii Ab Reducing aliasing artifacts in foveated rendering using cross-resolution modulation
CN109782902A (zh) * 2018-12-17 2019-05-21 中国科学院深圳先进技术研究院 一种操作提示方法及眼镜
US11537202B2 (en) 2019-01-16 2022-12-27 Pupil Labs Gmbh Methods for generating calibration data for head-wearable devices and eye tracking system
SE543332C2 (en) 2019-02-19 2020-12-01 Tobii Ab Method, computer program and head mountable arrangement for assisting a subject to acquire spatial information about an environment
EP3979896A1 (en) 2019-06-05 2022-04-13 Pupil Labs GmbH Devices, systems and methods for predicting gaze-related parameters
CN118192800A (zh) * 2020-03-31 2024-06-14 托比股份公司 用于对可视化数据进行预处理的方法、计算机程序产品和处理电路系统
US11503998B1 (en) 2021-05-05 2022-11-22 Innodem Neurosciences Method and a system for detection of eye gaze-pattern abnormalities and related neurological diseases
US11630510B2 (en) 2021-06-23 2023-04-18 Huawei Technologies Co., Ltd. System, method and storage medium for 2D on-screen user gaze estimation
CN114092674B (zh) * 2022-01-24 2022-04-22 北京派瑞威行互联技术有限公司 多媒体数据分析方法和系统

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2378338A (en) * 2001-07-31 2003-02-05 Hewlett Packard Co Automatic identification of features of interest within a video signal
GB0229625D0 (en) * 2002-12-19 2003-01-22 British Telecomm Searching images
CN101344919B (zh) * 2008-08-05 2012-08-22 华南理工大学 视线跟踪方法及应用该方法的残疾人辅助系统
CN101441513B (zh) * 2008-11-26 2010-08-11 北京科技大学 一种利用视觉进行非接触式人机交互的系统
WO2010118292A1 (en) * 2009-04-09 2010-10-14 Dynavox Systems, Llc Calibration free, motion tolerant eye-gaze direction detector with contextually aware computer interaction and communication methods
US9237844B2 (en) * 2010-03-22 2016-01-19 Koninklijke Philips N.V. System and method for tracking the point of gaze of an observer
CN103261943B (zh) * 2010-12-28 2016-05-04 洛克希德马丁公司 采用一个或多个菲涅尔透镜的头戴式显示装置
EP2499963A1 (en) * 2011-03-18 2012-09-19 SensoMotoric Instruments Gesellschaft für innovative Sensorik mbH Method and apparatus for gaze point mapping
US8643680B2 (en) * 2011-04-08 2014-02-04 Amazon Technologies, Inc. Gaze-based content display
US20120257035A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Systems and methods for providing feedback by tracking user gaze and gestures
US8510166B2 (en) * 2011-05-11 2013-08-13 Google Inc. Gaze tracking system
US8558759B1 (en) 2011-07-08 2013-10-15 Google Inc. Hand gestures to signify what is important
US9342610B2 (en) 2011-08-25 2016-05-17 Microsoft Technology Licensing, Llc Portals: registered objects as virtualized, personalized displays
US20130083003A1 (en) * 2011-09-30 2013-04-04 Kathryn Stone Perez Personal audio/visual system
US9606992B2 (en) 2011-09-30 2017-03-28 Microsoft Technology Licensing, Llc Personal audio/visual apparatus providing resource management
US9135508B2 (en) * 2011-12-20 2015-09-15 Microsoft Technology Licensing, Llc. Enhanced user eye gaze estimation
WO2013149966A1 (en) * 2012-04-02 2013-10-10 Thomson Licensing Method for calibration free gaze tracking using low cost camera
CN104428732A (zh) * 2012-07-27 2015-03-18 诺基亚公司 与近眼显示器的多模交互
EP2709060B1 (en) * 2012-09-17 2020-02-26 Apple Inc. Method and an apparatus for determining a gaze point on a three-dimensional object
US9019174B2 (en) * 2012-10-31 2015-04-28 Microsoft Technology Licensing, Llc Wearable emotion detection and feedback system
US20140191927A1 (en) * 2013-01-09 2014-07-10 Lg Electronics Inc. Head mount display device providing eye gaze calibration and control method thereof
US10359841B2 (en) * 2013-01-13 2019-07-23 Qualcomm Incorporated Apparatus and method for controlling an augmented reality device
EP2790126B1 (en) * 2013-04-08 2016-06-01 Cogisen SRL Method for gaze tracking
US9965062B2 (en) * 2013-06-06 2018-05-08 Microsoft Technology Licensing, Llc Visual enhancements based on eye tracking
US9189095B2 (en) * 2013-06-06 2015-11-17 Microsoft Technology Licensing, Llc Calibrating eye tracking system by touch input
US10387729B2 (en) 2013-07-09 2019-08-20 Outward, Inc. Tagging virtualized content
US10152495B2 (en) 2013-08-19 2018-12-11 Qualcomm Incorporated Visual search in real world using optical see-through head mounted display with augmented reality and user interaction tracking
KR101968455B1 (ko) 2013-09-03 2019-04-11 토비 에이비 휴대용 눈 추적 디바이스
WO2015066475A1 (en) * 2013-10-31 2015-05-07 The University of North Carlina at Chapel Hill Methods, systems, and computer readable media for leveraging user gaze in user monitoring subregion selection systems
CN104199544B (zh) * 2014-08-28 2018-06-22 华南理工大学 基于视线跟踪的广告定向投放方法
US9547365B2 (en) * 2014-09-15 2017-01-17 Google Inc. Managing information display
KR20170011362A (ko) 2015-07-22 2017-02-02 삼성전자주식회사 영상 처리 장치 및 그 방법
US9829976B2 (en) 2015-08-07 2017-11-28 Tobii Ab Gaze direction mapping
US9870051B2 (en) 2015-08-07 2018-01-16 Tobii Ab Gaze direction mapping

Also Published As

Publication number Publication date
US10228763B2 (en) 2019-03-12
EP3332285B1 (en) 2023-02-15
WO2017027352A1 (en) 2017-02-16
CN112666714A (zh) 2021-04-16
US20180088668A1 (en) 2018-03-29
US20190011986A1 (en) 2019-01-10
CN108351522B (zh) 2021-02-05
US9829976B2 (en) 2017-11-28
EP3332285A1 (en) 2018-06-13
US10114459B2 (en) 2018-10-30
US20170038835A1 (en) 2017-02-09
CN108351522A (zh) 2018-07-31
ES2940634T3 (es) 2023-05-10

Similar Documents

Publication Publication Date Title
CN112666714B (zh) 注视方向映射
US10331209B2 (en) Gaze direction mapping
US11776222B2 (en) Method for detecting objects and localizing a mobile computing device within an augmented reality experience
US9913578B2 (en) Eye gaze detecting device and eye gaze detection method
Baak et al. A data-driven approach for real-time full body pose reconstruction from a depth camera
US8401225B2 (en) Moving object segmentation using depth images
EP2915140B1 (en) Fast initialization for monocular visual slam
CN108700946A (zh) 用于并行测距和建图的故障检测和恢复的系统和方法
CN106125903B (zh) 多人交互系统及方法
KR20230003646A (ko) 클라우드 기반 증강 현실
CN103181157A (zh) 基于平面特性的无标记增强现实系统及其操作方法
US11823394B2 (en) Information processing apparatus and method for aligning captured image and object
US20200211275A1 (en) Information processing device, information processing method, and recording medium
US11269405B2 (en) Gaze direction mapping
Kaur et al. Computer vision and sensor fusion for efficient hybrid tracking in augmented reality systems
JP6487545B2 (ja) 認知度算出装置、認知度算出方法及び認知度算出プログラム
US20230332883A1 (en) Depth Estimation for Augmented Reality
US20230122185A1 (en) Determining relative position and orientation of cameras using hardware

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Sweden Danderyd

Applicant after: TOBII AB

Address before: American Virginia

Applicant before: TOBII AB

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant