CN107111629A - 用于检测感兴趣的对象的方法和系统 - Google Patents

用于检测感兴趣的对象的方法和系统 Download PDF

Info

Publication number
CN107111629A
CN107111629A CN201580059079.8A CN201580059079A CN107111629A CN 107111629 A CN107111629 A CN 107111629A CN 201580059079 A CN201580059079 A CN 201580059079A CN 107111629 A CN107111629 A CN 107111629A
Authority
CN
China
Prior art keywords
sight
interested
eye
people
category properties
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580059079.8A
Other languages
English (en)
Other versions
CN107111629B (zh
Inventor
托雷·迈尔
斯蒂芬·奥多尔费尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Four Tuo Billiton Co Ltd
Original Assignee
Four Tuo Billiton Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Four Tuo Billiton Co Ltd filed Critical Four Tuo Billiton Co Ltd
Publication of CN107111629A publication Critical patent/CN107111629A/zh
Application granted granted Critical
Publication of CN107111629B publication Critical patent/CN107111629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种用于检测感兴趣的对象(28)的方法,包括:接收正在看着对象(28)集合的人的视线追踪数据(30),视线追踪数据(30)包括人正在看着哪些点的信息;确定人的视场中的对象映射(42),对象映射(42)指示对象集合中的对象被布置在哪个位置(44)处;通过将视线追踪数据(30)与对象映射进行匹配,确定对象集合中的对象的视线交互事件(48),其中,对象的视线交互事件(48)指示关于对象已经发生特定视线交互;确定具有视线交互事件(48)的对象的类别特性(56),其中,类别特性(56)关于特定对象类别(58)来描述对象;通过查找被分配给多个对象(28)的至少一个类别特性(56),在至少一个对象类别(58)中确定至少一个感兴趣的类别特性(56),所述多个对象(28)具有指示人对这些对象(28)感兴趣的视线交互事件(48)。

Description

用于检测感兴趣的对象的方法和系统
相关申请的交叉引用
本应用要求2014年10月30日提交的欧洲专利申请EP14191120.6的优先权和申请日。
技术领域
本申请涉及一种用于利用视线追踪系统检测感兴趣的对象的方法、计算机程序和计算机可读介质。此外,本发明涉及一种视线追踪系统。
背景技术
如PC、膝上型计算机、智能电话或头部安装的眼睛追踪器(诸如增强现实眼镜、虚拟现实眼镜、眼睛追踪眼镜或智能眼镜)的设备可以配备有视线追踪系统,该视线追踪系统适配于确定其中使用设备的人正在看着(眼睛追踪)的方向并且适配于确定人正在看着(视线追踪)的那个点处。
视线追踪系统可以被用于支持搜索,该搜索是在利用计算机工作时的关键活动。然而,人类的光学搜索通常发生在焦点(focus point)中以及旁中心凹(parafoveal)、周边中心凹(perifoveal)和周边(peripheral)视野中二者,其在下文中以术语周边视野来概括。当对于图形可区别对象(诸如图像、词语、文本块、图标等)进行搜索时,人类视线的焦点选择性地指向感兴趣的对象,该感兴趣的对象由人类视线的焦点基于光学可辨识的方面或对象类别(例如主色、结构、特定元素如人、图像或图标中的文本或图形、词语中的字长、小、高圆形的和直的字母的布置)预识别为潜在候选。可以由人类在其周边视野中检测的类别特性可以取决于其自身的搜索任务,并且该类别特性通常受周边视野的不同区域中人类视觉的能力的限制。
发明内容
本发明的目标是以有效率方式利用视线追踪系统支持基于计算机的搜索。
通过独立权利要求的主题实现这个目的。另外的示例性实施例根据从属权利要求和以下描述而明显。
本发明的方面涉及用于检测感兴趣的对象的方法,这可以完全地通过计算机来执行。感兴趣的对象可以是在通过计算机提供的屏幕上显示的图像和/或字,或者可以是现实世界对象,该现实世界对象例如通过智能眼镜或头戴式眼睛追踪器由人进行观看。
根据本发明的一个实施例,该方法包括:接收正在看着对象集合的人的视线追踪数据,该视线追踪数据包括人正在看着哪些点的信息;确定该人的视场中的对象映射,该对象映射指示对象集合中的对象被布置在哪个位置处;通过将视线追踪数据与对象映射进行匹配,确定针对该对象集合中的对象的(至少一个类型的)视线交互事件,其中,对象的视线交互事件指示关于该对象已经发生特定视线交互;确定具有视线交互事件的对象的类别特性,其中,类别特性关于特定对象类别来描述该对象;通过找出被分配给多个对象的至少一个类别特性,在至少一个对象类别中确定至少一个感兴趣的类别特性,所述多个对象具有指示该人对这些对象感兴趣的视线交互事件。
例如,视线追踪数据可以包括数据点,该数据点可以包括两个坐标,并且该两个坐标指示人的一只或两只眼睛的当前焦点。为了确定人正在看着哪个对象,对象映射可以包括对象的轮廓或对象的形状。例如,对象映射可以在对象集合中包括每个对象的含纳轮廓的(outlining)矩形,或一般地包括含纳轮廓的多边形或含纳轮廓的形状。
然后,例如通过确定哪些数据点位于对象的哪个轮廓内,视线追踪数据的数据点可以被映射到对象的映射。此外,例如通过对视线数据点的数目计数,可以根据视线追踪数据来识别视线交互事件,该视线数据点位于对象的相应轮廓内部。还可以是可能的是从数据点导出运动向量(具有支持点和方向的矢量),这会产生另外的视线交互事件,作为例如所预测的目标点和/或与视线向量的对象的交叉。
至少针对这些目的中的一些,针对视线交互事件已经识别的对象,确定类别特性。例如,当对象是图像或现实世界对象时,这些类别特性可以是图像中的特定色彩、特定形状和/或特定模式。类别特性可以被分配给诸如颜色、形状和/或模式的对象类别。必须理解的是,仅一个或多个特定类型的对象类别的类别特性可以被考虑(诸如颜色和/或形状)。
最后,通过组合在先前步骤——即视线交互事件分配给对象和将类别特性分配给对象——期间确定的信息来确定至少一个对象类别中的至少一个感兴趣的类别特性。通常,通过统计评估所聚集的信息,通过找出类似的类别特性的一个或多个群组来确定一个或多个类别特性,将该一个或多个的类别特性全部分配给该人感兴趣的多个对象。
例如,通过单个值(例如,特定色彩值)或多个值(例如,在覆盖图像的网格上散布的平均色彩值),可以表示特定类别(诸如色彩)的类别特性,并且当两个类别特性的值与彼此仅相差至少阈值时,该两个类别特性可以是类似的。应用于类别特性(的值)的统计函数(诸如最小均方)可以被用于确定统计值,该统计值可以与用于判定该类别特性是否在由平均值表示的特定群组中的平均值进行比较。
在一种情况下,当将对象分配给视线交互事件时,可以声明该对象是人感兴趣的。例如,如果该视线交互事件是基于具有在对象的映射区域中的数据点的视线追踪数据的,则视线交互事件指示该人对该对象感兴趣。还可以是可能的是,通过可以利用统计函数(例如,依据视线交互事件)确定的值,可以表示感兴趣的级别或涉入程度(involvementlevel),并且当涉入程度值高于阈值时,声明该对象是令人感兴趣的。
根据本发明的一个实施例,对对象的类别特性进行群集,并且通过选择类别特性中表示至少一个感兴趣的类别特性的至少一个群集来确定至少一个感兴趣的类别特性。该类别特性可以关于对象类别和/或关于可以利用统计函数确定的一个或多个平均类别特性进行群集。例如,在平均色彩的类别中,统计函数可以找出蓝色平均色彩的群集(该蓝色平均色彩的群集可以包括不同的蓝色色彩值)和红色平均色彩的群集。
根据本发明的一个实施例,针对对象确定至少两个不同类型的视线交互事件。必须理解的是,根据纯视线追踪数据(即,数据点),可以导出更多个复杂视线交互事件。例如,视线交互事件可以是基于以下中的至少一个的:对象上的视线命中、视线聚焦于对象的持续时间、关于对象的固定检测、关于对象的读取模式检测、对对象的再次访问、详细的扫描模式、在显示器上/周边视野中对象的首次出现之后的交互时间、访问时间的长度、在完成加载内容之后的时间等。
根据本发明的一个实施例,视线交互事件是基于人的周边视野(peripheralview)的模型。通常,视线追踪数据包括指示人的视线的焦点的数据点。然而,在搜索期间,寻找特定特征的人还可使用他的或她的周边视野以用于确定感兴趣的对象和不感兴趣的对象。人的周边视野可以被定义为焦点或聚焦区域的外部的视野。
在一种情况下,可以利用围绕焦点和不包括焦点的区域对周边视野建模。可以利用围绕焦点的一个或多个环形区域对周边视野建模。映射区域与视线交互事件的周边视野重叠的对象可以被声明是令人感兴趣的或是不感兴趣的。对象的兴趣值的等级可以基于分配给这样的视线交互事件的值。
虑及周边视野的视线交互事件可以基于以下中的至少一个:在人的周边视野中的对象的持续时间、与人的周边视野的涉入程度、指向特定对象处但是没有导致具体对象上的焦点焦点的异常值等。
根据本发明的一个实施例,针对对象确定至少两个不同类型的对象类别的类别特性。必须理解的是针对感兴趣的对象同时地评估不仅一个对象类别而且两个或更多个对象类别。还可以是可能的是,在评估视线追踪数据期间确定感兴趣的对象类别,以及对类别特性的确定被局限于这些对象类别。
根据本发明的一个实施例,该对象集合的类别特性被预计算并且与该对象一起被存储。例如,该对象可以被存储在数据库(诸如图像或视频)中,并且该数据库还可以包含已经在由数据库的构建期间或之前计算的数个类别的类别特性。在图像和视频的情况下,例如,可以计算平均色彩值并且将其与图像或视频的相应多媒体数据一起存储。
根据本发明的一个实施例,可以通过评估对象的对象数据来确定类别特性。例如,当在显示设备上显示诸如图像数据、视频数据或文本数据的对象数据时和/或在利用视线追踪系统的相机记录该对象数据期间或之后,可以“即时(on the fly)”——即在评估视线追踪数据期间或之后评估该对象数据。
根据本发明的一个实施例,通过评估来自感兴趣的对象的群组的对象的对象数据来确定对象类别。还可以是可能的是利用统计方法或利用机器学习方法来评估对象数据,以生成对象类别。
根据本发明的一个实施例,该方法进一步包括:根据对象的视线交互事件(以及可选地,根据类别特性)确定该对象的涉入程度,其中,只有具有高于涉入程度阈值的涉入程度的对象被考虑用于感兴趣的识别、对象的选择和/或对象类别的选择。涉入程度可以是基于视线交互事件来计算的数值。例如,可以将不同视线交互事件(诸如运动矢量所触及的固定点或对象)分配给不同的——例如预定义的涉入程度值,并且对象的涉入程度是基于视线交互事件的涉入程度值的(例如,视线交互事件的涉入程度值可以相加或相乘)。
此外,可以是可能的是涉入程度可以基于与其它人的共同兴趣。例如,当数个其它用户或人发现类别特性a和b令人感兴趣时,对于发现特性a令人感兴趣的用户,可以增加具有特性b的对象的涉入程度。
根据本发明的一个实施例,该方法进一步包括:根据对象的视线交互事件确定该对象的负涉入程度(具体地基于人的周边视野的模型)(并且可选地基于对象的类别特性),其中,具有高于负涉入程度阈值的负涉入程度的对象被不考虑用于对象的选择。负涉入程度可以与正涉入程度类似地进行计算。
例如,没有明确地正在看着特定对象的人可能已经在他的或她的周边视野中看见该对象不具有所需的特性的(因为,该对象可以具有错误色彩)。在这个情况下,在没有视线交互事件“聚焦”的情况下的视线交互事件“对象触及周边视野”可以导致高负涉入程度。
可以预定义或动态地确定正涉入程度阈值和负涉入程度阈值。在后者的情况下,可以对涉入程度的值排序,并且截止限(cutoff)可以被确定在上升或下降值的曲线具有陡斜侧面(flank)(曲线的导数达到特定值)处。通常,可以利用任何类型的群集来确定该截止限。
根据本发明的一个实施例,在人的视场中,对象集合被显示在显示设备上。例如,视线追踪设备监视正在看着计算机的监视器的人,该计算机的监视器显示对象并且还执行用于检测对对象、类别特性和/或类别感兴趣的该人对哪个对象、类别特性和/或类别感兴趣的方法。
根据本发明的一个实施例,在已经确定至少一个感兴趣的类别特性之后,在显示设备上显示具有该至少一个感兴趣的特征的额外对象。在该情况下,在显示设备的监视器上显示该对象,还可以可能的是执行该方法的计算机向人提供具有看起来该人感兴趣的特征的更多个对象。
根据本发明的一个实施例,根据对象的轮廓生成对象映射。在该情况下,通过还执行该方法的设备显示该对象,将要被显示的对象的轮廓或形状可以被确定并且可以被用于将视线追踪数据映射至对象。然而,还可以可能的是,根据从记录该人的视场的摄像机接收的图像数据来生成对象映射。
根据本发明的一个实施例,对象集合包括以下中的至少一个:图像、词语、文本块、图标、公式、页面、文档的段落、3D对象、形状、模式。全部这些类型的对象可以具有诸如色彩、形状、字类型、模式等的不同类型的对象类别。
根据本发明的一个实施例,对象类别是视觉描述符,其中,该类别特性是内容描述符的值。如MPEP-7标准的若干标准限定标准化内容描述符,该标准化内容描述符将值与例如多媒体数据的特性相关联。在MPEP-7的情况下,这些描述符的示例是可伸缩颜色描述符(Scalable Color Descriptor)、色彩布局描述符、主色彩描述符、和边缘直方描述符。
本发明的另外方面涉及一种用于检测感兴趣的对象的计算机程序,其中,该计算机程序在通过处理器执行时,被适配来施行如以上和以下所描述的方法的步骤,并且涉及一种计算机可读介质,这样的计算机程序存储在该计算机可读介质中。
计算机可读介质可以是软盘、硬盘、USB(通用串行总线)存储设备、RAM(随机存取存储器)、ROM(只读存储器)、EPROM(可擦除可编程只读存储器)或FLASH存储器(闪速存储器)。计算机可读介质还可以是例如互联网的数据通信网络,该数据通信网络允许下载程序代码。通常,计算机可读介质可以是非暂时性或暂时性介质。
本发明的另一方面涉及一种视线追踪系统,例如,该视线追踪系统可以通过膝上型计算机或头戴式眼睛追踪器来提供。必须理解的是,如在以上和以下描述的方法、计算机程序和计算机可读介质的特征可以是如在以上和以下描述的视线追踪系统的特征,反之亦然。
根据本发明的一个实施例,该视线追踪系统包括用于生成视线追踪数据视线追踪设备和对象检测设备,该视线追踪设备可以适配以用于执行如以上和以下描述的方法。
视线追踪设备可以包括用于照明人的眼睛的光源和用于检测该眼睛的运动的相机或传感器。视线追踪设备可以生成例如2D数据点的序列的视线追踪数据,该视线追踪数据指示人正在看着的点。
对象检测设备可以是例如附接至智能眼镜的计算机、智能电话、平板计算机、或头戴式眼睛追踪器。通常,该对象检测设备可以适配以用于处理视线追踪数据。
此外,视线追踪系统可以包括用于显示例如图像的对象集合的显示设备。
总之,当与具有在高数目的对象(例如,数百至数千的词语、图像)中进行视线追踪和搜索的计算机一起工作时,关于焦点和外围视觉的信息可以被用于识别感兴趣的对象之间的相似性。该信息可以通过以下方式有效地在她的或他的搜索中支持用户(即,使用视线追踪系统的人):例如显示包含全部数目的对象中的对象的最可能的搜索结果的子样本;基于所假设的兴趣适配显示次序;或者在更间接的方法中,使用关于可能和与最终选择有关的信息组合的相似性的该信息,在最初用户的搜索之后,将对象的显示适配至在对象的类似群组中作出选择的其它用户。
该方法可以用于基于通过视线追踪系统(从远程眼睛追踪至具有所包括的眼睛追踪器的抬头显示器的各种装置(setup))提供的视线数据来识别对象或感兴趣的对象的群组,以实时或近实时在基于光学的搜索过程中支持用户。
当焦点的运动和视线交互事件的若干其它方面(焦点的持续时间、焦点的分布等)可以揭示关于用户的感兴趣的对象的信息时,同时焦点基于个人兴趣被吸引至对象,该个人兴趣从由于特异性(peculiarity)、陌生(unfamiliarity)和记忆的排斥到吸引力以及搜索过程中独立于对象的影响——如被打断或对在屏幕处无目的地凝视。还可以通过该方法补偿对该搜索过程的这些影响。
本发明的这些和其它方面将通过参照下文中描述的实施例而变得显而易见并得以阐明。
附图说明
以下,参照附图详细描述本发明的实施例。
图1示出根据本发明的实施例的视线追踪系统。
图2示出根据本发明的其他实施例的视线追踪系统。
图3示出用于根据本发明的实施例的,检测感兴趣的对象的方法的流程图。
图4示意性示出在图3的方法中使用的对象映射。
图5示意性示出在图3的方法中使用的周边视野的模型。
图6示意性示出在图3的方法中使用的对象类别和特性。
在附图中使用的附图标记以及它们的含义在附图标记列表中以概述的形式列出来。原则上,在附图中,完全相同的部分被设置有相同的附图标记。
具体实施方式
图1以膝上型计算机的形式示出视线追踪系统10,其包括壳体12、附接至壳体12的轨迹板14和键盘16、和经由铰接件20附接至壳体12的屏幕或显示设备18。在铰接件20上,设置例如包括红外光源和对应的传感器(相机)的远程视线追踪器22。另外,在屏幕18上方设置3D相机24。
利用远程视线追踪器22,膝上型计算机可以被用作为视线追踪设备26。来自视线追踪器22的红外光被照射在用户处,并且利用视线追踪器22的内部相机记录来自眼球的反射。根据红外相机的所记录的数据,膝上型计算机10然后预测眼睛正在看着哪里。具体地,膝上型计算机10生成视线追踪数据,该视线追踪数据可以被提供给在膝上型计算机上运行的软件组件。
如下面将更详细说明的,膝上型计算机10可以显示对象28并且可以使用视线追踪数据来检测哪些对象28或该对象的哪些特征是用户感兴趣的。在这个意义上,膝上型计算机10可以被看作为对象检测设备30。
图2示出包括作为视线追踪设备26的眼镜32和对象检测设备30的视线追踪系统10的其他类型,该对象检测设备30可以是与眼镜32通信地互连的PC或智能电话。眼镜32包括用于记录眼镜32的佩戴者的眼睛的传感器或相机34,并且眼镜32或对象检测设备可以生成来自传感器34的所记录的数据的视线追踪数据。
此外,眼镜32包括用于记录佩戴者的视场的相机36。利用相机36的相机数据,对象检测设备30可以检测该人正在看着的对象(例如,通过在相机数据中找出轮廓或形状),并且利用视线追踪数据,对象检测设备30可以检测哪些对象或这些对象的哪些特征是佩戴者感兴趣的。
图3示出用于检测感兴趣的对象的方法,其可以通过图1或图2的对象检测设备/模块来执行。
在步骤S10中,对象检测设备30接收人正在看着对象集合的视线追踪数据,该视线追踪数据包括该人正在看着哪些点的信息。例如,对象集合可以是显示器18上的图像,或者可以是在佩戴眼镜32时她或他的视场中的对象。
如图4所示,视线追踪数据38可以包括一系列的数据点40,其例如可以利用恒定或可变的采样率通过图1或图2的视线追踪设备26来记录。该数据点40可以包括可以被映射至显示器18的坐标的两个坐标,和/或校正可以被应用来调整所假设的焦点。
在步骤S12中,确定人的视场中的对象28的映射42,对象的映射42指示对象集合中的对象28布置在哪个位置处。
这样的映射的示例还被示出在图4中。每个对象28在映射42中具有映射区域44。在图4的情况下,映射区域44是相等尺寸的矩形。例如,对象28可以是相等尺寸的图像,并且映射区域44可以是这些图像的外边界。
当对象28具有较复杂的形式时(例如,当对象是图像的部分时),还可以针对对象28来确定轮廓46,并且可以根据这些轮廓46来生成对象的映射42。
在对象是现实世界对象(例如,在图2的情况下)和/或对象没有由视线追踪系统10自身来显示的情况下,可以根据从相机36接收的图像数据来生成对象28的映射42。例如,对象辨识算法可以应用于相机数据并且这些对象的轮廓被用于生成映射42。
在步骤S14中,通过将视线追踪数据与对象的映射42进行匹配来确定视线交互事件48,其中,针对对象的视线交互事件48指示关于对象28已经发生了特定视线交互。通过根据事件追踪数据确定视线交互事件48的一个或多个算法来处理视线追踪数据30。
这些算法可以相对于对象28的位置中立,并且所检测的事件48可以具有可以映射至一个或多个对象28的位置。这样的视线交互事件48的示例可以是固定点48a,其可以在特定数目的数据点40位于特定区域内时生成。
这里还可以是已经关注于对象28的算法。这样的算法的示例是在对象28上的视线命中(hit)48b或者关注于对象28的视线的持续时间。
还可能的是,视线交互事件48、48c是基于如图5所示的人的周边视野的模型50的。事件48c可以被描述为事件“对象仅在周边视野中”。
图5示出周边视野的模型50,该模型50包括内圆和外环,该内圆围绕对人的焦点(中心凹)视野52建模的数据点40,该外环对人的周边视野54建模。在图5中,利用围绕焦点并且不包括焦点的区域来建模周边视野。
基于模型50(其还可以包括若干个同心环),可以通过若干算法处理周边视野上的视线追踪数据,所述若干算法也可以关于位置中立或可以是关注于对象的。这样的算法的示例是在周边视野中的对象28的持续时间、周边视野内的涉入程度(level ofinvolvement)等。
模型50可以基于关于人的信息(例如,基于所监视的视线/选择行为)对于该人进行调整。参照图5,圆和环的半径可以适配于人。
在步骤S16中,确定具有视线交互事件38的对象28的类别特性。如图6所指示,每个对象28可以具有一个或多个类别特性56,该一个或多个类别特性56关于特定对象类别58来描述该对象28。
例如,对象类别58可以是平均色彩58a、色彩模式58b,该包含头58c、形状58d等。在这些情况下的特性56可以是色彩值56a、多个(色彩)值56b、布尔(Boolean)值58c和其它数据58d(如“圆形”、“正方形”、“星形”)。
可以是可能的是,预计算并且与对象26一起存储对象26的类别特性56。例如,特性56可以是在数据库中与对象一起存储的(标准)描述符。
还可以是可能的是,通过即时(on the fly)评估对象26的对象数据来确定类别特性56。在这个情况下,当相关的类别58是未知的时,在搜索过程期间建立已知对象类别58中的相似性的预先面(upfront)和/或方面。例如,视线追踪系统10可以知道人正在看着图像并且针对图像中的相似性的经考虑的对象类别58是突出色彩、粒度、图像中的人等,并且正在参照用户正看着的对象26来实时或近实时地分析这些方面。
此外,可以是可能的是通过评估对象26的对象数据来确定事件对象类别58(之前未知)。在这个情况下,当即使针对相似性的对象类别58也未知时,然后在虑及或没有虑及哪种数据被编码成对象数据的情况下,可以基于机器学习算法分析在BLOB(二进制大对象)——即对象数据——之间的相似性。
在步骤S18中,通过找出被分配给多个对象28的至少一个类别特性56来确定一个或多个对象类别58中的一个或多个感兴趣的类别特性56,该多个对象28具有指示人对这些对象感兴趣的视线交互事件48。
无论对象28是人感兴趣的还是不感兴趣的,可以基于负涉入程度和/或正涉入程度来计算指示符,该涉入程度可以是关于对象来预测感兴趣的级别或不感兴趣的级别的数值。
仅具有高于涉入程度阈值的涉入程度的对象28被认为是感兴趣的对象,和/或从感兴趣的对象的选择中排除具有高于负涉入程度阈值的负涉入程度的对象28。
这里,正涉入程度和/或负涉入程度的阈值或截止值可以基于在全部对象26上检测经排序的涉入程度的曲线中的群集或急剧下降的算法进行动态调整。
例如,特定视线追踪事件48可以具有预定义的正涉入程度和/或可以具有预定义的负涉入程度,并且对象的涉入程度然后基于视线交互事件特定程度。例如,固定点48a的涉入程度可以高于数个命中48的涉入程度。基于周边视野的视线交互事件48c可能具有负涉入程度。例如,当对像28在周边视野被假设来有效地(actively)处理的时间期间处于周边视野中的特定区域54中但后来没有被聚焦的时候。
在那之后,对感兴趣的对象28的类别特性56进行群集,并且通过选择类别特性中表示至少一个感兴趣的类别特性的至少一个群集来确定至少一个感兴趣的类别特性。图6示出两个这样的群集60。例如,群集60a可以是“对象是蓝色的”,其中,蓝色可以通过被感知为蓝色的色彩值的范围来描述。作为另一示例,群集60b可以是“示出圆形的对象”。
如上所述,一个对象类别58的类别特性56可以是数值、整数值或布尔值,和/或可以是这些值的集合/向量/矩阵。可以使用统计方法来评估这些值或值的集合。例如,利用最小均方,可以针对特定类别特性56来确定平均值,并且只有仅具有在阈值以下的距离的那些类别特性56可以被计入群集。
可以基于单个对象类别58来对类别特性56群集。
可以是可能的是,经由若干对象类别58发生群集。例如,一个对象28的若干对象类别58的类别特性56的值(或值的集合)可以被聚集成一个矢量或矩阵,并且感兴趣的对象28的矢量或矩阵可以被评估以供找出类似的模式。具有类似模式的这样的对象28可以被聚集成一个群集。然后,感兴趣的类别特性可以被确定为这样的群集的表示。在这个情况下,相似性可以被限定:可以根据矢量或矩阵计算的统计值至少仅与平均值相差阈值。
通常,还可以是可能的是,基于与类别特性组合的(正和/或负)涉入程度来发生群集——即从涉入程度和特性来形成矢量和矩阵并且该群集是基于与上述类似的这些矢量或矩阵的。
在这个情况下,在人的视场中,对象28集合被显示在显示设备18上,在步骤S20中,具有至少一个感兴趣的特性的额外对象28可以被显示在显示设备18上。
例如,当检测到在感兴趣的类别特性56当中的趋势时,这个信息可以被应用于其余的正在被搜索的对象28,和/或可以从可通过视线追踪系统10访问的类似对象28的数据库抽取其他对象。
当具有用户的历史——关于对对象的子集的事先熟悉的信息时,和/或当具有关于对象的一些额外信息时,这个信息还可以被使用在搜索过程中。例如,可以忽略在按数据排序时的一定数据范围中的图像,和/或因为系统10知道没有包括所搜索的项目,所以系统10可以详细地知道图像的群组并且该系统10没有包括这些。
尽管已经在附图及前述描述中详细说明并且描述了本发明,但这样的说明和描述可以认为是说明性的或示例性的,而不是限制性的;本发明不限于所公开的实施例。通过研究附图、公开内容、和所附权利要求,本领域技术人员在实践所要求保护的发明时能够理解和实现所公开的实施例的其它变型。在权利要求书中,词“包括”并不排除其它元件或步骤,且不定冠词“一”或“一个”并不排除多个。单个处理器或其它单元可以实现权利要求书中所记载的若干项目的功能。在相互不同的从属权利要求中记载的某些测量并不指示这些测量的组合无法被使用来获益。权利要求书中的任何附图标记不应当被解释为限制其范围。
附图标记的列表
10 视线追踪系统
12 壳体
14 轨迹板
16 键盘
18 显示设备
20 铰接件
22 视线追踪器
24 3D相机
26 视线追踪设备
28 对象
30 对象检测设备
32 头戴式眼睛追踪系统
34 眼睛追踪传感器
36 相机
38 视线追踪数据
40 数据点
42 对象的映射
44 映射区域
46 轮廓
48 视线交互事件
50 周边视野的模型
52 焦点视野
54 周边视野
56 类别特性
58 对象类别
60 群集

Claims (15)

1.一种用于检测感兴趣的对象(28)的方法,所述方法包括:
接收正在看着对象(28)集合的人的视线追踪数据(30),所述视线追踪数据(30)包括所述人正在看着哪些点的信息;
确定所述人的视场中的对象映射(42),所述对象映射(42)指示所述对象集合中的对象被布置在哪个位置(44)处;
通过将所述视线追踪数据(30)与所述对象映射(42)进行匹配,确定所述对象集合中的对象的视线交互事件(48),其中,对象的视线交互事件(48)指示关于所述对象已经发生特定视线交互;
确定具有视线交互事件(48)的对象(28)的类别特性(56),其中,类别特性(56)关于特定对象类别(58)来描述所述对象;
通过找出被分配给多个对象(28)的至少一个类别特性(56),在至少一个对象类别(58)中确定至少一个感兴趣的类别特性(56),所述多个对象(28)具有指示所述人对这些对象(28)感兴趣的视线交互事件(48)。
2.根据权利要求1所述的方法,
其中,对对象(28)的类别特性(56)进行群集,并且通过选择类别特性(56)中表示所述至少一个感兴趣的类别特性的至少一个群集(60)来确定所述至少一个感兴趣的类别特性。
3.根据权利要求1或2所述的方法,
其中,针对对象(28)确定至少两个不同类型的视线交互事件(48)。
4.根据前述权利要求中的一项所述的方法,
其中,视线交互事件(48)是基于所述人的周边视野的模型(50)的;和/或
其中,利用围绕焦点(40)并且不包括所述焦点的区域(54)对周边视野建模。
5.根据前述权利要求中的一项所述的方法,
其中,针对对象(28)确定至少两个不同类型的对象类别(58)的类别特性(56)。
6.根据前述权利要求中的一项所述的方法,
其中,所述对象集合的类别特性(56)被预计算并且与所述对象(28)一起被存储;和/或
其中,通过评估所述对象(28)的对象数据来确定所述类别特性(56)。
7.根据前述权利要求中的一项所述的方法,
其中,通过对来自感兴趣的对象的群组的对象(28)的对象数据进行评估,确定对象类别(58)。
8.根据前述权利要求中的一项所述的方法,进一步包括:
根据对象(28)的视线交互事件(48)确定所述对象的涉入程度,其中,只有具有高于涉入程度阈值的涉入程度的对象被考虑用于对对象的选择。
9.根据前述权利要求中的一项所述的方法,进一步包括:
根据对象(28)的视线交互事件(48)确定所述对象的负涉入程度,其中,具有高于负涉入程度阈值的负涉入程度的对象被不考虑用于对对象的选择。
10.根据前述权利要求中的一项所述的方法,
其中,在所述人的视场中,所述对象(28)集合被显示在显示设备(18)上;和/或
其中,在已经确定所述至少一个感兴趣的类别特性(56)之后,在所述显示设备(18)上显示具有所述至少一个感兴趣的特性的额外对象(28)。
11.根据前述权利要求中的一项所述的方法,
其中,根据对象的轮廓(46)生成所述对象映射(42);和/或
其中,根据从记录所述人的视场的相机(36)接收的图像数据来生成所述对象映射(42)。
12.根据前述权利要求中的一项所述的方法,
其中,所述对象(28)集合包括以下中的至少一个:图像、词语、文本块、图标、公式、页面、文档的段落、3D对象、形状、模式;和/或
其中,所述对象类别(58)是内容描述符;和/或
其中,所述类别特性(56)是内容描述符的值。
13.一种用于检测感兴趣的对象的计算机程序,其中,所述计算机程序在由处理器执行时被适配来施行根据前述权利要求中的一项所述的方法的步骤。
14.一种计算机可读介质,其中存储根据权利要求13所述的计算机程序。
15.一种视线追踪系统(10),包括:
视线追踪设备(26),所述视线追踪设备(26)用于生成视线追踪数据;以及
对象检测设备(30),所述对象检测设备被适配以用于执行权利要求1至12中的一项所述的方法。
CN201580059079.8A 2014-10-30 2015-10-28 用于检测感兴趣的对象的方法和系统 Active CN107111629B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14191120.6A EP3015952B1 (en) 2014-10-30 2014-10-30 Method and system for detecting objects of interest
EP14191120.6 2014-10-30
PCT/EP2015/074964 WO2016066675A1 (en) 2014-10-30 2015-10-28 Method and system for detecting objects of interest

Publications (2)

Publication Number Publication Date
CN107111629A true CN107111629A (zh) 2017-08-29
CN107111629B CN107111629B (zh) 2021-02-26

Family

ID=51870857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580059079.8A Active CN107111629B (zh) 2014-10-30 2015-10-28 用于检测感兴趣的对象的方法和系统

Country Status (4)

Country Link
US (1) US10152123B2 (zh)
EP (1) EP3015952B1 (zh)
CN (1) CN107111629B (zh)
WO (1) WO2016066675A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726713A (zh) * 2018-12-03 2019-05-07 东南大学 基于消费级视线追踪仪的用户感兴趣区域检测系统和方法
CN110245250A (zh) * 2019-06-11 2019-09-17 Oppo广东移动通信有限公司 图像处理方法及相关装置
CN111937038A (zh) * 2018-03-22 2020-11-13 3 形状股份有限公司 自动选择扫描策略的3d扫描

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015359323B2 (en) * 2014-12-12 2018-10-18 Nagravision S.A. Method and graphic processor for managing colors of a user interface
US10268264B2 (en) * 2016-05-10 2019-04-23 Sap Se Physiologically adaptive user interface
US11175735B2 (en) * 2017-07-24 2021-11-16 Adobe Inc. Choice-based analytics that combine gaze and selection data
US11073904B2 (en) * 2017-07-26 2021-07-27 Microsoft Technology Licensing, Llc Intelligent user interface element selection using eye-gaze
US10782776B2 (en) * 2017-09-28 2020-09-22 Nissan North America, Inc. Vehicle display configuration system and method
EP3547079B1 (en) * 2018-03-27 2021-08-25 Nokia Technologies Oy Presenting images on a display device
US10860095B2 (en) * 2019-05-02 2020-12-08 Cognixion Dynamic eye-tracking camera alignment utilizing eye-tracking maps
CN111309146B (zh) * 2020-02-10 2022-03-29 Oppo广东移动通信有限公司 图像显示方法及相关产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102221881A (zh) * 2011-05-20 2011-10-19 北京航空航天大学 基于仿生代理与视线追踪兴趣区域分析的人机交互方法
EP2450803A1 (en) * 2010-11-03 2012-05-09 Research In Motion Limited System and method for displaying search results on electronic devices
US20120144312A1 (en) * 2010-12-07 2012-06-07 Sony Corporation Information processing apparatus and information processing system
US20130050258A1 (en) * 2011-08-25 2013-02-28 James Chia-Ming Liu Portals: Registered Objects As Virtualized, Personalized Displays

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101166623B1 (ko) * 2006-01-12 2012-07-18 인스티튜트 포 아이 리서치 리미티드 주변 이미지의 위치를 조절하여 근시 진행을 늦추는 방법과 장치
US8108800B2 (en) * 2007-07-16 2012-01-31 Yahoo! Inc. Calculating cognitive efficiency score for navigational interfaces based on eye tracking data
CN102112943A (zh) * 2008-08-07 2011-06-29 皇家飞利浦电子股份有限公司 确定用户头部运动/注视关系的方法和系统以及交互式显示系统
US20110273369A1 (en) * 2010-05-10 2011-11-10 Canon Kabushiki Kaisha Adjustment of imaging property in view-dependent rendering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2450803A1 (en) * 2010-11-03 2012-05-09 Research In Motion Limited System and method for displaying search results on electronic devices
US20120144312A1 (en) * 2010-12-07 2012-06-07 Sony Corporation Information processing apparatus and information processing system
CN102566753A (zh) * 2010-12-07 2012-07-11 索尼公司 信息处理装置和信息处理系统
CN102221881A (zh) * 2011-05-20 2011-10-19 北京航空航天大学 基于仿生代理与视线追踪兴趣区域分析的人机交互方法
US20130050258A1 (en) * 2011-08-25 2013-02-28 James Chia-Ming Liu Portals: Registered Objects As Virtualized, Personalized Displays

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111937038A (zh) * 2018-03-22 2020-11-13 3 形状股份有限公司 自动选择扫描策略的3d扫描
CN111937038B (zh) * 2018-03-22 2024-04-05 3形状股份有限公司 用于3d扫描对象表面的至少一部分的方法和光学3d扫描仪
CN109726713A (zh) * 2018-12-03 2019-05-07 东南大学 基于消费级视线追踪仪的用户感兴趣区域检测系统和方法
CN110245250A (zh) * 2019-06-11 2019-09-17 Oppo广东移动通信有限公司 图像处理方法及相关装置

Also Published As

Publication number Publication date
EP3015952B1 (en) 2019-10-23
US20170336865A1 (en) 2017-11-23
US10152123B2 (en) 2018-12-11
EP3015952A1 (en) 2016-05-04
WO2016066675A1 (en) 2016-05-06
CN107111629B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN107111629A (zh) 用于检测感兴趣的对象的方法和系统
US10614289B2 (en) Facial tracking with classifiers
US20210210053A1 (en) Transportation hub information system
US9842255B2 (en) Calculation device and calculation method
US10223838B2 (en) Method and system of mobile-device control with a plurality of fixed-gradient focused digital cameras
US20180268458A1 (en) Automated recommendation and virtualization systems and methods for e-commerce
CN106462236A (zh) 在眼睛追踪中处理眩光
CN104364733A (zh) 注视位置检测装置、注视位置检测方法和注视位置检测程序
CN105046630A (zh) 图像标签添加系统
CN106851937A (zh) 一种手势控制台灯的方法及装置
Nejati et al. DeepCAPTCHA: an image CAPTCHA based on depth perception
CN105183739A (zh) 图像处理方法
Mosayyebi et al. Gender recognition in masked facial images using EfficientNet and transfer learning approach
US20210158399A1 (en) System and method for interactive perception and content presentation
Dotti et al. Being the center of attention: A person-context cnn framework for personality recognition
Othman et al. CrowdEyes: Crowdsourcing for robust real-world mobile eye tracking
JP2021026744A (ja) 情報処理装置、画像認識方法及び学習モデル生成方法
Gurkan et al. Evaluation of human and machine face detection using a novel distinctive human appearance dataset
Cosma et al. PsyMo: A Dataset for Estimating Self-Reported Psychological Traits from Gait
Roxo et al. Is Gender “In-the-Wild” Inference Really a Solved Problem?
Ayush Context aware recommendations embedded in augmented viewpoint to retarget consumers in v-commerce
EP4196908A1 (en) Systems and methods for acne counting, localization and visualization
Haroon et al. Human hand gesture identification framework using SIFT and knowledge‐level technique
CN105184212A (zh) 图像处理服务器
Zhao et al. Octree segmentation based calling gesture recognition for elderly care robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant