CN105247539A - 凝视跟踪的方法 - Google Patents

凝视跟踪的方法 Download PDF

Info

Publication number
CN105247539A
CN105247539A CN201480030894.7A CN201480030894A CN105247539A CN 105247539 A CN105247539 A CN 105247539A CN 201480030894 A CN201480030894 A CN 201480030894A CN 105247539 A CN105247539 A CN 105247539A
Authority
CN
China
Prior art keywords
eyes
kernel
processor
sparse
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480030894.7A
Other languages
English (en)
Other versions
CN105247539B (zh
Inventor
克里斯蒂安·埃里克·瑞金德尔斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
COGISEN Srl
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by COGISEN Srl filed Critical COGISEN Srl
Publication of CN105247539A publication Critical patent/CN105247539A/zh
Application granted granted Critical
Publication of CN105247539B publication Critical patent/CN105247539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Ophthalmology & Optometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种凝视跟踪的方法,其在需要有限的处理器接合和减小功率两者的同时,达到高效能,以便特别地但非专门地适合活动使用。方法包括:通过相机获得面孔的数字视频流,其中在空间域的对应框盒中识别眼睛和/或瞳孔,空间域的大小是相对于相机的面孔位置和方位的函数,框盒的内容是用于进一步计算的输入;将框盒的内容转换到频域;在转换到频域的框盒上施加一个或多个稀疏区段,一起覆盖定转换到频域的框盒区域的一小部分和滤波内核,至少部分地重叠稀疏区段;执行每个稀疏区段内的频率数据和内核之间的相乘,将结果结合于每个稀疏区段的单一值中;并且为每个帧重复获得单一值的以上步骤,单一值的波动表示沿着时间的凝视方向的变化。

Description

凝视跟踪的方法
技术领域
本发明涉及一种凝视跟踪的方法,易于建立在不同的设备中,诸如智能手机、平板电脑、个人计算机、电视屏幕,或在凝视可以用于控制任何一种诸如车辆等的设备的操作的任何环境中。一般来说,凝视跟踪的本方法针对应用于互动接口和操作系统。
此外,本发明涉及一种操作装置的方法,该装置设有产生视频流的至少一个数字相机,以获得当面孔通过该装置的相机和处理器而被采集到视频流中时的凝视跟踪。
背景技术
目前使用凝视模式的分析的研究和产品主要在受控的实验室类型的情况中实施。
例如,很多研究被完成,以确定的网站布局的效果:具有受试者及其已知问题的这种受控的测试致使这些受试者意识到正在进行测试,从而改变他们的行为并影响期望来自实验的结果的类型。
当前的凝视跟踪解决方案主要使用红外线的投射进行操作,其创建眼睛内部和上面的反射,通过诸如二进制检测(blobdetection)之类的算法进行检测。闪烁的数量可以随着红外线的额外来源来增加,以改善追踪并允许头部移动的一些公差。
使用红外线的凝视跟踪通常需要远程设置,其中相机进一步远离用户安装,通常在屏幕下方。它要求红外线照明的光源放在当看着屏幕的四个角时闪烁都清晰可见的位置。
使用凝视跟踪用红外线的解决方案需要一些红外线投射以具有头部的相对于相机的合理移动框盒。即使创建较大的框盒,照明条件的任何改变将意味着需要重新校准。
不使用红外线反射的解决方案主要基于使用面孔的特征的识别和跟随,通过诸如所谓的主动外观(ActiveAppearance)模型之类的方法的头部追踪。然而,用于定向输入的头部方位追踪的使用不是与凝视跟踪相同的东西,这只是眼睛方向的跟随,不管头部的移动如何。
另外的已知方法使用眼睛凝视最大位置的分类,识别眼睛在上/下/左/右方位之间的差异;这种解决方案仅可用来识别上下或左右卷动方向,真正不同于准确凝视跟踪的某种东西。
不使用红外线的方法试图常常使用立体视觉来提高准确度,这在任何情况下仍是有限的,但使硬件更复杂。
用于凝视跟踪的其它非红外线方法实质上基于诸如眉毛、下巴、瞳孔、眼睛的角、等等的面孔特征的识别。它们必然具有较低的准确度,这源于识别眼睛的角的困难和对光变化和对不同类型的面孔的较低的健壮性。他们还要求全脸是可见的。而且,这种方法的上/下移动的准确度低,因为瞳孔的相对垂直移动小而眼睑位置也将使其本身适应于眼睛移动。
另外,有一些障碍阻止红外线硬件集成在移动装置中。集成使用红外线的凝视跟踪意味着较高的成本和额外的电池耗竭。此外,一般需要高研发成本来创建微型硬件,当前现有技术的硬件仍是太大以致无法集成到移动装置中,特别是因为需要一个以上的红外线来源的合理强大的红外线。
为立体视觉使用额外的视频摄像机的情况也是一样,因为它将增加硬件成本和额外的电池耗竭到移动装置上,使软件解决方案更加合意。
虽然仍未有决定性研究来断定在短距离连续曝光于红外线是否可导致眼睛受损,但是考虑到年幼的孩子更快地变成移动装置用户的事实,当受损通常视为与红外线的曝光时间成比例时,一些使用者每天几个小时,客户可能有担忧。
诸如立体视觉之类的方法被使用来提高准确度,但凝视跟踪的领域的任何专家将实现的是,甚至以瞳孔位置和眼角的完美识别,由取决于像素位置的计算导致的凝视方向的准确度和分辨率将一直是太有限的以致无法实际使用,以及在空间域中,方法将是本来就慢。因为凝视方向变化或头部的移动,所以这种方法在识别屏幕上的瞳孔移动间的差异时将会有麻烦。而且,通过这些方法识别眼睛的上下移动将是麻烦的,因为眼睑比起瞳孔在眼睛的视觉图像上具有更大的效应。
使用红外线眼睛的投射的技术的潜在准确度也受到关于眼睛的内部和眼睛的外部上的曲度的不确定因素限制。为这理由,使用红外线投射的方法通常需要若干个红外线投射器和小心的校准程序。这还需要光条件保持校准后的稳定以及需要使用者在屏幕前面保持相对小的移动框盒。这致使使用眼睛中红外线闪烁的识别的、红外线在凝视跟踪的移动装置中的实施在移动装置上的充分移动的现实世界中不切实际。
凝视跟踪的唯软件解决方案也需要考虑到另一显著缺点,其涉及使用凝视跟踪的红外线透射:即,必须从相机透镜移除相机红外线滤光器以允许采集眼睛上的红外线反射。移除红外线滤光器将使该装置所取得的照片的质量恶化。考虑到放置在移动装置的用户所取得的照片的质量上的重要性,这也是用于适应凝视跟踪的红外线投射的高度限制因素。
在任何情况下,熟悉凝视跟踪的技术者意识到,对于在距活动屏幕约30厘米的距离的面孔,瞳孔将仅以移动装置的小屏幕左右摇摆的凝视跟踪在屏幕上移动,对应于由放置在屏幕本身旁边的相机所采集的图像的少量像素。另外,尝试使用基于空间域中的图像处理的方法需要不仅识别瞳孔,而且必须清楚地识别眼角。
然而,眼角是难以通过诸如Viola-Jones之类的一般识别方法进行识别,快速地导致若干个错误的像素。
目标识别方法大部分使用在空间域中的像素等级信息分析,其大部分转换成灰度。这种方法,诸如以Viola-Jones算法采集特征,需要使用诸如自适应提升算法(Adaboost)之类的层级式分类器。诸如主动式形状模型之类的采集几何特征的其它方法依靠分类的特征点和3D形状模型之间的相关性。这些方法本来就需要相对繁重的计算和大量工作以优化。
一般所使用的其它方法是例如隐藏式马可夫模型(HiddenMarkovModel)或反向传递神经网络(backpropagationNeuralNetworks),两者都是复杂的。
所有这样的方法一般还是难以工程化并优化并且相当多的工作要适应遵循并利用最新硬件发展的优点,诸如GPU技术中的多核心处理或进展。
因此,具有少量错误的像素的空间域中的瞳孔位置识别必须与眼角识别比较,其将快速具有若干个错误的像素,以相对于眼角采集瞳孔移动,这仅是总共若干个像素。
这甚至不考虑头部方位、头部移动等对准确度的效应。
因此,将清楚的是,空间域中的这些计算导致实际上不可能从瞳孔位置和眼角之间的差异来计算移动装置上的凝视方向。
所以,唯一现实选项是在完全软件解决方案中获得移动装置上所需的凝视准确度和分辨率,其利用从频域计算内获得的信息。
发明内容
当前的接口和操作系统围绕在键盘和触摸屏的使用而设计。然而,使用触控仅允许从用户传送用户指令的窄频带的信息到装置。关于这一点,比起触控,凝视对于使用者将是更快速且更直觉的互动。
举例来说,凝视控制可允许操作系统适应信息对用户的流动,具体取决于用户可怎样快地跟随屏幕上信息。操作系统将基于朝向让信息流动的屏幕的凝视跟踪调整关于用户想要看什么的信息流的速度。
这种凝视控制可能导致接口和操作系统通过提供给用户的更快速导航以更清楚的方式显示数据。
使用凝视跟踪控制,所谓的屏幕技术,其中输入和输出两者都经过交互式屏幕,可例如通过仅在人们注视的时间和位置具有高分辨率图像,导致屏幕本身所消耗的能量较少以及图像输出的更有效率控制,从而采取进一步的步骤。
这特征也可用来增加屏幕现实性,例如,通过仅在屏幕上观察者注视的位置具有3D线索效应,以此方式产生3D效应而无需使用3D效应的特殊眼镜来增加。
凝视方向追踪可用于屏幕图形,例如,在游戏中,其中,播放电玩游戏的用户可在用户注视的屏幕部分上具有高分辨率图像,同时加入速度模糊效应用以改善游戏现实性。
将要完成的另一需要通过实时知道现实世界完全活动性使用中的活动广告的效果来表现。这种算法也将允许诸如每凝视付费的解决方案而不是每点击付费的解决方案。
此外,也有给残障者的新的低廉解决方案的大的需要。
对于使用凝视跟踪的下一代的操作系统和装置,唯软件解决方案将是高度优选的,以便避免集成例如红外线投射器或用于立体视觉的额外相机的需要,立体视觉使用来允许较高的准确度。
这种装置在具有仅示范性目的的清单中可以是智能手机、平板电脑、诸如交互式眼镜之类的可穿戴式硬件,然而还有在未来的居家和办公室或公共场所中的任何其它交互式对象。这些装置可以涉及特殊用途,诸如交互式电视、智能型且交互式居家、汽车安全性系统等等。
应了解的是,这种技术的实施不限于移动装置,然而它基本上可延伸到任何装置或网络连接装置,其中可再次编程的硬件可通过在上面的算法使用,并且其中可加入视频相机输入。
也对使用尽可能小的处理功率的凝视跟踪解决方案有需要。这对于节省电池寿命以及实时使用两者都是需要的,因为它将需要在背景中运行且必须不限制在前景运行的过程。考虑到甚至移动手机中的前置摄像头现在运转在30fps并且相机分辨率同样地愈来愈好,这意味着所需的算法需要比现有技术的当前状态较好的若干阶。依靠处理能力的继续改善也是不可接受的,因为需要在任何例子和所有应用中节省电池电力,例如游戏,使用处理能力的最大量的比例,因此一直留下用于诸如标准图像处理之类的算法的最小量以在背景中运行。
为了在许多类型的装置上具有凝视跟踪解决方案,算法应嵌入操作系统中或处理器本身上。算法需要能够以平行的处理器利用多线程,并且能够在部分的计算上使用GPU。抛开移动环境,软件解决方案必须在编程在FPGA或类似的可再次编程的硬件上的形式中,上面不必要有最近一代的操作系统。
凝视跟踪算法必须不被视为与其所发展的硬件和电子器件分开的实体。相反,设计和代码应经过特别地设计用于硬件集成。当前现有技术的算法绝不旨在用于具有工作在具有高帧率的高分辨率相机的移动装置上。
调整凝视跟踪的快速算法的需要的另一理由是,依靠计算机视觉的未来发展竞赛,其将是进行具有适应、学习和记忆的算法的增加层。实际上,所有当前的计算机视觉方法是无理由地被动的。为了具有这种附加层的适应性算法,唯一的解决方案是尽可能快地用于基本算法。
因此,明显地有需要完全移动解决方案,可用于每天情况的凝视跟踪解决方案。完全移动解决方案应也意味着最小的校准需要。它意味着允许照明变化、不同类型的面孔、化妆、胡须、眼镜、帽子、斜视者,并允许头部相对于移动屏幕的相对高的移动。这意味着避免需要如同当前方法的面孔识别。对于亚洲人的眼睛并且如果使用者戴着眼镜,当前方法也常常效果较差。
具有较高帧率、较好的运动处理、较好的颜色高亮、对于对比度和光变化更好的适应性、以及更高分辨率的未来相机技术发展将仅提高用于凝视跟踪的软件解决方案的有效性。注意,所有这些相机技术更新将增加高效计算机视觉算法的工业需要。
当前算法通常是针对广泛的FERET库的面孔进行测试,其是面孔识别算法的标准基准。这种数据库是限制性的且甚至当前视频数据库是限制性的,因为现实世界隐含移动、模糊、等。
根据本发明的技术问题是提供适于满足与现有技术中可识别的上述缺陷相关的需求,而且完成所有以上的技术期待的凝视跟踪方法。
此问题通过如上所述的凝视跟踪方法进行解决,包括:
a.通过相机获得面孔的数字视频流,其中眼睛和/或瞳孔被辨别以确定所述眼睛和/或瞳孔的位置,然后在空间域的对应框盒中识别所述眼睛和/或瞳孔,所述框盒的内容是用于进一步计算的输入;
b.由处理器将所述框盒的内容转换到频域内容;
c.由处理器在所述框盒的频域内容上应用一个或多个稀疏区段,一起覆盖定框的频域区域的一小部分和滤波内核,至少部分地重叠所述一个或多个稀疏区段;
d.由处理器执行每个稀疏区段内的频率数据和所述内核之间的相乘,将结果结合到单一值中;并且
e.对所述数字视频流的每个帧重复获得所述单一值的上述步骤(a)至(d),其中所述单一值的波动表示沿着时间的凝视方向变化。
所述方法的导致附加的优点的进一步特征在从属权利要求中进行限定。
概括地说,根据本公开的实施例的凝视跟踪方法在要求有限的处理器接合和减小的功率两者的同时实现高效能,以便特别地但不专门地适合移动使用。
因此,根据本公开,描述了一种用于操作设备的方法,所述设备设有易于产生视频流的数字相机和至少一处理器,以在所述视频流动中采集到面孔时获得凝视跟踪,该方法包括:
识别眼睛或瞳孔且将所述眼睛或瞳孔框定于空间域中的对应框盒中,所述框盒的大小是相对于所述相机的面孔位置和方位的函数,所述框盒的内容是进一步计算的输入;
由处理器将所述框盒的内容转换成频域内容;
由处理器在所述框盒的频域内容上应用一个或多个稀疏区段,一起覆盖框定频域区域的一小部分和滤波内核,至少部分地重叠所述一个或多个稀疏区段;
由处理器执行每个稀疏区段内的频率数据和所述内核之间的相乘,将结果结合于每个稀疏区段的单一值中;并且
对所述数字视频流的每帧重复获得所述单一值的以上步骤(a)至(d),其中所述单一值的波动表示沿着时间的凝视方向变化。
为了许多不同的目的,这种方法因此可以应用于具有以上物理特征的任何种类。
如上所述,对新的凝视跟踪方法有需求,其不必要使用用于红外线投射或立体视觉的额外硬件。这些新方法也必须足够快以在最近一代的移动装置上的背景中运行。除了在最新一代的移动装置上使用外,预期对于诸如可戴式硬件之类的未来趋势,算法还需要能够在主要个人计算机操作系统和移动操作系统的外部工作,并且因此可编程在处理器和诸如现场可编程门阵列之类的可再次编程的硬件。所述方法还需要建立算法,其可利用个人计算机和移动装置上的最新硬件发展,诸如多核心且强大的图形处理单元(GPU)。
本文中应注意的是,频域中的信息的使用自然地导致其本身来回应这些需求的若干个理由。
一个理由是,在频域中,图像处理在空间域中的图像的每个像素有助于频域中的每个单一值。然而,频域允许更容易的计算,如利用滤波器的乘法,并且利用矩阵的其它类似计算是一个单元一个单元的种类,不像空间域,其中矩阵的每行必须与矩阵的所有列相乘。
频域中的操作也允许在频域中使用稀疏区段的可能性,这可以极大地加速计算。
此外,通过利用稀疏频率区段进行操作,他可容易地将计算分成平行的部分以便以多线程在多处理核心上进行处理。
以下将解释并详述稀疏区段以及作为频域中的滤波器操作的内核。
完全在频域中工作,无需在频域转换后将图像转换回到空间域的计算,也实现了执行转换成频域的数学计算的选择中的新的柔性。例如,一种戈泽尔算法的使用变成现实选项。
图像转换成频域也导致本来就比光变化、移动、模糊和影响凝视采集的其它效应更稳健的数据。
比起基于空间域中的对象识别技术的方法,频域的使用最后允许凝视跟踪的更大分辨率和准确度。
附图说明
通过参照附图的优选实施例的以下说明,本发明的方法的进一步特征和优点将变得更为清楚,其中:˙
图1显示瞳孔和眼睛加框的面孔图像,框盒尺寸是相对于相机的头部位置和头部方位的函数;
图2a和2b结合地显示表示根据本发明的实施例所述的方法中的凝视方向计算的初始化的流程图;
图3a和3b结合地显示表示在图2的初始化后获得凝视计算的过程的流程图,其中凝视计算实时地操作;
图4a和4b结合地显示表示根据本发明的实施例所述的方法中的稀疏凝视计算的流程图;
图5显示表示图1的定界框盒的输入图像的所有频域数据的方格图,其中小矩形是说明所选的稀疏区段的实例;
图6显示表示图1的定界框盒的输入图像的所有频域数据的方格图以及说明所选的稀疏区段的实例;
图7显示以景观模式通过智能手机完成的遥测输出的实例,其中屏幕分成4行和5列;
图8显示图7中所示的一个信道;
图9表示图8的扫描的结果;
图10显示通过使用由扫描引起的范围消除信道中的噪声因素;
图11a显示凝视方向公式的存入数据;
图11b显示与图11a相同的存入数据,其中信道在T=5s标准化;
图11c显示与图11a和图11b相同的存入数据,其中信道在T=10s标准化;
图12显示图11a、11b和11c中所采集的凝视移动的较大部分;
图13显示来自视频输入的凝视跟踪的实例,其中相机前面的眼睛从左到右改变凝视方向;
图14更详细地显示了对于单一帧所完成的计算的执行;
图15显示内核参数的调整以改善所选凝视方向的输出的信噪比;
图16为每个眼睛类型和照明条件说明不同组合的稀疏区段和内核如何被要求用于采集凝视方向;并且
图17描绘了根据本公开的实施例的执行凝视跟踪的设备。
具体实施方式
如上所述,频域中凝视方向的远远较高的分辨率是可能的,因为瞳孔周围的频域中信息的变化被跟随,而不是瞳孔本身。换言之,通过跟随频域中的信息,瞳孔位置的变化、瞳孔周围的眼白、眼角、眼睑位置同时都被跟随,并且在频域中的小的稀疏区段可跟随所有这些变化的组合。
频域中的信息使其更容易采集空间域图像的这种几何特性。
将图像转换到频域是大家公认的,其为离散的而不是连续的二维傅立叶变换。傅立叶变换用于宽范围的应用上,诸如图像分析、图像滤波、图像重建和图像压缩、文字方位测定等等。
主要转换方法可以是离散傅立叶变换(DFT)。因为DFT需要大量的计算,因此有许多其它类型可以用来加速这个过程。快速傅立叶变换(FFT)是这些类型中最公认的,是计算离散傅立叶变换(DFT)及其反向的有效算法。然而,有一些FFT的变化。FFT也有其在图像处理中的限制。例如,使用于FFT的输入的图像的侧面需要有像素的长度,其是二次方的,并且全FFT需要在一定频率的结果被给定之前计算。这导致对具有FFT的内存的一定需求。FFT不可能被转换用于稀疏计算且不允许容易实施在可再次编程的硬件和多核心处理器上。诸如修整的快速傅立叶变换之类的方法存在,但它们需要许多复杂码用于最小增益。
在图像的频域中,每个点表示空间域图像中所含的特殊频率。
频谱是能量对空间频率的曲线,其中空间频率涉及图像中强度的空间关系。
离散傅立叶变换(DFT)是抽样的傅立叶变换,因此未含有形成图像的所有频率,但只有一组样本,其足够大以完全描述空间域图像。频率的数量对应于空间域图像中像素的数量,即,空间和傅立叶频域中的图像具有相同尺寸。
傅立叶变换产生复数(complexnumber)评估的输出图像,其可显示有两个图像,具有实部和虚部或具有幅值和相位。在图像处理中,通常只显示傅立叶变换的幅值(实部),因为它含有空间域图像的几何结构的大部分信息。然而,为了在频域中的一些处理之后将傅立叶变换重新转换成正确的空间域,他必须再使用傅立叶图像的幅值和相位两者。
在空间域中,数值通常是灰度像素的亮度,其可以是0至255的范围。傅立叶域图像值具有比起空间域中的图像远远更大的范围。因此,为充分地准确,频域中的值通常是计算且储存作为浮动值。
通过使用频域中的信息,无需回到空间域以获得最后的凝视输出,有若干个优点。首先,额外步骤的缺少加速了计算。第二,因为频域值不需转换回到正确的空间域图像,可使用稀疏区段。这些稀疏区段本身不必要含有足够的频域信息使空间图像再出现。但它们含有足够的图像分类信息和凝视方向信息。第三,因为不必要将图像转换回到空间域,所以开启了使用除了DFT或FFT外的其它方法以将图像转换成空间域的可能性。这是因为不必要在频域中具有全实和虚信息,但对于稀疏凝视计算,幅值是足够的。这开启了使用诸如戈泽尔算法(algorithm)的二维版本之类的方法的可能性,其可稀疏地设立,更柔性地使用在可重新编程处理器上且更柔性地并行使用在多处理器核心上。
在这里和以下说明中,稀疏区段指的是一个或一组区段,即,一个或若干个,涵盖一小部分的频域。每个区段应视为频率区间,可通过横轴和纵轴(见图5)上的区间限定,前提是,稀疏区段是方形或矩形,但可使用许多其它形状的区段,即,由频域中的闭合线所限定。
稀疏区段的组合涵盖一部分,即,涵盖起因于空间域的转换的整体频域的一小部分。每个稀疏区段包围转换自空间域的频率数据。
方便的是,稀疏区段可一起分组,可能部分地相互重叠或边靠边放置,以提高局部分辨率。从该稀疏区段获得的频率值的计算表示为稀疏计算。
在文中所述的凝视识别方法中,第一步骤提供通过相机获得数字视频流的面孔,其中眼睛或瞳孔在对应框盒中进行识别,以像素在空间域中分开。
图17示意性地描绘了凝视跟踪过程。用户手持设置有前相机3和处理器4(特别是接收来自所述相机的视频数据流的微处理器)的电子设备2,例如,平板电脑。
因此,相机框住用户的头部,并且从相机获得头部面孔的数据视频流。在此连接中,通过所述处理器4识别眼睛5和/或瞳孔以确定所述眼睛和/或瞳孔的位置,然后在空间域中对应的框盒5内识别所述眼睛和/或瞳孔,框盒的内容是供进一步计算用的输入;然后,框盒6的所述内容通过处理器转换成频域内容。
每个框盒的尺寸被确定为相对于所述相机的面孔位置和方位的函数,所述框盒的内容是用于进一步计算的输入。
总体上说,这种相机是用于实施这方法的装置的一部分,包括用于执行所请求计算的微处理器且可能是屏幕,优选是触敏屏幕,其称为触摸屏。
图1显示定界框盒如何相对于从数字视频流获得的面孔图像中的瞳孔或眼睛进行选定。
定界框盒尺寸和位置也是眼睛类型和光条件的函数,因为定界框盒是用于凝视跟踪公式的输入,且该公式依次是头部位置、头部方位、眼睛类型和光条件的函数。
根据图1,显示凝视跟踪计算如何取决于瞳孔和眼睛的位置的识别。基于这识别,定界框盒,特别是它的尺寸和形状,限定在眼睛周围。这可通过使用眼睛或瞳孔或两者的组合的已知识别步骤来完成。由这定界框盒的内容所限定的图像是用于这些计算的输入。
大致地,定界框盒相对于相应的瞳孔而居中。
有许多方法,其可用来识别屏幕上的瞳孔和眼睛,例如,Viola-Jones或梯度法的手段。
在凝视计算期间,成对的眼睛和瞳孔的位置识别需要不断地跟随。获得这些位置将给予使用瞳孔位置的用户对相机的相对位置以及瞳孔间的相对距离。而且,估计可由头部相对于相机的旋转而进行。在识别头部相对于相机的方位时,头部的侧向角和倾斜也可相对于相机进行估计。
在使用凝视跟踪时,以上将增加使用者相对于相机所允许的移动,但对于相机相对于指定的头部位置和头部方位,这仅轻微地影响眼睛移动的凝视计算的准确度。
根据图2a和2b,显示凝视方向计算如何被所述处理器初始化。
根据数字频视流(该数字频视流以图像帧的连续流组成,图像帧取自执行本方法的装置的相机),瞳孔和眼睛的位置先被确定。然后,可以完成头部相对于相机的位置和头部方位的初始估计。他可为此使用瞳孔和眼睛位置信息。
这也可能基于额外面孔特征的识别增加额外信息以获得增加的倾斜和转动信息。对于在移动手机上使用凝视跟踪,也可足够省去额外的头部方位信息,因为用户通常倾向于将相对于手机的头部方位移动限制于小角度。
接着,采集眼睛图像的定界框盒被限定(见图1)。这里,关键步骤是具有尽可能与凝视计算一致的输入图像。这意味着定界框盒的居中以及尺寸两者中的一致性。
在下一步骤中,已知分类器用来分类每个定界框盒内对于每个眼睛的使用者的光条件类型和眼睛类型。与头部方位结合的这些的良好分类将使得特定凝视计算能用于所分类的条件,具有较高的准确度和更稀疏的频率区段。
对于每个眼睛,计算不必要是相同的,因为在使用者面孔上可能有不相等的光条件,左和右眼对光变化有不同反应,每个眼睛与头部方位有不同视点,以及左和右眼有不完全相同的形状。
这也可能只使用一个眼睛用于凝视计算,然而这将导致凝视计算中较小的健壮性和较小的精确性。
在这步骤中,可能完成分类器的实时再训练,以便改善分类准确度并个人化使用者的凝视计算。
这实时分类器也可用来确保眼睛周围的定界框盒的稳定性和一致性。
在下一步骤中,将凝视方向校准。这步骤可以是增益和偏差的直接校准,或也标准化使用于凝视计算或其它已知校准方法的所有信道的校准,该校准被执行,以标准化在一定时间的单一值。校准也可通过结合以保存的条件用校准的用于使用者的眼睛的分类器的实时训练进行保存。
以此方式,使用者可通过分类器进行识别,且他的头部位置、光和头部方位可与早期或已知的校准连结,以避免重新校准的需要。
校准相位也用于最适合的凝视方向公式的进一步选定。这可通过具有若干个预限定公式且决定在校准期间这些中的哪一个具有最佳信噪比而完成。
校准相位也可用来确定是否有用于不同方向的凝视计算之间的不希望的互动。例如,通过用于左右移动的稀疏区段和内核可以轻微采集倒置的凝视移动。这些效应可在校准期间进行采集,并且用于这个的修正因素可以被确定。
内核指的是频域中任何种类的滤波器,以应用于如以上所限定的稀疏区段。
这种滤波器可以是边缘检测线性滤波器、贾伯(Gabor)滤波器(混合的高斯和正弦)、高斯滤波器、强度提高滤波器、低通滤波器、Sobel边缘检测滤波器、像Canny之类的另一边缘运算符、Canny-Deriche、微分索贝尔、Prewitt、Roberts、Cross、像Harris运算符之类的角检测运算符、Shi和Tomasi、等高线曲率、SUSAN、FAST和许多其它滤波器。
以下,举例来说,将采用贾伯滤波器。
在这点上,凝视计算已被初始化,因为头部位置和方位以及瞳孔和眼睛位置是已知状态,采集眼睛区域的定界框盒已被限定,眼睛类型已被分类,光条件已被分类,以及校准已被完成。现在,可启动凝视计算。
在实际术语中,有计算用眼睛区段的图像的固定输入,以及最适于每个眼睛的凝视方向的内核和稀疏区段已被决定。
根据图3a和3b,显示在图2a和2b中所述的初始化后,计算如何实时进行。
首先,限定眼睛周围的定界框盒、相对于相机的头部位置和相对于相机的头部方位的状态在来自视频流的最后凝视计算循环结束之后通过处理器进行更新。
这使用输入的视频流产生定界框盒内的更新的眼睛图像。眼睛区域的这些输入图像使用作为计算用输入。
在下一步骤中,由限定用于指定的头部方位和头部位置的眼睛类型和照明类型的分类器给定的状态被更新。
该步骤然后决定将使用于每个凝视方向和每个眼睛的稀疏区段和内核。很可能的是,最后凝视计算步骤的相同内核将被使用。然而,要是有关于照明、方位或放缩的大的变化,分类器可决定需要内核的更新。限定这些分类的条件的状态然后也因此更新。
接下来,对于每个眼睛,输入的图像(即,用于每个眼睛的所述定界框盒的内容)由处理器转换到频域中。许多常用转换方法可用于此,诸如离散傅立叶变换或快速傅立叶变换的变型。快速傅立叶变换可相对快地进行这种转换,但它需要输入图像的大小为二次方的长度。而且,它不可能作得稀疏,在用于频率的计算可启动之前,需要每个频率的所有计算被执行和内存中所有转换的步骤,并且也不容易适于可再次编程的硬件上的柔性使用以及具有多线程在多个并行的核心上。
离散傅立叶变换可作得稀疏,但计算上非常繁重。
因为在频域计算后,不必要将计算转换回到空间域,新的选择变可能,诸如戈泽尔算法的2D中的使用,其可作得完全稀疏,可甚至比FFT更快,几乎根本不使用任何内存且可容易地编码用于可再次编程的硬件上和多个核心上的多线程。
现在,所限定的稀疏区段内,频率数据乘法在频域中的图像数据和内核之间执行。对于熟悉频域计算者而言,清楚的会是,计算中的增益与稀疏区段相对于整个区段的大小成比例地加速,以及对于小的稀疏区段,速度增益可以是非常高。
例如,如果输入的图像是64*64并且仅需要4*3稀疏区段,则单元乘单元乘法将执行比完全计算快超过300倍。这允许多个凝视方向执行于相同稀疏区段而对处理器使用无显著影响。
这里,单元旨在成为通过所述转换从对应空间域获得的稀疏区段的频率值。
注意的是,内核最可能已提前产生于离线优化相位中,并且在频域中仅执行必要的单元乘单元乘法的处理速度的所述增益也可在使用完全FFT时获得。
还注意的是,存在已经具有以矩阵中实和虚权重的形式的每个设定的内核的选项,图像输入的大小。替代的是,内核可以是以纯数学形式,实和虚权重的矩阵在需要时产生。后者使用较小的内存,且允许更有弹性但需要额外的处理步骤。
在通过离线优化所产生的内核的情况中,可能没有数学表示以及内核然后必须以需要时所使用的矩阵形式储存于内存中。
对于每个眼睛和每个凝视方向,将有根据分类条件的不同且适合的内核,以基于信噪比达到分辨率和检测精确度之间的最佳的可能折衷,以便避免无意的眼睛移动的检测,但精确地决定有意的眼睛移动。
第二处理速度增益可通过使用其它方法而获得,诸如戈泽尔算法的2D版本而不是FFT用于将图像转换到频域。应注意的是,增益这里不只是在处理速度中,而特别是编程柔性和内存使用。
因为计算是如此快,所以使得它们可执行多次。如此后所述,通过执行内核参数(诸如方位、相位和波长)的扫描,可获得更健壮的凝视方向结果。
这些计算针对每个眼睛和每个凝视方向执行。这也可能仅针对一个眼睛而不是双眼执行计算。这也可能针对每个眼睛和每个方向以仅单一内核执行计算,具体取决于分类条件,而不使用内核参数的扫描。
然而,对于熟悉这种计算者清楚的是,随同这种稀疏计算,有用于计算双眼的结果和执行内核参数的扫描的最小成本,以便在决定最佳的一个内核之前测试不同的内核。
至于每个眼睛和凝视方向,现在有稀疏区段,其具有起因于单元乘单元乘法的稀疏区段中的每个频率的结果。这些结果现在可并入单一值,例如通过采取稀疏区段内的数值总和并入。这给予了单一值。
在单一信道用于每个眼睛的情况中,将有每个眼睛的每个凝视方向的单一值。因为计算通过处理器重复用于视频输入的每一帧,这导致逐帧地改变的值的向量。
在内核参数的扫描的情况中,将有用于每个眼睛的值的阵组,即,用于每个凝视方向的值的阵组,其进一步进行处理。这是通过采用扫描的频带来完成的,例如,由扫描所得的最大值减去由扫描所得的最小值。这导致将结果缩小成单一数用作使用作为凝视计算的输入的数值。这是可能使用单一内核而不需凝视计算的扫描。然而,由这种扫描所得的结果的使用对于光条件的小变化和其它这种效应将是固有地更加健壮。
这里,内核扫描指的是易于识别给予最佳结果的内核限定的内核参数中的变化,因为从以下实例它将是显而易见的。
参照图2a和2b,已说明校准参数如何初始化。这校准限定所计算的凝视参数的转换,其与其相对于相机的头部位置和旋转结合。
随着头部位置、头部方位、光条件和眼睛类型的更新状态,校准也可进行更新且因此凝视方向准确度改善而不需通过使用者进行的新校准。
而且在这点,可针对信号中的不需要的噪声,修正凝视信号(诸如脉冲)中的噪声。
从图2a和2b中所述的凝视计算初始化,也产生凝视方向间的任何不需要的互动效应的识别。如果是这样,也决定清除用于这些效应的凝视方向的修正因素。如果需要进一步修正凝视方向信号,现在也可以实施这些修正因素。
在图4a和4b中,对于使用内核参数的扫描的情形,再次显示凝视计算的概要用于处理一个眼睛和一个凝视方向的单一帧的视频输入。
对于本领域技术人员而言,将清楚的是,相同的概要也可使用于使用双眼的凝视计算。
首先,确定相对于相机的头部位置和方位。接着,采集眼睛区域的图像。这图像然后针对光的类型和眼睛的类型进行分类,以确定最适合于给定条件的凝视方向的公式。
在频域计算的启动之前,有预处理已输入的视频帧的选项,例如,通过均衡帧中的像素的平均光强度进行。
在给定的稀疏频率区段和内核下,可以理解到一些计算如何平行地完成。注意到在此概要中,用于单一眼睛的凝视方向的公式由若干个信道建立。每个信道通过转换成频域的输入图像和内核之间的逐个单元地相乘而产生在稀疏区段中。也注意到有可能的额外预处理步骤在输入图像上,即,低通滤波或边缘检测或其它。在频域中,这种乘法是快速的。这种额外的滤波步骤可允许例如左右和上下凝视方向信道之间的较少交互。
由扫描所得的所有信道然后一起结合成公式信道。使用从校准保存的值,然后它们转换成凝视用方向信道。
图5是稀疏区段可以如何与内核结合的实例。示出了两个不同的区段,它们可提供用于不同的凝视方向、不同光条件的不同眼睛类型或导致使用于凝视方向的不同公式的其它分类差异。在实例中,稀疏区段是矩形,然而所限定的稀疏区段可以是任何形状且甚至不需是连接的频率点。
整个方格表示使用作为计算用输入的图像的全部频域,即,定界框盒所采集的眼睛。当使用FFT变换时,这方格的侧面需要是二次方。当使用DFT或戈泽尔算法的2D版本时,方格可以是任何大小,其自然在凝视跟踪解决方案的精细化中给予更大的工程弹性。
在稀疏区段上方,可看到内核的轮廓。这可以是诸如贾伯滤波器之类的算法,其是高斯和正弦滤波器的组合,但它不必定需要是贾伯滤波器。任何滤波器可设计用于这目的,且内核可具有由离线优化所得的权重,没有以频域中的数学形式描述此内核的可能性。
熟悉频域中的计算者将再次理解处理速度中的增益,当仅仅进行逐个单元地相乘时,它是与相对于总频域的稀疏区段所表示的百分比成比例的。在图5中,为了理解图,所显示的稀疏区段事实上很大。
图6再次显示表示定界框盒的输入图像的所有频域数据的方格。它显示执行内核参数的扫描的单一稀疏区段。该图说明内核可如何重叠频域中的稀疏区段。应明白的是,这图仅仅给予用于说明目的并且实际重叠可能是很不相同的,具体取决于所选的稀疏区段以及所选的内核。
在这实例中,内核仅部分地重叠所选的稀疏区段。也可能有输入图像中的变化,通过稀疏区段所采集的图像的数据中产生轻微变化。考虑到这一点,在频域中,转换成频域的输入图像和内核之间的相乘是一个单元一个单元地进行的,在稀疏区段内,应明白的是,有以稀疏区段中内核和数据重叠的相对方式的变化。
如前述,克服这效应的方法在于具有内核参数的扫描。例如,这些参数可以是相位、方位和波长,具体取决于内核公式。在图6中,看到移动内核的相位,内核是贾柏滤波器,其中频域导致贾柏内核参数的尖峰的移位。通过进行这样的扫描,结果中的部分可变性已被移除,因为变得更可能的是,正确使用的相位突出了所选的移动。
也可能的是,选择移动频域本身而不是稀疏区段的顶部上的内核。然而,应明白的是,这种移动比起移动内核的参数可具有更小的分辨率和精细,因为稀疏区段必须以离散步骤移动。
图7显示遥测输出的实例,其通过智能手机以景观模式实现且它的屏幕是分割成4行和5列,可能地对应于屏幕上的4×5=20个图标。在这种情况下,凝视跟踪的目的可以是通过用户的眼睛移动选择图标。
因此提供两个不同信道:一个用于左右移动并且一个用于上下移动。
在顶部上,表示了采集左右移动的信道的遥测,而在底部上,可见到采集上下移动的信道。
在图7的曲线中,X轴(横轴)是时间T轴,而Y轴(纵轴)是由计算所得的频域中的功率。分开的信道结果已在Y轴被偏移以增加图的清晰度。以这方法,凝视指向可以直接呈现在手机屏幕上,且操作为凝视指向器。
在遥测的左半部,似乎使用者先一行一行看,对于每一行,从左开始且移动他的凝视到右并回到左,从顶行向下重复此动作。这可通过四个不同尖峰在顶部的左右信道看到,而同时在一行一行凝视下方的上下信道中寄存行高的变化。
在遥测的第二半部,使用者一列一列看屏幕。使用者在顶部开始且向下看,然后再次向上。然后这从屏幕的左边开始对5列进行重复。这作为五个不同的尖峰可在上下遥测中被看到,而同时在使用者一列一列移动通过时,左右信道采集左右移动。
在此图中,使用单个信道。可看到的是,虽然信道可以容易地用增益和偏移对屏幕上的凝视移动进行校准,但是,当功率,Y轴,直接链接到图像中光的强度时,信道对于光变化将不会是健壮的。
直接使用用于凝视方向的这种信道是可能的。然而,它们对于光变化和其它改变以及诸如缩放、移动等噪声因素将不太健壮。
在图8中,相同类型的凝视移动由使用者完成,如图7所示。为了简化,仅显示图7中的一个信道。然而,针对该信道完成了内核参数的扫瞄。波长、相位和方位变化的组合可用作扫描。能够看到扫描中的每个步骤如何给出用于频域中内核和图像之间的相乘的稍微不同的结果。
注意,这种扫描不同于通常用于例如贾伯组(Gaborbank)的扫描。在通常用于提取目标识别的特征的贾伯组中,参数尽可能宽广地改变以达到特征的最宽广提取,从而可助于识别为识别所选的面孔或其它目标。
对比之下,使用在此实施方式中的扫描寻求保持狭窄,以便更精细地采集凝视移动。在实际的术语中,贾伯组很可能使用具有0、45、90、135、180、225、270和315度的值的方位的扫描,而采集凝视移动的扫描可使用1、2、3、4、5、6、7、8度作为扫描的输入方位。
概括而言,当该方法使用稀疏区段,即,仅涵盖整个频域场的一小部分的少数区段时,在内核扫描中,它仅使用相同滤波器的少数不同变化。所述种类的变化两者都针对优化凝视移动的检测,执行请求用于此任务的计算的最低数量,即,当所获得的遥测的噪声特征指示移动可按照所请求的精确地检测时,同样地中断不同的区段分析和内核扫描。
在图9中,再次更详地描述了图8的扫描结果。它显示凝视扫描结果的范围如何成为凝视方向的量度。因为此凝视输入很大程度上大部分取决于内核,光条件和噪声的变化效应被消除。
图10显示如何使用由扫描所得的范围以消除信道中的噪声因素。在遥测的第一部分中,使用者直视,且在输入中有很大的噪声因素(例如由定界框盒位置的振动所造成的),即,影响手持相机的振动和/或无意的眼睛移动。
随着使用者在相同方向上固定他的凝视,扫描中的所有信道将显示由于噪声的相同偏移。因此,通过采取扫描的宽度作为输入,因为宽度对于同样地改变的所有信道保持较小,从凝视信道大大地消除了噪声。
在图表的第二部分(右部),使用者开始改变凝视方向并且内核扫描中的所有信道对这改变不同地轻微反应。扫描的宽度现在可用作凝视方向的输入。
图11a显示凝视方向公式的存入的数据,其中波长、方位和相位的扫描已实施。频带的宽度用于凝视方向的量度。信道的无标准化已实现。
图11b显示与图11a相同的存入的数据。然而,波长、方位和相位的扫描现在已在T=5s标准化。频带的宽度仍用于凝视方向的量度,但对于诸如照明变化之类的任何效应更为健壮。
图11c显示与图11a和图11b相同的存入的数据。然而,信道现在已在T=10s标准化,其是凝视移动的另一端。频带的宽度仍用于凝视方向的量度,正如同图11a,对于诸如照明变化之类的任何效应现在更为健壮。然而,可看到的是,在凝视移动的另一端采取标准化需要不同的校准。
图12显示图11a、11b和11c中所采集的凝视移动的较大部分。在顶部,标准化的信道扫描被呈现。在图的底部,显示公式的结果,其是从标准化扫描的宽度计算得来的。在这些凝视移动期间,光条件改变,如由原始扫描信道跟随的曲线所示。然而,在图表中,可认识到在公式的结果中,已极大地消除了光条件的变化的效应。
在以下的图中,显示如何可寻求凝视方向的信道的步骤的实例,无需具有任何开始的基线信道的凝视信道的工程师或设计者。
图13显示如何将记录的或实时的视频输入的帧给予改变凝视方向的相机前面的眼睛,例如从左到右。
因为仍不知道用于采集移动的正确的稀疏区段,选定不同的稀疏区段。在此实例中,显示五个区段,但应清楚的是,许多不同区段可被选定用于此测试。
而且,仍不知用于强调移动的最佳内核,因此获取基线内核,且它保持不变而无任何扫描。
在实例中,看到对于每个选定的区段由来自空间域的转换所得的图像的频率数据如何与仅在频域场的每个稀疏区段内的内核相乘。
在针对整个视频输入逐帧地完成的此计算之后,获得五个遥测流并且然后可选定最适合的稀疏区段用于所指定的眼睛类型。在实例中,能够理解的是,区段3用于采集指定眼睛的左右移动很可能是最佳的。此确定根据每个遥测的噪声特征进行:具有最佳信噪比者应是最佳的移动表示。
在图14中,能够更详细地看到对于具有图13的相同的五个区段的单一帧这种计算是如何完成的。在实例中,输入图像帧和内核两者在转换后在频域中各具有64×64的尺寸。内核的值是每个单元的幅值,具体取决于频域中的内核的所计算的实部和虚部。采取与转换成频域的图像相乘的这些复数乘法的大小,然后一起给出所显示的64×64个网格的值。
考虑区段3,即,采集眼睛移动的更好区段(见上方),本领域技术人员应清楚的是,在频域中的图像与内核之间的完全逐个单元地相乘的该例子中,需要64*64=4096个计算。
在图14的放大图中,稀疏区段3由具有4×3=12频率数据的12个单元组成。频域计算的领域中的专家将认识到,如果只需要所限定的稀疏区段中的值并且不必将图像转换回到空间域,则12个逐个单元的计算将是足够的,而不是4096个。
在图14中所示的最后步骤中,我们看到总和如何从区段3中的值取得以得到单一数。在这实例中,总和被取得,但当然这是可能限定不同的规则以得到与开始的频率数据一致的单一值。
因此,输入帧导致给予单一值的更快的稀疏计算。针对每个单一帧重复这些计算,这些值的波动将导致给予与时间有关的遥测流值,其将与所选定的凝视方向相关联,前提是适当地选定稀疏区段和内核。
如图9中所示,如果执行这种内核参数的小扫描,使用于采集凝视方向的输出值对于照明等等的变化将更为健壮,并且输出中的变化用作遥测流的值。
虽然图13已显示可用来寻找所选定的凝视方向移动的稀疏区段的方法,但图15显示在进一步的步骤中,然后如何调整内核参数以改善用于所选定的凝视方向的输出的信噪比。
开始点是用于采集左右凝视移动的选定的稀疏区段,其在图13的实例中是区段3。此稀疏区段现在保持不变,然而,此时诸如相位、波长和方位之类的内核参数被调整。这可用于其它参数,具体取决于用于频域内核的公式。
通过执行这些参数中的变化,可获得信号噪声比的改善以采集选定的凝视方向。
在实例中,显示了输入中的五个不同的内核,即,在开始的内核公式产生的五个不同的扫描。所有五个内核在改变角度中采集选定的凝视移动。这是因为稀疏计算已在采集移动的稀疏区段中,如图13所示。我们看到,在图15的实例中,第四内核对于采集移动是最佳的。
再者,此确定根据每个遥测的噪声特性进行:具有最佳信号噪声比者应是最佳的移动表示。
对于本领域技术人员而言,清楚的是,这仅是说明性实例并且,仅在开始时,将需要对内核进行大量变化。而且,本领域技术人员也应清楚的是,当发现内核有效地采集与选定的稀疏区段结合的凝视移动时,内核将不断地采集凝视方向,前提是,眼睛类型、照明类型和相对于相机的头部方位以及输入图像的定界框盒的相对尺寸保持不变。
对于专家也应清楚的是,发现一种基线设定用于指定的眼睛类型、照明类型和相对于相机的头部方位;将不必重复图13和图15中所述的步骤,但可储存这些步骤的结果。在图13、图14和图15中所给定的实例中,可以明白如何寻找用于一个眼睛类型的稀疏区段和内核。
现在清楚的是,此过程可重复用于不同的眼睛类型、照明类型等等,以及对于每个类型,保存最适当的稀疏区段和内核。
也清楚的是,一旦校准凝视方向信号,信噪比进一步精细化是可能的。取代具有用于指定眼睛类型的固定的稀疏区段和固定的内核,它们可以和已知的凝视移动一起移动。因此,稍微向左看的眼睛将导致内核和/或稀疏区段根据这些已知的眼睛方向变化而稍微改变,从而导致凝视方向信噪比进一步精细化。
这方面强调图2a、2b、3a、3b、4a和4b中所述的分类步骤的重要性,因为分类器将识别这样的眼睛类型并且它将表示在保存的稀疏区段和内核之间的采集凝视方向的最佳选择。
在图13和图15的实例中,提到的是,稀疏区段和内核被选定以优化左右凝视移动的采集。应明白的是,可跟随相同的原则以采集上下移动。还应明白的是,为了采集上下凝视移动,这些步骤应导致相比于用于左右移动所选定的、不同的稀疏区段和不同的内核。
本领域技术人员也应清楚的是,这些步骤可在离线步骤中进行或实时进行。
在图16中,说明对于每个眼睛睛类型和照明条件,如何要求稀疏区段和内核的不同组合来采集凝视方向。本领域技术人员应清楚的是,凝视方向信号的信噪比和所需计算的减少量取决于对于选定的稀疏区段和内核所寻求的精细化。
原则上,大的区段可选定有一般性内核,但这很可能导致非常差的凝视方向以及计算速度中较少的增益。
考虑到用于凝视跟踪的上述方法,应注意,可使用四个信道(左、右、上、下信道),但仅两个信道:用于左/右的一个信道和用于上/下的一个信道,也可以工作。
在智能手机和平板电脑的情况中,当其位于屏幕外时,准确地采集凝视方向是不重要的,但屏幕上凝视方向的小变化的检测有关系。
取代使用分类器以决定最适当的区段和公式用于光条件和单个的眼睛,还能够具有一些可能的选项随时用于信道且在计算期间使用如同信号噪声的计算以决定给予这些条件的最佳结果的一个选项。
眼睛定界框盒的大小是与瞳孔间的距离成比例,导致更稳定的定界框盒。然而,可以使用获得这种稳定的定界框盒的进一步选项,例如,制作与瞳孔大小或眼睛大小有关的定界框盒。定界框盒可以固定于瞳孔或眼睛。
以上的稀疏区段不需要是正方形或矩形,且它们不需要固定。
这也意味着,本方法可能通过频域以追踪空间域而不是眼睛(诸如瞳孔或眼睑)中的不同目标。空间域中的此移动在特定的频率区段中的频域进行采集,内核由特定频率的波长、实值和虚值所限定,其具有相位、特定方位的正弦、和特定强度的高斯滤波器。
本方法不需要使用红外线并且不需要识别由红外线投射所产生的眼睛中的闪烁。它不需要使用者完全坐直且仍在相机前面,并且不限制使用者在相机前面的小移动框盒。
再者,本方法不需要具有一个以上的相机的立体视觉,允许全软件的解决方案,其可集成于直接编程在处理器或其它可再次编程的硬件上的操作系统中或操作系统的外部。
空间域中面孔特征的位置的识别没有一个需要计算凝视方向,并且空间域中分类的眼睛位置之间没有执行内插法。

Claims (20)

1.一种凝视跟踪的方法,其包括:
a.通过相机获得面孔的数字视频流,其中眼睛和/或瞳孔被识别,以确定所述眼睛和/或瞳孔的位置,然后在空间域中对应的框盒中识别所述眼睛和/或瞳孔,所述框盒的内容是用于进一步计算的输入;
b.由处理器将所述框盒的内容转换成频域内容;
c.由处理器在所述框盒的频域内容上施加一个或多个稀疏区段,一起覆盖框定频域区域的一小部分和滤波内核,至少部分地重叠所述一个或多个稀疏区段;
d.由处理器执行每个稀疏区段内的频率数据和所述内核之间的相乘,将结果结合于单一值中;并且
e.为所述数字视频流的每个帧重复获得所述单一值的以上步骤(a)至(d),其中所述单一值的波动表示沿着时间的凝视方向的变化。
2.根据权利要求1所述的方法,其进一步包括:由处理器从所述瞳孔和眼睛的所述位置估计头部方位和可能进一步的面部特征。
3.根据权利要求2所述的方法,其进一步包括:使用预定的分类器来为每个眼睛分类光条件的类型和使用者的眼睛的类型。
4.根据权利要求1所述的方法,其中所述框盒相对于相应的瞳孔而居中。
5.根据权利要求1所述的凝视跟踪的方法,其中所述框盒仅应用于一个眼睛。
6.根据权利要求1所述的方法,进一步包括在初始时校准凝视方向。
7.根据权利要求6所述的方法,其中所述校准是增益和偏移的直接校准。
8.根据权利要求6所述的方法,其中在特定时间执行所述校准以使所述单一值标准化。
9.根据权利要求6所述的方法,其中所述校准通过结合用于所述使用者的眼睛的分类器的实时训练与用于所述条件所保存的校准而进行保存,从而允许在不需要重新校准的情况下进行使用者识别。
10.根据权利要求1所述的方法,其中所述内核包括二维滤波器,例如,贾伯滤波器。
11.根据权利要求2所述的方法,进一步包括:在来自所述数字视频流的最后凝视计算循环的结束之后由处理器更新限定围绕所述眼睛的所述框盒、相对于所述相机的面孔位置和方位的状态。
12.根据权利要求11所述的方法,进一步包括:在来自所述数字视频流的最后凝视计算循环的结束之后重复确定用于每个凝视方向和每个眼睛的所述稀疏区段和内核。
13.根据权利要求1所述的方法,其中步骤(b)由采用离散傅立叶变换的处理器执行。
14.根据权利要求1所述的方法,其中步骤(b)由采用快速傅立叶变换的处理器执行。
15.根据权利要求1所述的方法,其中步骤(b)由采用戈泽尔算法的处理器执行。
16.根据权利要求1所述的方法,其中所述单一值是稀疏区段内的值的总和。
17.根据权利要求1所述的方法,其中每个稀疏区段与单一信道对应,并且其中步骤(e)导致逐帧变化的单一向量的值。
18.根据权利要求17所述的方法,进一步包括:由处理器扫描内核参数以产生将要处理成单一值的值数组。
19.根据权利要求1所述的方法,进一步包括在多个给定稀疏频率区段和内核的情况中由处理器执行并列计算。
20.一种操作装置的方法,所述装置设有被配置成产生视频流的至少一数字相机和至少一处理器,以在所述视频流中采集到面孔时获得凝视跟踪,所述方法包括:
a.辨别眼睛或瞳孔且将所述眼睛或瞳孔框定于空间域中的对应框盒,所述框盒的尺寸是相对于所述相机的面孔位置和方位的函数,所述框盒的内容是用于进一步计算的输入;
b.由处理器将所述框盒的内容转换成频域内容;
c.由处理器在所述框盒的频域内容上施加一个或多个稀疏区段,一起覆盖框定的频域区域的一小部分和滤波内核,至少部分地重叠所述一个或多个稀疏区段;
d.由处理器执行每个稀疏区段内的频率数据和所述内核之间的相乘,将结果结合于每个稀疏区段的单一值中;并且
e.为所述数字视频流的每帧重复获得所述单一值的以上步骤(a)至(d),其中所述单一值的波动表示沿着时间的凝视方向的变化。
CN201480030894.7A 2013-04-08 2014-04-08 凝视跟踪的方法 Active CN105247539B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13162802.6A EP2790126B1 (en) 2013-04-08 2013-04-08 Method for gaze tracking
EP13162802.6 2013-04-08
PCT/IB2014/060520 WO2014167491A1 (en) 2013-04-08 2014-04-08 Method for gaze tracking

Publications (2)

Publication Number Publication Date
CN105247539A true CN105247539A (zh) 2016-01-13
CN105247539B CN105247539B (zh) 2018-12-21

Family

ID=48128096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480030894.7A Active CN105247539B (zh) 2013-04-08 2014-04-08 凝视跟踪的方法

Country Status (10)

Country Link
US (2) US9811157B2 (zh)
EP (1) EP2790126B1 (zh)
JP (1) JP6288530B2 (zh)
KR (1) KR20150143584A (zh)
CN (1) CN105247539B (zh)
AU (1) AU2014252252B2 (zh)
HK (1) HK1214668A1 (zh)
IL (1) IL241948B (zh)
TW (1) TWI594193B (zh)
WO (1) WO2014167491A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309846A (zh) * 2019-04-26 2019-10-08 哈尔滨理工大学 一种基于深度空间域网络的图像识别方法
CN110392893A (zh) * 2017-02-17 2019-10-29 考吉森公司 用于内容检测的图像处理方法
CN111033524A (zh) * 2017-09-20 2020-04-17 奇跃公司 用于眼睛跟踪的个性化神经网络
WO2021147757A1 (zh) * 2020-01-20 2021-07-29 北京芯海视界三维科技有限公司 实现信息统计的方法、装置和产品

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014111924A1 (en) * 2013-01-15 2014-07-24 Poow Innovation Ltd. Dynamic icons
WO2015110852A1 (en) * 2014-01-24 2015-07-30 Sony Corporation Face tracking for a mobile device
US9558094B2 (en) * 2014-05-12 2017-01-31 Palo Alto Research Center Incorporated System and method for selecting useful smart kernels for general-purpose GPU computing
US10332229B2 (en) 2014-05-12 2019-06-25 Palo Alto Research Center Incorporated System and method for high performance k-means clustering on GPU with smart kernels
US10157313B1 (en) * 2014-09-19 2018-12-18 Colorado School Of Mines 3D gaze control of robot for navigation and object manipulation
WO2016072965A1 (en) * 2014-11-03 2016-05-12 Bayerische Motoren Werke Aktiengesellschaft Method and system for calibrating an eye tracking system
WO2016098406A1 (ja) * 2014-12-17 2016-06-23 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
CN106157251B (zh) * 2015-04-01 2018-10-26 武汉大学 一种基于柯西正则化的人脸超分辨率方法
CN104850228B (zh) * 2015-05-14 2018-07-17 上海交通大学 基于移动终端的锁定眼球的注视区域的方法
US9829976B2 (en) * 2015-08-07 2017-11-28 Tobii Ab Gaze direction mapping
US9857871B2 (en) 2015-09-04 2018-01-02 Sony Interactive Entertainment Inc. Apparatus and method for dynamic graphics rendering based on saccade detection
CN108604116A (zh) 2015-09-24 2018-09-28 托比股份公司 能够进行眼睛追踪的可穿戴设备
US10565446B2 (en) 2015-09-24 2020-02-18 Tobii Ab Eye-tracking enabled wearable devices
US10220172B2 (en) 2015-11-25 2019-03-05 Resmed Limited Methods and systems for providing interface components for respiratory therapy
WO2017165701A1 (en) * 2016-03-25 2017-09-28 Nebbiolo Technologies, Inc. Fog Computing Facilitated Flexible Factory
US10372205B2 (en) 2016-03-31 2019-08-06 Sony Interactive Entertainment Inc. Reducing rendering computation and power consumption by detecting saccades and blinks
US10169846B2 (en) * 2016-03-31 2019-01-01 Sony Interactive Entertainment Inc. Selective peripheral vision filtering in a foveated rendering system
US10401952B2 (en) 2016-03-31 2019-09-03 Sony Interactive Entertainment Inc. Reducing rendering computation and power consumption by detecting saccades and blinks
US10192528B2 (en) 2016-03-31 2019-01-29 Sony Interactive Entertainment Inc. Real-time user adaptive foveated rendering
EP3236277B1 (en) 2016-04-18 2021-12-01 Centre Hospitalier Universitaire Vaudois (CHUV) Differentiated tissue excitation by mri using binomial off-resonance 1-1 rf pulses
WO2017186320A1 (en) 2016-04-29 2017-11-02 Tobii Ab Eye-tracking enabled wearable devices
KR102349543B1 (ko) 2016-11-22 2022-01-11 삼성전자주식회사 사용자의 눈을 추적하는 방법 및 장치와 역변환된 저조도 영상을 생성하는 방법
CN106713764A (zh) * 2017-01-24 2017-05-24 维沃移动通信有限公司 一种拍照方法及移动终端
EP3364342A1 (en) * 2017-02-17 2018-08-22 Cogisen SRL Method for image processing and video compression
CN107622248B (zh) * 2017-09-27 2020-11-10 威盛电子股份有限公司 一种注视识别及互动方法与装置
EP3494866B1 (en) * 2017-12-06 2020-02-26 Essilor International Method and apparatus for determining a reference head posture of a subject
JP6973258B2 (ja) * 2018-04-13 2021-11-24 オムロン株式会社 画像解析装置、方法およびプログラム
WO2019218274A1 (zh) * 2018-05-16 2019-11-21 深圳阜时科技有限公司 一种光源模组、图像获取装置、身份识别装置及电子设备
US11353952B2 (en) 2018-11-26 2022-06-07 Tobii Ab Controlling illuminators for optimal glints
US11307409B2 (en) * 2019-05-21 2022-04-19 Google Llc Methods and systems to track a gaze of an eye
TWI719490B (zh) 2019-05-28 2021-02-21 國立中正大學 影像缺陷條紋之移除方法及其系統
US20210393120A1 (en) * 2020-06-19 2021-12-23 Welch Allyn, Inc. Vision screening systems and methods
CN114511894A (zh) * 2020-10-28 2022-05-17 北京京东方光电科技有限公司 瞳孔中心坐标的获取系统及获取方法
CN112749655B (zh) * 2021-01-05 2024-08-02 风变科技(深圳)有限公司 视线追踪方法、装置、计算机设备和存储介质
US11947717B2 (en) * 2021-01-22 2024-04-02 Blink Technologies Inc. Gaze estimation systems and methods using relative points of regard
CN113208558B (zh) * 2021-04-30 2022-10-21 南昌虚拟现实研究院股份有限公司 眼球追踪方法、装置、电子设备及存储介质
KR20230001715A (ko) * 2021-06-29 2023-01-05 삼성전자주식회사 시선 방향 인식 시에 에러를 보정하는 전자 장치 및 전자 장치의 동작 방법
GB2608705B (en) * 2021-06-30 2023-11-01 Apple Inc Eye tracking data filtering
EP4113464A1 (en) 2021-06-30 2023-01-04 Tobii AB An eye tracking system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2003759A1 (de) * 2007-06-14 2008-12-17 SMA Solar Technology AG Verfahren zur Inselnetzerkennung
US20090238466A1 (en) * 2008-03-24 2009-09-24 Oren Golan Method and system for edge detection
CN103079661A (zh) * 2010-03-30 2013-05-01 索尼电脑娱乐美国公司 用于增强现实角色维持并体现观察者的认知的方法
WO2013066334A1 (en) * 2011-11-03 2013-05-10 Intel Corporation Eye gaze based image capture
CN103164022A (zh) * 2011-12-16 2013-06-19 国际商业机器公司 多指触摸方法和装置、便携式终端设备
CN103356163A (zh) * 2013-07-08 2013-10-23 东北电力大学 基于视频图像和人工神经网络的凝视点测量装置及其方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6437758B1 (en) * 1996-06-25 2002-08-20 Sun Microsystems, Inc. Method and apparatus for eyetrack—mediated downloading
JP3790680B2 (ja) * 2001-05-25 2006-06-28 株式会社東芝 画像処理システム及びこれを用いた運転支援システム
US7091471B2 (en) * 2004-03-15 2006-08-15 Agilent Technologies, Inc. Using eye detection for providing control and power management of electronic devices
JP2008206830A (ja) * 2007-02-27 2008-09-11 Tokyo Univ Of Science 統合失調症診断装置及びプログラム
JP5189893B2 (ja) * 2008-05-20 2013-04-24 旭化成株式会社 瞬目種別識別装置、瞬目種別識別方法、及び瞬目種別識別プログラム
US20100010370A1 (en) * 2008-07-09 2010-01-14 De Lemos Jakob System and method for calibrating and normalizing eye data in emotional testing
US20110205148A1 (en) * 2010-02-24 2011-08-25 Corriveau Philip J Facial Tracking Electronic Reader
US9213405B2 (en) * 2010-12-16 2015-12-15 Microsoft Technology Licensing, Llc Comprehension and intent-based content for augmented reality displays
US9064308B2 (en) * 2011-04-13 2015-06-23 Raytheon Company System and method for residual analysis of images
EP2587342A1 (en) * 2011-10-28 2013-05-01 Tobii Technology AB Method and system for user initiated query searches based on gaze data
US8710986B2 (en) * 2012-01-19 2014-04-29 Utechzone Co., Ltd. Gaze tracking password input method and device utilizing the same
ES2898981T3 (es) * 2012-08-09 2022-03-09 Tobii Ab Activación rápida en un sistema de seguimiento de la mirada
US9424467B2 (en) * 2013-03-14 2016-08-23 Disney Enterprises, Inc. Gaze tracking and recognition with image location

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2003759A1 (de) * 2007-06-14 2008-12-17 SMA Solar Technology AG Verfahren zur Inselnetzerkennung
US20090238466A1 (en) * 2008-03-24 2009-09-24 Oren Golan Method and system for edge detection
CN103079661A (zh) * 2010-03-30 2013-05-01 索尼电脑娱乐美国公司 用于增强现实角色维持并体现观察者的认知的方法
WO2013066334A1 (en) * 2011-11-03 2013-05-10 Intel Corporation Eye gaze based image capture
CN103164022A (zh) * 2011-12-16 2013-06-19 国际商业机器公司 多指触摸方法和装置、便携式终端设备
CN103356163A (zh) * 2013-07-08 2013-10-23 东北电力大学 基于视频图像和人工神经网络的凝视点测量装置及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李莹莹: "基于计算机图像处理技术的人眼变化识别系统", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110392893A (zh) * 2017-02-17 2019-10-29 考吉森公司 用于内容检测的图像处理方法
CN111033524A (zh) * 2017-09-20 2020-04-17 奇跃公司 用于眼睛跟踪的个性化神经网络
CN110309846A (zh) * 2019-04-26 2019-10-08 哈尔滨理工大学 一种基于深度空间域网络的图像识别方法
WO2021147757A1 (zh) * 2020-01-20 2021-07-29 北京芯海视界三维科技有限公司 实现信息统计的方法、装置和产品

Also Published As

Publication number Publication date
KR20150143584A (ko) 2015-12-23
TW201506806A (zh) 2015-02-16
US20180032135A1 (en) 2018-02-01
TWI594193B (zh) 2017-08-01
EP2790126B1 (en) 2016-06-01
AU2014252252B2 (en) 2018-12-06
AU2014252252A1 (en) 2015-10-29
JP2016515431A (ja) 2016-05-30
CN105247539B (zh) 2018-12-21
US20140300538A1 (en) 2014-10-09
JP6288530B2 (ja) 2018-03-07
US9811157B2 (en) 2017-11-07
EP2790126A1 (en) 2014-10-15
HK1214668A1 (zh) 2016-07-29
IL241948B (en) 2019-03-31
WO2014167491A1 (en) 2014-10-16

Similar Documents

Publication Publication Date Title
CN105247539A (zh) 凝视跟踪的方法
Sun et al. Fully automated macular pathology detection in retina optical coherence tomography images using sparse coding and dictionary learning
EP2328006B1 (en) Task-based imaging systems
Leo et al. Unsupervised eye pupil localization through differential geometry and local self-similarity matching
CN103025229A (zh) 适用于光学相干断层扫描技术的移动修正和图像增强的方法和装置
CN104809458A (zh) 一种瞳孔中心定位方法及装置
US11503998B1 (en) Method and a system for detection of eye gaze-pattern abnormalities and related neurological diseases
CN105224065A (zh) 一种视线估计设备和方法
Valenti et al. Webcam-based visual gaze estimation
Shehu et al. Remote eye gaze tracking research: a comparative evaluation on past and recent progress
Lin et al. Multi-scale contour detection model based on fixational eye movement mechanism
Judd Understanding and predicting where people look in images
Zhang et al. Eye gaze estimation and its applications
Savaş Real-time detection and tracking of human eyes in video sequences
Jeong et al. Eye pupil detection system using an ensemble of regression forest and fast radial symmetry transform with a near infrared camera
Hassoumi et al. Uncertainty visualization of gaze estimation to support operator-controlled calibration
De Marsico et al. Iris segmentation using pupil location, linearization, and limbus boundary reconstruction in ambient intelligent environments
Watier Measures of angularity in digital images
Shi et al. Research on strabismus iris segmentation model based on deep snake multitask learning
US20240320823A1 (en) System and method for visualization of digitized slides
Hénaff Testing a mechanism for temporal prediction in perceptual, neural, and machine representations
Aldibaja Eye shape detection methods based on eye structure modeling and texture analysis for interface systems
Suriyal Quantitative Analysis of Strabismus Using Image Processing
Chattoraj et al. Automated detection of glaucoma in fundus images using variational mode decomposition and textural features
SIBIYA SMART ASSISTIVE DEVISE FOR TETRAPARESIS PATIENT

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1214668

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220110

Address after: California, USA

Patentee after: INTEL Corp.

Address before: Italy, Naples

Patentee before: COGISEN S.R.L.

TR01 Transfer of patent right