CN104302226B

CN104302226B - 视频分析设备、视频分析方法和注视点显示系统

Info

Publication number: CN104302226B
Application number: CN201380025947.1A
Authority: CN
Inventors: 大贯善数
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2012-05-25
Filing date: 2013-04-11
Publication date: 2016-07-06
Anticipated expiration: 2033-04-11
Also published as: JP5689850B2; CN104302226A; WO2013175701A1; US9727130B2; JP2013244212A; US20150130714A1

Abstract

视频获取单元(310)从与用户头部的运动相关联地移动的第一光源(220)以及具有相对于用户当作观测目标的视频呈现单元(500)不变的位置的第二光源(400)这两个光源，获取包括从照射到用户的眼球之一的每个各自的光反射的光的区域的视频，所述视频是与用户头部的运动相关联地移动的图像捕获元件(210)进行图像捕获的。头部运动估计单元(320)基于在视频获取单元(310)已经获取的视频中第二光源(400)的反射光相对于第一光源(220)的反射光的相对位置，估计用户头部的运动。

Description

视频分析设备、视频分析方法和注视点显示系统

技术领域

本发明涉及视频分析设备、视频分析方法和注视点显示系统。

背景技术

注视点(Point-Of-Gaze；POG)的估计技术已经被研究了很长时间，并且应用于涉及与计算机的对话的许多领域，诸如对计算机的信息输入、以及观测用户对网络浏览器的关注目标。为了实现高精度注视点估计，考虑到一些情况下的光学折射，执行角膜的曲率中心以及瞳孔中心的测量。

另一方面，在将注视点估计技术应用于诸如例如游戏的应用的情况下，需要可以通过舒服的操作容易地执行注视点控制，而不是总是精确估计注视点。换句话说，期望在视线注视在目标上的情况下光标可以与目标精确对准的技术。

发明内容

要解决的技术问题

上述的考虑光学折射来测量角膜的曲率中心和瞳孔中心的注视点估计技术具有高精度。然而，需要相对高的计算能力，因此可能导致延迟。

有鉴于上述问题做出了本发明，并且本发明目的之一在于提供一种技术，其使得能够控制注视点而不引入计算成本。

解决问题的技术方案

为了解决上述问题，本发明的一具体方面是一种视频分析设备。所述设备包括：视频获取器，获取通过与用户头部运动相关联地移动的成像元件对一区域成像而获得的视频，所述区域具有从与用户的头部的运动相关联地移动的第一光源以及其相对位置关于作为用户的观测目标的视频呈现器不变的第二光源这两个光源照射到用户的任一眼球的光束的各自的反射光；以及头部运动估计器，基于在通过视频获取器获取的视频中第二光源的反射光相对于第一光源的反射光的相对位置，估计用户头部的运动。

本发明的另一方面是一种视频分析方法。所述方法使得处理器执行以下步骤：获取通过与用户头部运动相关联地移动的成像元件对一区域成像而获得的视频，所述区域具有从与用户的头部的运动相关联地移动的第一光源以及其相对位置关于作为用户的观测目标的视频呈现器不变的第二光源这两个光源照射到用户的任一眼球的光束的各自的反射光束；以及基于在所述视频中两个反射光束的相对位置，估计用户头部的运动。

本发明的另一方面是一种注视点显示系统。所述系统包括：头部安装的成像元件，其是对用户的任一眼球成像并与用户头部的运动相关联地移动的成像元件；第一光源，其是用光照射通过成像元件成像的眼球并与成像元件的运动相关联地移动的光源；作为用户的观测目标的视频呈现器；第二光源，其是用光照射通过成像元件成像的眼球并附接到视频呈现器的光源。所述系统还包括：头部运动估计器，基于在通过成像元件的成像获得的视频中第二光源的反射光相对于第一光源的反射光的相对位置，估计用户头部的运动；眼球运动估计器，基于通过成像元件的成像获得的视频中的第一光源的反射光的绝对位置，估计通过成像元件成像的眼球的运动；注视位置获取器，基于所估计的用户的头部的运动和眼球的运动，获取用户的注视位置；以及光标生成器，生成在视频呈现器的显示区域中与通过注视位置获取器获取的注视位置相对应的位置处显示的光标图像。

本发明的另一方面是一种程序，使得计算机实现上述方法的各个步骤。

此程序可以作为嵌入在装置中的固件的一部分而提供，用于执行诸如视频和音频解码器的硬件资源的基本控制。此固件存储在装置的例如ROM(只读存储器)中或诸如闪存的半导体存储器中。为了提供此固件或更新固件的一部分，可以提供记录了此程序的计算机可读记录介质，或可以通过通信线路传输此程序。

作为本发明的各方面，通过在方法、设备、系统、计算机程序、数据结构、记录介质等之间转换本发明的上面的构成元件和表述的任意组合而获得的也是有效的。

发明的有利效果

根据本发明，可以提供能够进行注视点的控制而不引入计算成本的技术。

附图说明

图1是示出使用根据实施例的角膜反射的视线跟踪系统的系统图。

图2是示出与根据本实施例的方法A-1和A-2中的屏幕上的各个P_gaze对应的P_cor的坐标的图。

图3是示出根据本实施例的方法C中的P_{cor_scr}和P_{cor_hm}的相对位置的坐标的图。

图4是示出用于比较根据本实施例的各个方法的性能的实验系统的图。

图5是示出根据实施例的每个阶段的校准过程和校准结果的图。

图6是示出当受试者跟踪屏幕上的九个标记时的估计注视点的图。

图7是示出当受试者使得光标与十个固定标记逐一重叠时的轨迹的图。

图8是示出用于评估在游戏使用的情况下根据实施例的各个方法的性能的应用的图。

图9是示出在游戏使用的情况下根据实施例的各个方法的性能的评估的结果的图。

图10是示出在游戏使用的情况下根据实施例的各个方法的性能的评估的结果的另一图。

图11是示意性示出根据实施例的注视点显示系统的配置的图。

图12是示意性示出根据实施例的头部运动估计器和眼球运动估计器的内部配置的图。

图13(a)到(d)是例示第一光源220的反射光的位置P_{cor_hm}与第二光源400的反射光的位置P_{cor_scr}之间的位置关系的图。

图14是示出根据实施例的注视点显示系统中的处理流程的流程图。

具体实施方式

下面，将基于优选实施例说明本发明。首先，将描述作为实施例的基础的理论，作为前提技术，然后，将说明具体实施例。

(前提技术)

I.序语

注视点的估计技术已经被研究了很长时间，并且应用于涉及与计算机的对话的许多领域，诸如对计算机的信息输入、以及观测人类对网络浏览器的关注目标。在几乎所有情况下，最主要的关注之一是高精度注视点估计。为了实现此目的，考虑到一些情况下的光学折射，执行角膜的曲率中心以及瞳孔中心的测量。尽管此方法具有非常高的精度，但是需要相对高的计算能力，并因此导致延迟。在游戏中，最小化输入数据的延迟是最重要的需求之一。因此，应当尽可能避免这种复杂的图像处理。

另一方面，当考虑到游戏中视线估计的有效使用时，首要考虑的事情是对于第一人称射击(firstpersonshooter,FPS)的应用。如果可以实现完全精确的视线估计，则可以立即应用于此。然而，实际上，由于许多因素，估计的注视点趋于容易从实际的注视点偏离。在这样的情况下，将视线对准于目标的重要性在于，可以通过舒服的操作容易地执行注视点控制，而不是总是精确地估计注视点。换句话说，在视线处于目标上的情况下光标可以精确对准于目标上的能力是非常重要的。顺便提及，从游戏创建的角度，如果头部的运动和视线的运动可以分开表达，在某些情况下可以很好地表达真实世界中存在的感觉。与头部的运动相关联地摇摄背景图像、并且通过视线的运动移动光标的情况是其典型示例。

II.相关方法

在注视点估计中，通常利用角膜表面上的光源反射。图1是使用角膜反射的视线跟踪系统的系统图。在此图中，示出两个红外光源。一个存在于屏幕上，另一个安装于头上。在许多研究中，它们中的任一个用于注视点估计。如图1中的图像可见，屏幕上的光源的光强相对高(两列上排列了三个光源的配置)，并且具有相对低输出功率的光源布置为紧挨鼻尖。选择前者的原因在于两种光源的反射的有效区分，选择后者的原因在于考虑到对于眼睛的不利影响。此外，摄像机安装于头上，以便用较高分辨率获得眼睛的图像。如此配置，使得可以通过使用标准的USB2.0相机并移除红外遮光片来高效检测红外反射。

通过使用此系统，可以通过以下表达式(1)表示从角膜反射点P_cor到注视点P_gaze的坐标的映射变换。

P_gaze＝M·P_cor(1)

在表达式(1)中，M是映射变换矩阵。在标准情况下，通过校准处理计算M。在此处理中，受试者注视屏幕上的若干特定的定点(通常，四角和中心)，并且各自测量与其相关联的角膜反射点的坐标。基于通过表达式(1)表示的此关系，通过使用如下所示的两个简单的视线估计技术仿真视线估计中的头部运动的影响。在此仿真中，受试者注视遍布整个屏幕并且以网格方式布置的九个标记，如图1所示。此外，受试者在每个旋转方向上将头部向左、向右、向上和向下旋转10度。在表1中示出此仿真中使用的参数。

表1仿真参数

A.通过使用单个光源的角膜反射估计注视点的简单映射方法(方法A)

注视点估计中最简单的方法之一是将P_cor映射到P_gaze上。然而，众所周知，头部的运动敏感地影响此方法中的映射。

在图2中，示出了方法A-1和A-2中与屏幕上的各个P_gaze对应的P_cor的坐标。这里，方法A-1是使用设置在屏幕上的光源的P_cor并且其通过P_{cor_scr}表示的情况。这里，可通过以下表达式(2)表示映射变换。

P_gaze＝M_scr·P_{cor_scr}(2)

在表达式(2)中，M_scr表示已经经历校准的映射变换矩阵，并且P_gaze表示估计的注视点。方法A-2是使用安装在头上的光源的P_cor并且通过P_{cor_hm}表示的情况。这里，可通过以下表达式(3)表示映射变换。

P_gaze＝M_hm·P_{cor_hm}(3)

在表达式(3)中，M_hm表示已经经历校准的映射变换矩阵。

通过这些结果示出的事实是，注视点根据头部的运动极大地改变，并且因此受试者必须牢牢地固定住头部，并且仅移动眼睛以用于精确估计注视点。此外，在方法A-2中，头部的运动的影响小于方法A-1中。然而，当受试者向右移动头部时，点行的失真尤其恶化。这是由于相机的位置与安装在头部上的光源的位置之间的关系。尽管通过位置调整改进此情况，但是趋势不会有大的改变。

B.通过使用角膜反射和瞳孔中心的相对位置估计注视点的映射方法(方法B)

众所周知，P_cor和瞳孔中心的相对位置的检测以及到P_gaze的映射相对较少受到头部运动的影响。在图2中，示出方法B-1和B-2中对应于屏幕上的各个P_gaze的瞳孔中心和P_cor的相对位置的坐标。这里，方法B-1示出使用屏幕上的光源的P_cor的情况。这里，可通过下面的表达式(4)表示映射变换。

P_gaze＝M_{scr_pup}·(P_{cor_scr}-C_pup)(4)

在表达式(4)中，M_{scr_pup}表示已经经历校准的映射变换矩阵，并且C_pup表示瞳孔中心的坐标。方法B-2示出使用安装在头上的光源的P_cor的情况。这里，可通过下面的表达式(5)表示映射变换。

P_gaze＝M_{hm_pup}·(P_{cor_hm}-C_pup)(5)

在表达式(5)中，M_{hm_pup}是已经经历校准的映射变换矩阵。通过这些结果示出的事实是，头部运动的影响小于方法A-1和A-2中，因此，即使当受试者移动头部时，估计的注视点也不会有大的改变。此外，检测的P_{cor_hm}-C_pup的动态范围宽于方法A-1和A-2中。即，通过使用方法B-1和B-2可以获得较高分辨率的P_gaze。另一方面，尽管从这些结果直接观测是不可能的，但是用于检测C_pup的计算是更复杂的。特别是当瞳孔不确定位于眼睛中心时，由于低可靠度的瞳孔识别和光学折射的影响，不确保高精度。此外，众所周知，当相机存在于距离受试者远的位置时，头部运动的影响没有显著改善。尽管本说明书中没有描述，但是根据另一仿真，当相机置于屏幕上时，头部运动的影响变得小到可以忽略。然而，在本分析中，相对于这样的高性能给予高分辨率相机图像优先级。这是因为使用长距离相机需要高级的检测和识别技术，并且可能降低估计性能。

III.所提出的技术

所提出的技术利用P_{cor_scr}和P_{cor_hm}之间的相对位置反映头部的运动的特性。此外，通过将其与方法A结合，提出了在头部移动的情况下的新颖的视线估计技术。重点在于，在所有过程中都不需要瞳孔中心的检测。这可以将所需的计算能力抑制到相对低的能力。

A.通过使用两个光源的角膜反射的位置关系估计头部运动的映射方法(方法C)

图3示出方法C中P_{cor_scr}和P_{cor_hm}的相对位置的坐标。这里，可以通过下面的表达式(6)表示映射变换。

P_gaze＝M_{scr_hm}·(P_{cor_scr}-P_{cor_hm})(6)

在表达式(6)中，M_{scr_hm}表示已经经历校准的映射变换矩阵。通过这些结果示出的事实是，P_{cor_scr}-P_{cor_hm}纯粹反映头部的运动，并且几乎消除了视线的运动的影响。根据仿真和实验结果，头部安装的相机的位置与头部安装的光源的位置之间的关系稍微影响结果，因此需要对它们的放置进行一些调整。

B.通过使用两个光源的角膜反射的位置关系估计注视点的映射方法(方法D)

方法A是用于估计注视点的最简单的技术。然而，头部运动的影响是非常大的。另一方面，方法C纯粹反映头部运动，并且几乎消除了视线运动的影响。所提出的技术基于通过使用方法C消除方法A中的头部运动的影响的构思。当使用方法A-2时，通过下面的表达式(7)表示方法D。

P_gaze＝M_hm·P_{cor_hm}+M_{scr_hm}·(P_{cor_scr}-P_{cor_hm})(7)

在M_hm·P_{cor_hm}＝0的情况下，表达式(7)等于表达式(6)。即，在校准M_{scr_hm}时，如果M_hm·P_{cor_hm}＝0，则表达式(6)成立。实际上，如果根据下面的处理1到4执行校准，则其实现不难。

1.通过测量P_{cor_hm}并且计算从P_{cor_hm}到P_gaze的变换的矩阵来估计M_hm。此时，受试者牢牢地固定头部，并跟踪“用于校准的标记”。

2.通过使用此第一校准的结果在屏幕上显示表示P_gaze(＝M_hm·P_{cor_hm})的“标记1”。

3.在屏幕中心(＝0)显示“标记2”。

4.通过测量P_{cor_scr}-P_{cor_hm}并且计算用于从P_{cor_scr}-P_{cor_hm}到P_gaze的变换的矩阵，估计M_{scr_hm}。在跟踪“用于校准的标记”时，受试者以“标记1”与“标记2”重叠的方式注视标记。

替代地，还有一种方法，其中当受试者在注视屏幕中心的同时移动头部时，测量P_{cor_hm}和P_{cor_scr}。通过计算这两个元素之间的关系，可以获得M_hm ^-1·M_{scr_hm}。实际上，在图3中的方法D中，在映射变换是简单线性变换的条件下，通过执行P_{cor_hm}+M_hm ^-1·M_{scr_hm}·(P_{cor_scr}-P_{cor_hm})的仿真来获得P_gaze。即，可通过使用方法C的结果来消除方法A-2中的头部运动的影响，并且可以精确估计P_gaze。

IV.实验

A.实验系统

图4示出用于比较上述各个方法的性能的实验系统。图4中示出的示例是初始原型，因此看起来外观上是手工制作的系统。然而，其可以充分地操作。在图4所示的示例中，两个相机分别置于左右眼的前方，并且仅其中之一用于评估。相机拍摄的图像的尺寸是VGA(视频图形阵列)并且拍摄速度是大约10fps。

B.校准

校准处理由两个阶段组成。第一阶段用于方法A-2，第二阶段用于方法C。图5示出每个阶段的校准处理和校准结果。在方法A-2的校准处理中，受试者接连注视如图5中的“用于方法A-2的处理”中所示的九个标记。在此过程中，重要的一点在于，受试者仅移动视线而不移动头部。所测量的P_{cor_hm}的结果的示例在图5中的“方法A-2的结果”中示出。在此图中，每个轴的单位是在拍摄的全幅相机图像是640*480像素的条件下的相机的像素。在此步骤之后，开始用于方法C的校准处理。标记的运动与之前顺序相同，并且遍及整个过程进一步示出中心标记和通过方法A-2估计的注视点。受试者逐一注视九个标记并移动头部，使得所估计的注视点的标记可以各自与中心标记重叠。测量的P_{cor_scr}-P_{cor_hm}的结果的示例在图5中的“方法C的结果”中示出。此结果示出可以相对精确地测量头部运动。此外，因为贯穿用于方法C的整个校准处理保持M_hm·P_{cor_hm}＝0，所以可以通过如表达式(7)所示的方法A-2和方法C的线性组合来实现方法D。

C.注视点估计的比较

这里提出的估计不聚焦注视点估计的精度，而强调易于确定目标的能力。因此，不调节根据本实施例的算法来执行精确的视线估计方法。映射算法是简单的线性变换，并且在第一处理中不使用除了高斯滤波器以外的高级滤波器。图6示出当在此条件下受试者跟踪屏幕上的九个标记时所估计的注视点。在此实验中，不限制受试者移动头部，因此直接观测头部运动的影响。在此图中，每个轴的单位是面板的实际尺寸是1920*1080并且实验应用的窗口尺寸是1300*940(等于宽度20cm，高度14cm的尺寸)的条件下的相机的像素。在此结果中，在方法B-2和方法D中，即便当头部移动时，所估计的注视点也聚焦于九个标记点周围。

D.作为光标移动手段的比较

如果可以精确地执行注视点估计，则变得可以快速执行光标移动。然而，确定目标的能力也是重要的。图7示出当受试者使得光标与十个固定的标记逐一重叠时的轨迹。在方法A-2的情况下，首先，光标快速移动，此后，观测基于头部运动放置光标的步骤。尽管经常冲过标记，但是光标确定到达标记。实际上，在方法A-2中，对于受试者施加的压力不大，因为清除了头部运动的影响。在方法B-2中，光标非常快速地移动，并且在多数情况下不需要放置光标的步骤。然而，当光标错过标记时，受试者被迫感受到不能将光标朝向标记哪怕稍微移动一点点的压力。在方法C的情况下，状况显著不同。因为仅通过头部运动控制光标，所以光标相对缓慢地接近标记。然而，它确定到达标记。在方法D的情况下，光标完美地移动并使得与标记重叠。实际上，在方法D中，受试者可以容易地操作光标，因为头部运动的影响被消除并且是直观的。

E.游戏使用中性能的影响

为了评估游戏使用情况下的各个方法的性能，使用图8所示的游戏状的应用。在应用A中，接连显示十个标记，并且它们不移动。受试者控制表示所估计的注视点的光标，以使得其与标记重叠。对到重叠为止的时间计数。在经过两秒时，标记消失并且另一标记出现。因为多个标记不同时显示，所以受试者聚焦于一个标记，顺序处理它。标记通过以半径为40像素(6mm)的圆圈示出，并且表示所估计的注视点的光标通过半径为20像素(3mm)的圆圈示出。当这些圆圈的末端彼此接触时，即，当它们中心之间的距离变得小于60像素(9mm)时，识别圆圈彼此重叠。在应用B中，标记的出现条件与应用A中相同。此外，标记以大约每秒200像素的速度移动(30mm/秒)。标记的位置和方向是随机决定的，并且图8示出其一个示例。测量并评估直到十个标记全部消失为止的时间。

四个受试者(24岁的女士、35岁的男士、43岁的女士和45岁的男士)参与了实验。43岁的女士和45岁的男士熟悉此系统，并且剩余两个受试者第一次使用此系统。所有受试者在短时间自由尝试它们之后执行了每个应用五次。其结果在图9和图10中示出。因为如上所述花费至少两秒钟直到标记消失，所以每次尝试花费至少20秒。

从应用A的结果，发现所有方法的结果小于100秒，因此不是特别坏的记录。具有好平均分的方法是方法B-2和方法D，并且具有最高分数的方法是方法B-2。具有最小分数方差的方法是方法C。然而，方法B-2和方法D也不是很差。具有最差分数的方法是方法A-2。另一方面，在应用B的结果中，在方法A-2和方法B-2中观测到特别差的分数。具有最好平均分的方法是方法D，其后是有稍微差距的方法B-2。具有最小分数方差的方法是方法C，具有最大方差的方法是方法A-2。

E.考虑

在方法A-2中，受试者固定头部，并且仅移动眼部。此外，方法A具有这样的特性：光标在与头部运动相反的方向上移动。因此，为了向右移动光标，受试者向左移动头部。当光标错过标记时，受试者在与标记相反的方向上移动头部。然而，受试者当跟踪移动光标时趋于困惑。

在方法B-2中，可以精确执行视线估计，并且还可以处理头部的运动。另一方面，方法B-2具有负面特性在于，一旦光标错过标记，相对难以通过使用头部的运动校正错误。这是为什么在方法B-2中分数经常特别差的原因。尽管这不如方法A-2中那么显著，但是方法B-2也具有光标在与头部运动相反的方向上移动的特性。然而，其影响相对小。因此，一些受试者不能清楚地感受到影响，并将光标靠近目标。在此情况下，一些受试者尝试通过将视线稍微远离标记来克服此困难。

在方法C中，光标不受视线运动的影响，因此受试者必须仅通过头部的运动来控制光标。因为难以通过间歇的眼球运动来快速移动光标，所以方法C具有花费长时间来将光标靠近标记的弱点。然而，所有受试者可以通过头部的清晰运动确定地达到标记。结果，尽管其花费长时间来接近光标，但是获得稳定的分数。

方法D具有方法C中的头部运动的影响和方法A-2中的视线运动的影响的特性。当受试者注视定点并移动头部时，光标在与头部运动的方向相同的方向上缓慢移动。视线估计的水平稍微低于方法B-2中。然而，即使当光标错过标记时，受试者也可以通过头部的直观运动来容易地校正误差。这是为什么在方法D中没有观测到特别差的分数的原因。总结来说，可以认为，在方法D中良好地保持了间歇的眼球运动和基于头部运动的直观操作之间的平衡。

V.结论

在上面，关于视线估计应用于游戏进行了考虑，并且通过使用游戏状的应用来描述了两个传统方法和两个所提出的方法之间的性能比较。此外，在聚焦于光标到目标的确定的运动的情况下提出了注视点控制的性能。结果，在所提出的方法中，可以实现与传统方法的性能类似的性能，而不计算瞳孔中心，并且通过免于压力的直观操作获得注视点控制，而不花费计算成本。

(具体示例)

实施例

图11是示意性示出根据实施例的注视点显示系统100的整体配置的图。根据实施例的注视点显示系统100包括头戴式耳机(headset)200、视频分析设备300、视频呈现器500、以及附接于视频呈现器500的第二光源400。

头戴式耳机200如此配置，使得可以安装在用户的头上并被使用。它包括成像元件210，其对于具有用户的右眼或左眼之一的眼球的视频执行成像；以及用红外光照射通过成像元件210成像的眼球的第一光源220。第一光源220对应于在上述前提技术[II]中安装在头部上的红外光源，并且成像元件210对应于移除红外遮光片的标准USB2.0相机。因为头戴式耳机200安装在用户的头部上，所以成像元件210和第一光源220两者与用户头部的运动相关联地移动。

还用来自第二光源400的红外光照射第一光源220用红外光照射的眼部，所述第二光源400的相对位置关于作为用户的观测目标的视频呈现器500是不变的。视频呈现器500对应于上述前提技术[II]中的屏幕，并通过例如液晶监视器等实现。第二光源400对应于上述屏幕上的光源，并被配置通过将三个光源安排在两列上而照射相对强的光。成像元件210对具有第一光源220和第二光源400的第一光的每个的、反射到用户的眼球的反射光的区域进行跟踪拍摄。通过成像元件210成像获得的视频的一个示例在图1中示出。

视频分析设备300包括视频获取器310、头部运动估计器320、眼球运动估计器330、注视位置获取器340和光标生成器350。

视频获取器310获取通过成像元件210成像而获得的、具有在用户的眼球反射的第一光源220和第二光源400的每个的反射光的区域的视频。头部运动估计器320基于在视频获取器310获取的视频中第二光源400的反射光相对于第一光源220的反射光的相对位置，估计用户的头部的运动。

这里，反射到用户的眼球上的第一光源220的反射光的位置是上述前提技术中的P_{cor_hm}，并且反射到用户的眼球上的第二光源400的反射光的位置是上述P_{cor_scr}。视频中的第一光源220的反射光的位置P_{cor_hm}可以通过由成像元件210成像获得的视频中的位置坐标表示。如前提技术[IV]中所述，通过成像元件210成像获得的视频具有VGA尺寸，并具有640像素*480像素的分辨率。因此，例如当第一光源220的反射光存在于视频中心时，其位置坐标是(320,240)。头部运动估计器320从位置矢量的方向和大小获得所估计的用户头部的运动量，所述位置矢量的起点是第一光源220的反射光的位置坐标，并且其终点是第二光源400的反射光。

眼球运动估计器330基于成像元件210成像获得的视频中的第一光源220的反射光的绝对位置P_{cor_hm}估计成像元件210成像的眼球的运动。注视位置获取器340基于头部运动估计器320估计的用户头部的运动和眼球运动估计器330估计的眼球的运动，获取视频呈现器500的显示区域中用户的注视位置P_gaze的估计值。

图12是示意性示出根据实施例的头部运动估计器320和眼球运动估计器330的内部配置的图。眼球运动估计器330具有第一位置坐标获取器332和第一变换器334。此外，头部运动估计器320具有第二位置坐标获取器322、位置矢量获取器324和第二变换器326。

眼球运动估计器330中的第一位置坐标获取器332获取通过成像元件210的成像获得的视频中的第一光源220的反射光的位置坐标P_{cor_hm}。第一变换器334将通过第一位置坐标获取器332获取的第一光源220的反射光的位置坐标P_{cor_hm}乘以第一变换矩阵M_hm，以将其变换为作为用户的观测目标的视频呈现器500的显示区域中的位置坐标。这是基于上述表达式(3)。

头部运动估计器320中的第二位置坐标获取器322获取通过成像元件210的成像获得的视频中的第二光源400的反射光的位置坐标P_{cor_scr}。位置矢量获取器324获取其起点是通过第一位置坐标获取器332获取的第一光源220的反射光的位置坐标P_{cor_hm}、并且其终点是通过第二位置坐标获取器322获取的第二光源400的反射光的位置坐标P_{cor_scr}的位置矢量V_{hm_scr}(＝P_{cor_scr}-P_{cor_hm})。通过使用第二变换矩阵M_{scr_hm}，第二变换器326将通过位置矢量获取器324获取的位置矢量V_{hm_scr}变换为作为用户的观测目标的视频呈现器500的显示区域中的位置坐标。这是基于上述表达式(6)。

下面，将参照图13关于通过眼球运动估计器330对用户的眼球运动的估计以及通过头部运动估计器320对用户的头部运动的估计的原理进行具体说明。

图13是例示第一光源220的反射光的位置坐标P_{cor_hm}与第二光源400的反射光的位置坐标P_{cor_scr}之间的位置关系的图。在图13(a)到(d)中，符号602表示第一光源220的反射光的位置坐标P_{cor_hm}，并且符号604表示第二光源400的反射光的位置坐标P_{cor_scr}。此外，符号606表示瞳孔中心的位置C_pup。

图13(a)是示意性示出当用户的头部面向前方并且用户的眼球存在于眼部中心附近时、通过成像元件210的成像获得的视频的一个示例的图。另一方面，图13(b)是示意性示出当用户的头部移动同时用户的眼球保持位于眼部中心附近时、通过成像元件210的成像获得的视频的一个示例的图。

如上所述，成像元件210和第一光源220都设置在头戴式耳机200上，并且它们与用户头部的运动相关联地移动。为此，当用户在不改变眼球的位置的情况下移动头部时，成像元件210、第一光源220和用户的眼球之间的相对位置关系不变。因此，如图13(a)和13(b)所示，即使当用户移动头部时，通过成像元件210的成像获得的视频中的第一光源220的反射光的位置坐标P_{cor_hm}也几乎不变，除非眼球的位置改变。换句话说，通过成像元件210的成像获得的视频中的第一光源220的反射光的位置P_{cor_hm}的位置坐标由眼球的位置确定，而与用户的头部的运动无关。

相反，第二光源400不连接到用户的头部。因此，当用户移动头部时，即使用户不改变眼球的位置，第二光源400和用户的眼球之间的位置关系也改变。因此，如图13(a)和13(b)所示，即使当用户不改变眼球的位置时，通过成像元件210的成像获得的视频中的第二光源400的反射光的位置P_{cor_scr}的位置坐标也通过移动头部而改变。

图13(c)是示意性示出当眼球从眼睛中部附近移动至一端、同时用户头部保持面向前方时、通过成像元件210的成像获得的视频的一个示例的图。成像元件210和第一光源220与用户的头部的运动相关联地移动，但不与用户的眼球的运动相关联地移动。因此，如图13(a)和13(c)所示，即使当用户不移动头部时，通过成像元件210的成像获得的视频中第一光源220的反射光的位置P_{cor_hm}和第二光源400的反射光的位置P_{cor_scr}的位置坐标也通过移动眼球而改变。另一方面，第一光源220的反射光的位置P_{cor_hm}和第二光源400的反射光的位置P_{cor_scr}之间的相对位置关系几乎不变，原因在于人类的眼球具有几乎球形的形状等。换句话说，第一光源220的反射光的位置P_{cor_hm}与第二光源400的反射光的位置P_{cor_scr}之间的相对位置关系由头部的位置确定，而与用户的眼球的运动无关。

在本发明实施例中，通过利用通过成像元件210的成像获得的视频中第一光源220的反射光的位置P_{cor_hm}的位置坐标由眼球的位置确定而与用户头部的运动无关的第一事实、以及第一光源220的反射光的位置P_{cor_hm}与第二光源400的反射光的位置P_{cor_scr}之间的相对位置关系由头部的位置确定而与用户的眼球的运动无关的第二事实，估计用户的注视点P_gaze。上述前提技术中的方法A-2是利用第一事实的方法，并且方法C是利用第二事实的方法。

图13(d)是示意性示出当用户将头部移动到图13(b)所示的位置并将眼球移动到图13(c)所示的位置时通过成像元件210的成像获得的视频的一个示例的图。上述第一事实和第二事实是彼此独立的事件。因此，如图13(d)所示，第一光源220的反射光的位置P_{cor_hm}与图13(b)所示的位置几乎相同，并且第一光源220的反射光的位置P_{cor_hm}与第二光源400的反射光的位置P_{cor_scr}之间的相对位置关系与图13(c)所示的位置几乎相同。

从上可见，可以通过眼球运动估计器330从第一光源220的反射光的位置P_{cor_hm}的位置坐标对用户的眼球的运动的估计、以及通过头部运动估计器320从第一光源220的反射光的位置P_{cor_hm}与第二光源400的反射光的位置P_{cor_scr}之间的相对位置关系对用户头部运动的估计，相互独立地估计用户头部的运动和眼球的运动。此外，还可以通过合成用户头部的运动和眼球的运动来估计用户视线的方向。

这里，第一变换器334所使用的第一变换矩阵M_hm是具有基于当用户通过移动眼球同时头部运动固定而移动显示区域中的注视位置P_gaze时、第一光源220的反射光的位置P_{cor_hm}和视频呈现器500的显示区域中注视位置P_gaze的绝对位置坐标预先计算的两行两列的大小的矩阵。

具体地，通过成像元件210的成像获得的视频中第一光源220的反射光的位置P_{cor_hm}的位置坐标定义为(x₁,y₁)，并且此时在视频呈现器500的显示区域中的注视位置P_gaze的位置坐标定义为(X₁，Y₁)。当用户固定头部的运动时，显示区域中注视位置P_gaze的位置坐标(X₁，Y₁)依赖于第一光源220的反射光的位置P_{cor_hm}而确定。因此，固定满足(X₁,Y₁)^T＝M_hm·(x₁,y₁)^T的M_hm。即，矩阵M_hm是用于将通过成像元件210的成像获得的视频中的位置坐标映射到视频呈现器500的显示区域中的位置坐标的矩阵。M_hm可以通过上述前提技术的方法A-2的校准处理而获得。符号“T”表示是矢量的转置。

第二变换器326所使用的第二变换矩阵M_{scr_hm}是当用户通过移动头部而固定眼球的运动来移动显示区域中的注视位置P_gaze时、基于通过位置矢量获取器324获取的位置矢量V_{hm_scr}(＝P_{cor_scr}-P_{cor_hm})和视频呈现器500的显示区域中的注视位置P_gaze的绝对位置坐标预先计算的矩阵。

第二变换矩阵M_{scr_hm}的具体计算方法类似于第一变换矩阵M_hm的计算方法。具体地，通过成像元件210的成像获得的视频中第一光源220的反射光的位置P_{cor_hm}的位置坐标定义为(x₁,y₁)。第二光源400的反射光的位置坐标P_{cor_scr}定义为(x₂,y₂)。视频呈现器500的显示区域中此时的注视位置P_gaze的位置坐标定义为(X₂，Y₂)。当用户固定眼球的运动时，显示区域中注视位置P_gaze的位置坐标(X₂，Y₂)依赖于第二光源400的反射光的位置P_{cor_scr}相对于第一光源220的反射光的位置P_{cor_hm}的相对位置关系而确定。因此，固定满足(X₂,Y₂)^T＝M_{scr_hm}·(x₂-x₁,y₂–y₁)^T的M_{scr_hm}。即，矩阵M_{scr_hm}也是用于将通过成像元件210的成像获得的视频中的位置坐标映射到视频呈现器500的显示区域中的位置坐标的矩阵。矩阵M_{scr_hm}可通过上述前提技术的方法C的校准处理而获得。

返回到图11的描述，视频分析设备300中的注视位置获取器340将通过第一变换器334通过变换获取的位置坐标(X₁，Y₁)与通过第二变换器通过变换获取的位置坐标(X₂，Y₂)相加，以得到视频呈现器500的显示区域中用户的注视位置P_gaze的位置坐标。具体地，注视位置获取器340基于上述表达式(7)计算M_hm·P_{cor_hm}+M_{scr_hm}·(P_{cor_scr}-P_{cor_hm})，以获取注视位置P_gaze的位置坐标。光标生成器350基于通过注视位置获取器340获取的显示区域中用户的注视位置P_gaze，控制视频呈现器500上显示的光标的位置。

图14是示出根据实施例的注视点显示系统100中的注视点显示处理的流程的流程图。例如当视频分析设备300通电时，开始本流程图中的处理。

设置在头戴式耳机200上的成像元件210对佩戴头戴式耳机200的用户的眼睛成像，包括第一光源220和第二光源400的反射光(S2)。第一位置坐标获取器332获取第一光源220的反射光的位置坐标P_{cor_hm}(S4)。第一变换器334通过使用第一变换矩阵M_hm，获取由于通过第一位置坐标获取器332获取的第一光源220的反射光的位置坐标P_{cor_hm}的显示区域中的位置坐标(S6)。

第二位置坐标获取器322获取第二光源400的反射光的位置坐标P_{cor_scr}(S8)。位置矢量获取器324获取其起点是通过第一位置坐标获取器332获取的第一光源220的反射光的位置坐标P_{cor_hm}、其终点是通过第二位置坐标获取器322获取的第二光源400的反射光的位置坐标P_{cor_scr}的位置矢量V_{hm_scr}(S10)。

第二变换器326通过使用第二变换矩阵M_{scr_hm}，变换通过位置矢量获取器324获取的位置矢量V_{hm_scr}，以获取归于用户的头部的运动的位置坐标(S12)。注视位置获取器340将通过第一变换器334获取的位置坐标与通过第二变换器326获取的位置坐标相加，以计算视频呈现器500的显示区域中用户的注视点P_gaze的位置(S14)。光标生成器350基于通过注视位置获取器340获取的显示区域中用户的注视位置P_gaze，移动视频呈现器500上显示的光标的位置(S16)。当光标生成器350已经移动视频呈现器500上显示的光标的位置时，本流程图中的处理结束。

基于上述配置的注视点显示系统100的使用场景如下。用户佩戴根据本实施例的头戴式耳机200并且查看视频呈现器500的显示区域。设置在头戴式耳机200上的成像元件210对包括用户的眼球的区域成像。视频分析设备300从自与用户的头部的运动相关联地移动的第一光源220发射的红外光和自附于视频呈现器500的第二光源400发射的红外光这两个反射光束之间的位置关系，估计视频呈现器500的显示区域中用户的注视点的位置，并将光标移动到此位置。

如上所述，根据本实施例的注视点显示系统100，可以提供使得能够控制注视点而不花费计算成本的技术。

具体地，根据按照本发明实施例的注视点显示系统100，用户瞳孔中心的位置不用于估计用户的注视点，因此可以省略获得瞳孔中心位置的计算。此外，可以分开估计用户的头部的运动和眼球的运动，因此可以独立使用关于它们的信息。这可以实现例如在与头部的运动相关联地摇摄背景图像的同时通过视线的运动而移动光标的操作。此外，还可以实现当头部的位置的运动和眼球的位置和运动进入特定关系时的特定处理。具体地，可以实现例如当眼球和头部在相同方向上移动时在此方向上滚动屏幕的处理。

上面基于实施例描述了本发明。本领域技术人员将理解，实施例是例示，并且组合各个构成元件和各个处理过程的各种修改示例是可能的，并且这样的修改示例也在本发明的范围内。

(第一修改示例)

在上面的描述中，基于第二光源400附于视频呈现器500的前提进行了说明。然而，第二光源400不一定必须设置在视频呈现器500附近。第二光源400设置在能够用红外光照射用户的眼球而与用户的头部运动无关的位置就足够了。另一方面，视频呈现器500是用户的观测目标。因此，更优选的，第二光源400和视频呈现器500之间的距离更短，因为变得更容易用第二光源400的照射光来照射用户的眼睛。

(第二修改示例)

如果允许用于获得瞳孔中心C_pup的计算成本，则可通过组合上述前提技术中的方法B-2和方法C估计注视点P_gaze。在此情况下，可通过下面的表达式(8)表示映射变换。

P_gaze＝M_{hm_pup}·(P_{cor_hm}-C_pup)+M_{scr_hm}·(P_{cor_scr}-P_{cor_hm})(8)

这可以实现具有组合两个特性(方法B-2的特性和方法C的特性)的注视点控制。

(第三修改示例)

还可以进一步概括上述方法并归结为从第一光源220的反射光的位置P_{cor_hm}、第二光源400的反射光的位置P_{cor_scr}以及瞳孔中心C_pup估计注视点P_gaze的问题。在此情况下，可通过下面的表达式(9)表示映射变换。

P_gaze＝M₁·P_{cor_hm}+M₂·P_{cor_scr}+M₃·C_pup(9)

这里，M₁、M₂和M₃各自是一般化的变换矩阵。还存在M₁、M₂和M₃中的任一或两个是零矩阵的情况。

这可以实现例如下面的灵活的注视点估计。具体地，当计算资源允许时使用C_pup用于注视点估计，而当希望降低计算成本时，不使用C_pup估计注视点。

[附图标记列表]

100注视点显示系统，200头戴式耳机，210成像元件，220第一光源，300视频分析设备，310视频获取器，320头部运动估计器，322第二位置坐标获取器，324位置矢量获取器，326第二变换器，330眼球运动估计器，332第一位置坐标获取器，334第一变换器，340注视位置获取器，350光标生成器，400第二光源，500视频呈现器。

[工业实用性]

本发明可以用于视频分析设备、视频分析方法和注视点显示系统。

Claims

1.一种视频分析设备，其特征在于，包括：

视频获取器，获取通过与用户头部的运动相关联地移动的成像元件对一区域成像而获得的视频，所述区域具有从与用户头部的运动相关联地移动的第一光源以及其相对位置关于作为用户的观测目标的视频呈现器不变的第二光源这两个光源照射到用户的任一眼球的光束的各自的反射光；以及

头部运动估计器，基于在通过视频获取器获取的视频中第二光源的反射光相对于第一光源的反射光的相对位置，估计用户头部的运动。

2.如权利要求1所述的视频分析设备，其特征在于，还包括：

眼球运动估计器，基于通过成像元件的成像获得的视频中第一光源的反射光的绝对位置，估计通过成像元件成像的眼球的运动；以及

注视位置获取器，基于所估计的用户头部的运动和眼球的运动，获取用户的注视位置。

3.如权利要求2所述的视频分析设备，其特征在于，

所述眼球运动估计器具有：

第一位置坐标获取器，获取通过成像元件的成像获得的视频中第一光源的反射光的位置坐标；以及

第一变换器，将通过第一位置坐标获取器获取的位置坐标乘以预定第一变换矩阵，以将所述位置坐标变换为作为用户的观测目标的视频呈现器的显示区域中的位置坐标；并且

所述第一变换器所使用的第一变换矩阵是当用户在固定头部的运动的情况下通过移动眼球而移动显示区域中的注视位置时、基于第一光源的反射光的位置坐标和视频呈现器的显示区域中注视位置的绝对位置坐标而预先计算的矩阵。

4.如权利要求3所述的视频分析设备，其特征在于，

所述头部运动估计器具有：

第二位置坐标获取器，获取通过成像元件的成像获得的视频中第二光源的反射光的位置坐标；

位置矢量获取器，获取其起点是通过第一位置坐标获取器获取的位置坐标、其终点是通过第二位置坐标获取器获取的位置坐标的位置矢量；以及

第二变换器，将通过位置矢量获取器获取的位置矢量变换为作为用户的观测目标的视频呈现器的显示区域中的位置坐标；并且

所述第二变换器通过使用第二变换矩阵将位置矢量变换为视频呈现器的显示区域中的位置坐标，所述第二变换矩阵基于当用户在固定眼球的运动的情况下通过移动头部而移动显示区域中的注视位置时、通过位置矢量获取器获取的位置矢量和视频呈现器的显示区域中注视位置的绝对位置坐标而预先计算。

5.如权利要求4所述的视频分析设备，其特征在于，

所述注视位置获取器将通过第一变换器的变换得到的位置坐标与通过第二变换器的变换得到的位置坐标相加，以获取用户的注视位置。

6.如权利要求1到5的任一所述的视频分析设备，其特征在于，所述第二光源附接到作为用户的观测目标的视频呈现器。

7.一种视频分析方法，其特征在于，使得处理器执行以下步骤：

获取通过与用户头部的运动相关联地移动的成像元件对一区域成像而获得的视频，所述区域包括从与用户头部的运动相关联地移动的第一光源以及其相对位置关于作为用户的观测目标的视频呈现器不变的第二光源这两个光源照射到用户的任一眼球的光束的各自的反射光束；以及

基于在所述视频中两个反射光束的相对位置，估计用户头部的运动。

8.一种注视点显示系统，其特征在于，包括：

头部安装的成像元件，其是对用户的任一眼球成像并与用户头部的运动相关联地移动的成像元件；

第一光源，其是用光照射通过成像元件成像的眼球并与成像元件的运动相关联地移动的光源；

作为用户观测目标的视频呈现器；

第二光源，其是用光照射通过成像元件成像的眼球并附接到视频呈现器的光源；

头部运动估计器，基于在通过成像元件的成像获得的视频中第二光源的反射光相对于第一光源的反射光的相对位置，估计用户头部的运动；

眼球运动估计器，基于通过成像元件的成像获得的视频中第一光源的反射光的绝对位置，估计通过成像元件成像的眼球的运动；

注视位置获取器，基于所估计的用户头部的运动和眼球的运动，获取用户的注视位置；以及

光标生成器，生成显示在视频呈现器的显示区域中与通过注视位置获取器获取的注视位置相对应的位置处的光标图像。