CN111368589A

CN111368589A - 用于视线估计的方法、装置和电子设备

Info

Publication number: CN111368589A
Application number: CN201811593797.5A
Authority: CN
Inventors: 张辉; 郭天楚; 刘夏冰; 刘永超; 韩在浚; 崔昌圭
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2020-07-03
Also published as: KR20200079411A

Abstract

提供一种用于视线估计的方法、装置和电子设备。所述方法包括：接收当前帧的输入数据；基于输入数据确定视线模式；以及基于视线模式来调整视线预测的结果，其中，视线模式包括固定模式和运动模式。因此，根据本发明实施例，可以根据视线模式采用不同的处理方式来处理视线预测的结果，提升了视线估计的稳定性。

Description

用于视线估计的方法、装置和电子设备

技术领域

本发明涉及一种用于视线估计的方法、装置和电子设备，具体而言，涉及一种用于在电子设备中的基于视频的视线估计的方法、装置和电子设备。

背景技术

通常，在利用用户的视线来选择应用程序并启动(相当于将视线当作鼠标)或根据视线位置来推送广告的情况下，获取摄像头采集的用户数据(例如图像、视频)，并使用视线预测器来估计用户的视线位置。视线预测器的输入通常为用户数据(一张图像或一段视频)，输出为用户的视线位置。

在通常情况下，视线估计方案的性能包括两个。一个是稳定性，当用户固定看同一个点或者用户在某一个点附近有微小移动时，要求视线估计方案估计出的视线位置不仅要准确，而且不能有较大抖动。另一个是实时性，当用户突然转向看另外一个点时，要求视线估计方案即刻响应，以估计出用户注视的新位置。

目前存在用于视线估计的三种方法。

第一种方法，使用视线预测器对每次采集到的用户数据(视频帧)进行单独估计，视线预测器输出的结果直接作为最终输出结果。但是，这种方法没有考虑到采集的用户数据前后的联系，例如帧之间的联系。故而，即使当用户注视同一个点时，由于用户手握手机产生的颤抖或光照变化导致采集到的用户数据(例如图像)具有轻微不同，视线预测器输出的预测的视线位置也会有一定的抖动，即预测结果不稳定。

第二种方法，在第一种方法后，对视线预测器每次估计的结果执行后处理，例如卡尔曼滤波(Kalman Filter)，并将卡尔曼滤波后的结果作为输出，以达到平滑的效果。但是，基于卡尔曼滤波的方案需要建立运动模型，例如，通常建立零速模型、匀速模型等。

零速模型可以较好地滤除掉由于光照、颤抖等原因造成的预测结果中的噪声，但是，当用户突然转向看另外一个点时，视线预测器输出的结果也会突然变化，然而零速模型会将视线预测器输出的结果中的突然变化当成噪声，使得滤波后的最终结果具有很大延迟。这表现为在隔了一段时间之后，零速模型给出的结果才会体现为用户突然看到的另外一个点。

对于匀速模型，速度是不可观察量，需要根据视线预测器输出的结果进行估计，其估计量也是非常不稳定的。对于用户注视同一个点时产生的噪声，无法稳定地滤除。

第三种方法，改进视线预测器。使用长短期记忆网络(Long Short-Term Memory，简称LSTM)或循环神经网络(Recurrent Neural Network，简称RNN)等考虑时序信息的网络来改进视线预测器。实时采集用户数据并组成序列作为输入(一段视频的帧序列)，传送到改进的视线预测器中。改进的视线预测器输出基于之前捕获的用户数据等信息而预测的用户的当前视线位置。但是，由于改进的视线预测器基于神经网络，所以网络参数需要拟合多种情况，故而该方案是对当用户固定看同一个点和用户突然看其他点这两个情况的折中处理。实际上，拟合性能在两种情况下都不是最理想的。

另外，在现有技术中，不能在电子设备处利用普通可见光摄像头对视线的状态进行判断，故而没有分别对不同的视线模式设计不同的处理方案。

因此，存在对于一种能够区分视线模式来进行视线估计的方法和装置的需求。

发明内容

针对现有技术的问题，本发明实施例提出了以下的解决方案。

根据本发明实施例，提供一种用于视线估计的方法，包括：接收当前帧的输入数据；基于输入数据确定视线模式；以及基于视线模式来调整视线预测的结果，其中，视线模式包括固定模式和运动模式。

在一个例子中，基于输入数据确定视线模式包括：根据当前帧的输入数据与先前帧的输入数据之间的相似度来确定视线模式。

在一个例子中，根据当前帧的输入数据与先前帧的输入数据之间的相似度来确定视线模式包括：将所述当前帧和先前帧对齐。

在一个例子中，根据当前帧的输入数据与先前帧的输入数据之间的相似度来确定视线模式还包括：确定所述当前帧与先前帧中的第一特征是否相似；以及确定所述当前帧与先前帧中的第二特征是否相似，其中，当所述当前帧与先前帧中的第一特征相似且第二特征相似时，视线模式是固定模式，并且其中，当所述当前帧与先前帧中的第一特征相似但第二特征不相似时，视线模式是运动模式。

在一个例子中，该方法还包括：确定所述当前帧与先前帧中的第三特征是否相似，其中，当所述当前帧与先前帧中的第一特征不相似且第三特征相似时，视线模式是运动模式。

在一个例子中，当所述当前帧与先前帧中的第一特征不相似且第三特征不相似时，视线模式是先前帧的视线模式。

在一个例子中，将所述当前帧和先前帧对齐包括基于第四特征的位置将所述当前帧和先前帧对齐。

在一个例子中，第四特征与第一特征相同。

在一个例子中，第四特征与第一特征不同。

在一个例子中，基于视线模式来调整视线预测的结果包括：通过线性滤波器对视线预测的结果进行滤波，其中，当视线模式是固定模式时，利用线性滤波器的当前参数来执行滤波，并且当视线模式是运动模式时，在初始化线性滤波器的当前参数后执行滤波。

在一个例子中，线性滤波器包括零速卡尔曼滤波器，并且初始化线性滤波器的当前参数包括将零速卡尔曼滤波器的前一时刻的预测结果的协方差重置为1。

在一个例子中，线性滤波器还包括匀速卡尔曼滤波器，并且当视线模式是固定模式时，利用零速卡尔曼滤波器的当前参数来执行滤波，且当视线模式是运动模式时，初始化零速卡尔曼滤波器的当前参数，并利用匀速卡尔曼滤波器执行滤波。

在一个例子中，所述方法还包括，在基于输入数据确定视线模式之前：检测当前帧的输入数据是否是眨眼帧，其中，如果所述当前帧是眨眼帧，则丢弃当前帧，并等待下一帧的输入数据。

在一个例子中，所述方法还包括，在通过线性滤波器对视线预测的结果进行滤波之前：对视线预测的结果进行平滑。

根据本发明另一个实施例，提供一种用于视线估计的装置，包括：接收模块，用于接收当前帧的输入数据；视线模式确定模块，用于基于输入数据确定视线模式；以及调整模块，用于基于视线模式来调整视线预测的结果，其中，视线模式包括固定模式和运动模式。

根据本发明再一个实施例，提供一种用于视线估计的电子设备，包括：处理器；以及存储器，其中存储可由所述处理器执行的指令，当所述指令由所述处理器执行时，使所述处理器执行包括以下的方法：接收当前帧的输入数据；基于输入数据确定视线模式；以及基于视线模式来调整视线预测的结果，其中，视线模式包括固定模式和运动模式。

因此，根据本发明实施例，可以根据视线模式采用不同的处理方式来处理视线预测的结果，提升了视线估计的稳定性。

附图说明

通过以下借助附图的详细描述，将会更容易地理解本发明，其中相同的标号指定相同结构的单元，并且在其中：

图1是示出根据本发明实施例的用于视线估计的方法的示范性流程图；

图2是示出根据本发明的第一实施例的用于视线估计的方法的示范性流程图；

图3是示出根据本发明的第一实施例的用于确定视线模式的方法的示范性流程图；

图4示出根据本发明的第一实施例的人脸关键点检测的示范性结果；

图5更详细地示出根据本发明的第一实施例的通过人脸关键点检测得到的眼睛的示范性关键点；

图6是示出根据本发明的第二实施例的用于视线估计的方法的示范性流程图；

图7是示出根据本发明的第三实施例的用于视线估计的方法的示范性流程图；

图8是示出根据本发明第四实施例的用于视线估计的装置的示范性框图；并且

图9是示出根据本发明实施例的用于视线估计的电子设备的示范性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明说明书中的“电子设备”可以是移动终端和具有拍摄功能的任何设备，例如，移动电话机、个人数字助理(PDA)、膝上型电脑、台式机等。

图1是示出根据本发明实施例的用于视线估计的方法100的示范性流程图。

在方法100中，在步骤S110，接收当前帧的输入数据。在步骤S120，基于输入数据确定视线模式。在步骤S130，基于视线模式来调整视线预测的结果。其中，视线模式包括固定模式和运动模式。

在本发明中，输入数据可以是由电子设备拍摄的图像或视频帧序列。视线运动(即视线位置的改变)可以被定义为两种模式，一种为微小移动或者不动，即固定模式，另一种为迅速移动，即运动模式。

视线预测器为可以是任何合适的视线预测器。例如，可以利用基于深度神经网络的视线预测器，其输入为可见光摄像头采集到的包含用户面部及眼睛的图像数据，输出为用户注视的屏幕位置(x，y)坐标。

此后，将参照附图详细描述本发明的具体实施例。

第一实施例

图2是示出根据本发明的第一实施例的用于视线估计的方法200的示范性流程图。

如图2中所示，在方法200的步骤S210，接收当前帧的输入数据。

在一个例子中，输入数据可以是利用电子设备(诸如移动终端)上的可见光摄像头采集的数据，例如视频的每一帧图像。

在步骤S220，基于输入数据确定视线模式。

此后，将以输入数据包括利用可见光摄像头采集的视频数据为例来描述本发明，但是，本领域技术人员应当理解，输入数据不限于此。

输入数据包括视频数据的当前帧图像和预先保留的一定时间间隔之前的先前帧图像，例如上一帧或一段时间(诸如0.2秒)之前的一帧图像，此后统一表述为“先前帧”。在一个例子中，可以根据两帧图像来判断当前帧的视线模式是固定模式还是运动模式。

具体而言，可以根据当前帧的输入数据与先前帧的输入数据之间的相似度来确定视线模式。

通常，用于视线预测而输入的视频是人脸图像，因此，确定当前帧与先前帧之间的相似度可以包括确定基于人脸的特征、例如鼻子、眼睛等的相似度。

图3是示出根据本发明的第一实施例的用于确定视线模式的方法300的示范性流程图。

如图3中所示，在方法300的步骤S310中，将当前帧和先前帧对齐。

首先，对包含人脸的当前帧图像进行人脸检测以及人脸关键点检测。

图4示出根据本发明的第一实施例的人脸关键点检测的示范性结果。如

图4中所示，在人脸关键点检测的示范性结果中，每条眉毛包含5个点，即左眉毛1-5和右眉毛6-10，每只眼睛包含6个点，即左眼11-16和右眼17-22，鼻子包含鼻梁上的4个点23-26和鼻头上的5个点27-31。此外，人脸关键点还可以包括嘴唇点和脸颊点。

图5更详细地示出根据本发明的第一实施例的通过人脸关键点检测得到的眼睛的示范性关键点。

如图5中所示，眼睛的关键点包括每只眼睛6个点，从点11-点16(左眼)和点17-点22(右眼)分布在眼睑上。pU、pL和pc是通过点11-点16或点17-点22计算出来的结果，其中，pU表示眼睛最上方的点，pL表示眼睛最下方的点，且pc表示眼睛的中心点。

可以采用本领域技术人员所知道的各种方法来进行人脸检测和人脸关键点检测。此外，各个部位的关键点的数量不限于此，可以获得更多的关键点。

如果当前帧为输入的第一帧，则不对其确定视线模式，而是直接将视线模式确定为固定模式。

为了确定当前帧与先前帧是否相似，根据本发明的第一实施例，将当前帧与先前帧的输入数据对齐。在一个例子中，可以基于人脸中的一个特征的位置将当前帧和先前帧对齐，例如，鼻子特征的位置，但是，本领域技术人员应当明白，本发明发实施例不限于此，还可以基于其他一个或多个特征来对齐当前帧和先前帧，例如，眉毛特征。

在一个例子中，可以采用块匹配方式来完成对齐，但是本领域技术人员应当明白，本发明不限于此。

此后，将以基于鼻子位置将当前帧和先前帧对齐来描述本发明的实施例。

具体地，由人脸关键点检测可以得到先前帧Img1上的参考鼻子位置为P1_nose。这里，可以选择图4中鼻梁上的4个点中的任一个，一般是选择最下方的鼻尖点，如图4中点26。类似地，当前帧Img2上的初始鼻子位置为P2_nose_init，这里，P2_nose_init与P1_nose是语义一致的点。虽然P1_nose和P2_nose_init都是鼻子位置，但是通常利用人脸关键点检测算法在两帧上得到的同一关键点(如P1_nose和P2_nose_init)并不是真正的对应点，因此需要在Img2上找到与P1_nose真正对应的点，即最终鼻子位置P2_nose_correct。

在Img1上，以P1_nose为中心点，获得大小为(2N+1)*(2M+1)个像素的参考子图像Patch1。具体地，假设P1_nose在Img1上的坐标为(xc,yc)，则Patch1是取坐标为{xc+d*i,yc+d*j}处的所有像素值，组成一个(2N+1)*(2M+1)大小的子图像，其中-N<＝i<＝N,-M<＝j<＝M，且M和N为大于或等于2的整数。优选地，M＝N＝16像素。d表示第一采样间隔，并且第一采样间隔d为等于或大于1的整数。

在Img2上，可以定义像素集合SetA，像素集合SetA中的像素包括位于P2_nose_init处的像素和P2_nose_init周围的像素。假设P2_nose_init在Img2上的坐标为(x2c,y2c)，则SetA中的像素的坐标可以是{(x2c+L*i,y2c+L*j)}，其中，i和j的取值范围与关键点检测算法的精度有关，算法越精确，则SetA中的像素的数目越少。

在一个例子中，假设关键点检测算法的平均误差是e，则i和j的取值范围可以取为-3e/L到3e/L间的所有整数，这样SetA中的总的像素个数大约是6e/L*6e/L。

L表示第二采样间隔，并且第二采样间隔L可以为等于或大于1的整数。

对于SetA中的每一个像素P2_candidate，在Img2上以它的位置为中心点，得到大小为(2N+1)*(2M+1)个像素的候选子图像Patch2_candidate。具体地，与获得Patch1的方法相同，假设P2_candidate的坐标为(x3c,y3c)，则Patch2_candidate是取坐标为{x3c+d*i,y3c+d*j}处的所有像素值，组成一个(2N+1)*(2M+1)大小的子图像，其中-N<＝i<＝N,-M<＝j<＝M。

此后，分别计算Patch1与多个Patch2_candidate的相似性度量Score_cand。可以利用任何合适的方法来计算相似性度量，例如绝对值差异的和(Sum-of-Absolute-Difference，SAD)、归一化的绝对值差异的和(normalized SAD)、互相关(Cross-Correlation，CC)、或者归一化的互相关(Normalized Cross-Correlation，NCC)等。可以选择一种方法或者几种方法的加权和来计算Patch1与多个Patch2_candidate的相似性度量Score_cand。在一个例子中，可以选择normalized SAD。

选择Score_cand最优的Patch2_candidate，并将该Patch2_candidate的中心位置作为Img2上的最终鼻子位置P2_nose_correct。Score_cand最优表示Patch2_candidate与参考子图像Patch1最相似，对于SAD和normalized SAD来说，Score_cand的值越小表示二者越相似；并且对于CC和NCC来说，Score_cand的值越大表示二者越相似。

最终鼻子位置P2_nose_correct可以认为是P1_nose在Img2上的真正(精确)的对应点，根据这组对应点可以对齐先前帧Img1和当前帧Img2。

可替换地，可以缩小第二采样间隔L，例如从1或2像素缩小到0.25或0.5像素，得到亚像素精度的P2_nose_correct。也就是说，通过缩小第二采样间隔L，可以提高得到的P2_nose_correct的精度。这里，第二采样间隔L的取值范围可以是0<L<1。

这里，虽然以鼻子为例描述了对齐当前帧与先前帧的方法，但是，本发明实施例不限于此，还有可以利用其他特征来对齐当前帧和先前帧。

返回参照图3，在步骤S320中，确定当前帧与先前帧中的第一特征是否相似。在步骤S330中，确定当前帧与先前帧中的第二特征是否相似，在步骤S340中，确定当前帧与先前帧中的第三特征是否相似。

在一个例子中，第一特征是鼻子特征，第二特征是眼睛特征，且第三特征是背景特征。但是，第一特征、第二特征和第三特征不限于此，还可以利用图像上的其他特征来判断当前帧与先前帧是否相似，例如嘴唇特征、脸颊特征等。

此外，在这里的描述中，为了描述的简洁，在将当前帧与先前帧对齐的过程中和判断当前帧与先前帧是否相似的过程中，都用到了鼻子特征，但是，本发明实施例不限于此，也就是说，对齐当前帧与先前帧的过程和判断当前帧与先前帧是否相似的过程可以使用相同或不同的特征。

在一个例子中，鼻子、眼睛、背景的相似性判断为三个独立的二分类器，且输入为Img1和Img2上对应于该特征点的子图像。

对于鼻子，假设在Img1上的鼻子位置为P1_nose，根据上面的过程，获得了P1_nose在Img2上的对应点P2_nose_correct。在先前帧和当前帧上分别以P1_nose和P2_nose_correct为中心采样。

对于眼睛，在Img1上的采样中心是关键点检测算法自动获得的眼睛中心点pc，假设其位置为P1_eye(参见图5)，采样矩形是点11到点16这六个点的外接矩形适当扩大(例如按10％比例扩大)；而眼睛在Img2上的对应点坐标是P2_eye_correct＝P1_eye+(P2_nose_correct-P1_nose)，即对齐后图像上的眼睛的对应点。对左右眼分别采样和计算，并且眼睛的总相似性度量可以是两个眼睛中更不相似的一只眼睛的相似度度量。例如对于SAD来说，眼睛的总相似性度量是左眼的相似度度量Score_cand_lefteye与右眼的相似度度量Score_cand_righteye中的最大值。

对于背景，可以对对齐后的当前帧和先前帧上的四角位置分别进行采样，获得四对对应的子图像，并将最不相似的那个子图像的相似性度量确定为背景的总相似性度量。

在确定鼻子、眼睛和背景是否相似时的采样方法可以与前面得到Patch1、Patch2_candidate的方法一样，但是子图像尺寸(即N和M)可以不同。

二分类器可以是任何合适的二分类器，例如可以采用以下两种方法中的一种，但是，本发明不限于此。

方法一：提取先前帧和当前帧的图像特征，利用诸如尺度不变特征变换(ScaleInvariant Feature Transform，简称SIFT)、训练支持向量机(Support Vector Machine，简称SVM)来进行分类。

方法二：利用块匹配的相似性度量Score_cand的最优值，当相似性度量Score_cand大于预定阈值、例如2时，判定为相似，否则判定为不相似。

当判断了鼻子、眼睛和背景是否相似后，返回参照图3，当当前帧与先前帧中的鼻子相似且眼睛相似时，视线模式被确定为固定模式。

此外，当当前帧与先前帧中的鼻子不相似且背景相似时，视线模式是运动模式，且当前帧与先前帧中的鼻子相似但眼睛不相似时，视线模式是运动模式。

特别地，当当前帧与先前帧中的鼻子不相似且背景也不相似时，认为当前帧无法判断，在这种情况下，可以输出对先前帧的视线模式的确定结果。

返回参照图2和图3，步骤S230是对图1中的步骤S130的一种具体实现方法。在步骤S230，通过线性滤波器对视线预测的结果进行滤波，其中，当视线模式是固定模式时，利用线性滤波器的当前参数来执行滤波，并且当视线模式是运动模式时，在初始化线性滤波器的当前参数后执行滤波，从而基于视线模式对视线预测的结果进行了调整。

线性滤波器的输入可以包括视线预测的结果，即预测的视线位置。

因此，根据本发明的第一实施例，通过区分视线模式的不同情况来对线性滤波器的参数进行控制，从而在不同的视线模式下可以利用不同的滤波参数对视线预测的结果进行滤波，提高了视线估计的稳定性。

在一个例子中，线性滤波器可以包括零速卡尔曼滤波器，并且初始化线性滤波器的当前参数包括将零速卡尔曼滤波器的前一时刻的预测结果的协方差重置为1。

在另一个例子中，除了零速卡尔曼滤波器外，线性滤波器还可以包括匀速卡尔曼滤波器，两个滤波器同时执行滤波，并且当视线模式是固定模式时，输出利用零速卡尔曼滤波器的当前参数来执行滤波的结果，且当视线模式是运动模式时，初始化零速卡尔曼滤波器的当前参数，并输出利用匀速卡尔曼滤波器执行滤波的结果。

具体地，卡尔曼滤波器的更新公式如下：

X(k|k-1)＝AX(k-1|k-1)+BU(k)……式1

P(k|k-1)＝A*P(k-1|k-1)A'+Q……式2

Kg(k)＝P(k|k-1)*H'/(H*P(k|k-1)*H'+R)……式3

X(k|k)＝X(k|k-1)+Kg(k)*(Z(k)-HX(k|k-1))……式4

P(k|k)＝(I-Kg(k)*H)*P(k|k-1)……式5

A和B是系统参数。A'表示A的转置矩阵，Q是过程噪声系统的协方差。R是观测噪声的协方差，Z(k)是k时刻的测量值。H是测量系统的参数，对于多测量系统，H为矩阵。P表示协方差(covariance)，如式2所示。在式2中，P(k|k-1)是X(k|k-1)对应的协方差，P(k-1|k-1)是X(k-1|k-1)对应的协方差，U(k)是k时刻对系统的控制量。I为1的矩阵，对于单模型单测量，I＝1。

特别地，当当前时刻k为第一时刻时，即当第一次接收到视线预测器输出的视线位置时，k-1即为k时刻，P(k-1|k-1)＝1，X(k-1|k-1)＝Z(k)。当重置零速卡尔曼滤波器时，认为当前时刻k为第一时刻，重新初始化P(k-1|k-1)和X(k-1|k-1)。

对于匀速卡尔曼滤波器来说，待滤波量包含视线位置和视线速度。I为单位矩阵，A为

H为单位矩阵。B为0，即Bu(k)为0。R和Q为待调参数，为2*2矩阵。X(*)为二维向量，例如2行1列，第一维度为滤波后视线位置，第二维度为滤波后视线速度。P(*)为二维矩阵，表示协方差矩阵。具体地，X(k-1|k-1)为该系统k-1时刻滤波后的视线位置和视线速度，X(k|k-1)为根据系统k-1时刻滤波后的视线位置和视线速度计算出的视线位置和视线速度中间值。P(k-1|k-1)为k-1时刻协方差，P(k|k-1)为根据k-1时刻协方差计算出的协方差中间值。Kg(k)为k时刻的卡尔曼增益。X(k|k)为k时刻系统滤波后的视线位置和视线速度，其中第一维度的视线位置为匀速卡尔曼滤波器的输出。Z(k)为k时刻视线预测器输出的视线位置和根据视线预测器输出的视线位置估算的视线速度。P(k|k)为k时刻协方差。

具体地，对于匀速卡尔曼滤波器，V为视线速度。视线速度是无法观测的，但是可以通过可观测的视线位置来计算出，例如，视线速度V可以等于当前时刻视线位置减去上一时刻视线位置的差除以时间间隔。具体公式如下。

V＝(pos(k)-pos(k-1))/delta(k)……式6

其中，pos(k)表示当前时刻k的视线预测器估计的视线位置，pos(k-1)表示前一时刻k-1的视线预测器估计的视线位置。delta(k)表示时间间隔，且与摄像头采样两帧数据的频率有关。例如，当摄像头为每秒25帧捕获图片时，两帧间隔为40毫秒，即delta(k)＝40毫秒。

特别地，与零速卡尔曼滤波器类似地，当当前时刻k为第一时刻时，即第一次接收到视线预测器的输出时，k-1即为k时刻，P(k-1|k-1)为单位矩阵，X(k-1|k-1)＝Z(k)，Z(k)的第二维度视线速度V为0。

匀速卡尔曼滤波器具有更强的约束，因而，通过增加匀速卡尔曼滤波器，与仅包括零速卡尔曼滤波器相比，可以得到更准确的估计值。

因此，根据本发明实施例，可以对比先前帧与当前帧的相似度并根据相似度来定义不同的视线模式，例如固定模式和运动模式，从而考虑了所采集的用户数据之间的联系，并可以利用这些联系得到更好的估计结果。对于不同视线模式采用不同的处理方式，解决了延迟问题。

第二实施例

图6是示出根据本发明的第二实施例的用于视线估计的方法600的示范性流程图。

如图6中所示，在方法600中，在步骤S610，接收当前帧的输入数据。在步骤S620，基于输入数据确定视线模式。在步骤S630，基于视线模式来调整视线预测的结果。其中，视线模式包括固定模式和运动模式。

步骤S610、S620和S630分别与图1中的步骤S110、S120和S130以及图2中的步骤S210、S220和S230相同和类似，这里不再赘述。

在步骤S640，检测当前帧的输入数据是否是眨眼帧。

在一个例子中，当用户首次使用电子设备时采集用户的注册图像，并且注册图像仅采集和计算一次。

对包括用户的面部的注册图像进行人脸检测和人脸关键点检测，得到的结果可以如图4和图5所示，具体地，关键点可以包括眉毛点、鼻子点、双眼周围点和脸颊点。

针对注册图像计算眼睛高度EYE_HEIGHT。如图5中所示，可以根据眼睛区域关键点来计算上眼睑与下眼睑之间的距离作为眼睛高度EYE_HEIGHT。具体地，眼睛高度EYE_HEIGHT是上眼睑两点(点12，点13)的中点pU与下眼睑两点(点15，点16)的中点pL之间的距离。也就是说，眼睛高度EYE_HEIGHT为pU和pL之间的距离。可以计算左眼和右眼中的任意一只眼睛的高度作为眼睛高度EYE_HEIGHT，或者可以将左眼的高度和右眼的高度的平均值作为眼睛高度EYE_HEIGHT。

之后，计算两眼眼球之间距离EYE_DIS。眼球中心位置pC为眼睛六个点的中心位置，即点11到点16的均值。

计算归一化眼睛高度EYE_HEIGHT_NORM。归一化眼睛高度为眼睛高度除以两眼眼球之间距离，即EYE_HEIGHT_NORM＝EYE_HEIGHT/EYE_DIS。

当输入当前帧时，计算当前帧的眼睛高度EYE_HEIGHT_T，T为当前帧的时刻索引。并且，计算当前帧的归一化眼睛高度EYE_HEIGHT_T_NORM。当前帧的归一化眼睛高度为当前帧的眼睛高度除以两眼眼球之间距离，即EYE_HEIGHT_T_NORM＝EYE_HEIGHT_T/EYE_DIS。

计算眨眼参数Blinking_T，即当前帧的归一化眼睛高度除以归一化眼睛高度，Blinking_T＝EYE_HEIGHT_T_NORM/EYE_HEIGHT_NORM。如果Blinking_T小于眨眼阈值，则为眨眼(blinking)，否则为不眨眼(non-blinking)。眨眼阈值优选为0.4，其表示眼睛的睁开程度。如果眨眼阈值较小，则说明眼睛基本处于关闭状态，所以可以认为是眨眼或眨眼过程中。

可以利用以下伪代码来判断是否眨眼。

如果当前帧是眨眼帧，则丢弃当前帧，并等待输入数据的下一帧。

判断当前帧是否是眨眼帧的目的在于判断当前输入的视频数据中的人脸是否眨眼，若眨眼，则输出先前帧的视线估计位置。如果第一帧为眨眼帧，即无先前帧的估计位置可返回，则退出整个系统。如果不是眨眼帧，则继续估计视线位置。由于眨眼数据的视线估计基本为无效估计，而无效估计会给后续过程的更新带来噪声，所以通过眨眼检测剔除掉无效估计，可以提升后续的稳定性，进而提升视线估计的整体性能。

第三实施例

图7是示出根据本发明的第三实施例的用于视线估计的方法700的示范性流程图。

如图7中所示，在方法700中，在步骤S710，接收当前帧的输入数据。在步骤S720，基于输入数据确定视线模式。在步骤S730，基于视线模式来调整视线预测的结果。其中，视线模式包括固定模式和运动模式。

步骤S710、S720和S730分别与图1中的步骤S110、S120和S130以及图2中的步骤S210、S220和S230相同和类似，这里不再赘述。

在步骤S740，对视线预测的结果进行平滑。

当第N次获取视线位置location(通常表示为二维坐标x，y)时，N为不等于1的自然数：

location_smooth＝(1-smooth_param)*location+smooth_param*location_history，

location_history＝location_smooth。

其中，视线位置的平滑值location_smooth等于当前视线位置location与历史视线位置location_history的加权。历史视线位置可以在每次输入新的一帧时更新。

当第一次获取视线位置location时，

location_history＝location，且

location_smooth＝(1-smooth_param)*location+smooth_param*location_history，

其中，smooth_param为平滑参数，优选地可以被设置为0.5。

location_history是需要维护的变量，其保存了位置的历史记录。当当前帧为第一帧时，location_history是第一次获取的视线位置，初始化为当前帧的视线位置，接下来不断更新。

第四实施例

图8是示出根据本发明第四实施例的用于视线估计的装置800的示范性框图。

如图8所示，装置800包括接收模块810、视线模式确定模块820和调整模块830。

接收模块810用于接收当前帧的输入数据，视线模式确定模块820用于基于输入数据确定视线模式，调整模块830用于基于视线模式来调整视线预测的结果，其中，视线模式包括固定模式和运动模式。

在一个例子中，调整模块830可以包括线性滤波器，用于对视线预测的结果进行滤波，其中，当视线模式是固定模式时，利用线性滤波器的当前参数来执行滤波，并且当视线模式是运动模式时，在初始化线性滤波器的当前参数后执行滤波。

在一个进一步的例子中，线性滤波器可以包括零速卡尔曼滤波器，并且初始化线性滤波器的当前参数包括将零速卡尔曼滤波器的前一时刻的预测结果的协方差重置为1。

在另一个进一步的例子中，除了零速卡尔曼滤波器之外，线性滤波器还包括匀速卡尔曼滤波器，两个滤波器同时执行滤波，并且当视线模式是固定模式时，输出利用零速卡尔曼滤波器的当前参数来执行滤波的结果，且当视线模式是运动模式时，初始化零速卡尔曼滤波器的当前参数，并输出利用匀速卡尔曼滤波器执行滤波的结果。

图9是示出根据本发明实施例的用于视线估计的电子设备900的示范性框图。

如图9所示，电子设备900包括处理器910和存储器920。

在存储器920中存储可由所述处理器910执行的指令，当所述指令由处理器910执行时，使处理器910执行以下方法：接收当前帧的输入数据，基于输入数据确定视线模式，并基于视线模式来调整视线预测的结果，其中，视线模式包括固定模式和运动模式。

在一个例子中，当所述指令由处理器910执行时，使处理器910执行的方法还包括：确定所述当前帧与先前帧中的第三特征是否相似，其中，当所述当前帧与先前帧中的第一特征不相似且第三特征相似时，视线模式是运动模式。

在一个例子中，将所述当前帧和先前帧对齐包括基于第四特征位置将所述当前帧和先前帧对齐。

在一个例子中，第四特征与第一特征可以相同。

在一个例子中，第四特征与第一特征可以不同

在一个例子中，基于鼻子位置将所述当前帧和先前帧对齐包括：确定先前帧的参考鼻子位置P1_nose和当前帧的初始鼻子位置P2_nose_init；在先前帧上以参考鼻子位置P1_nose为中心提取大小为(2N+1)*(2M+1)个像素的参考子图像Patch1，其中，M和N为大于或等于2的整数；在当前帧上定义包括位于初始鼻子位置P2_nose_init处的像素的多个像素的像素集合SetA；对于像素集合SetA中的每个像素，以其为中心在当前帧上提取大小为(2N+1)*(2M+1)个像素的候选子图像Patch2_candidate；分别计算多个候选子图像Patch2_candidate与参考子图像Patch1之间的相似度；确定与参考子图像Patch1最相似的一个候选子图像Patch2_candidate的中心位置为当前帧的最终鼻子位置P2_nose_correct；以及基于最终鼻子位置P2_nose_correct和参考鼻子位置P1_nose对齐当前帧和先前帧。

在一个例子中，以第一采样间隔d来提取参考子图像Patch1，并且以第二采样间隔L来获得像素集合SetA中的多个像素，其中，第一采样间隔d为等于或大于1的整数，其中，第二采样间隔L为等于或大于1的整数，或者0<L<1。

在一个例子中，当所述指令由处理器910执行时，使处理器910执行的方法还包括，在基于输入数据确定视线模式之前：检测当前帧的输入数据是否是眨眼帧，其中，如果所述当前帧是眨眼帧，则丢弃当前帧，并等待输入数据的下一帧。

在一个例子中，当所述指令由处理器910执行时，使处理器910执行的方法还包括，在通过线性滤波器对视线预测的结果进行滤波之前：对视线预测的结果进行平滑。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用于视线估计的方法，包括：

接收当前帧的输入数据；

基于输入数据确定视线模式；以及

基于视线模式来调整视线预测的结果，

其中，视线模式包括固定模式和运动模式。

2.根据权利要求1所述的方法，其中，基于输入数据确定视线模式包括：

根据当前帧的输入数据与先前帧的输入数据之间的相似度来确定视线模式。

3.根据权利要求2所述的方法，其中，根据当前帧的输入数据与先前帧的输入数据之间的相似度来确定视线模式包括：

将所述当前帧和先前帧对齐。

4.根据权利要求3所述的方法，其中，根据当前帧的输入数据与先前帧的输入数据之间的相似度来确定视线模式还包括：

确定所述当前帧与先前帧中的第一特征是否相似；以及

确定所述当前帧与先前帧中的第二特征是否相似，

其中，当所述当前帧与先前帧中的第一特征相似且第二特征相似时，视线模式是固定模式，并且

其中，当所述当前帧与先前帧中的第一特征相似但第二特征不相似时，视线模式是运动模式。

5.根据权利要求4所述的方法，还包括：

确定所述当前帧与先前帧中的第三特征是否相似，

其中，当所述当前帧与先前帧中的第一特征不相似且第三特征相似时，视线模式是运动模式。

6.根据权利要求4所述的方法，其中，当所述当前帧与先前帧中的第一特征不相似且第三特征不相似时，视线模式是先前帧的视线模式。

7.根据权利要求3至6中的任一个所述的方法，其中，将所述当前帧和先前帧对齐包括基于第四特征的位置将所述当前帧和先前帧对齐。

8.根据权利要求7所述的方法，其中，第四特征与第一特征相同。

9.根据权利要求7所述的方法，其中，第四特征与第一特征不同。

10.根据权利要求4所述的方法，其中，基于视线模式来调整视线预测的结果包括：

通过线性滤波器对视线预测的结果进行滤波，

其中，当视线模式是固定模式时，利用线性滤波器的当前参数来执行滤波，并且

当视线模式是运动模式时，在初始化线性滤波器的当前参数后执行滤波。

11.根据权利要求10所述的方法，其中，线性滤波器包括零速卡尔曼滤波器，并且

初始化线性滤波器的当前参数包括将零速卡尔曼滤波器的前一时刻的预测结果的协方差重置为1。

12.根据权利要求11所述的方法，其中，线性滤波器还包括匀速卡尔曼滤波器，并且

当视线模式是固定模式时，利用零速卡尔曼滤波器的当前参数来执行滤波，且

当视线模式是运动模式时，初始化零速卡尔曼滤波器的当前参数，并利用匀速卡尔曼滤波器执行滤波。

13.根据权利要求1所述的方法，还包括，在基于输入数据确定视线模式之前：

检测当前帧的输入数据是否是眨眼帧，

其中，如果所述当前帧是眨眼帧，则丢弃当前帧，并等待下一帧的输入数据。

14.根据权利要求10所述的方法，还包括，在通过线性滤波器对视线预测的结果进行滤波之前：

对视线预测的结果进行平滑。

15.一种用于视线估计的装置，包括：

接收模块，用于接收当前帧的输入数据；

视线模式确定模块，用于基于输入数据确定视线模式；以及

调整模块，用于基于视线模式来调整视线预测的结果，

其中，视线模式包括固定模式和运动模式。

16.一种用于视线估计的电子设备，包括：

处理器；以及

存储器，其中存储可由所述处理器执行的指令，当所述指令由所述处理器执行时，使所述处理器执行权利要求1-14任一所述的方法。