CN109559332A

CN109559332A - 一种结合双向LSTM和Itracker的视线跟踪方法

Info

Publication number: CN109559332A
Application number: CN201811286461.4A
Authority: CN
Inventors: 周小龙; 姜嘉祺; 林家宁; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-04-02
Anticipated expiration: 2038-10-31
Also published as: CN109559332B

Abstract

一种结合双向LSTM和Itracker的视线跟踪方法，包括以下步骤：1)数据预处理：1.1)使人脸参考点在距相机固定距离的图像中心；1.2)通过变换矩阵将人脸转换为特定相机空间下图像平面；2)使用双向LSTM的网络结构并结合时序信息进行视线估计；2.1)将脸、左眼、右眼分别输入到网络的一个分支中，最后从每个分支中提取合并特征映射到屏幕上，得到最终三维视线方向；2.2)每个LSTM细胞在遗忘门下过滤掉所需丢弃信息，在输入门整合有效信息，在输出门获取所需隐藏层，最后通过全连接层将最后一帧的前向单元和后向单元映射得到视线向量完成视线跟踪。本发明提高3D视线跟踪下的估计精度以及降低其他干扰因素的影响。

Description

一种结合双向LSTM和Itracker的视线跟踪方法

技术领域

本发明属于图像处理技术领域，尤其是指一种稳健的视线跟踪方法。

背景技术

视线跟踪系统主要实现人眼视线方向的估计或者受试者注视点的估计。在许多领域被应用，例如医疗辅助、娱乐游戏、市场分析等。然而，现有的视线跟踪系统往往存在以下缺陷:冗余的校准过程、复杂的系统设置、光照条件的限制、不同受试者的非通用校准、对头部运动的容忍度低，限制了注视估计的应用。目前的视线跟踪系统主要可以分为两类，即基于模型的视线跟踪系统和基于外观的视线跟踪系统。

基于模型的视线跟踪系统根据是否使用主动光源(红外线)可以分为角膜反射方法和基于形状的方法。其中角膜反射方法根据人眼的几何模型进行预测，通常需要精确提取瞳孔和红外光斑等特征，因此对设备提出了较高要求。实验过程中需要固定头部姿态或是依靠多个摄像机预测人眼到摄像机的距离实现头部自由移动。基于形状的方法则从观察到的形状(如瞳孔中心、虹膜边缘)来直接推断视线方向。这种方法精确度低，也不能鲁棒地处理低质量图像和不同光照条件下的图像。

在基于模型的视线跟踪系统中，通常需要复杂的设备来完成研究，这大大限制了该方法的应用范围。而基于外观的视线跟踪系统因为设备简单能够满足更大的应用范围而逐渐成为主流方法。基于外观的方法通过从面部或眼睛图像中提取特征进行映射来估计视线方向或注视点。传统的基于外观的方法通过提取眼角等局部特征以及虹膜轮廓等特征向量来映射到最终目标，实现视线跟踪。这些传统的基于外观的方法已经能获得较高的精度，但它们对于头部姿态变化，不同光照变化以及用户个体校准复杂度等方面依旧存在不可忽视的问题。针对这些挑战，一些具有潜力的方法应运而生。例如，Zhang等人利用CNN方法对人眼图像和头部姿态构成映射，实现不同光照下高于传统方法的准确率。Ranjan等人提出了一种基于Alexnet的视线跟踪系统，在维持之前网络层的情况下根据头部姿态分别训练最后两层从而实现对各种头部姿态的较强鲁棒性。

发明内容

为了提高3D视线跟踪下的估计精度以及降低其他干扰因素的影响，本发明提出了一种结合双向LSTM和Itracker的视线跟踪方法，能够在单一摄像头和普通光照的条件下实现稳定精确的视线跟踪。

本发明解决其技术问题所采用的技术方案是：

一种结合双向LSTM和Itracker的视线跟踪方法，所述方法包括以下步骤：

S1.数据预处理：为了弱化不同头部姿态和不同摄像机参数对最终视线估计结果的影响，对原始图像进行透视变换，训练模型在特定的虚拟空间下进行视线估计，步骤如下：

S1.1.使人脸参考点在距相机固定距离的图像中心，过程如下：

首先，假设a是相机空间下的人脸参考点的坐标，则根据虚拟相机下人脸到参考点求得z轴为然后，假设是头部姿态的旋转矩阵，为了使x轴与头部水平方向平行，使得v_x＝v_y×v_z，其中v_y＝v_z×h_x，假设虚拟相机和参考点的距离为d，最后使用M＝SR转换矩阵，其中R＝[r_x,r_y,r_z]^T；

S1.2.通过变换矩阵将人脸转换为特定相机空间下图像平面，过程如下：

通过warp矩阵实现，其中C₀是原相机的内参数矩阵，C_n是虚拟相机的内参数矩阵，由输入图像决定；

与图像的变换类型类似，同样需要在训练过程中转换相应的视觉标签，使用g_n＝Rg₀，其中g_n代表归一化后的视线向量，g₀代表初始视线向量，使用欧拉角表示单位向量间的约束关系；在测试阶段，对于每一个预测结果，使用g₀＝R^-1g_n将结果从虚拟相机空间下转换到原相机空间下；

S2.使用双向LSTM的网络结构并结合时序信息进行视线估计，整体架构分为静态模块和时态模块；

S2.1.静态模块的处理过程如下：

静态模块由两个分支CNN和统一的全连接层组成，CNN将脸、左眼、右眼分别输入到网络的一个分支中，最后从每个分支中提取合并特征映射到屏幕上，得到最终二维凝视点，其中一个分支将左眼图像和右眼图像进行连接，形成单一的6通道输入，从拼接的眼睛图像中提取特征，另一分支则从规范化的面部中提取特征。FC层将这两部分的特征进行融合，将学习到的特性作为多对一双向LSTM的输入；

S2.2.动态模块的处理过程如下：

LSTM结构包含一系列重复的LSTM细胞，每个LSTM细胞包含3个单元，分别是遗忘门、输入门、输出门，这些单元允许LSTM内存单元能够在很长的一段时间内存储和传输信息，其中(x_t,c_t-1,h_t-1)表示输入层，(h_t,c_t)表示输出层；

在时刻t，f_t,i_t,o_t分别表示遗忘门，输入门，输出门，每个LSTM细胞首先使用遗忘门滤掉所需要丢弃的信息；

f_t＝σ(w_ifx_t+b_if+w_hfh_t-1+b_hf) (1)

其中(W_if,b_if)和(W_hf,b_hf)分别代表映射输入层和隐藏层到遗忘门的权重矩阵和偏差项，其中σ是激活函数，选择的激活函数为sigmoid函数；

然后，LSTM单元在输入门合并有效信息；

g_t＝tanh(W_igx_t+b_ig+W_hgh_t-1+b_hg) (2)

i_t＝σ(W_iix_t+b_ii+W_hih_t-1+b_hi) (3)

c_t＝f_tc_t-1+i_tg_t (4)

其中(W_ig,b_ig)和(W_hg,b_hg)分别表示映射输入层和隐藏层到细胞的权重矩阵和偏差项，(W_ii,b_ii)和(W_hi,b_hi)分别表示映射输入层和隐藏层到输入门的权重矩阵和偏差项；

最终，LSTM细胞从输出门获取输出隐藏层；

o_t＝σ(W_iox_t+b_io+W_hoh_t-1+b_ho) (5)

h_t＝o_ttanh(c_t) (6)

其中(W_io,b_io)和(W_ho,b_ho)分别代表映射输入层和隐藏层到输出层的权重矩阵和偏差项；

双向LSTM包含正向LSTM和反向LSTM，一个序列是由三个图像帧组成的。最后的视线跟踪预测是由一个全连接层获得的，这一层将最后一帧的前向单元和后向单元映射得到最终的二维凝视向量g；

g＝fc(h_t,h_tr) (7)。

本发明的有益效果为：提高3D视线跟踪下的估计精度以及降低其他干扰因素的影响，并最终在单一摄像头和普通光照的条件下实现稳定精确的视线跟踪。

附图说明

图1是3D视线跟踪方法的总体架构图。

图2是静态特征提取模块图。

图3是时序模块图。

图4是单个LSTM细胞结构图。

图5(a)和(b)是本发明与其他先进的基于人脸的视线跟踪方法分别在MPIIGAZE和EyeDiap数据库上的比较结果图。

图6(a)和(b)是本发明分别在MPIIGAZE和EyeDiap数据库上分别验证eye模块，face模块和两者结合模块的作用影响图。

图7(a)和(b)是本发明分别在MPIIGAZE和EyeDiap数据库上进行的分辨率实验结果图。

图8在MPIIGAZE数据库上对不同网络结合时序模型的作用影响图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图10，一种结合双向LSTM和Itracker的视线跟踪方法，所述方法包括以下步骤：

通过warp矩阵实现，W＝C₀MC_n ^-1，其中C₀是原相机的内参数矩阵，C_n是虚拟相机的内参数矩阵，由输入图像决定；

与图像的变换类型类似，同样需要在训练过程中转换相应的视觉标签，使用g_n＝Rg₀，其中g_n代表归一化后的视线向量，g₀代表初始视线向量，使用欧拉角表示单位向量间的约束关系，在测试阶段，对于每一个预测结果，使用g₀＝R^-1g_n将结果从虚拟相机空间下转换到原相机空间下；

S2.使用双向LSTM的网络结构并结合时序信息进行视线估计，整体架构如图一所示，分为静态模块和时态模块；

S2.1.静态模块的处理过程如下：

静态模块由两个分支CNN和统一的全连接层组成，如图2所示，CNN将脸、左眼、右眼分别输入到网络的一个分支中，最后从每个分支中提取合并特征映射到屏幕上，得到最终二维凝视点，其中一个分支将左眼图像和右眼图像进行连接，形成单一的6通道输入，从拼接的眼睛图像中提取特征，另一分支则从规范化的面部中提取特征。FC层将这两部分的特征进行融合，将学习到的特性作为多对一bi-LSTM的输入；

S2.2.动态模块，过程如下：

如图3所示，LSTM结构包含一系列重复的LSTM细胞，每个LSTM细胞(图四所示)包含3个单元，分别是遗忘门、输入门、输出门，这些单元允许LSTM内存单元能够在很长的一段时间内存储和传输信息，其中(x_t,c_t-1,h_t-1)表示输入层，(h_t,c_t)表示输入层；

在时刻t，f_t,i_t,o_t分别表示遗忘门，输入门，输出门。每个LSTM细胞首先使用遗忘门滤掉所需要丢弃的信息；

f_t＝σ(w_ifx_t+b_if+w_hfh_t-1+b_hf) (1)

然后，LSTM单元在输入门合并有效信息；

g_t＝tanh(W_igx_t+b_ig+W_hgh_t-1+b_hg) (2)

i_t＝σ(W_iix_t+b_ii+W_hih_t-1+b_hi) (3)

c_t＝f_tc_t-1+i_tg_t (4)

最终，LSTM细胞从输出门获取输出隐藏层；

o_t＝σ(W_iox_t+b_io+W_hoh_t-1+b_ho) (5)

h_t＝o_ttanh(c_t) (6)

由图2可知，双向LSTM包含正向LSTM和反向LSTM，一个序列是由三个图像帧组成的。最后的视线跟踪预测是由一个全连接层获得的，这一层将最后一帧的前向单元和后向单元映射得到最终的二维凝视向量g；

g＝fc(h_t,h_tr) (7)。

Claims

1.一种结合双向LSTM和Itracker的视线跟踪方法，其特征在于，所述方法包括以下步骤：

S1.数据预处理：对原始图像进行透视变换，训练模型在特定的虚拟空间下进行视线估计，步骤如下：

首先，假设a是相机空间下的人脸参考点的坐标，则根据虚拟相机下人脸到参考点求得z轴为然后，假设H[h_x,h_y,h_z]是头部姿态的旋转矩阵，为了使x轴与头部水平方向平行，使得v_x＝v_y×v_z，其中v_y＝v_z×h_x，假设虚拟相机和参考点的距离为d，最后使用M＝SR转换矩阵，其中R＝[r_x,r_y,r_z]^T；

S2.1.静态模块的处理过程如下：

静态模块由两个分支CNN和统一的全连接层组成，CNN将脸、左眼、右眼分别输入到网络的一个分支中，最后从每个分支中提取合并特征映射到屏幕上，得到最终二维凝视点；其中一个分支将左眼图像和右眼图像进行连接，形成单一的6通道输入，从拼接的眼睛图像中提取特征，另一分支则从规范化的面部中提取特征，FC层将这两部分的特征进行融合，将学习到的特性作为多对一bi-LSTM的输入；

S2.2.动态模块的处理过程如下：

LSTM结构包含一系列重复的LSTM细胞，每个LSTM细胞包含3个单元，分别是遗忘门、输入门、输出门；这些单元允许LSTM内存单元能够在很长的一段时间内存储和传输信息，其中(x_t,c_t-1,h_t-1)表示输入层，(h_t,c_t)表示输入层；

f_t＝σ(w_ifx_t+b_if+w_hfh_t-1+b_hf) (1)

然后，LSTM单元在输入门合并有效信息；

g_t＝tanh(W_igx_t+b_ig+W_hgh_t-1+b_hg) (2)

i_t＝σ(W_iix_t+b_ii+W_hih_t-1+b_hi) (3)

c_t＝f_tc_t-1+i_tg_t (4)

最终，LSTM细胞从输出门获取输出隐藏层

o_t＝σ(W_iox_t+b_io+W_hoh_t-1+b_ho) (5)

h_t＝o_ttanh(c_t) (6)

双向LSTM包含正向LSTM和反向LSTM，一个序列是由三个图像帧组成的，最后的视线跟踪预测是由一个全连接层获得的，这一层将最后一帧的前向单元和后向单元映射得到最终的二维凝视向量g；

g＝fc(h_t,h_tr) (7)。