CN110147163B

CN110147163B - 面向移动设备的多模型融合驱动的眼动跟踪方法和系统

Info

Publication number: CN110147163B
Application number: CN201910421173.3A
Authority: CN
Inventors: 程时伟; 张章伟
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2022-06-21
Anticipated expiration: 2039-05-20
Also published as: CN110147163A

Abstract

面向移动设备的多模型融合驱动的眼动跟踪方法，包括如下步骤：(1)基于外观模型的眼动特征分析；(2)基于特征模型的眼动数据映射；(3)多模型融合的眼动注视点计算。本发明还提供了面向移动设备的多模型融合驱动的眼动跟踪系统，包括依次连接并馈送数据的以下模块：基于外观模型的眼动特征分析模块；基于特征模型的眼动数据映射模块；多模型融合的眼动注视点计算模块。本发明扩展了目前移动设备上的眼动跟踪方法，提高了移动设备在复杂交互环境下的的眼动跟踪精度、计算速度和稳定性。

Description

面向移动设备的多模型融合驱动的眼动跟踪方法和系统

技术领域

本发明涉及一种眼动跟踪方法和系统。

背景技术

常用的眼动跟踪方法主要包括基于外观模型和基于特征模型两类：基于外观模型的眼动跟踪方法输入人眼外观图像，随后构建卷积神经网络作为外观模型，提取人眼图像不可解释的隐含特征，然后进行眼动注视点计算；基于特征模型的眼动跟踪方法输入明确可解释的人眼图像特征，对人眼图像进行预处理，提取图像特征,随后建立图像特征与眼动注视点之间的映射方程进行眼动注视点计算。两类方法的优缺点如下：基于外观模型的眼动跟踪方法优点在于采用了神经网络模型，计算图像特征时受环境光照影响较小，无需根据环境的变化而调整阈值参数，使用方便，但缺点在于卷积神经网络模型复杂，注视点计算精度较低，计算能力要求较高，不适合在移动设备中使用。基于特征模型的眼动跟踪方法优点在于对人眼图像提取了易于解释的特征，眼动注视点计算精度高，计算能力要求低；但缺点在于图像特征的提取对参数敏感，且受环境光照、用户头部运动等外在因素影响较大，使用不便。

在移动设备上进行眼动跟踪，实现基于移动设备的人机交互应用越来越受到人们的关注。但是，目前移动设备存在的问题包括：(1)硬件条件受限，例如CPU处理能力较弱、摄像头分辨率不高、内存容量较小；(2)使用环境较复杂，光照变化大。因此，在移动设备上实现眼动跟踪，不仅要降低计算复杂度以适应移动设备的硬件条件，同时还需要保证较高的眼动注视点计算精度，还要兼顾移动设备的便捷性和易用性，为此本发明融合外观模型与特征模型，面向移动设备提出一种新的眼动跟踪方法，利用外观模型提取稳定的图像特征，利用特征模型计算注视点。

发明内容

本发明要克服现有技术的上述缺点，提出面向移动设备的多模型融合驱动的眼动跟踪方法。

面向移动设备的多模型融合驱动的眼动跟踪方法，包括如下步骤：

(1)基于外观模型的眼动特征分析；

(2)基于特征模型的眼动数据映射；

(3)多模型融合的眼动注视点计算。

本发明还提供了面向移动设备的多模型融合驱动的眼动跟踪系统，包括依次连接并馈送数据的以下模块：

(1)基于外观模型的眼动特征分析模块；

(2)基于特征模型的眼动数据映射模块；

(3)多模型融合的眼动注视点计算模块。

本发明的优点：扩展了目前移动设备上的眼动跟踪方法，提高了移动设备在复杂交互环境下的的眼动跟踪精度、计算速度和稳定性。具体包括：

1)提高了移动设备上眼动跟踪的精确度。由于现有的方法不足，移动设备眼动跟踪系统很难兼顾移动设备便携性，注视点计算精度，模型计算复杂度等多项指标。结合外观模型特征点提取较稳定的优点和特征模型注视点计算精度较高的优点，在只利用移动设备自身硬件的条件下，提高移动设备眼动跟踪精度。

2)提高了移动设备上眼动跟踪的计算速度。外观模型仅用于学习和提取明确的图像特征，因此模型简单，计算量低，图像特征提取速度快；进一步采用特征模型计算眼动注视点，避免了传统外观模型由于大量数据训练带来的时间开销，在移动设备上实现了更快的眼动跟踪计算速度。

3)提高了移动设备上眼动跟踪的稳定性。本发明将人眼图像输入堆叠沙漏结构的神经网络，基于外观模型学习和提取明确的图像特征，无需使用传统的图像特征计算方法，避免了由于环境光照和用户头部位置变化所导致的参数调整，因此提取的图像特征更加稳定。

附图说明

图1是本发明方法的流程示意图；

图2a～图2b是本发明方法的外观模型数据集准备示意图，其中图2a表示数据样本集；图2b表示数据标签集。

图3是本发明方法的基于外观模型的眼动特征分析示意图；

图4是本发明方法的基于特征模型的眼动数据映射示意图；

图5是本发明方法的特征向量示意图；

图6是本发明方法的多模型融合的眼动注视点计算示意图；

图7是本发明系统的基本逻辑结构示意图。

具体实施方式

下面将结合附图，对本发明面向移动设备的多模型融合驱动的眼动跟踪方法进行清楚、完整地描述，显然，所描述的实例仅仅是本发明的一部分实例，而不是全部的实例，不能理解为对本发明的限制。基于本发明中的实例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例，都属于本发明保护的范围。

参阅图1，本发明实例提出的一种面向移动设备的多模型融合眼动跟踪方法，包括下列步骤：

(1)基于外观模型的眼动特征分析；

首先进行数据集准备，利用合成的人眼图像进行缩放、灰度化、滤波等预处理操作后转化为样本集(图2a)，利用附带的数据文件，提取人眼图像特征点坐标数据并转化为置信度矩阵作为标签集(图2b)。随后，如图3所示，设计二阶的堆叠沙漏网络模型，设置模型参数，进行模型的训练。神经网络的训练采用有监督的训练方式，监督学习需要的训练数据包含样本集和对应的标签集。经过预处理后的人眼图像输入模型后分为上、下两路采样方式，上半路在原尺度上进行卷积，卷积核大小为1×1，只改变输入图像的深度信息；下半路首先通过最大池化法进行降采样获取深层的特征，再通过最近插值法进行升采样，更深层特征的上下半路采样嵌套在上一层中。最后将两路采样后的特征结果由里到外逐层合并输出。经过一次沙漏网络计算，会生成和一个输入图像大小相同的置信度矩阵，参与到模型损失的计算中。接着，堆叠下一个沙漏网络重新进行上、下两路采样。在训练过程中，随着训练轮次的增加，动态地为图像样本集数据添加高斯噪声，以降低高阶特征对模型训练的影响，防止模型的过拟合。

(2)基于特征模型的眼动数据映射；

在移动设备上进行眼动跟踪时，由于环境光照复杂，以及屏幕与用户之间的距离、角度等不尽相同，会对眼动跟踪的精确性造成影响。为此，需要在眼动注视点计算之前训练映射模型，用于拟合特征向量与屏幕上注视点坐标之间的精确数量关系。映射模型的设计与训练流程如图4所示。在数据集准备阶段，用户需要标定采集数据。具体的，用户按照指示依次看向屏幕中坐标已知的圆点(即标定点)，同时后台程序通过摄像头拍摄用户眼睛图像，应用外观模型分析人眼图像特征，将所提取的特征点进一步组合成眼角中心-瞳孔中心(Eye corner center-pupil center,CCPC)特征向量(如图5所示)，并记录特征向量与对应的屏幕标定点的坐标。待标定过程结束，即完成了眼动数据映射模型数据集的准备。随后，建立二阶的非线性方程，该方程中含有6个未知参数，需要利用标定阶段采集数据集进行模型的训练和参数求解。本发明进一步利用自适应初始值的梯度下降算法进行模型训练，当模型的损失函数小于阈值或者迭代次数到达阈值时，模型训练结束。

(3)多模型融合的眼动注视点计算；

多模型融合的眼动注视点计算方法过程如图6所示，首先通过外观模型提取稳定的、可解释的人眼图像特征，再基于人眼图像特征建立注视点和屏幕之间的映射模型进行注视点计算。首先由移动设备自带的前置摄像头拍摄用户图像，进行基于haar特征的人脸检测与人眼图像提取；进一步，将人眼图像作为外观模型的输入，应用外观模型计算图像特征。然后选取图像特征点构建CCPC向量，作为映射模型的输入，应用映射模型计算实时注视点。

如图7所示，本发明实例提供的实施本发明的一种面向移动设备的多模型融合驱动的眼动跟踪方法的系统的基本逻辑结构示意图。为了便于说明，仅仅表示出了与本发明实例相关的部分。该系统中功能模块/单元可以是硬件模块/单元、软件模块/单元，主要包括依次连接并馈送数据的以下模块:

(1)基于外观模型的眼动特征分析模块，首先通过现有的图像数据集标注人眼的特征作为训练图像数据，然后通过图像增强方法丰富数据集和训练数据质量，接着设计堆叠沙漏结构的卷积神经网络模型，进行人眼图像特征提取。

(2)基于特征模型的眼动数据映射模块，首先在应用外观模型计算特征的基础上，进一步评估并选取合适的特征组成特征向量，采集特征向量与对应的屏幕标定点数据作为映射模型训练需要的数据集。接着，构建二阶非线性的眼动数据映射模型，拟合数据集中的特征向量与屏幕标定点坐标之间的映射关系。

(3)多模型融合的眼动注视点计算模块，首先在移动设备上进行人脸检测和人眼区域图像提取，作为外观模型的输入，提取人眼图像特征点；然后，选取特征组成特征向量，应用映射模型进行注视点计算。

本发明实例中各个模块可以集成于一体，也可以分离部署,或进一步拆分成多个子模块。各个模块可以按照实例描述分布于实例的系统中，也可以进行相应变化，放置于不同于本发明实例的一个或多个系统中。

本领域的技术人员应该明白，本发明实例可提供成为方法、系统、或计算机程序产品。

本发明实例的各模块或各步骤可以用通用的计算装置来实现，可选的，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此，本发明实例不限制于任何特定的硬件和软件结合。

本说明书实例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种面向移动设备的多模型融合眼动跟踪方法，包括下列步骤：

(1)基于外观模型的眼动特征分析；

首先进行数据集准备，利用合成的人眼图像进行缩放、灰度化、滤波等预处理操作后转化为样本集，利用附带的数据文件，提取人眼图像特征点坐标数据并转化为置信度矩阵作为标签集；随后，设计二阶的堆叠沙漏网络模型，设置模型参数，进行模型的训练；神经网络的训练采用有监督的训练方式，监督学习需要的训练数据包含样本集和对应的标签集；经过预处理后的人眼图像输入模型后分为上、下两路采样方式，上半路在原尺度上进行卷积，卷积核大小为1×1，只改变输入图像的深度信息；下半路首先通过最大池化法进行降采样获取深层的特征，再通过最近插值法进行升采样，更深层特征的上下半路采样嵌套在上一层中；最后将两路采样后的特征结果由里到外逐层合并输出；经过一次沙漏网络计算，会生成和一个输入图像大小相同的置信度矩阵，参与到模型损失的计算中；接着，堆叠下一个沙漏网络重新进行上、下两路采样；在训练过程中，随着训练轮次的增加，动态地为图像样本集数据添加高斯噪声，以降低高阶特征对模型训练的影响，防止模型的过拟合；

(2)基于特征模型的眼动数据映射；

在移动设备上进行眼动跟踪时，由于环境光照复杂，以及屏幕与用户之间的距离、角度等不尽相同，会对眼动跟踪的精确性造成影响；为此，需要在眼动注视点计算之前训练映射模型，用于拟合特征向量与屏幕上注视点坐标之间的精确数量关系；映射模型的设计与训练流程如下：在数据集准备阶段，用户需要标定采集数据；具体的，用户按照指示依次看向屏幕中坐标已知的圆点，同时后台程序通过摄像头拍摄用户眼睛图像，应用外观模型分析人眼图像特征，将所提取的特征点进一步组合成眼角中心-瞳孔中心CCPC特征向量，并记录特征向量与对应的屏幕标定点的坐标；待标定过程结束，即完成了眼动数据映射模型数据集的准备；随后，建立二阶的非线性方程，该方程中含有6个未知参数，需要利用标定阶段采集数据集进行模型的训练和参数求解；进一步利用自适应初始值的梯度下降算法进行模型训练，当模型的损失函数小于阈值或者迭代次数到达阈值时，模型训练结束；

(3)多模型融合的眼动注视点计算；

多模型融合的眼动注视点计算，首先通过外观模型提取稳定的、可解释的人眼图像特征，再基于人眼图像特征建立注视点和屏幕之间的映射模型进行注视点计算；首先由移动设备自带的前置摄像头拍摄用户图像，进行基于haar特征的人脸检测与人眼图像提取；将人眼图像作为外观模型的输入，应用外观模型计算图像特征；然后选取图像特征点构建CCPC向量，作为映射模型的输入，应用映射模型计算实时注视点。

2.实施权利要求1所述的一种面向移动设备的多模型融合驱动的眼动跟踪方法的系统，其特征在于：包括依次连接并馈送数据的以下模块:

(1)基于外观模型的眼动特征分析模块，首先通过现有的图像数据集标注人眼的特征作为训练图像数据，然后通过图像增强方法丰富数据集和训练数据质量，接着设计堆叠沙漏结构的卷积神经网络模型，进行人眼图像特征提取；

(2)基于特征模型的眼动数据映射模块，首先在应用外观模型计算特征的基础上，进一步评估并选取合适的特征组成特征向量，采集特征向量与对应的屏幕标定点数据作为映射模型训练需要的数据集；接着，构建二阶非线性的眼动数据映射模型，拟合数据集中的特征向量与屏幕标定点坐标之间的映射关系；