CN112183200B

CN112183200B - 一种基于视频图像的眼动追踪方法和系统

Info

Publication number: CN112183200B
Application number: CN202010862466.8A
Authority: CN
Inventors: 袁征; 苏朝阳; 邹霖璐; 郑嘉波
Original assignee: CETHIK Group Ltd
Current assignee: CETHIK Group Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2023-10-17
Anticipated expiration: 2040-08-25
Also published as: CN112183200A

Abstract

本发明公开了一种基于视频图像的眼动追踪方法和系统，获取人脸的视频图像，间隔提取视频图像中的一帧进行预处理；提取预处理后的图像中的人脸区域、左眼区域和右眼区域；将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向；基于预先标定的映射函数，将卷积神经网络输出的视线方向映射至屏幕，输出人眼在屏幕上的视点坐标，完成眼动追踪。本发明利用普通的图像采集设备即可实现眼动追踪，并且追踪准确率高。

Description

一种基于视频图像的眼动追踪方法和系统

技术领域

本申请属于人机交互视点追踪技术领域，具体涉及一种基于视频图像的眼动追踪方法和系统。

背景技术

眼动追踪是一项通过传感器、计算机、机器视觉等技术来追踪人体眼睛运动的应用技术。该技术可用于医学、心理学、认知科学等领域的研究，也可以用作手机、电脑、智能汽车等场景下的人机交互的新型输入方法，简单方便，应用前景广泛。

常用的眼动追踪设备有屏幕式和眼镜式，前者是在电脑屏幕上方或下方放置一个长条状的采集和计算设备，包括一个或多个红外光源、红外相机等，后者则是将一系列硬件集成在眼镜上。这两者虽然能够较好地实现眼动追踪功能，但是通常价格昂贵且不便携带。

常用的眼动追踪设备通过瞳孔角膜反射技术计算使用者的视线方向，该方法精度较高也比较成熟，通过控制红外光源切换亮瞳暗瞳，以差分的方式分割图像获得瞳孔，但该方法需要特定的光源和相机设备，难以像摄像头一样向大众普及。而由于摄像头获取的图像受环境影响较大，不同摄像头型制参数区别较大，导致目前基于普通摄像头获取的外观视频图像的眼动追踪效果并不理想。

发明内容

本申请的目的在于提供一种基于视频图像的眼动追踪方法和系统，利用普通的图像采集设备即可实现眼动追踪，并且追踪准确率高。

为实现上述目的，本申请所采取的技术方案为：

一种基于视频图像的眼动追踪方法，用于追踪人眼在屏幕上的视点坐标，所述基于视频图像的眼动追踪方法，包括：

步骤S1、获取人脸的视频图像，间隔提取视频图像中的一帧进行预处理；

步骤S2、提取预处理后的图像中的人脸区域、左眼区域和右眼区域；

步骤S3、将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向；

步骤S4、基于预先标定的映射函数，将卷积神经网络输出的视线方向映射至屏幕，输出人眼在屏幕上的视点坐标，完成眼动追踪。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述步骤S2，提取预处理后的图像中的人脸区域、左眼区域和右眼区域，包括：

采用基于haar特征的AdaBoost级联检测器检测预处理后的图像中是否存在人脸、左眼和右眼，若不存在则结束；否则裁剪出图像中的人脸、左眼和右眼得到人脸区域、左眼区域和右眼区域，并对裁剪的人脸区域、左眼区域和右眼区域进行放大作为最终提取的人脸区域、左眼区域和右眼区域。

作为优选，步骤S3，将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向，包括：

卷积神经网络接收输入的人脸区域、左眼区域和右眼区域，所述左眼区域和右眼区域分别通过32个3x3尺寸的卷积层、64个3x3尺寸的卷积层、2x2大小的最大池化层、128个3x3尺寸的卷积层、64个1x1尺寸的卷积层后得到左眼特征图F_L和右眼特征图F_R，将左眼特征图F_L和右眼特征图F_R拼接后依次通过2个大小为128的全连接层得到特征向量F_E；

所述人脸区域依次通过64个5x5尺寸的卷积层、2x2大小的最大池化层、64个3x3尺寸的卷积层、128个3x3尺寸的卷积层、2x2大小的最大池化层、256个3x3尺寸的卷积层、128个1x1尺寸的卷积层获得脸部特征图，所述脸部特征图经过2个大小为128的全连接层得到对应的特征向量F_F；

将特征向量F_E和特征向量F_F同时输入大小为384的全连接层，将大小为384的全连接层的输出再次输入至大小为128的全连接层，并由大小为128的全连接层输出视线方向。

作为优选，所述映射函数，其标定过程包括：

屏幕依次显示n个定点P_i＝(x_i,y_i)并保持2～3秒,i＝1,2,…,n；

显示每个定点的同时获取人眼看向屏幕显示的定点时的人脸的视频图像，获取视频图像中的m个图像帧进行预处理；

提取预处理后的图像中的人脸区域、左眼区域和右眼区域；

将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向ω_i,j＝(θ_i,j,φ_i,j)，j＝1,2,…,m，其中ω_i,j表示定点P_i对应的第j个视线方向，θ_i,j表示视线方向ω_i,j中的视线在水平方向上的夹角，φ_i,j表示视线方向ω_i,j中的视线在垂直方向上的夹角；

将定点P_i＝(x_i,y_i)以及对应的视线方向ω_i,j＝(θ_i,j,φ_i,j)作为样本数据，构建视线方向到屏幕的映射函数如下：

其中，为映射函数估算的视线方向对应的屏幕上的视点坐标，a_k,b_k,k＝0,1,…,9是映射函数的未定系数，θ,φ为输入映射函数的视线方向；

根据收集到的样本数据通过多项式回归求得映射函数的未定系数，完成映射函数的标定。

作为优选，所述将定点P_i＝(x_i,y_i)以及对应的视线方向ω_i,j＝(θ_i,j,φ_i,j)作为样本数据，包括：

根据3σ原则剔除视线方向ω_i,j中符合|θ-u_θ|>3σ_θ或|φ-u_φ|>3σ_φ的数据，保留剩余数据，其中u_θ表示定点P_i对应的m个θ_i,j的均值，σ_θ表示定点P_i对应的m个θ_i,j的标准差，其中u_φ表示定点P_i对应的m个φ_i,j的均值，σ_φ表示定点P_i对应的m个φ_i,j的标准差；

剔除完成后，将定点P_i对应的剩余的视线方向ω_i,j中的每一个与定点P_i对应组合，构成视线方向-定点形式的样本数据。

本申请还提供一种基于视频图像的眼动追踪系统，用于追踪人眼在屏幕上的视点坐标，所述基于视频图像的眼动追踪系统，包括：

图像预处理模块，用于获取人脸的视频图像，间隔提取视频图像中的一帧进行预处理；

人脸/人眼检测模块，用于提取预处理后的图像中的人脸区域、左眼区域和右眼区域；

视线估计模块，用于将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向；

坐标映射模块，用于基于预先标定的映射函数，将卷积神经网络输出的视线方向映射至屏幕，输出人眼在屏幕上的视点坐标，完成眼动追踪。

作为优选，所述人脸/人眼检测模块，提取预处理后的图像中的人脸区域、左眼区域和右眼区域，执行如下操作：

作为优选，所述视线估计模块，将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向，执行如下操作：

所述视线估计模块调用卷积神经网络接收输入的人脸区域、左眼区域和右眼区域，所述左眼区域和右眼区域分别通过32个3x3尺寸的卷积层、64个3x3尺寸的卷积层、2x2大小的最大池化层、128个3x3尺寸的卷积层、64个1x1尺寸的卷积层后得到左眼特征图F_L和右眼特征图F_R，将左眼特征图F_L和右眼特征图F_R拼接后依次通过2个大小为128的全连接层得到特征向量F_E；

作为优选，所述映射函数，其标定过程包括：

屏幕依次显示n个定点P_i＝(x_i,y_i)并保持2～3秒,i＝1,2,…,n；

提取预处理后的图像中的人脸区域、左眼区域和右眼区域；

本申请提供的基于视频图像的眼动追踪方法和系统，对采集的原始图像进行预处理，提升拍摄到的图像质量，根据先验知识去除无效干扰信息，从而降低对图像采集设备的要求；剪裁出图像的人脸、左右眼区域，取出无用且具有干扰性的背景部分，综合考虑了眼球与头部的位置，提高眼动追踪的准确率；利用卷积神经网络快速提取视线方向，提高眼动追踪的实时性。

附图说明

图1为本申请的基于视频图像的眼动追踪方法的流程图；

图2为本申请的卷积神经网络的一种实施例结构示意图；

图3为本申请视线方向的一种实施例示意图；

图4为本申请基于视频图像的眼动追踪方法的一种处理结果示意图；

图5为本申请的基于视频图像的眼动追踪系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

本实施例提供一种基于视频图像的眼动追踪方法，用于追踪人眼在屏幕上的视点坐标。这里的屏幕可以是屏幕式或眼镜式的屏幕，即可以是电脑屏幕、汽车显示屏或者眼镜显示屏等。

如图1所示，本实施例的基于视频图像的眼动追踪方法，包括以下步骤：

步骤S1、获取人脸的视频图像，间隔提取视频图像中的一帧进行预处理。

视频图像由视频采集设备进行采集并上传，并且本申请无需特定的视频采集设备，采集视频图像时也无需特定的光源。例如利用普通的摄像机在正常光照环境下进行视频采集即可。

对于连续的视频图像，本实施例间隔提取视频帧进行处理，以降低视频处理压力。需要说明的是，这里的间隔可以是间隔一定时间，也可以是间隔一定帧数，因此可以根据实际应用需求(例如刷新频率、硬件处理能力等)实现对每一帧或者某一些帧图像的处理。

对图像进行预处理操作，可以有效提升图像质量，降低对图像采集设备以及外界光源的依赖，以推动眼动追踪的普及，能够适用于普通的低成本摄像头并在大多数非极端环境下使用。在对图像进行预处理时，需要对每一帧提取的图像进行包括光照修正、自适应滤波、均衡化等预处理，减少因环境变化或摄像头硬件等引起的干扰对图像的不利影响。

容易理解的是，在预处理时可根据使用的图像采集设备的实际拍摄情况进行针对性预处理调整，即预处理操作不限于上述提及的操作，在满足尽量使预处理后的图像颜色分布接近统一要求的前提下，可对预处理操作进行增减，以降低图像中的干扰信息，提高眼动追踪的准确性。并且本实施例的预处理基于现有的预处理方法实现，这里就不一一详述。

步骤S2、提取预处理后的图像中的人脸区域、左眼区域和右眼区域。

视线方向主要受到眼睛运动和头部姿态的影响，图像中的其他身体部位和背景并不能提供更多有用信息，反而会增加计算量甚至造成不必要的干扰，因此本实施例只提取图像中的人脸区域、左眼区域和右眼区域进行使用。

本申请在特征提取时可以基于现有的图像特征提取方法实现，例如SIFT(Scale-invariant features transform，尺度不变特征变换)、SURF(Speeded Up RobustFeatures，加速稳健特征)等方法。但本申请为了提高特征提取的准确度，在一实施例中，提供一种优选的特征提取方法如下：

采用基于haar特征的AdaBoost级联检测器检测预处理后的图像中是否存在人脸、左眼和右眼，若不存在则结束；否则裁剪出图像中的人脸、左眼和右眼得到人脸区域、左眼区域和右眼区域，并对人脸区域、左眼区域和右眼区域进行放大作为最终提取的人脸区域、左眼区域和右眼区域。

其中，基于haar特征的AdaBoost级联检测器为现有的haar分类器，AdaBoost级联检测器通过集成多个弱分类器实现精准分类，从原图中用矩形框出人脸区域I_F、左眼区域I_L、右眼区域I_R。并且为防检测器得到的区域过小，将预测得到的包围框适当放大，例如将双眼区域I_L、I_R的包围框放大1.1～1.2倍，人脸区域I_F的包围框水平放大1.1～1.3倍、垂直向放大1.3～1.5倍，本实施例对裁剪后的区域进行方法可显著降低有用特征被排除在外的可能，提升后续视线估计的准确性。

步骤S3、将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向。

针对提取的人脸区域、左眼区域和右眼区域卷积神经网络可以采用相同的结构层进行处理，但由于人脸区域包含的图像尺寸更大并且所包含的信息也更为复杂，因此本申请在一实施例中提供一种优选的卷积神经网络如下：

如图2所示，本申请的卷积神经网络包括接收人脸区域的第一结构层(CONV1)，接收左眼区域的第二结构层(CONV2)和接收右眼区域的第三结构层(CONV3)，第一结构层的输出作为第四结构层(Fully Connected4)的输入，第二结构层和第三结构层的输出拼接后作为第五结构层(Fully Connected5)的输入，第四结构层的输出和第五结构层的输出同时输入至第六结构层(Fully Connected6)中，由第六结构层输出视线方向ω＝(θ,φ)。

其中第一结构层包括64个5x5尺寸的卷积层、2x2大小的最大池化层、64个3x3尺寸的卷积层、128个3x3尺寸的卷积层、2x2大小的最大池化层、256个3x3尺寸的卷积层、128个1x1尺寸的卷积层。

第二结构层和第三结构层均包括32个3x3尺寸的卷积层、64个3x3尺寸的卷积层、2x2大小的最大池化层、128个3x3尺寸的卷积层、64个1x1尺寸的卷积层。

第四结构层和第五结构层均包括2个大小为128的全连接层。

第六结构层包括一个大小为384的全连接层和一个大小为128的全连接层。

因此本实施例中人脸区域、左眼区域和右眼区域输入至卷积神经网络中的处理流程如下：

卷积神经网络接收输入的人脸区域、左眼区域和右眼区域，所述左眼区域和右眼区域分别通过32个3x3尺寸的卷积层、64个3x3尺寸的卷积层、2x2大小的最大池化层、128个3x3尺寸的卷积层、64个1x1尺寸的卷积层后得到左眼特征图F_L和右眼特征图F_R，将左眼特征图F_L和右眼特征图F_R拼接后依次通过2个大小为128的全连接层得到特征向量F_E。双眼由于存在一定的相似性，因此使用相同的结构层。

所述人脸区域依次通过64个5x5尺寸的卷积层、2x2大小的最大池化层、64个3x3尺寸的卷积层、128个3x3尺寸的卷积层、2x2大小的最大池化层、256个3x3尺寸的卷积层、128个1x1尺寸的卷积层获得脸部特征图，所述脸部特征图经过2个大小为128的全连接层得到对应的特征向量F_F。由于人脸区域的尺寸更大且包含的信息更多更复杂，因此采用更多数量的卷积核以及更深的卷积层提取特征。

将特征向量F_E和特征向量F_F同时输入大小为384的全连接层，将大小为384的全连接层的输出再次输入至大小为128的全连接层，并由大小为128的全连接层输出视线方向ω＝(θ,φ)，其中的θ表示视线方向ω中的视线在水平方向上的夹角，φ表示视线方向ω中的视线在垂直方向上的夹角。由于视线方向为一个三维的向量，因此本实施例对视线方向的确定依据现有的球面坐标系中对向量的确定方式，例如如图3所示，yaw即表示现有的球面坐标系中向量在水平方向上的夹角，pitch即表示现有的球面坐标系中向量在垂直方向上的夹角。

由于本申请获取视线方向时，结合了人脸区域，人脸区域可侧面反映当前人的头部姿态，因此本申请的视线方向包含了隐式头部姿态，充分考虑影响视线方向的各个因素，从而得到准确率更高的视线方向。

由卷积神经网络输出视线方向准确率高，并且输出结构正确率稳定，因此本申请基于卷积神经网络进行眼动追踪。当然为了保证卷积神经网络使用的可靠性，需要在卷积神经网络使用前，对卷积神经网络进行训练，训练时可以使用弹球损失pinball loss作为代价函数，使用有监督的训练方式，用于卷积神经网络训练的样本图像尽量处理至图像颜色分布接近统一要求，该统一要求与步骤1中预处理的要求相同。

需要说明的是，卷积神经网络的训练已经是较为成熟的技术，因此本申请中不对训练步骤进一步限制。并且对输入卷积申请网络的图像的统一要求可以根据实际处理情况进行规定，例如根据像素差、光照等进行统一规定。

由于人与屏幕的相对位置不确定，并且视线方向在屏幕上的坐标与两者的相对位置有很大的关系，因此需要建立映射函数反应视线方向与对应的屏幕坐标的关系。

由于事先限定使用位置而建立的映射函数，在使用时无法保证人与屏幕的相对位置一定与事先限定的使用位置相同，并且用户的使用体验也不佳，因此本实施例在用户每次使用前，根据用户当前状态建立映射函数。

本实施例中映射函数的标定过程如下：

屏幕依次显示n个定点P_i＝(x_i,y_i)并保持2～3秒,i＝1,2,…,n。

显示每个定点的同时采集人眼看向屏幕显示的定点时的人脸的视频图像，获取视频图像中的m个图像帧进行预处理。

提取预处理后的图像中的人脸区域、左眼区域和右眼区域。

将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向ω_i,j＝(θ_i,j,φ_i,j)，j＝1,2,…,m，其中ω_i,j表示定点P_i对应的第j个视线方向，θ_i,j表示视线方向ω_i,j中的视线在水平方向上的夹角，φ_i,j表示视线方向ω_i,j中的视线在垂直方向上的夹角。

容易理解的是，若m个图像帧存在无人脸、左眼或右眼的图像帧，则最终得到的一个定点对应的视线方向则不足m个。本实施例以标定时人一直在屏幕前，即m个图像帧均存在人脸、左眼或右眼的情况为例进行说明。

其中，为映射函数估算输出的视线方向对应的屏幕上的视点坐标，a_k,b_k,k＝0,1,…,9是映射函数的未定系数，θ,φ为输入映射函数的视线方向。

根据收集到的样本数据通过多项式回归(例如最小二乘法)求得映射函数的未定系数，完成映射函数的标定。其中多项式回归求解为数据处理领域较为成熟的技术，这里就不再进行详述。例如本实施例中在一特定环境下标定后的结果如下：

眼动追踪环境为：22英寸显示器垂直于桌面，摄像头安装在显示器顶部正中，人与显示器的距离约55cm，正对显示器中心。

标定求得参数为：

a₀到a₉依次为：[-2.044,10.222,-0.002,-0.001,0.130,0.956,0.002,-0.040,56.748,-0.004]。

b₀到b₉依次为：[9.528,0.911,0.429,-0.475,104.285,-0.407,2.400,25.752,-2.401,51.481]。

考虑到可能出现的外界环境对使用者的干扰导致视线大幅偏离，完成每一个定点处的数据收集和处理后，首先进行一次异常点剔除。剔除过程如下：

本实施例提供的标定方法仅需在用户使用前进行一次标定即可，若用户的状态(用户与屏幕之间的相对位置)发生变化，则重新进行标定即可，无需事先限定用户的状态，显著提高用户的使用体验。

如图4所示，为本申请的基于视频图像的眼动追踪方法的一种处理结果示意图，根据采集的图像可将人眼的注视点映射至屏幕上，映射至屏幕上的视点坐标可用于进行人机交互等处理。

本申请提供的眼动追踪方法无需购买昂贵的特殊眼动设备，使用一般的摄像头或平板电脑等移动设备上自带的摄像头即可采集外观图像；使用大量数据训练得到的神经网络模型避免了手工设计特征，直接通过外观图像估算视线向量；定标操作使得本发明方法无需事先限定使用者的使用位置；图像预处理模块确保整个系统可在大部分环境中使用。这些优点降低了眼动追踪的使用门槛，给更多人体验和简单应用提供了方便。

如图5所示，在另一实施例中，还提供一种基于视频图像的眼动追踪系统，用于追踪人眼在屏幕上的视点坐标，所述基于视频图像的眼动追踪系统，包括：

关于本申请基于视频图像的眼动追踪系统的具体限定可以参见上文中对于基于视频图像的眼动追踪方法的限定，在此不再赘述。上述基于视频图像的眼动追踪系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

与上述基于视频图像的眼动追踪方法对应，本实施例的一种实现方式中，所述人脸/人眼检测模块，提取预处理后的图像中的人脸区域、左眼区域和右眼区域，执行如下操作：

在一个实施例中，所述视线估计模块，将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向，执行如下操作：

在一个实施例中，所述映射函数，其标定过程包括：

屏幕依次显示n个定点P_i＝(x_i,y_i)并保持2～3秒,i＝1,2,…,n；

提取预处理后的图像中的人脸区域、左眼区域和右眼区域；

在一个实施例中，所述将定点P_i＝(x_i,y_i)以及对应的视线方向ω_i,j＝(θ_i,j,φ_i,j)作为样本数据，包括：

应该理解的是，虽然图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于视频图像的眼动追踪方法，用于追踪人眼在屏幕上的视点坐标，其特征在于，所述基于视频图像的眼动追踪方法，包括：

步骤S3、将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向，包括：

卷积神经网络接收输入的人脸区域、左眼区域和右眼区域，所述左眼区域和右眼区域分别通过32个3x3尺寸的卷积层、64个3x3尺寸的卷积层、2x2大小的最大池化层、128个3x3尺寸的卷积层、64个1x1尺寸的卷积层后得到左眼特征图F_L和右眼特征图E_R，将左眼特征图F_L和右眼特征图F_R拼接后依次通过2个大小为128的全连接层得到特征向量F_E；

将特征向量F_E和特征向量F_F同时输入大小为384的全连接层，将大小为384的全连接层的输出再次输入至大小为128的全连接层，并由大小为128的全连接层输出视线方向；

2.如权利要求1所述的基于视频图像的眼动追踪方法，其特征在于，所述步骤S2，提取预处理后的图像中的人脸区域、左眼区域和右眼区域，包括：

3.如权利要求1所述的基于视频图像的眼动追踪方法，其特征在于，所述映射函数，其标定过程包括：

屏幕依次显示n个定点P_i＝(x_i,y_i)并保持2～3秒,i＝1,2,…,n；

显示每个定点的同时获取人眼看向屏幕显示的定点时的人脸的视频图像，采样视频图像中的m个图像帧进行预处理；

提取预处理后的图像中的人脸区域、左眼区域和右眼区域；

将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向ω_i,j＝(θ_i,j,Ф_i,j)，j＝1,2,…,m，其中ω_i,j表示定点P_i对应的第j个视线方向，θ_i,j表示视线方向ω_i,j中的视线在水平方向上的夹角，Ф_i,j表示视线方向ω_i,j中的视线在垂直方向上的夹角；

将定点P_i＝(x_i,y_i)以及对应的视线方向ω_i,j＝(θ_i,j,Ф_i,j)作为样本数据，构建视线方向到屏幕的映射函数如下：

其中，为映射函数估算的视线方向对应的屏幕上的视点坐标，a_k,b_k,k＝0,1,…,9是映射函数的未定系数，θ,Ф为输入映射函数的视线方向；

4.如权利要求3所述的基于视频图像的眼动追踪方法，其特征在于，所述将定点P_i＝(x_i,y_i)以及对应的视线方向ω_i,j＝(θ_i,j,Ф_i,j)作为样本数据，包括：

根据3σ原则剔除视线方向ω_i,j中符合|θ-u_θ|>3σ_θ或|Ф-u_Ф|>3σ_Φ的数据，保留剩余数据，其中u_θ表示定点P_i对应的m个θ_i,j的均值，σ_θ表示定点P_i对应的m个θ_i,j的标准差，其中u_Φ表示定点P_i对应的m个Ф_i,j的均值，σ_Φ表示定点P_i对应的m个Φ_i,j的标准差；

5.一种基于视频图像的眼动追踪系统，用于追踪人眼在屏幕上的视点坐标，其特征在于，所述基于视频图像的眼动追踪系统，包括：

坐标映射模块，用于基于预先标定的映射函数，将卷积神经网络输出的视线方向映射至屏幕，输出人眼在屏幕上的视点坐标，完成眼动追踪；

其中，所述视线估计模块，将提取的所述人脸区域、左眼区域和右眼区域输入预训练的卷积神经网络，得到卷积神经网络输出的视线方向，执行如下操作：

6.如权利要求5所述的基于视频图像的眼动追踪系统，其特征在于，所述人脸/人眼检测模块，提取预处理后的图像中的人脸区域、左眼区域和右眼区域，执行如下操作：

7.如权利要求5所述的基于视频图像的眼动追踪系统，其特征在于，所述映射函数，其标定过程包括：

屏幕依次显示n个定点P_i＝(x_i,y_i)并保持2～3秒,i＝1,2,…,n；

提取预处理后的图像中的人脸区域、左眼区域和右眼区域；

8.如权利要求7所述的基于视频图像的眼动追踪系统，其特征在于，所述将定点P_i＝(x_i,y_i)以及对应的视线方向ω_i,j＝(θ_i,j,Ф_i,j)作为样本数据，包括：

根据3σ原则剔除视线方向ω_i,j中符合|θ-u_θ|>3σ_θ或|Ф-u_Ф|>3σ_Ф的数据，保留剩余数据，其中u_θ表示定点P_i对应的m个θ_i,j的均值，σ_θ表示定点P_i对应的m个θ_i,j的标准差，其中u_Ф表示定点P_i对应的m个Ф_i,j的均值，σ_Ф表示定点P_i对应的m个Ф_i,j的标准差；