CN112749655A

CN112749655A - 视线追踪方法、装置、计算机设备和存储介质

Info

Publication number: CN112749655A
Application number: CN202110009920.XA
Authority: CN
Inventors: 陈荟西; 丘延君
Original assignee: Forchange Technology Shenzhen Co ltd
Current assignee: Forchange Technology Shenzhen Co ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-05-04
Anticipated expiration: 2041-01-05
Also published as: CN112749655B

Abstract

本申请涉及计算机技术领域，特别是涉及一种视线追踪方法、装置、计算机设备和存储介质。所述方法包括：获取待追踪视线用户的用户图像；对用户图像进行预处理，生成对应用户图像的预处理图像，预处理图像包括待追踪视线用户的人脸图像、左眼图像以及右眼图像；基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置。采用本方法能够提升视线追踪的准确性。

Description

视线追踪方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种视线追踪方法、装置、计算机设备和存储介质。

背景技术

视线(Gaze)往往可以揭示人类的心理状态甚至行为活动。视线估计(Gazeestimation)可以透过人的视线轨迹深入了解人的注意力行为，它在许多领域都有应用，例如神经科学研究、人机交互、临床医学研究、市场与用户研究、心理学研究、线上教育等。

在传统方式中，视线预估依赖于额外的嵌入式设备，例如，利用昂贵的3D摄像头捕获用户图像以估计用户视线。但是该种方式将造成较高的成本，且基于该设备所采集到的数据也不一定能够准确的进行视线追踪。

因此，如何提供一种能够准确的进行视线追踪的方法成为亟待解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升视线追踪准确性的视线追踪方法、装置、计算机设备和存储介质。

一种视线追踪方法，所述方法包括：

获取待追踪视线用户的用户图像；

对用户图像进行预处理，生成对应用户图像的预处理图像，预处理图像包括待追踪视线用户的人脸图像、左眼图像以及右眼图像；

基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置。

在其中一个实施例中，对用户图像进行预处理，生成对应用户图像的预处理图像，包括：

识别用户图像中的人脸，生成对应的人脸图像；

对人脸图像进行人脸关键点的提取，得到对应人脸的人脸关键点；

基于人脸关键点，对人脸图像进行左右眼的检测，分别得到左眼图像以及右眼图像。

在其中一个实施例中，基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置，包括：

对预处理图像进行特征提取，生成对应的特征数据；

根据特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量；

根据视线偏移量对初始视线位置进行修正，得到对应待追踪视线用户的视线位置。

在其中一个实施例中，对预处理图像进行特征提取，生成对应的特征数据，包括：

对预处理图像进行特征提取，生成对应的用户特征；

根据用户特征，确定用户的左右眼的特征概率；

基于特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量，包括：

基于用户特征，预测待追踪视线用户的视线的初始视线位置以及特定偏移量；

根据特征概率，预测待追踪视线用户的视线的误差偏移量。

在其中一个实施例中，对预处理图像进行特征提取，生成对应的特征数据之后，还包括：

基于预设条件，判断特征数据是否有效；

当确定特征数据有效时，则继续基于特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量。

在其中一个实施例中，基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置未通过预先训练完成的预测模型预测的，预测模型的训练方式包括：

获取训练集数据，训练集数据包括训练图像以及对应训练图像的视线坐标位置；

将训练集数据输入构建的初始预测模型中，通过初始预测模型进行特征数据以及视线预测，得到预测视线位置；

基于预测视线位置以及视线坐标位置，确定初始预测模型的模型损失值；

通过模型损失值对初始预测模型进行模型参数的更新，并对参数更新后的模型进行迭代训练，得到训练后的预测模型。

一种视线追踪装置，所述装置包括：

用户图像获取模块，用于获取待追踪视线用户的用户图像；

预处理模块，用于对用户图像进行预处理，生成对应用户图像的预处理图像，预处理图像包括待追踪视线用户的人脸图像、左眼图像以及右眼图像；

预测模块，用于基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。

上述视线追踪方法、装置、计算机设备和存储介质，通过获取待追踪视线用户的用户图像，并对用户图像进行预处理，生成对应用户图像的预处理图像，预处理图像包括待追踪视线用户的人脸图像、左眼图像以及右眼图像，然后基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置。从而，可以根据采集到的用户图像得到的预处理图像，对用户的视线进行预测，得到视线位置，视线追踪结合了用户的人脸图像、左眼图像以及右眼图像，可以提升视线预测的准确性。

附图说明

图1为一个实施例中视线追踪方法的应用场景图；

图2为一个实施例中视线追踪方法的流程示意图；

图3为一个实施例中FAUL-Gaze的整体框架的示意图；

图4为一个实施例中FA-iTracker模型结构的示意图；

图5为一个实施例中FPGC模型结构的示意图；

图6为一个实施例中多个校准任务的示意图；

图7为一个实施例中校正任务步骤的流程示意图；

图8至图11为多个实施例中不同模型的试验比对效果的示意图；

图12为一个实施例中视线追踪装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视线追踪方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可以采集用户图像，并通过网络发送至服务器104。服务器104在获取待追踪视线用户的用户图像后，可以对用户图像进行预处理，生成对应用户图像的预处理图像，预处理图像可以包括待追踪视线用户的人脸图像、左眼图像以及右眼图像。进一步，服务器104可以基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置。其中，终端102可以各种具备图像采集功能的设备，例如照相机、摄像机、录像机等，或者也可以是携带有摄像头的各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种视线追踪方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取待追踪视线用户的用户图像。

其中，用户图像是指在对用户进行视线追踪时采集到的待追踪视线用户的图像。

在本实施例中，参考图3示出了一种视线预估框架FAUL-Gaze整体框架，服务器可以通过摄像头实时采集待追踪视线用户的视频流数据，然后从中获取对应各时间点的当前帧图像，并作为用户图像，以供后续进行处理。

步骤S204，对用户图像进行预处理，生成对应用户图像的预处理图像，预处理图像包括待追踪视线用户的人脸图像、左眼图像以及右眼图像。

在本实施例中，服务器在获取到用户图像后，可以通过对用户图像中人脸以及左右眼分别进行识别，得到对应的识别结果，然后从用户图像中裁减出人脸图像、左眼图像以及右眼图像，以得到预处理后的预处理图像。

步骤S206，基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置。

具体地，服务器可以根据得到的预处理图像，即人脸图像、左眼图像以及右眼图像，对用户的视线进行预测，以确定用户的视线位置。

在本实施例中，服务器可以将通用视线预估与个性化校准相结合的方式，通过更具针对性的方式对用户的视线进行个性化的预测。

上述视线追踪方法中，通过获取待追踪视线用户的用户图像，并对用户图像进行预处理，生成对应用户图像的预处理图像，预处理图像包括待追踪视线用户的人脸图像、左眼图像以及右眼图像，然后基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置。从而，可以根据采集到的用户图像得到的预处理图像，对用户的视线进行预测，得到视线位置，视线追踪结合了用户的人脸图像、左眼图像以及右眼图像，可以提升视线预测的准确性。

在其中一个实施例中，对用户图像进行预处理，生成对应用户图像的预处理图像，可以包括：识别用户图像中的人脸，生成对应的人脸图像；对人脸图像进行人脸关键点的提取，得到对应人脸的人脸关键点；基于人脸关键点，对人脸图像进行左右眼的检测，分别得到左眼图像以及右眼图像。

在本实施例中，继续参考图3，服务器在获取到用户图像后，可以通过人脸检测器，对用户图像进行识别处理，与确定用户图像中的用户人脸。

进一步，服务器基于识别得到的用户人脸，对用户图像进行裁减，以得人脸图像。

在本实施例中，服务器在获取到人脸图像后，可以将人脸图像输入关键点检测器，以通过关键点检测器进行人脸关键点的识别，并基于识别得到的人脸关键点，确定用户的左眼以及右眼，并从人脸图像中裁减出左眼图像以及右眼图像。

上述实施例中，通过先从用户图像中识别出人脸，得到人脸图像，然后对人脸图像进行人脸关键点的提取，并得到左眼图像和右眼图像，从而，使得确定的左眼图像和右眼图像是与人脸图像相对应的，可以保障得到的人脸图像、左眼图像和右眼图像是同一用户的图像，进而可以提升后续处理的准确性。

在其中一个实施例中，基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置，可以包括：对预处理图像进行特征提取，生成对应的特征数据；根据特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量；根据视线偏移量对初始视线位置进行修正，得到对应待追踪视线用户的视线位置。

继续参考图3，在本实施例中，服务器可以将获取到的人脸图像、左眼图像和右眼图像分别输入FA-iTracker通用预估模型，以通过通用预估模型对各图像进行特征数据的提取以及进行初始视线位置的预测。

在本实施例中，服务器可以通过个性化视线校准器(Feature-basedPersonalized Gaze Calibrator，FPGC)，即与得到的用户的特征数据，对用户的实现位置进行个性化校准，即服务器通过FPGC模型进行视线偏移量的预测，然后基于预测得到的视线偏移量，对FA-iTracker预测得到的初始视线位置进行修正，以得到对应待追踪视线用户的视线位置。

上述实施例中，通过对预处理图像进行特征提取，生成对应的特征数据，然后根据特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量，并根据视线偏移量对初始视线位置进行修正，得到对应待追踪视线用户的视线位置。从而，视线预测结合各用户个性化的信息，通过对各用户的实现进行个性化的偏移量的预测，并对预测得到的初始视线位置进行修正，可以提升最终得到的视线位置的准确性。

在其中一个实施例中，对预处理图像进行特征提取，生成对应的特征数据，可以包括：对预处理图像进行特征提取，生成对应的用户特征；根据所述用户特征，确定用户的左右眼的特征概率。

具体地，参考图4，服务器可以将预处理图像，即人脸图像、左眼图像以及右眼图像分别输入三个相同且独立的CNN中，并分别进行特征提取，得到用户特征，即以分别得到的人脸特征(conv_face)、左眼特征(conv_eyeL)、右眼特征(conv_eyeL)。

进一步，服务器对提取到的左眼特征(conv_eyeL)以及右眼特征(conv_eyeL)进行特征融合，以得到融合左右眼的融合特征。

进一步，服务器可以根据得到的人脸特征向量以及左右眼的融合特征，确定对应左右眼的特征概率，即是否为眼睛，以及是否为左眼或者是右眼的概率，即logits。

在本实施例中，图4中各卷积层的大小分别为：CONV-F1(11*11*32)，CONV-EL1(11*11*32)，CONV-ER1(11*11*32)；CONV-F2(5*5*48)，CONV-EL2(5*5*48)，CONV-ER2(5*5*48)；CONV-F3(3*3*96)，CONV-EL3(3*3*96)，CONV-ER3(3*3*96)；CONV-F4(1*1*16)，CONV-EL4(1*1*16)，CONV-ER4(1*1*16)。各FC层的尺寸为：FC-F1(64)，FC-F2(32)，FC-EL(64)，FC-ER(64)，FC-EYE(64)，EyeL_clf(FC1:32,FC2:2)，EyeR_clf(FC1:32,FC2:2)，FC1(128)，FC2(2)。

在本实施例中，基于特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量，可以包括：基于用户特征，预测待追踪视线用户的视线的初始视线位置以及特定偏移量；根据特征概率，预测待追踪视线用户的视线的误差偏移量。

在本实施例中，在进行视线预估的时候，重点在于确定实现落在终端显示界面上的位置，即视线落在屏幕内的位置，对于超出屏幕大小的位置，不需要进行预测。因此，继续参考图4，服务器可以通过得到的用户特征，即人脸特征(conv_face)、左眼特征(conv_eyeL)、右眼特征(conv_eyeL)，对待追踪视线用户的视线的初始视线位置进行预测。

进一步，服务器可以通过对模型FC2层的输出记过利用sigmoid函数归一化至0-1范围内，再根据真实的屏幕大小计算出初始视线位置。

进一步，参考图5，服务器首先直接将用户特征，即人脸特征(conv_face)、左眼特征(conv_eyeL)、右眼特征(conv_eyeL)进行合并，然后使用全连接(User Scope)预测用户的特定偏移量(user_offset)。然后，服务器将logits特征概率输入两个不同的全连接层Logits Scope和Offset Scope中，预测待追踪视线用户的视线的误差偏移量。其中LogitsScope预测视线的修正结果(calib_logits)，它对通用模型的视线输出logits进行修正，Offset Scope预测视线的修正偏移(calib_off)，它预测的是一个误差偏移量。

在本实施例中，图5中网络结构中各FC层有以下尺寸：FC1(1024)，FC2(2)，FC-L1(2048)，FC-L2(2)，FC-O1(2048)，FC-O2(2)。各卷积层的大小如下：CONV1(5*5*256)，CONV2(3*3*16)，CONV3(3*3*128)，CONV4(3*3*16)。其中CONV1步长为2，其余卷积步长为1。

在其中一个实施例中，对预处理图像进行特征提取，生成对应的特征数据之后，还可以包括：基于预设条件，判断特征数据是否有效；当确定特征数据有效时，则继续基于特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量。

具体地，预设条件用于判定得到的特征数据是否有效，例如，根据各特征数据，确定检测到的左眼图像以及右眼图像为眼睛图像的概率，进而根据概率值确定特征数据是否有效。

在本实施例中，服务器通过人脸检测、面部关键点检测及FA-iTracker预测后，得到当前帧用户图像上检测到一对有效的眼睛的概率，并判定概率是否小于预设阈值，如是否小于0.35，若眼睛概率小于0.35，则确定为检测到有效的眼睛，则确定该特征数据无效，并放弃该用户图像。

在本实施例中，对于有效的特征数据，服务器可以特征数据，继续进行视线的预测。

上述实施例中，通过基于预设条件，判断特征数据是否有效，并当确定特征数据有效时，则继续基于特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量。从而，可以过滤掉无效的数据，减少对无效数据进行处理所带来的资源浪费。

在其中一个实施例中，基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置未通过预先训练完成的预测模型预测的，预测模型的预测方式可以包括：获取训练集数据，训练集数据包括对应训练图像以及对应训练图像的视线坐标位置；将训练集数据输入构建的初始预测模型中，通过初始预测模型进行特征数据以及视线预测，得到预测视线位置；基于预测视线位置以及视线坐标位置，确定初始预测模型的模型损失值；通过模型损失值对初始预测模型进行模型参数的更新，并对参数更新后的模型进行迭代训练，得到训练后的预测模型。

在本实施例中，服务器可以通过校准任务的方式获取初始训练图像，然后对获取到的初始训练图像进行预处理，以得到训练集数据。生成的训练集数据中可以包括训练图像以及视线坐标位置。

在本实施例中，服务器在获取到训练数据后，可以将训练数据输入构建的初始预测模型中，即构建的FA-iTracker+FPGC中，通过初始预测模型FA-iTracker+FPGC根据训练集数据进行特性数据提取以及视线预测，得到预测视线位置。

进一步，服务器可以基于预测视线位置以及训练集数据中真实的视线坐标位置，计算初始预测模型的模型损失值。

进一步，服务器可以通过模型损失值对初始预测模型进行模型参数的更新，并对参数更新后的模型进行迭代训练，得到训练后的预测模型。

在本实施例中，服务器可以预先设置训练参数，然后基于训练参数对模型进行训练，例如，设置训练次数，完成百分比等。

在其中一个实施例中，获取训练集数据，可以包括：获取图像采集指令；基于图像采集指令，展示视频流，并采集用户基于视频流进行视线变化的初始训练图像，视频流中各帧视频流图像包括定位点的坐标位置；对各初始训练图像进行预处理，生成对应的训练图像，训练图像包括初始训练图像中用户的人脸图像、左眼图像以及右眼图像；基于各训练图像以及对应帧视频流图像中定位点的坐标位置，得到训练集数据。

如前所述，服务器可以通过校准任务的方式获取初始训练图。例如，参考图6，服务器提供了四种不同的校准任务，获取初始训练图像。

在本实施例中，服务器可以通过动态校准的方式，获取初始训练图像。具体地，服务器在接收到图像采集指令，或者是校准指令后，通过屏幕播放视频流，即移动屏幕上的校准点(目标点)，同时要求用户视线紧跟目标移动轨迹的情况下，动态采集用户当前注视状态，以获取初始训练数据。下面对四个校准任务分别进行介绍：

任务一：参考图6中(a)所示，在矩形任务，小星球的运动方向为顺时针，并从左上角开始出发，匀速地围绕矩形四边运动一周。用户只需要将视线紧跟运动的星球即可。

任务二：参考图6中(b)所示，在矩形任务，与任务一一样，但是小星球的运动起点为右下角。用户只需要将视线紧跟运动的星球即可。这是由于任务一采集的数据可能会在某些边缘被数据清洗规则判断无效，以另一角点为运动起点可以很好的保证能采集到较为完整边缘点数据。

任务三：参考图6中(c)所示，在圆形任务，小星球的运动方向为顺时针，并匀速地围绕圆周运动。用户只需要将视线紧跟运动的星球。这个任务可以采集一些非边缘的数据。

任务四：参考图6中(d)所示，在定点任务，小星球将会在指定的9个点出现。当一个点亮起的时候，其他点都不会出现。每个位置，小星球会亮起3-5秒。这是为了采集一些边角的点。

在校准任务中，服务器可以采集到用户的图像，即人眼跟随屏幕中小星球进行移动的数据，从而得到初始训练数据。同时，服务器可以根据视频流中各帧视频流图像中目标点的位置，即屏幕中小星球的位置，确定对应采集到的图像对对应的用户的实际视线坐标。

在本实施例中，服务器可以对各初始训练图像进行预处理，生成对应的训练图像，训练图像可以包括初始训练图像中用户的人脸图像、左眼图像以及右眼图像，具体处理过程如前文所述，此处不再赘述。

在本实施例中，参考图7，服务器在通过构建的初始预测模型FA-iTracker+FPGC根据训练集数据进行特性数据提取后，还可以基于得到的特征数据，对训练集数据进行数据清洗，以得到更加准确的数据。

在本实施例中，清洗的关键是判断出用户是否正关注着屏幕中的移动目标，并从中筛选出有效数据进行下一阶段的训练。

在本实施例中，服务器可以通过多规则联合的数据清洗方式，进行数据请求，具体如下：

规则一：通过人脸检测、面部关键点检测及FA-iTracker，判断当前帧是否能检测到一对有效的眼睛。参考图4，在得到左眼图像以及右眼图像的特征数据后，服务器可以通过眼部分类器(EyeL_clf，EyeR_clf))，判断输入的眼部图像，即左眼图像和右眼图像为正类还是负类，从而，输出两只眼睛分类的概率eyeL prob，eyeR prob。其中，正类表示图像被判断为眼睛图片，负类表示图像被判断为非眼睛图片。

在本实施例中，服务器可以放弃眼睛概率小于预设阈值的训练集数据。

规则二：计算模型预测的坐标位置与实际坐标相关系数，并在确定预测的相关系数大于预设值的时候，则确定训练集数据有效。

规则三：指定一个距离阈值，例如8cm，如果模型预测的结果与真实数据的欧氏距离大于预设阈值，即大于8cm，则认为该训练集数据无效。

规则四：丢弃模糊样本。对于定点任务，即校准任务中的任务4，丢弃在头部动作转换阶段约0.5-1秒的训练集数据。因为在小星球切换时，人需要一些时间才能反应过来，从而采集到的数据并不准确，容易引起误判。对于其他任务，丢弃任务最开始0.8秒和最后0.2秒的训练集数据，即在校准任务最开始0.8秒和最后0.2秒采集的数据。

以下对于本申请发明的试验效果进行详细分析说明。

首先，对FAUL-Gaze在MPII Face Gaze上的实验结果，通过将15名受试者随机划分为14名进行训练和1名进行测试。从表1可以看出FA-iTracker将平均误差从4.57cm(iTracker)和4.20cm(Full-face)减小到4.02cm，经FPGC-FC校准(9个校准点)后降低至2.51cm，经FPGC-CNN校准(9个校准点)后大幅度降低至2.22cm。

表1

图8给出了FA-iTracker与无校准模型Full-face、iTracker的对比情况，图6中示出了FPGC-FC从3.58m(3个校准点)下降到2.51cm(9个校准点)的变化过程，以及表现得更好的FPGC-CNN从3.17cm(3个校准点)下降到2.22cm(9个校准点)的变化过程。

图9示出了将15名受试者划分为10名进行训练、5名进行测试的实验结果，可以直观的看出FA-iTracker的平均误差略低于iTracker，而经FPGC-CNN校准后的误差大幅度低于iTracker-SVR-random、iTracker-SFO，最终减少到2.48cm(-36.4％)(9个校准点)。

其次，对FAUL-Gaze在TabletGaze上的实验结果。同样的，在Tablet Gaze数据集上对FA-iTracker和FPGC进行了评估。表2示出了将40名受试者分成32名进行训练和8名进行测试的实验结果，可以看出，对于未校准模型，FA-iTracker是表现得最好的，它将平均误差从3.63cm(MPIIGaze)、3.17cm(TabletGaze)和3.09(iTracker)减小到2.91cm。对于校准后的模型，同样使用13个校准点，FPGC-FC和FPGC-CNN将平均误差从2.58cm(iTracker-SVR)降低至2.01cm和1.71cm(-33.7％)。并且表中分别给出了FPGC-FC和FPGC-CNN在校准点个数分别为3、5、9、13时的误差表现。

表2

iTracker和SAGE都在GazeCapture数据集上进行了实验，它们的最优结果(如表3所示)代表着视线估计领域的标杆，虽然我们没有GazeCapture的获取渠道，但也可以将我们在TabletGaze的最终实验结果与它们在GazeCapture Tablet的结果进行横向对比(如图10所示)，可以看出本申请方案的模型在平板电脑上的精度略胜一筹：在9个校准点的情况下，FPGC-CNN的平均误差相比SAGE-SFO下降11.9％，在13个校准点的情况下，FPGC-CNN相比iTracker-SVR下降19.3％。

表3

进一步，对于FAUL-Gaze在TobiiGaze上的实验结果。

在本实施例中，将20名受试者划分为18名进行训练和2名进行测试，这18名会与MPIIFaceGaze、TabletGaze一起进行联合训练，并在剩余2名上进行测试。

表4示出了了在TobiiGaze数据集上对FA-iTracker和FPGC进行评估的结果，可以看出无校准阶段在TobiiGaze上表现得并不好，大幅度落后于其在MPIIFaceGaze和TabletGaze上的表现。这也解释了实际情况中低分辨率、低清晰度带来的误差影响，同时再次证明了个性化校准的重要性，以及体现出FPGC带来高性能：经FPGC-FC校正后，误差降低至2.09cm(9个校准点)，2.00cm(13个校准点)；经FPGC-CNN校正后，取得了更好的效果，误差降低至1.76cm(9个校准点)，1.61cm(13个校准点)，图11更直观的给出了校准点个数分别为9和13时的误差对比情况。这个结果已经超过iTracker和SAGE模型在比我们(笔记本电脑)设备更小的平板电脑上的标杆结果(2.13，2.10)了。

表4

进一步，还对不同校准任务对结果的影响进行了对比，例如，以9和13个校准点为标准，在四个任务中，任意执行其中一个便可以达到9个校准点的精度；如果执行任意两个任务，则可以达到13个静态校准点的精度，并且已经达到校准上限。

进一步，对于FAUL-Gaze的性能分析如下。

在FAUL-Gaze中，FA-iTracker在各种设备(cpu)上都满足实时性，推理速度为7.12ms。FPGC-FC的线上训练速度为5s，推理速度<1ms，而FPGC-CNN的线上训练速度为20-30s，推理速度3-3.5ms。表5显示了本申请方案与iTracker和SAGE的推理速度对比情况。

表5

进一步，对于FAUL-Gaze的内存分析如下。

由表6可知，FAUL-Gaze系统中所有模型的内存占用不超过42M，最小的组合只需要9.7M(小于10M)，可以在具备高推理速度的同时，又消耗较少的内存资源。

表6

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种视线追踪装置，包括：用户图像获取模块100、预处理模块200和预测模块300，其中：

用户图像获取模块100，用于获取待追踪视线用户的用户图像。

预处理模块200，用于对用户图像进行预处理，生成对应用户图像的预处理图像，预处理图像包括待追踪视线用户的人脸图像、左眼图像以及右眼图像。

预测模块300，用于基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置。

在其中一个实施例中，预处理模块200可以包括：

人脸图像生成子模块，用于识别用户图像中的人脸，生成对应的人脸图像。

人脸关键点提取子模块，用于对人脸图像进行人脸关键点的提取，得到对应人脸的人脸关键点。

左眼图像以及右眼图像生成子模块，用于基于人脸关键点，对人脸图像进行左右眼的检测，分别得到左眼图像以及右眼图像。

在其中一个实施例中，预测模块300可以包括：

特征提取子模块，用于对预处理图像进行特征提取，生成对应的特征数据。

初始视线位置以及视线偏移量确定子模块，用于根据特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量。

修正子模块，用于根据视线偏移量对初始视线位置进行修正，得到对应待追踪视线用户的视线位置。

在其中一个实施例中，特征提取子模块可以包括：

用户特征提取单元，用于对预处理图像进行特征提取，生成对应的用户特征。

特征概率确定单元，用于根据用户特征，确定用户的左右眼的特征概率。

在本实施例中，初始视线位置以及视线偏移量确定子模块可以包括：

特定偏移量确定单元，用于基于用户特征，预测待追踪视线用户的视线的初始视线位置以及特定偏移量。

误差偏移量确定单元，用于根据特征概率，预测待追踪视线用户的视线的误差偏移量。

在其中一个实施例中，上述装置还可以包括：

判断模块，用于对预处理图像进行特征提取，生成对应的特征数据之后，基于预设条件，判断特征数据是否有效；当确定特征数据有效时，则继续基于特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量。

在其中一个实施例中，基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置未通过预先训练完成的预测模型预测的。

在本实施例中，上述装置还可以包括：训练模块，用于训练预测模型。

在本实施例中，训练模块可以包括：

训练数据获取子模块，用于获取训练集数据，训练集数据包括训练图像以及对应训练图像的视线坐标位置。

视线预测子模块，用于将训练集数据输入构建的初始预测模型中，通过初始预测模型进行特征数据以及视线预测，得到预测视线位置。

模型损失值计算子模块，用于基于预测视线位置以及视线坐标位置，确定初始预测模型的模型损失值。

迭代训练子模块，用于通过模型损失值对初始预测模型进行模型参数的更新，并对参数更新后的模型进行迭代训练，得到训练后的预测模型。

在其中一个实施例中，训练数据获取子模块可以包括：

训练图像采集单元，用于获取图像采集指令。

初始训练图像获取单元，用于基于图像采集指令，展示视频流，并采集用户基于视频流进行视线变化的初始训练图像，视频流中各帧视频流图像包括定位点的坐标位置。

预处理单元，用于对各初始训练图像进行预处理，生成对应的训练图像，训练图像包括初始训练图像中用户的人脸图像、左眼图像以及右眼图像；

训练集数据生成单元，用于基于各训练图像以及对应帧视频流图像中定位点的坐标位置，得到训练集数据。

关于视线追踪装置的具体限定可以参见上文中对于视线追踪方法的限定，在此不再赘述。上述视线追踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户图像、预处理图像以及视线位置等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视线追踪方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待追踪视线用户的用户图像；对用户图像进行预处理，生成对应用户图像的预处理图像，预处理图像包括待追踪视线用户的人脸图像、左眼图像以及右眼图像；基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置。

在其中一个实施例中，处理器执行计算机程序时实现对用户图像进行预处理，生成对应用户图像的预处理图像，可以包括：识别用户图像中的人脸，生成对应的人脸图像；对人脸图像进行人脸关键点的提取，得到对应人脸的人脸关键点；基于人脸关键点，对人脸图像进行左右眼的检测，分别得到左眼图像以及右眼图像。

在其中一个实施例中，处理器执行计算机程序时实现基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置，可以包括：对预处理图像进行特征提取，生成对应的特征数据；根据特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量；根据视线偏移量对初始视线位置进行修正，得到对应待追踪视线用户的视线位置。

在其中一个实施例中，处理器执行计算机程序时实现对预处理图像进行特征提取，生成对应的特征数据，可以包括：对预处理图像进行特征提取，生成对应的用户特征；根据用户特征，确定用户的左右眼的特征概率。

在本实施例中，处理器执行计算机程序时实现基于特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量，可以包括：基于用户特征，预测待追踪视线用户的视线的初始视线位置以及特定偏移量；根据特征概率，预测待追踪视线用户的视线的误差偏移量。

在其中一个实施例中，处理器执行计算机程序时实现对预处理图像进行特征提取，生成对应的特征数据之后，还可以实现以下步骤：基于预设条件，判断特征数据是否有效；当确定特征数据有效时，则继续基于特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量。

在其中一个实施例中，处理器执行计算机程序时实现基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置未通过预先训练完成的预测模型预测的，预测模型的训练方式可以包括：获取训练集数据，训练集数据包括训练图像以及对应训练图像的视线坐标位置；将训练集数据输入构建的初始预测模型中，通过初始预测模型进行特征数据以及视线预测，得到预测视线位置；基于预测视线位置以及视线坐标位置，确定初始预测模型的模型损失值；通过模型损失值对初始预测模型进行模型参数的更新，并对参数更新后的模型进行迭代训练，得到训练后的预测模型。

在其中一个实施例中，处理器执行计算机程序时实现获取训练集数据，可以包括：获取图像采集指令；基于图像采集指令，展示视频流，并采集用户基于视频流进行视线变化的初始训练图像，视频流中各帧视频流图像包括定位点的坐标位置；对各初始训练图像进行预处理，生成对应的训练图像，训练图像包括初始训练图像中用户的人脸图像、左眼图像以及右眼图像；基于各训练图像以及对应帧视频流图像中定位点的坐标位置，得到训练集数据。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待追踪视线用户的用户图像；对用户图像进行预处理，生成对应用户图像的预处理图像，预处理图像包括待追踪视线用户的人脸图像、左眼图像以及右眼图像；基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置。

在其中一个实施例中，计算机程序被处理器执行时实现对用户图像进行预处理，生成对应用户图像的预处理图像，可以包括：识别用户图像中的人脸，生成对应的人脸图像；对人脸图像进行人脸关键点的提取，得到对应人脸的人脸关键点；基于人脸关键点，对人脸图像进行左右眼的检测，分别得到左眼图像以及右眼图像。

在其中一个实施例中，计算机程序被处理器执行时实现基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置，可以包括：对预处理图像进行特征提取，生成对应的特征数据；根据特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量；根据视线偏移量对初始视线位置进行修正，得到对应待追踪视线用户的视线位置。

在其中一个实施例中，计算机程序被处理器执行时实现对预处理图像进行特征提取，生成对应的特征数据，可以包括：对预处理图像进行特征提取，生成对应的用户特征；根据用户特征，确定用户的左右眼的特征概率。

在本实施例中，计算机程序被处理器执行时实现基于特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量，可以包括：基于用户特征，预测待追踪视线用户的视线的初始视线位置以及特定偏移量；根据特征概率，预测待追踪视线用户的视线的误差偏移量。

在其中一个实施例中，计算机程序被处理器执行时实现对预处理图像进行特征提取，生成对应的特征数据之后，还可以实现以下步骤：基于预设条件，判断特征数据是否有效；当确定特征数据有效时，则继续基于特征数据，预测待追踪视线用户的视线的初始视线位置以及视线偏移量。

在其中一个实施例中，计算机程序被处理器执行时实现基于预处理图像，对待追踪视线用户的视线进行预测，得到对应待追踪视线用户的视线位置未通过预先训练完成的预测模型预测的，预测模型的训练方式可以包括：获取训练集数据，训练集数据包括训练图像以及对应训练图像的视线坐标位置；将训练集数据输入构建的初始预测模型中，通过初始预测模型进行特征数据以及视线预测，得到预测视线位置；基于预测视线位置以及视线坐标位置，确定初始预测模型的模型损失值；通过模型损失值对初始预测模型进行模型参数的更新，并对参数更新后的模型进行迭代训练，得到训练后的预测模型。

在其中一个实施例中，计算机程序被处理器执行时实现获取训练集数据，可以包括：获取图像采集指令；基于图像采集指令，展示视频流，并采集用户基于视频流进行视线变化的初始训练图像，视频流中各帧视频流图像包括定位点的坐标位置；对各初始训练图像进行预处理，生成对应的训练图像，训练图像包括初始训练图像中用户的人脸图像、左眼图像以及右眼图像；基于各训练图像以及对应帧视频流图像中定位点的坐标位置，得到训练集数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视线追踪方法，其特征在于，所述方法包括：

获取待追踪视线用户的用户图像；

对所述用户图像进行预处理，生成对应所述用户图像的预处理图像，所述预处理图像包括待追踪视线用户的人脸图像、左眼图像以及右眼图像；

基于所述预处理图像，对所述待追踪视线用户的视线进行预测，得到对应所述待追踪视线用户的视线位置。

2.根据权利要求1所述的方法，其特征在于，所述对所述用户图像进行预处理，生成对应所述用户图像的预处理图像，包括：

识别所述用户图像中的人脸，生成对应的人脸图像；

对所述人脸图像进行人脸关键点的提取，得到对应所述人脸的人脸关键点；

基于所述人脸关键点，对所述人脸图像进行左右眼的检测，分别得到左眼图像以及右眼图像。

3.根据权利要求1所述的方法，其特征在于，所述基于所述预处理图像，对所述待追踪视线用户的视线进行预测，得到对应所述待追踪视线用户的视线位置，包括：

对所述预处理图像进行特征提取，生成对应的特征数据；

根据所述特征数据，预测所述待追踪视线用户的视线的初始视线位置以及视线偏移量；

根据所述视线偏移量对所述初始视线位置进行修正，得到对应所述待追踪视线用户的视线位置。

4.根据权利要求3所述的方法，其特征在于，所述对所述预处理图像进行特征提取，生成对应的特征数据，包括：

对所述预处理图像进行特征提取，生成对应的用户特征；

根据所述用户特征，确定用户的左右眼的特征概率；

所述基于所述特征数据，预测所述待追踪视线用户的视线的初始视线位置以及视线偏移量，包括：

基于所述用户特征，预测所述待追踪视线用户的视线的初始视线位置以及特定偏移量；

根据所述特征概率，预测所述待追踪视线用户的视线的误差偏移量。

5.根据权利要求3所述的方法，其特征在于，所述对所述预处理图像进行特征提取，生成对应的特征数据之后，还包括：

基于预设条件，判断所述特征数据是否有效；

当确定所述特征数据有效时，则继续基于所述特征数据，预测所述待追踪视线用户的视线的初始视线位置以及视线偏移量。

6.根据权利要求1所述的方法，其特征在于，所述基于所述预处理图像，对所述待追踪视线用户的视线进行预测，得到对应所述待追踪视线用户的视线位置未通过预先训练完成的预测模型预测的，所述预测模型的训练方式包括：

获取训练集数据，所述训练集数据包括训练图像以及对应训练图像的视线坐标位置；

将所述训练集数据输入构建的初始预测模型中，通过所述初始预测模型进行特征数据以及视线预测，得到预测视线位置；

基于所述预测视线位置以及所述视线坐标位置，确定所述初始预测模型的模型损失值；

通过所述模型损失值对所述初始预测模型进行模型参数的更新，并对参数更新后的模型进行迭代训练，得到训练后的预测模型。

7.根据权利要求6所述的方法，其特征在于，所述获取训练集数据，包括：

获取图像采集指令；

基于所述图像采集指令，展示视频流，并采集用户基于所述视频流进行视线变化的初始训练图像，所述视频流中各帧视频流图像包括定位点的坐标位置；

对各所述初始训练图像进行预处理，生成对应的训练图像，所述训练图像包括初始训练图像中用户的人脸图像、左眼图像以及右眼图像；

基于各所述训练图像以及对应帧视频流图像中定位点的坐标位置，得到训练集数据。

8.一种视线追踪装置，其特征在于，所述装置包括：

用户图像获取模块，用于获取待追踪视线用户的用户图像；

预处理模块，用于对所述用户图像进行预处理，生成对应所述用户图像的预处理图像，所述预处理图像包括待追踪视线用户的人脸图像、左眼图像以及右眼图像；

预测模块，用于基于所述预处理图像，对所述待追踪视线用户的视线进行预测，得到对应所述待追踪视线用户的视线位置。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。