CN115359092A

CN115359092A - 一种注视点预测模型的训练方法、装置及电子设备

Info

Publication number: CN115359092A
Application number: CN202211000132.5A
Authority: CN
Inventors: 狄东林; 王啸; 崔晟嘉; 张钋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-18

Abstract

本公开提供了一种注视点预测模型的训练方法、装置及电子设备，涉及人工智能技术领域，尤其涉及眼动追踪技术领域。具体实现方案为：基于预设的动态眼部追踪数据集，获取多组第一样本图像组数据以及注视点真值坐标，其中，各所述第一样本图像组数据为基于样本对象注视预设信息时采集的样本视频数据逐帧截取得到的图像组数据；将各所述第一样本图像组数据输入到注视点预测模型中，利用所述注视点预测模型中的注视点超图学习模型构建注视点超图，并基于所述注视点超图得到预测注视点坐标；根据所述预测注视点坐标和所述注视点真值坐标之间的距离，调整所述注视点预测模型的参数。本公开实现了对注视点预测模型的训练。

Description

一种注视点预测模型的训练方法、装置及电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及眼动追踪技术领域。

背景技术

随着便携式移动设备(例如智能手机、平板电脑等)的普及，用户已习惯于在移动设备上浏览各个平台推送的信息。而如何精准地针对用户需求进行信息推送，则是各个平台的重要研究方向之一。

当前确定用户的需求常通过挖掘用户的行为意图来实现。例如，通过用户针对信息的点击处理行为、用户的眼部注视点在信息上的停留时间等来判断用户对该信息的感兴趣程度，基于此确定用户的需求。

发明内容

本公开提供了一种注视点预测模型的训练方法、装置及电子设备。

根据本公开的一方面，提供了一种注视点预测模型的训练方法，包括：

基于预设的动态眼部追踪数据集，获取多组第一样本图像组数据以及注视点真值坐标，其中，各所述第一样本图像组数据为将样本对象注视预设信息时采集的各第一样本视频数据逐帧截取得到的图像组数据；

将各所述第一样本图像组数据输入到注视点预测模型中，利用所述注视点预测模型中的注视点超图学习模型构建注视点超图，并基于所述注视点超图得到预测注视点坐标；

根据所述预测注视点坐标和所述注视点真值坐标之间的距离，调整所述注视点预测模型的参数。

根据本公开的另一方面，提供了一种注视点预测方法，包括：

获取目标图像数据，其中，所述目标图像数据中包括待预测注视点的目标对象；

将所述目标图像数据输入到预先训练的注视点预测模型中，得到所述目标对象的预测注视点坐标，其中，所述注视点预测模型通过上述任一所述的注视点预测模型的训练方法训练得到。

根据本公开的另一方面，提供了一种注视点预测模型的训练装置，包括：

第一数据获取模块，用于基于预设的动态眼部追踪数据集，获取多组第一样本图像组数据以及注视点真值坐标，其中，各所述第一样本图像组数据为将样本对象注视预设信息时采集的各第一样本视频数据逐帧截取得到的图像组数据；

第一坐标预测模块，用于将各所述第一样本图像组数据输入到注视点预测模型中，利用所述注视点预测模型中的注视点超图学习模型构建注视点超图，并基于所述注视点超图得到预测注视点坐标；

第一参数调整模块，用于根据所述预测注视点坐标和所述注视点真值坐标之间的距离，调整所述注视点预测模型的参数。

根据本公开的又一方面，提供了一种注视点预测装置，包括：

图像获取模块，用于获取目标图像数据，其中，所述目标图像数据中包括待预测注视点的目标对象；

注视点坐标预测模块，用于将所述目标图像数据输入到预先训练的注视点预测模型中，得到所述目标对象的预测注视点坐标，其中，所述注视点预测模型通过上述任一所述的注视点预测模型的训练装置训练得到。

本公开基于预设的动态眼部追踪数据集，获取多组第一样本图像组数据以及注视点真值坐标，各第一样本图像组数据即为基于样本对象注视预设信息时采集的样本视频数据逐帧截取得到的图像组数据；然后将各第一样本图像组数据输入到注视点预测模型中，利用注视点预测模型中的注视点超图学习模型构建注视点超图，并基于注视点超图得到预测注视点坐标；再根据预测注视点坐标和注视点真值坐标之间的距离，调整注视点预测模型的参数。从而实现了对注视点预测模型的训练。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开提供的第一种注视点预测模型的训练方法的流程示意图；

图2是根据本公开提供的步骤S11的一种可能的实施方式；

图3是根据本公开提供的步骤S12的一种可能的实施方式；

图4a是根据本公开提供的第二种注视点预测模型的训练方法的流程示意图；

图4b是根据本公开提供的一种提示样本对象选取摄像头位置的示例图；

图4c是根据本公开提供的动态眼动追踪数据集和注视点预测模型与现有技术中的数据集和模型的预测精度对比示例图；

图5是根据本公开提供的步骤S32的一种可能的实施方式；

图6是根据本公开提供的一种注视点预测方法的流程示意图；

图7是根据本公开提供的一种注视点预测模型的训练装置的结构示意图；

图8是根据本公开提供的一种注视点预测装置的结构示意图；

图9是用来实现本公开实施例的注视点预测模型的训练方法以及注视点预测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

现有技术中，各平台在挖掘用户的行为意图、以期向用户推送符合其需求的信息时，大多依赖于用户历史浏览信息时的点击数据，即将用户对信息的点击行为视作对该信息感兴趣。但这在实际应用中存在一定的问题，例如，点击数据中存在大量的误触噪声，或者用户虽然被虚假标题、缩略图等吸引进而发生点击行为但实际上对内容并不感兴趣等。

为了更准确地挖掘用户真实的行为意图，研究人员提出了眼动追踪技术，即利用用户面部的眼动信息，根据用户的眼部注视点在信息上的停留情况，再结合用户的点击数据，来确定用户对该信息的感兴趣程度。推送内容上的在一定程度上也反应出用户对内容是否感兴趣。例如，一条信息既被用户注视了一定时间又被用户点击，则认为用户对该信息的感兴趣程度高于仅受到用户注视或仅受到用户点击的其他信息。

眼动追踪的目标是以从图像中抽象得到的人物特征为基础，尽可能高精度地预测出人眼注视点在预测空间内的坐标，这些注视点的坐标则能够反映用户的真实行为意图。故而，眼动追踪的关键在于对注视点的预测。传统的注视点预测方法可以分为基于模型的方法和基于表征的方法两种类型。其中，基于模型的方法依赖于通过外部红外光源在眼睛最外层(角膜)的反射检测到的眼睛特征，这导致该方法需要高分辨率的图像和均匀的光照环境，基于表征的方法则通过检测眼球的形状直接对视线进行推断，但因此需要大规模的眼动数据支撑。

现有技术中为了改进上述传统方法存在的问题，提出利用人物面部图像、眼部图像、原始图像相结合来预测注视点，但这同样存在一定的问题：一方面，公共眼动数据集大多通过笔记本电脑等设备收集得到，基于该数据集训练的注视点预测模型无法适用于各类型智能设备，并且，由图像组成的数据集在时序上不一定是连续的，导致眼部的运动轨迹难以被捕捉，提供图像的志愿者在采集图像时所处的光照环境、自身眼球固有抖动、头部姿势变化、面部表情等也都会影响到眼部特征的提取，这可能导致训练标签与真实注视点不匹配的问题；另一方面，但现有的眼动追踪模型无法对帧图像之间的高阶时序关系进行建模。这些问题都会导致注视点的预测不够准确。

为了解决上述问题中的至少一项，本公开提供了一种注视点预测模型的训练方法，包括：

基于预设的动态眼部追踪数据集，获取多组第一样本图像组数据以及注视点真值坐标，其中，各所述第一样本图像组数据为基于样本对象注视预设信息时采集的样本视频数据逐帧截取得到的图像组数据；

由上可见，本公开提供的注视点预测模型的训练方法，基于预设的动态眼部追踪数据集，获取多组第一样本图像组数据以及注视点真值坐标，各第一样本图像组数据是基于样本对象注视预设信息时采集的样本视频数据逐帧截取得到的图像组数据，所以各第一样本图像组数据在时序上是连续的，基于这样的样本图像组数据进行注视点坐标的预测，能够更加准确地捕捉到样本对象眼部的运动轨迹。

其次，将各第一样本图像组数据输入到注视点预测模型中，利用注视点预测模型中的注视点超图学习模型构建注视点超图，基于注视点超图能够确定各第一样本图像组数据之间的关联关系，而各样本图像组数据又是基于样本视频数据逐帧截取得到的，基于这样的注视点超图确定预测注视点坐标，能够有效的考虑到样本视频数据中帧与帧之间时序和空间上的关联，从而对帧图像之间的高阶时序关系进行建模，以此得到的预测注视点坐标能够具有更高的准确度。基于更准确的预测注视点坐标和注视点真值坐标之间的距离调整注视点预测模型的参数，能够提高注视点预测模型的训练效率，所训练得到的注视点预测模型也能够有效地提高注视点预测的效率和准确率。

下面通过具体实施例对本公开提供的注视点预测模型的训练方法进行详细说明。

本公开实施例的方法应用于智能终端，可以通过智能终端实施，在实际使用过程中，该智能终端可以是电脑、服务器、数据中心等。

参见图1，图1为本公开提供的第一种注视点预测模型的训练方法的流程示意图，包括：

步骤S11：基于预设的动态眼部追踪数据集，获取多组第一样本图像组数据以及注视点真值坐标。

其中，各所述第一样本图像组数据为将样本对象注视预设信息时采集的各第一样本视频数据逐帧截取得到的图像组数据。

上述预设的动态眼部追踪数据集是预先收集的数据集，数据集中包括预先采集的样本对象注视预设信息时的第一样本视频数据。具体的，预设信息包括多个预先设定的信息，一个例子中，预设信息可以是单词、词语、图形、图像等，能够使得样本对象集中视线注视即可。

一个例子中，预设信息是按照预设的顺序依次显示的，所以样本对象在注视各预设信息时也是按照预设的顺序依次注视的，而采集样本对象注视预设信息时的样本视频数据时是连续采集的，也就是说所采集到的样本视频数据是在时序上连续的。在得到样本对象依次注视全部的预设信息时的样本视频数据之后，按照不同的预设信息将样本视频数据分割为每一预设信息对应的视频片段数据，即可得到各第一样本视频数据，也即每一第一样本视频数据各自对应一个不同的预设信息。

一个例子中，第一样本视频数据中包括90-150帧图像。针对每一第一样本视频数据，对该第一样本视频数据的每一帧图像进行截取，即可得到第一样本视频数据中的每一帧图像各自对应的第一样本图像组数据，具体的，第一样本图像组数据中包括样本对象的左眼图像、右眼图像、面部图像、整体图像，即将第一样本视频数据中的每一帧图像均截取为包括样本对象的左眼图像、右眼图像、面部图像、整体图像的第一样本图像组数据，若第一样本视频数据中包括90-150帧图像，截取之后即可得到90-150组第一样本图像组数据。

另外，在得到各第一样本图像组数据后，还可以获取预设信息的坐标，将该坐标作为该预设信息对应的注视点真值坐标，也即该预设信息对应的第一样本图像组数据对应的注视点真值坐标。

步骤S12：将各所述第一样本图像组数据输入到注视点预测模型中，利用所述注视点预测模型中的注视点超图学习模型构建注视点超图，并基于所述注视点超图得到预测注视点坐标。

在得到各第一样本图像组数据后，将其输入到注视点预测模型中。注视点预测模型中包括注视点超图学习模型，将各第一样本图像组数据作为注视点超图学习模型所需的输入来构建注视点超图，所构建得到的注视点超图中的节点和超边能够表示各第一样本图像组数据所包括的各图像之间的关联关系，基于此在注视点预测模型中进一步预测即可得到预测注视点坐标。

步骤S13：根据所述预测注视点坐标和所述注视点真值坐标之间的距离，调整所述注视点预测模型的参数。

在得到预测注视点坐标之后，根据预测注视点坐标和注视点真值坐标之间的距离计算注视点预测模型的损失及误差，并基于计算得到的损失及误差调整注视点预测模型的参数。在此之后，再利用预设的动态眼部追踪数据集对参数调整后的注视点预测模型进行重复的训练步骤，直到基于注视点预测模型输出的预测注视点坐标和注视点真值坐标之间的距离符合需求，即可判定注视点预测模型训练完毕。

在一种可能的实施方式中，如图2所示，上述步骤S11基于预设的动态眼部追踪数据集，获取多组第一样本图像组数据以及注视点真值坐标，包括：

步骤S21：基于预设的动态眼部追踪数据集，获取第一样本视频数据及第二样本视频数据。

其中，所述第一样本视频数据为所述样本对象注视所述预设信息时采集的录像视频，所述第二样本视频数据为所述预设信息在智能设备中显示时采集的录屏视频。

步骤S22：根据所述第二样本视频数据得到所述样本对象的注视点真值坐标。

上文提到，预设信息包括多个预先设定的信息，所采集的样本视频数据为样本对象依次注视多个预设信息得到的连续视频，将这样的连续视频按照不同的预设信息进行分割得到的录像视频片段作为各预设信息各自对应的第一样本视频数据。本实施例中，各第一样本视频数据为样本对象注视不同预设信息时采集的录像视频，第一样本视频数据的每一帧图像中都包括样本对象，故而才将这每一帧图像进行部分截取得到第一样本图像组数据。而第二样本视频数据为预设信息在智能设备中显示时采集的录屏视频，也就是将智能设备的屏幕中按照预设顺序依次显示各预设信息时的录屏视频按照不同的预设信息进行分割后得到的录屏视频片段，所以各第二样本视频数据是与各第一样本视频数据具有一一对应关系的。

因此，基于各第二样本视频数据即可得到样本对象针对各预设信息的注视点真值坐标。

步骤S23：针对所述第一样本视频数据的每一帧图像分别进行部分截取，得到每一帧图像对应的所述第一样本图像组数据。

其中，各所述第一样本图像组数据包括所述样本对象的左眼图像、右眼图像、面部图像及整体人像。

由上可见，本公开提供的注视点预测模型的训练方法，预设的动态眼部追踪数据集中包括样本对象注视预设信息时采集的录像视频，以及预设信息在智能设备中显示时采集的录屏视频，这些视频按照不同的预设信息进行分割，则分割后的每一视频片段各自的注视点都是一致的，将分割后的视频片段的每一帧部分截取为样本对象的左眼图像、右眼图像、面部图像及整体人像，这样截取得到的图像组数据的数据量是非常大的，能够涵盖尽可能多的样本对象的注视点的特征，基于此进行注视点预测模型的训练，能够使得注视点预测的准确度尽可能的高。

在一种可能的实施方式中，如图3所示，上述注视点预测模型还包括：特征提取网络以及多层感知机网络；上述步骤S12将各所述第一样本图像组数据输入到注视点预测模型中，利用所述注视点预测模型中的注视点超图学习模型构建注视点超图，并基于所述注视点超图得到预测注视点坐标，包括：

步骤S31：将各所述第一样本图像组数据输入到所述特征提取网络中，得到各所述样本图像组数据各自的样本图像特征；

步骤S32：将各所述样本图像特征输入到所述注视点超图学习模型中构建所述注视点超图，并基于所述注视点超图得到各注视点特征；

步骤S33：将各所述注视点特征输入到所述多层感知机网络中，得到所述预测注视点坐标。

将各第一样本图像组数据输入到特征提取网络中提取特征，来得到各样本图像组数据各自的样本图像特征，然后将各样本图像特征作为注视点超图学习模型的输入，以此来构建注视点超图，所构建得到的注视点超图能够有效地表示各样本图像特征之间的关联关系。基于构建得到的注视点超图得到各注视点特征。再将各注视点特征输入到多层感知机网络中，得到预测注视点坐标。

由上可见，本公开提供的注视点预测模型的训练方法，注视点预测模型包括特征提取网络、注视点超图学习模型以及多层感知机网络，利用多结构的模型实现对大量样本图像数据组的拆解和分析，同时利用注视点超图学习模型建立各样本图像数据组中各图像之间的关联关系，实现了构建帧与帧之间时序和空间上的关联，进而确定了帧图像之间的高阶时序关系，以此进行的注视点预测能够有效地提高准确度。

本公开的一个实施例中，如图4a所示，提供了第二种注视点预测模型的训练方法的流程示意图，其中，所述注视点预测模型中还包括多层神经网络，所述方法还包括：

步骤S41：基于预设的动态眼部追踪数据集，获取样本边界图像数据及边界点真值坐标。

其中，所述样本边界图像数据包括所述样本对象注视预设边界点时采集的图像。

预设边界点的位置是预先设定的，所以可以直接获取预先设定的边界点所在的位置得到边界点真值坐标。

本公开的一个实施例中，构建上述预设的动态眼部追踪数据集的方式为：

向所述样本对象发送表示选取摄像头位置的指令，使得所述样本对象在所述智能设备的屏幕上选取摄像头位置。

具体的，考虑到注视点预测的应用场景常是便携式的智能设备上的推送平台，故而本实施例中构建预设的动态眼部追踪数据集所应用的上述智能设备为便携式的智能设备，包括智能手机、平板电脑等。可以理解的是，不同的智能设备的前置摄像头位置可能是不同的，所以在构建预设的动态眼部追踪数据集之前，首先向样本对象发送表示选取摄像头位置的指令，使得样本对象在智能设备的屏幕上选取摄像头位置，具体的，可选取的位置包括屏幕的左上角、正上方、右上角等多个不同位置。一个例子中，用户选取摄像头位置时，智能设备的屏幕边缘上可以显示标尺，具体的，标尺坐标范围可以为0-15，0代表屏幕左侧，15代表屏幕右侧，使得用户识别摄像头位置时选取具体的摄像头位置坐标。如图4b所示。用户选取位置的前置摄像头即为采集上述第一样本视频数据所用到的采集设备，将摄像头位置的不同纳入后续预测注视点坐标的考虑中，能够便于将采集设备的数据归一化，消除摄像头位置所引起的误差。

向所述样本对象发送表示校正人脸姿势的指令，使得所述样本对象按照预设的面部姿态及头部姿态校正人脸姿势。

在用户选取摄像头位置之后，向样本对象发送表示校正人脸姿势的指令，使得样本对象按照预设的面部姿态及头部姿态校正人脸姿势，上述预设的面部姿态和头部姿态为预先设定的便于采集数据的姿态，具体的，可以是要求样本对象保持面部正对智能设备的屏幕且面部保持在头部姿态校正算法所生成的绿色圆形框内，双眼直视屏幕。一个例子中，在校正人脸姿势时，还对光源和智能设备的稳定性做一定的预设要求，具体的，要求样本对象保持面部正对光源，且保持样本视频数据的采集过程中智能设备的稳定性在一定的预设范围内。一个例子中，校正过程中姿势、光源、智能设备的稳定性等出现偏移，智能设备均会发出提醒，例如，发出“请调整头部姿态”这样的提示音。

在所述智能设备的屏幕中显示所述预设边界点，使得所述样本对象按照预设顺序依次注视所述预设边界点，并采集所述样本对象注视所述预设边界点时的图像。

在校正人脸姿势之后即可进行数据的采集。首先，显示预设边界点，具体的，预设边界点为智能设备屏幕的边界点，一个例子中，可以是在屏幕左上角、中上、右上角、左中、右中、左下角、正下方、右下角依次出现3个总共24个圆点，使得样本对象注视这些圆点并点击，样本对象每点击一次圆点，前置摄像头对样本对象采集一次图像，共收集24张图像。

在所述智能设备的屏幕中显示所述预设信息，使得所述样本对象按照所述预设信息的显示顺序依次注视所述预设信息，并采集所述样本对象注视所述预设信息时的录像视频以及所述预设信息在所述智能设备的屏幕中显示时的录屏视频。

预设边界点对应的图像数据采集结束后，则开始采集预设信息对应的视频数据。此时，前置摄像头开启录像，同时智能设备开启录屏，具体的，还同时记录录像录屏开启时的启动时间戳。向样本对象依次显示多个预设信息，使得样本对象依次注视各预设信息，一个例子中，为了保证样本对象的注视点稳定地落在预设信息上，还提示样本对象朗读预设信息。具体的，预设信息的初始颜色为一种颜色，在提示样本对象注视某一预设信息时，就将该预设信息的颜色转换为提示颜色。在检测到样本对象朗读之后，验证样本对象朗读的信息是否与预设信息相匹配，在匹配的情况下提示用户开始注视下一个预设信息。

一个例子中，上述预设信息为成语，智能设备的屏幕上可以同时显示20行3列共计60个成语，初始颜色为黑色。开始采集后，成语被随机选中，选中的成语的颜色变为红色并响起提示音提示样本对象注视该成语并朗读。具体的，样本对象朗读成语的语音数据通过Automatic Speech Recognition(ASR，一种语音验证服务)进行验证。验证不通过(样本对象朗读的信息与预设信息不匹配)则提示样本对象继续朗读该成语。验证通过(样本对象朗读的信息与预设信息匹配)则随机选中下一个成语提示用户注视并朗读。ASR监督可保证样本对象的注视点与选中的成语相同，保证了数据准确性。当样本对象朗读的第30个成语ASR校验通过后，录像和录屏录屏同时停止，向样本对象提示数据采集完毕。

一个例子中，将本实施例中构建的动态眼动追踪数据集定义为数据集DGazeCap。将本公开提供的注视点预测模型训练好之后定义为模型HGMSGaze(简称HGaze)，该模型在DGazeCap数据集上能实现1.01的预测精度，相较于现有技术大约提高了62％，如图4c所示。图4c中AFF-Net和iTracker均为现有技术中的一种注视点预测模型，GazeCapture和MPIIFaceGaze均为现有技术中的一种眼动追踪数据集，各数据分别表示现有技术中的两种注视点预测模型分别在现有技术中的两种眼动追踪数据集及本公开提供的数据集DgazeCap上进行预测的精度，以及本公开提供的模型HGMSGaze在现有技术中的两种眼动追踪数据集及本公开提供的数据集DgazeCap上进行预测的精度，具体的，数据数值越小，表示其预测结果与真值结果的差距越小，即预测精度越高。以此证明了本公开中提出的数据集构建流程及注视点预测模型的正确性。

这样构建的动态眼动追踪数据集中注视点对应的人像信息更加丰富，可以充分支撑注视点预测模型训练，视频中可收集到人眼在不同目标之间的移动信息。人眼移动轨迹对于注视点预测模型研究同样具有重要意义。并且本数据集的数据采集不限制智能设备的型号，理论上可以在任意智能设备上进行采集。采集终端多样化，数据多样性较以往数据集有了显著提高。

步骤S42：针对每一所述样本边界图像数据分别进行部分截取，得到每一所述样本边界图像数据对应的第二样本图像组数据。

其中，各所述第二样本图像组数据包括所述样本对象的左眼图像、右眼图像、面部图像及整体人像；

步骤S43：将各所述第二样本图像组数据输入到所述多层神经网络中，得到各边界点特征；

步骤S44：将各所述边界点特征输入到所述多层感知机网络中，得到预测边界点坐标。

步骤S45：根据所述预测边界点坐标和所述边界点真值坐标之间的距离，调整所述注视点预测模型的参数。

将样本边界图像数据同样进行部分截取，得到每一样本边界图像数据各自对应的第二样本图像组数据，然后将各第二样本图像组数据输入到多层神经网络中，具体的，多层神经网络为全连接神经网络，以此得到各边界点特征，再将各边界点特征输入到多层感知机网络中，得到预测边界点坐标。然后根据预测边界点坐标和边界点真值坐标之间的距离，计算注视点预测模型的损失及误差，并基于计算得到的损失及误差调整注视点预测模型的参数。在此之后，再利用样本边界图像数据对参数调整后的注视点预测模型进行重复的训练步骤，直到基于注视点预测模型输出的预测边界点坐标和边界点真值坐标之间的距离符合需求，即可判定注视点预测模型训练完毕。

一个例子中，上述各注视点特征和各边界点特征可以是并行输入到多层感知机网络中预测坐标的，基于此计算注视点预测模型的损失并调整参数也是并行的。

由上可见，本公开提供的注视点预测模型的训练方法，除了利用预测注视点坐标来调整注视点预测模型之外，还利用预先采集的图像数据预测边界点坐标来辅助预测注视点预测模型，通过两种方式实现对注视点预测模型的双重监督，提高了注视点预测模型训练的效率以及模型的准确度。

在一种可能的实施方式中，如图5所示，所述注视点超图学习模型中包括超图卷积层，上述步骤S32将各所述样本图像特征输入到所述注视点超图学习模型中构建所述注视点超图，并基于所述注视点超图得到各注视点特征，包括：

步骤S51：将各所述样本图像特征输入到所述注视点超图学习模型中，得到所述注视点超图的各个初始节点；

步骤S52：针对每一初始节点，在高维空间中利用K近邻算法确定邻近的预设数量个目标节点；

步骤S53：基于各所述目标节点建立超边，得到所述注视点超图；

步骤S54：利用所述超图卷积层更新迭代所述注视点超图中的各节点，得到各所述注视点特征。

将各样本图像特征输入到注视点超图学习模型作为超图的初始节点，然后在高维空间中确定多个邻近的目标节点，一个例子上，预设数量个目标节点可以是10个目标节点。基于此建立超边得到注视点超图，这样的注视点超图即可表示各样本图像特征之间的关联关系。然后利用超图卷积层更新迭代注视点超图中的各节点的特征，即同一超边连接的节点的高阶特征首先聚合到对应的超边上，然后超边再将得到的高阶特征分发到每一个所连接的节点完成特征的更新，最终得到各注视点特征。

由上可见，本公开提供的注视点预测模型的训练方法，各样本图像特征输入到注视点超图学习模型作为超图的初始节点，以此来构建注视点超图，使得注视点超图能够有效地体现各样本图像特征之间的关联关系，利用节点之间的边来进行信息的传递和共享，达到特征增强的效果，提高了注视点预测的准确度。

参见图6，本公开还提供了一种注视点预测方法的流程示意图，包括：

步骤S61：获取目标图像数据，其中，所述目标图像数据中包括待预测注视点的目标对象；

步骤S62：将所述目标图像数据输入到预先训练的注视点预测模型中，得到所述目标对象的预测注视点坐标，其中，所述注视点预测模型通过上述任一所述的注视点预测模型的训练方法训练得到。

由上可见，本公开提供的注视点预测方法，利用上述任一所述的注视点预测模型的训练方法训练得到的注视点预测模型对目标图像数据进行预测，能够准确且高效的得到目标对象的预测注视点，提供后续操作的可能性。

参见图7，本公开还提供了一种注视点预测模型的训练装置的结构示意图，包括：

第一数据获取模块701，用于基于预设的动态眼部追踪数据集，获取多组第一样本图像组数据以及注视点真值坐标，其中，各所述第一样本图像组数据为基于样本对象注视预设信息时采集的样本视频数据逐帧截取得到的图像组数据；

第一坐标预测模块702，用于将各所述第一样本图像组数据输入到注视点预测模型中，利用所述注视点预测模型中的注视点超图学习模型构建注视点超图，并基于所述注视点超图得到预测注视点坐标；

第一参数调整模块703，用于根据所述预测注视点坐标和所述注视点真值坐标之间的距离，调整所述注视点预测模型的参数。

由上可见，本公开提供的注视点预测模型的训练装置，基于预设的动态眼部追踪数据集，获取多组第一样本图像组数据以及注视点真值坐标，各第一样本图像组数据是基于样本对象注视预设信息时采集的样本视频数据逐帧截取得到的图像组数据，所以各第一样本图像组数据在时序上是连续的，基于这样的样本图像组数据进行注视点坐标的预测，能够更加准确地捕捉到样本对象眼部的运动轨迹。

本公开的一个实施例中，所述第一数据获取模块701，具体用于：

基于预设的动态眼部追踪数据集，获取第一样本视频数据及第二样本视频数据，其中，所述第一样本视频数据为所述样本对象注视所述预设信息时采集的录像视频，所述第二样本视频数据为所述预设信息在智能设备中显示时采集的录屏视频；

根据所述第二样本视频数据得到所述样本对象的注视点真值坐标；

针对所述第一样本视频数据的每一帧图像分别进行部分截取，得到每一帧图像对应的所述第一样本图像组数据，其中，各所述第一样本图像组数据包括所述样本对象的左眼图像、右眼图像、面部图像及整体人像。

由上可见，本公开提供的注视点预测模型的训练装置，预设的动态眼部追踪数据集中包括样本对象注视预设信息时采集的录像视频，以及预设信息在智能设备中显示时采集的录屏视频，这些视频按照不同的预设信息进行分割，则分割后的每一视频片段各自的注视点都是一致的，将分割后的视频片段的每一帧部分截取为样本对象的左眼图像、右眼图像、面部图像及整体人像，这样截取得到的图像组数据的数据量是非常大的，能够涵盖尽可能多的样本对象的注视点的特征，基于此进行注视点预测模型的训练，能够使得注视点预测的准确度尽可能的高。

本公开的一个实施例中，所述注视点预测模型还包括：特征提取网络以及多层感知机网络；

所述第一坐标预测模块702，包括：

特征提取子模块，用于将各所述第一样本图像组数据输入到所述特征提取网络中，得到各所述样本图像组数据各自的样本图像特征；

特征获得子模块，用于将各所述样本图像特征输入到所述注视点超图学习模型中构建所述注视点超图，并基于所述注视点超图得到各注视点特征；

坐标预测子模块，用于将各所述注视点特征输入到所述多层感知机网络中，得到所述预测注视点坐标。

由上可见，本公开提供的注视点预测模型的训练装置，注视点预测模型包括特征提取网络、注视点超图学习模型以及多层感知机网络，利用多结构的模型实现对大量样本图像数据组的拆解和分析，同时利用注视点超图学习模型建立各样本图像数据组中各图像之间的关联关系，实现了构建帧与帧之间时序和空间上的关联，进而确定了帧图像之间的高阶时序关系，以此进行的注视点预测能够有效地提高准确度。

本公开的一个实施例中，所述注视点预测模型中还包括多层神经网络，所述装置还包括：

第二数据获取模块，用于基于预设的动态眼部追踪数据集，获取样本边界图像数据及边界点真值坐标，其中，所述样本边界图像数据包括所述样本对象注视预设边界点时采集的图像；

图像截取模块，用于针对每一所述样本边界图像数据分别进行部分截取，得到每一所述样本边界图像数据对应的第二样本图像组数据，其中，各所述第二样本图像组数据包括所述样本对象的左眼图像、右眼图像、面部图像及整体人像；

特征获得模块，用于将各所述第二样本图像组数据输入到所述多层神经网络中，得到各边界点特征；

第二坐标预测模块，用于将各所述边界点特征输入到所述多层感知机网络中，得到预测边界点坐标。

第二参数调整模块，用于根据所述预测边界点坐标和所述边界点真值坐标之间的距离，调整所述注视点预测模型的参数。

由上可见，本公开提供的注视点预测模型的训练装置，除了利用预测注视点坐标来调整注视点预测模型之外，还利用预先采集的图像数据预测边界点坐标来辅助预测注视点预测模型，通过两种方式实现对注视点预测模型的双重监督，提高了注视点预测模型训练的效率以及模型的准确度。

本公开的一个实施例中，构建所述预设的动态眼部追踪数据集的方式为：

向所述样本对象发送表示选取摄像头位置的指令，使得所述样本对象在所述智能设备的屏幕上选取摄像头位置；

向所述样本对象发送表示校正人脸姿势的指令，使得所述样本对象按照预设的面部姿态及头部姿态校正人脸姿势；

在所述智能设备的屏幕中显示所述预设边界点，使得所述样本对象按照预设顺序依次注视所述预设边界点，并采集所述样本对象注视所述预设边界点时的图像；

本公开的一个实施例中，所述特征获得子模块，具体用于：

将各所述样本图像特征输入到所述注视点超图学习模型中，得到所述注视点超图的各个初始节点；

针对每一初始节点，在高维空间中利用K近邻算法确定邻近的预设数量个目标节点；

基于各所述目标节点建立超边，得到所述注视点超图；

利用所述超图卷积层更新迭代所述注视点超图中的各节点，得到各所述注视点特征。

由上可见，本公开提供的注视点预测模型的训练装置，各样本图像特征输入到注视点超图学习模型作为超图的初始节点，以此来构建注视点超图，使得注视点超图能够有效地体现各样本图像特征之间的关联关系，利用节点之间的边来进行信息的传递和共享，达到特征增强的效果，提高了注视点预测的准确度。

参见图8，本公开还提供了一种注视点预测装置的结构示意图，包括：

图像获取模块801，用于获取目标图像数据，其中，所述目标图像数据中包括待预测注视点的目标对象；

注视点坐标预测模块802，用于将所述目标图像数据输入到预先训练的注视点预测模型中，得到所述目标对象的预测注视点坐标，其中，所述注视点预测模型通过上述任一所述的注视点预测模型的训练装置训练得到。

由上可见，本公开提供的注视点预测装置，利用上述任一所述的注视点预测模型的训练方法训练得到的注视点预测模型对目标图像数据进行预测，能够准确且高效的得到目标对象的预测注视点，提供后续操作的可能性。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

需要说明的是，本实施例中的二维人脸图像来自于公开数据集。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如注视点预测模型的训练方法及注视点预测方法。例如，在一些实施例中，注视点预测模型的训练方法及注视点预测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的注视点预测模型的训练方法及注视点预测方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行注视点预测模型的训练方法及注视点预测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种注视点预测模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述基于预设的动态眼部追踪数据集，获取多组第一样本图像组数据以及注视点真值坐标，包括：

3.根据权利要求1所述的方法，其中，所述注视点预测模型还包括：特征提取网络以及多层感知机网络；

所述将各所述第一样本图像组数据输入到注视点预测模型中，利用所述注视点预测模型中的注视点超图学习模型构建注视点超图，并基于所述注视点超图得到预测注视点坐标，包括：

将各所述第一样本图像组数据输入到所述特征提取网络中，得到各所述样本图像组数据各自的样本图像特征；

将各所述样本图像特征输入到所述注视点超图学习模型中构建所述注视点超图，并基于所述注视点超图得到各注视点特征；

将各所述注视点特征输入到所述多层感知机网络中，得到所述预测注视点坐标。

4.根据权利要求1-3任一项所述的方法，所述注视点预测模型中还包括多层神经网络，所述方法还包括：

基于预设的动态眼部追踪数据集，获取样本边界图像数据及边界点真值坐标，其中，所述样本边界图像数据包括所述样本对象注视预设边界点时采集的图像；

针对每一所述样本边界图像数据分别进行部分截取，得到每一所述样本边界图像数据对应的第二样本图像组数据，其中，各所述第二样本图像组数据包括所述样本对象的左眼图像、右眼图像、面部图像及整体人像；

将各所述第二样本图像组数据输入到所述多层神经网络中，得到各边界点特征；

将各所述边界点特征输入到所述多层感知机网络中，得到预测边界点坐标；

根据所述预测边界点坐标和所述边界点真值坐标之间的距离，调整所述注视点预测模型的参数。

5.根据权利要求1-4任一项所述的方法，其中，构建所述预设的动态眼部追踪数据集的方式为：

6.根据权利要求3所述的方法，其中，所述注视点超图学习模型中包括超图卷积层，所述将各所述样本图像特征输入到所述注视点超图学习模型中构建所述注视点超图，并基于所述注视点超图得到各注视点特征，包括：

基于各所述目标节点建立超边，得到所述注视点超图；

7.一种注视点预测方法，包括：

将所述目标图像数据输入到预先训练的注视点预测模型中，得到所述目标对象的预测注视点坐标，其中，所述注视点预测模型通过权利要求1-6任一所述的注视点预测模型的训练方法训练得到。

8.一种注视点预测模型的训练装置，包括：

9.根据权利要求8所述的装置，其中，所述第一数据获取模块，具体用于：

10.根据权利要求8所述的装置，其中，所述注视点预测模型还包括：特征提取网络以及多层感知机网络；

所述第一坐标预测模块，包括：

11.根据权利要求8-10任一项所述的装置，所述注视点预测模型中还包括多层神经网络，所述装置还包括：

第二坐标预测模块，用于将各所述边界点特征输入到所述多层感知机网络中，得到预测边界点坐标；

12.根据权利要求8-11任一项所述的装置，其中，构建所述预设的动态眼部追踪数据集的方式为：

13.根据权利要求10所述的装置，其中，所述特征获得子模块，具体用于：

基于各所述目标节点建立超边，得到所述注视点超图；

14.一种注视点预测装置，包括：

注视点坐标预测模块，用于将所述目标图像数据输入到预先训练的注视点预测模型中，得到所述目标对象的预测注视点坐标，其中，所述注视点预测模型通过权利要求8-13任一所述的注视点预测模型的训练装置训练得到。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。