CN116959086A

CN116959086A - 一种视线估计方法、系统、设备及存储介质

Info

Publication number: CN116959086A
Application number: CN202311201115.2A
Authority: CN
Inventors: 徐浩
Original assignee: Nanchang Virtual Reality Institute Co Ltd
Current assignee: Nanchang Virtual Reality Institute Co Ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-10-27
Anticipated expiration: 2043-09-18
Also published as: CN116959086B

Abstract

本发明实施例提供了一种视线估计方法、系统、设备及存储介质，该方法采集用户注视各个预设标志物时的第一人眼数据以及对应的预设标志物位置数据，得到第一采样数据集；通过对第一采样数据集进行数据质量检测，得到数据质量合格的校准数据集；对校准数据集中的校准样例进行预处理，得到对应的第一眼动数据和第一视线数据作为训练样例，并生成训练数据集；利用训练数据集对构建的第一视线估计模型进行训练，得到第二视线估计模型。实现用户的高精度视线进行估计，极大降低了视线估计的精度误差。

Description

一种视线估计方法、系统、设备及存储介质

技术领域

本发明实施例涉及计算机视觉技术领域，具体涉及一种视线估计方法、系统、设备及存储介质。

背景技术

视线是眼睛注视的方向，代表一个人关注的焦点。视线追踪是目前比较活跃的研究课题之一，在人机交互及人类认知科学等领域存在着很大的应用潜力。视线追踪的基础是对人眼视线的方向进行估计。

相关技术中，通常采用P-CR方法确定眼球的注视信息，P-CR方法分为基于回归的P-CR方法和基于3D的P-CR方法两种，这两种方法在具体实现时，均需要利用多个光源在用户眼球中形成多个光斑，并获取用户的人眼图像，通过对人眼图像进行图像处理，在人眼图像上检测到所有光源对应的光斑，进而根据光源与光斑的对应关系确定眼球的注视信息。

现有的基于深度学习的视线估计方法，其视线估计误差约为5°，难以满足商用需求。目前公开可用的校准数据集的数据，采集自多个被试用户，且未考虑不同被试用户的眼睛Kappa角（瞳孔中线与视轴的夹角）差异，校准数据质量不高。

发明内容

为此，本发明实施例提供一种视线估计方法、系统、设备及存储介质，以解决当前视线估计精度误差大的技术问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，本申请实施例提供了一种视线估计方法，所述方法包括：

构建第一视线估计模型；

采集用户注视各个预设标志物时的第一人眼数据以及对应的预设标志物位置数据，作为第一采样样例并生成第一采样数据集；

对所述第一采样数据集进行数据质量检测；

基于数据质量检测结果，得到数据质量合格的校准样例并生成校准数据集；

对所述校准数据集中的各个第一人眼数据以及对应的预设标志物位置数据进行预处理，分别得到对应的第一眼动数据和第一视线数据作为训练样例，并生成训练数据集；

利用所述训练数据集对所述第一视线估计模型进行训练，得到第二视线估计模型；

其中，对所述第一采样数据集进行数据质量检测，包括：

从所述第一采样数据集中的各个第一人眼数据中选出聚类数据点；

对各个聚类数据点进行聚类分析，将所有未被归为任何簇的聚类数据点标记为噪声点并统计聚类簇数和噪声点数量；

判断所述聚类簇数与所述预设标志物的数量是否一致以及所述噪声点数量是否小于第一预设阈值；

如果所述聚类簇数与所述预设标志物的数量一致，且所述噪声点的数量小于第一预设阈值，则对所述第一采样数据集的聚类分析结果合格，否则对所述第一采样数据集的聚类分析结果不合格，对所述第一采样数据集重新采样；

对聚类分析结果合格的第一采样数据集，剔除噪声点对应的第一采样样例，将剩余的第一采样样例作为第二采样样例，更新生成第二采样数据集；

将所述第二采样样例作为校准样例，所述校准数据集为所述第二采样数据集。

进一步地，本申请实施例提供的一种视线估计方法还包括：

采集用户注视目标标志物时的第二人眼数据；

对所述第二人眼数据进行预处理，得到对应的第二眼动数据；

将所述第二眼动数据输入所述第二视线估计模型进行处理，得到第二视线数据。

进一步地，本申请实施例提供的一种视线估计方法还包括：

将所述训练数据集保存至终端进行存储和管理，或将所述训练数据集上传至云端存储和管理；

针对所述训练数据集，采用两级目录方式存储，一级目录为用户ID，二级目录为存储时间；

通过单个用户单次获取的训练数据集作为一个训练数据集存储单元；

每个训练数据集存储单元包括：数据集描述文件和训练样例集合。

进一步地，对各个聚类数据点进行聚类分析，包括：

随机选择一个未被访问过的聚类数据点作为起始点，将其余聚类数据点作为待测点；

以所述起始点为中心，基于第二预设阈值生成对应的预设邻域；

将各个待测点与所述起始点之间的第一距离与所述第二预设阈值对比，判断所述起始点的预设邻域内是否存在待测点；

若所述起始点的预设邻域内存在待测点，则将所述待测点作为核心点，并判断是否存在未被访问过的聚类数据点；

若所述起始点的预设邻域内不存在待测点，则直接判断是否存在未被访问过的聚类数据点；

如果存在未被访问过的聚类数据点，则重新随机选择下一个未被访问过的聚类数据点作为起始点；

如果不存在未被访问过的聚类数据点，则将各个起始点以及对应预设邻域内的所有核心点纳入同一簇中。

进一步地，所述第一人眼数据为由多个空间分布稀疏的传感器阵列获得的人眼相对位置读数，对所述校准数据集中的各个第一人眼数据以及对应的预设标志物位置数据进行预处理，包括：

针对各个校准样例中的人眼相对位置读数，计算均值MEAN和方差STD；

将各个校准样例中的人眼相对位置读数先减去均值MEAN再除以方差STD，得到对应的第一眼动数据；

以水平方向上或竖直方向上最左上角或最中心的标志物为参考点，以水平方向上最左标志物至最右标志物之间的距离为水平方向单位长度，以竖直方向上最上标志物至最下标志物之间的距离为竖直方向单位长度，对各个校准样例中的预设标志物位置数据进行坐标归一化，得到对应的第一视线数据。

进一步地，对所述第一采样数据集进行数据质量检测，还包括：

对所述第二采样数据集中的各个簇进行编号，得到对应的编号簇；

选出预设数量编号簇对应的所有聚类数据点形成第一簇点集，由其余编号簇对应的所有聚类数据点形成第二簇点集；

利用所述第一簇点集和所述第二簇点集进行拟合，分别得到第一拟合椭圆和第二拟合椭圆；

计算所述第一簇点集中各个聚类数据点与所述第一拟合椭圆的轮廓点之间的最短距离，作为第二距离，以及计算所述第二簇点集中各个聚类数据点与所述第二拟合椭圆的轮廓点之间的最短距离，作为第三距离；

计算所有第二距离的第一平方和S₁以及所有第三距离的第二平方和S₂；

利用所述第一平方和S₁计算第一拟合误差E ₁，以及利用所述第二平方和S₂计算第二拟合误差E ₂；

判断所述第一拟合误差E ₁和所述第二拟合误差E ₂是否同时分别小于第一预设误差和第二预设误差；

若所述第一拟合误差E ₁小于第一预设误差，且所述第二拟合误差E ₁小于第二预设误差，则对所述第二采样数据集的椭圆拟合误差分析结果合格，否则对所述第二采样数据集的椭圆拟合误差分析结果不合格，对所述第一采样数据集重新采样；

将椭圆拟合误差分析结果合格的第二采样数据集中的所述第二采样样例确定为第三采样样例，并生成第三采样数据集；

将所述第三采样样例作为校准样例，所述校准数据集为所述第三采样数据集。

进一步地，所述第一人眼数据为由相机拍摄的人眼图像数据，对所述校准数据集中的各个第一人眼数据以及对应的预设标志物位置数据进行预处理，包括：

从各个校准样例中的人眼图像数据检测出瞳孔中心点数据或瞳孔轮廓点数据，得到对应的第一眼动数据；

以中心标志物为参考点，以最外围标志物到中心标志物的距离为单位长度，对各个校准样例中的预设标志物位置数据进行坐标归一化，得到对应的第一视线数据。

根据本发明实施例的第二方面，本申请实施例提供了一种视线估计系统，所述系统包括：

模型构建模块，用于构建第一视线估计模型；

采集模块，用于采集用户注视各个预设标志物时的第一人眼数据以及对应的预设标志物位置数据，作为第一采样样例并生成第一采样数据集；

检测模块，用于对所述第一采样数据集进行数据质量检测；基于数据质量检测结果，得到数据质量合格的校准样例并生成校准数据集；

预处理模块，用于对所述校准数据集中的各个第一人眼数据以及对应的预设标志物位置数据进行预处理，分别得到对应的第一眼动数据和第一视线数据作为训练样例，并生成训练数据集；

训练模块，用于利用所述训练数据集对所述第一视线估计模型进行训练，得到第二视线估计模型；

其中，对所述第一采样数据集进行数据质量检测，包括：

根据本发明实施例的第三方面，提供了一种视线估计设备，所述设备包括：处理器和存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如上任一项所述的一种视线估计方法的步骤。

根据本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的一种视线估计方法的步骤。

与现有技术相比，本申请实施例提供的一种视线估计方法、系统、设备及存储介质，采集用户注视各个预设标志物时的第一人眼数据以及对应的预设标志物位置数据，得到第一采样数据集；通过对第一采样数据集进行数据质量检测，得到数据质量合格的校准数据集；对校准数据集中的校准样例进行预处理，得到对应的第一眼动数据和第一视线数据作为训练样例，并生成训练数据集；利用训练数据集对构建的第一视线估计模型进行训练，得到第二视线估计模型。实现用户的高精度视线进行估计，极大降低了视线估计的精度误差。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种视线估计系统的逻辑结构示意图；

图2为本发明实施例提供的一种视线估计方法的流程示意图；

图3为本发明实施例提供的由相机拍摄的人眼图像数据的示意图；

图4为本发明实施例提供的与图3中所示的人眼图像数据相对应的预设标志物的数量与位置分布可视化效果示意图；

图5为本发明实施例提供的多个空间分布稀疏的传感器阵列的示意图；

图6为本发明实施例提供的与图5中所示的传感器阵列相对应的一个预设标志物的数量与位置分布示意图；

图7为本发明一个实施例提供的对所述第一采样数据集进行数据质量检测的流程示意图；

图8为本发明实施例提供的对各个聚类数据点进行聚类分析的流程示意图；

图9为本发明实施例提供的从图3中所示的人眼图像数据中选出的聚类数据点的示意图；

图10为本发明另一个实施例提供的对所述第一采样数据集进行数据质量检测的流程示意图；

图11为本发明实施例提供的编号簇的示意图；

图12为本发明实施例提供的对预处理之前的校准数据集存储的两级目录的示意图；

图13为本发明实施例提供的对预处理之后得到的训练数据集存储的两级目录的流示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例应用于VR/AR眼动追踪领域。例如，应用于需要追踪用户视线的VR/AR设备，提供视线估计功能，以实现视觉交互、注视点渲染、变焦显示等功能。

本申请实施例的目的在于：针对眼动追踪功能。基于用户采集生成的校准数据上，生成训练数据，训练高准确度的视线估计模型，解决当前视线估计精度误差大的技术问题。

为了解决上述技术问题，如图1所示，本申请实施例提供了一种视线估计系统，其具体包括：模型构建模块01、采集模块02、检测模块03、预处理模块04、训练模块06、执行模块07。

具体地，在模型训练阶段，模型构建模块01用于构建第一视线估计模型08；采集模块02用于采集用户注视各个预设标志物时的第一人眼数据以及对应的预设标志物位置数据，作为第一采样样例并生成第一采样数据集；检测模块03用于对第一采样数据集进行数据质量检测；基于数据质量检测结果，得到数据质量合格的校准样例并生成校准数据集；预处理模块04用于对校准数据集中的各个第一人眼数据以及对应的预设标志物位置数据进行预处理，分别得到对应的第一眼动数据和第一视线数据作为训练样例，并生成训练数据集；训练模块06用于利用训练数据集对第一视线估计模型08进行训练，得到第二视线估计模型09。

在模型执行阶段，采集模块02还用于采集用户注视目标标志物时的第二人眼数据；预处理模块04还用于对第二人眼数据进行预处理，得到对应的第二眼动数据；执行模块07用于将第二眼动数据输入第二视线估计模型09进行处理，得到第二视线数据。

进一步地，本发明实施例公开的一种视线估计系统还包括：存储模块05，用于执行以下步骤：将训练数据集保存至终端进行存储和管理，或将训练数据集上传至云端存储和管理；针对训练数据集，采用两级目录方式存储，一级目录为用户ID，二级目录为存储时间；通过单个用户单次获取的训练数据集作为一个训练数据集存储单元；每个训练数据集存储单元包括：数据集描述文件和训练样例集合。

与现有技术相比，本申请实施例提供的一种视线估计系统，采集用户注视各个预设标志物时的第一人眼数据以及对应的预设标志物位置数据，得到第一采样数据集；通过对第一采样数据集进行数据质量检测，得到数据质量合格的校准数据集；对校准数据集中的校准样例进行预处理，得到对应的第一眼动数据和第一视线数据作为训练样例，并生成训练数据集；利用训练数据集对构建的第一视线估计模型进行训练，得到第二视线估计模型。实现用户的高精度视线进行估计，极大降低了视线估计的精度误差。

与上述公开的一种视线估计系统相对应，本发明实施例还公开了一种视线估计方法。以下结合上述描述的一种视线估计系统详细介绍本发明实施例中公开的一种视线估计方法。

首先，以针对用户采集到的第一人眼数据为由相机拍摄的人眼图像数据为例进行说明，如图2所示，以下对本申请实施例提供的一种视线估计方法具体步骤进行详细描述。

通过模型构建模块01构建第一视线估计模型08。

在本发明实施例中，构建的第一视线估计模型08为深度学习模型，第一视线估计模型08的主干网络可以是两种，若第一视线估计模型08的输入为图像数据，那么第一视线估计模型08的主干网络可以是卷积神经网络。若第一视线估计模型08的输入为特征点数据，那么第一视线估计模型08的输入的主干网络可以是图卷积神经网络或图循环神经网络，主干网络之后均连接多层感知机。

由采集模块02采集用户注视各个预设标志物时的第一人眼数据以及对应的预设标志物位置数据，作为第一采样样例并生成第一采样数据集。

具体地，在本发明实施例中，用户依次注视若干预设标志物，每个注视点注视一定时长，由采集模块02记录至少一帧第一人眼数据以及对应的预设标志物位置数据。参考图3，第一人眼数据为由相机拍摄的人眼图像数据，参考图4，预设标志物位置数据为平面上的各个预设圆点的坐标，如图4所示，共有19个圆点标志物，第一采样样例格式为{第一人眼数据，预设标志物位置数据}。

由检测模块3对第一采样数据集进行数据质量检测。

参考图7，上述步骤具体包括：从第一采样数据集中的各个第一人眼数据中选出聚类数据点；对各个聚类数据点进行聚类分析，将所有未被归为任何簇的聚类数据点标记为噪声点并统计聚类簇数和噪声点数量；判断聚类簇数与预设标志物的数量是否一致以及噪声点数量是否小于第一预设阈值；如果聚类簇数与预设标志物的数量一致，且噪声点的数量小于第一预设阈值，则对第一采样数据集的聚类分析结果合格，否则对第一采样数据集的聚类分析结果不合格，对第一采样数据集重新采样；对聚类分析结果合格的第一采样数据集，剔除噪声点对应的第一采样样例，将剩余的第一采样样例作为第二采样样例，更新生成第二采样数据集；将第二采样样例作为校准样例，校准数据集为第二采样数据集。

由于此时第一人眼数据为由相机拍摄的人眼图像数据，先检测第一采样数据集中各个人眼图像数据的瞳孔中心点，作为聚类数据点，得到瞳孔中心点集。瞳孔中心点集的可视化效果如图9所示。然后采用聚类算法对瞳孔中心点集进行聚类，得到聚类簇数和噪声点数量。

参考图8，上述对各个聚类数据点进行聚类分析，即聚类算法的具体步骤包括：随机选择一个未被访问过的聚类数据点作为起始点，将其余聚类数据点作为待测点；以所述起始点为中心，基于第二预设阈值生成对应的预设邻域；将各个待测点与所述起始点之间的第一距离与所述第二预设阈值对比，判断所述起始点的预设邻域内是否存在待测点；若所述起始点的预设邻域内存在待测点，则将所述待测点作为核心点，并判断是否存在未被访问过的聚类数据点；若所述起始点的预设邻域内不存在待测点，则直接判断是否存在未被访问过的聚类数据点；如果存在未被访问过的聚类数据点，则重新随机选择下一个未被访问过的聚类数据点作为起始点；如果不存在未被访问过的聚类数据点，则将各个起始点以及对应预设邻域内的所有核心点纳入同一簇中。

如上所述，判定一个聚类数据点是否在另一个聚类数据点邻域内的方式为：依据两个聚类数据点之间的距离（欧式距离或马哈氏距离）判定；对于每个起始点，如果该起始点领域内存在其余聚类数据点，则将这些聚类数据点和该起始点加入同一簇中；重复以上步骤，直到每个聚类数据点均访问过为止。影响校准数据集质量的因素主要有：采集第一采样数据集的过程中，因用户注意力不集中等因素，导致第一采样数据集存在噪声样例，或者缺失某一标志物对应的样例。针对上述问题，本发明实施例中采用上述对各个聚类数据点进行聚类分析进行数据质量检测，有效克服了上述情况对模型训练的影响。

由检测模块03基于数据质量检测结果，得到数据质量合格的校准样例并生成校准数据集。如上所述，此时，校准样例为上述第二采样样例，校准数据集为第二采样数据集。

进一步地，参考图10，在本发明实施例中，对所述第一采样数据集进行数据质量检测，还包括：对所述第二采样数据集中的各个簇进行编号，得到对应的编号簇；选出预设数量编号簇对应的所有聚类数据点形成第一簇点集，由其余编号簇对应的所有聚类数据点形成第二簇点集；利用所述第一簇点集和所述第二簇点集进行拟合，分别得到第一拟合椭圆和第二拟合椭圆；计算所述第一簇点集中各个聚类数据点与所述第一拟合椭圆的轮廓点之间的最短距离，作为第二距离，以及计算所述第二簇点集中各个聚类数据点与所述第二拟合椭圆的轮廓点之间的最短距离，作为第三距离，所述第二距离和所述第三距离的计算公式分别为：

其中，d _i1为第一簇点集中第i个聚类数据点与第一拟合椭圆的轮廓点之间的最短距离，d _j2为第二簇点集中第j个聚类数据点与第二拟合椭圆的轮廓点之间的最短距离，和/>分别为第一簇点集中第i个聚类数据点的横坐标和纵坐标，/>和/>分别为第一拟合椭圆的中心点的横坐标和纵坐标，x _j2和y _j2分别为第二簇点集中第j个聚类数据点的横坐标和纵坐标，/>和/>分别为第二拟合椭圆的中心点的横坐标和纵坐标，i和j均为大于零的整数，a ₁和b ₁分别为第一拟合椭圆的短轴长度和长轴长度，a ₂和b ₂分别为第二拟合椭圆的短轴长度和长轴长度，θ ₁是第一拟合椭圆的旋转角度，θ ₂是第二拟合椭圆的旋转角度；计算所有第二距离的第一平方和S₁以及所有第三距离的第二平方和S₂，所述第一平方和S₁和所述第二平方和S₂的计算公式分别为：/>

其中，m和n分别为第一簇点集和第二簇点集中聚类数据点的数量；利用所述第一平方和S₁计算第一拟合误差E ₁，以及利用所述第二平方和S₂计算第二拟合误差E ₂，所述第一拟合误差E ₁和所述第二拟合误差E ₂的计算公式分别为：

其中，m和n分别为第一簇点集和第二簇点集中聚类数据点的数量；判断所述第一拟合误差E ₁和所述第二拟合误差E ₂是否同时分别小于第一预设误差和第二预设误差；若所述第一拟合误差E ₁小于第一预设误差，且所述第二拟合误差E ₁小于第二预设误差，则对所述第二采样数据集的椭圆拟合误差分析结果合格，否则对所述第二采样数据集的椭圆拟合误差分析结果不合格，对所述第一采样数据集重新采样；将椭圆拟合误差分析结果合格的第二采样数据集中的所述第二采样样例确定为第三采样样例，并生成第三采样数据集；将所述第三采样样例作为校准样例，所述校准数据集为所述第三采样数据集。

影响校准数据集质量的因素还包括：采集第一采样数据集过程中，相机相对用户头部存在滑动，导致数据集失真。针对上述问题，本发明实施例采用椭圆拟合与误差分析技术进行判断。第一采样数据集经过聚类分析技术判断合格后，得到第二采样数据集，再对选定的瞳孔中心点集进行椭圆拟合操作，并基于椭圆拟合误差判断数据集是否合格。如图11所示，为本发明实施例提供的编号簇的示意图，由于第一采样数据集经过聚类分析技术判断合格后，更新后的第二采样数据集共有19簇，按照上述步骤分别编号为0至18，将编号为0至6的编号簇选为第一簇点集，以及将编号为7至18的编号簇选为第二簇点集，分别进行椭圆拟合，得到第一拟合椭圆和第二拟合椭圆；然后按照上述步骤分别计算第二距离和第三距离、以及第一拟合误差E ₁和第二拟合误差E ₂；若第一拟合误差E ₁小于第一预设误差，且第二拟合误差E ₁小于第二预设误差，则对第二采样数据集的椭圆拟合误差分析结果合格，反之不合格。

同样地，由检测模块03基于数据质量检测结果，得到数据质量合格的校准样例并生成校准数据集。如上所述，此时，校准样例为上述第三采样样例，校准数据集为第三采样数据集。

进一步地，在本发明实施例提供的一种视线估计方法还包括，通过存储模块05，将预处理前的校准数据集保存至终端进行存储和管理，或将预处理前的校准数据集上传至云端存储和管理。具体的，终端与云端的通信基础为以太网，通信协议为TCP/IP协议。

具体地，参考图12，针对预处理前的校准数据集，采用两级目录方式存储，一级目录为用户ID，二级目录为存储时间；通过单个用户单次获取的预处理前的校准数据集作为一个校准数据集存储单元；每个校准数据集存储单元包括：数据集描述文件和训练样例集合。

此时，数据集描述文件，用于描述所对应的校准数据集的相关信息，包括数据集名称、数据集大小（样例数量）、第一人眼数据类型（图像数据/特征点数据）、创建者、创建时间；样例集，即样例的集合。具体的，样例命名规则为ID_EYE_POINT_NUM，其中，ID表示用户ID，EYE表示左/右眼代号，0为左眼，1为右眼，POINT表示标志物编号，NUM表示样例序号。例如085_0_1_001，用户ID为085，左眼0，标志物编号1，样例序号001，综合理解：ID为085的用户的左眼，在注视1号标志物时，获取的001号样例。

由预处理模块04对校准数据集中的各个第一人眼数据以及对应的预设标志物位置数据进行预处理，分别得到对应的第一眼动数据和第一视线数据作为训练样例，并生成训练数据集。

上述步骤具体包括：从各个校准样例中的人眼图像数据检测出瞳孔中心点数据或瞳孔轮廓点数据，得到对应的第一眼动数据；以中心标志物为参考点，以最外围标志物到中心标志物的距离为单位长度，对各个校准样例中的预设标志物位置数据进行坐标归一化，得到对应的第一视线数据。

同样地，在本发明实施例提供的一种视线估计方法还包括，通过存储模块05，将预处理后得到的训练数据集保存至终端进行存储和管理，或将预处理后得到的训练数据集上传至云端存储和管理。具体的，终端与云端的通信基础为以太网，通信协议为TCP/IP协议。

具体地，参考图13，针对预处理后得到的训练数据集，采用两级目录方式存储，一级目录为用户ID，二级目录为存储时间；通过单个用户单次获取的训练数据集作为一个训练数据集存储单元；每个训练数据集存储单元包括：数据集描述文件和训练样例集合。

此时，数据集描述文件，用于描述所对应的校准数据集的相关信息，包括数据集名称、数据集大小（样例数量）、第一眼动数据类型（图像数据/特征点数据）、第一视线数据类型（2D平面的注视点/3D空间的视线起点与方向）、创建者、创建时间；样例集，即样例的集合。具体的，样例命名规则为ID_EYE_POINT_NUM，其中，ID表示用户ID，EYE表示左/右眼代号，0为左眼，1为右眼，POINT表示标志物编号，NUM表示样例序号。例如085_0_1_001，用户ID为085，左眼0，标志物编号1，样例序号001，综合理解：ID为085的用户的左眼，在注视1号标志物时，获取的001号样例。

由训练模块06利用训练数据集对第一视线估计模型08进行训练，得到第二视线估计模型09。

具体地，在终端或云端，基于用户当下采集的第一采样数据集得到的训练数据集，对所述第一视线估计模型进行训练，得到第二视线估计模型，以实现针对特定用户的高精度视线进行估计。

在终端或云端，基于同一用户多次采集的第一采样数据集得到的训练数据集，对所述第一视线估计模型进行训练，得到第二视线估计模型，以实现针对特定用户的高精度视线进行估计。

在终端或云端，基于多个用户多次采集的第一采样数据集得到的训练数据集，对所述第一视线估计模型进行训练，得到第二视线估计模型，以实现通用用户的高精度视线进行估计。

利用训练数据集对第一视线估计模型08进行训练的具体步骤包括：利用第一视线估计模型基于训练数据集中的第一眼动数据推理得到预测视线数据；基于预测视线数据与第一眼动数据确定损失函数的参数；损失函数可以为L1Loss或L2Loss等；基于损失函数的参数进行反向传播，调整模型参数。若基于同一或多个用户采集并预处理后的校准数据集训练模型，则被调整的参数为模型的全部参数。若基于用户当下采集并预处理后的数据集进行训练，则被调整的参数倾向于选择局部参数，以缩短训练时间，局部参数可以为多层感知机的参数。其中，与调整模型参数相关的学习率，采用Cosine Annealing方式进行动态调整，随着训练轮数epoch的增加，学习率lr以余弦形式下降，公式为：

其中，lr_max表示初始学习率，lr_min表示最小学习率，epoch表示当前epoch数，epochs表示总epoch数。

基于预处理后的训练数据集，循环执行上述步骤，当满足预设条件时，结束训练。预设条件包括但不限于：当达到最大迭代次数或训练轮数，或损失在可接受范围内，或准确度达到要求，或人为早停。

若第二视线估计模型训练于云端，且基于同一用户采集的预处理后的训练数据集，那么将第二视线估计模型下发至该用户的视线估计终端。若第二视线估计模型训练与云端，且基于多个用户采集的预处理后的校准数据集，那么将第二视线估计模型下发至多个用户的视线估计终端。

由采集模块02采集用户注视目标标志物时的第二人眼数据。

具体地，在本发明实施例中，用户注视目标标志物，保持一定时长，由采集模块02记录至少一帧第二人眼数据以及对应的预设标志物位置数据。第二人眼数据为由相机拍摄的人眼图像数据。

由预处理模块04对第二人眼数据进行预处理，得到对应的第二眼动数据。

参考图7，上述步骤具体包括：从第二人眼数据对应的人眼图像数据检测出瞳孔中心点数据或瞳孔轮廓点数据，得到对应的第二眼动数据。

由执行模块07将第二眼动数据输入第二视线估计模型09进行处理，得到第二视线数据。

另外，以针对用户采集到的第一人眼数据为由多个空间分布稀疏的传感器阵列获得的人眼相对位置读数为例进行说明，如图2所示，以下对本申请实施例提供的一种视线估计方法具体步骤进行详细描述。

通过模型构建模块01构建第一视线估计模型08。

在本发明实施例中，构建的第一视线估计模型08为深度学习模型，第一视线估计模型08的主干网络是图卷积神经网络或图循环神经网络，主干网络之后均连接多层感知机。

具体地，在本发明实施例中，用户依次注视若干预设标志物，每个注视点注视一定时长，由采集模块02记录至少一帧第一人眼数据以及对应的预设标志物位置数据。参考图5，为本发明实施例提供的多个空间分布稀疏的传感器阵列的示意图，参考图6，预设标志物位置数据为平面上的各个预设圆点的坐标，如图6所示，共有20个圆点标志物，第一采样样例格式为{第一人眼数据，预设标志物位置数据}。

由检测模块03对第一采样数据集进行数据质量检测。

由于此时第一人眼数据为由多个空间分布稀疏的传感器阵列获得的人眼相对位置读数，可以认为每一份第一人眼数据为多维空间的一个点，称为人眼数据点，将人眼数据点作为聚类数据点，得到人眼数据点集。然后采用聚类算法对人眼数据点集进行聚类，得到聚类簇数和噪声点数量。

如上所述，判定一个聚类数据点是否在另一个聚类数据点邻域内的方式为：依据两个聚类数据点之间的距离（欧式距离或马哈氏距离）判定；对于每个起始点，如果该起始点领域内存在其余聚类数据点，则将这些聚类数据点和该起始点加入同一簇中；重复以上步骤，直到每个聚类数据点均访问过为止。

影响校准数据集质量的因素主要有：采集第一采样数据集的过程中，因用户注意力不集中等因素，导致第一采样数据集存在噪声样例，或者缺失某一标志物对应的样例。针对上述问题，本发明实施例中采用上述对各个聚类数据点进行聚类分析进行数据质量检测，有效克服了上述情况对模型训练的影响。

此时，数据集描述文件，用于描述所对应的校准数据集的相关信息，包括数据集名称、数据集大小（样例数量）、第一人眼数据类型（由多个空间分布稀疏的传感器阵列获得的人眼相对位置读数）、创建者、创建时间；样例集，即样例的集合。具体的，样例命名规则为ID_EYE_POINT_NUM，其中，ID表示用户ID，EYE表示左/右眼代号，0为左眼，1为右眼，POINT表示标志物编号，NUM表示样例序号。例如085_0_1_001，用户ID为085，左眼0，标志物编号1，样例序号001，综合理解：ID为085的用户的左眼，在注视1号标志物时，获取的001号样例。

上述步骤具体包括：针对各个校准样例中的人眼相对位置读数，计算均值MEAN和方差STD；将各个校准样例中的人眼相对位置读数先减去均值MEAN再除以方差STD，得到对应的第一眼动数据；以水平方向上或竖直方向上最左上角或最中心的标志物为参考点，以水平方向上最左标志物至最右标志物之间的距离为水平方向单位长度，以竖直方向上最上标志物至最下标志物之间的距离为竖直方向单位长度，对各个校准样例中的预设标志物位置数据进行坐标归一化，得到对应的第一视线数据。

此时，数据集描述文件，用于描述所对应的校准数据集的相关信息，包括数据集名称、数据集大小（样例数量）、第一眼动数据类型（由多个空间分布稀疏的传感器阵列获得的人眼相对位置读数）、第一视线数据类型（2D平面的注视点/3D空间的视线起点与方向）、创建者、创建时间；样例集，即样例的集合。具体的，样例命名规则为ID_EYE_POINT_NUM，其中，ID表示用户ID，EYE表示左/右眼代号，0为左眼，1为右眼，POINT表示标志物编号，NUM表示样例序号。例如085_0_1_001，用户ID为085，左眼0，标志物编号1，样例序号001，综合理解：ID为085的用户的左眼，在注视1号标志物时，获取的001号样例。

由采集模块02采集用户注视目标标志物时的第二人眼数据。

具体地，在本发明实施例中，用户注视目标标志物，保持一定时长，由采集模块02记录至少一帧第二人眼数据以及对应的预设标志物位置数据。第二人眼数据为由多个空间分布稀疏的传感器阵列获得的人眼相对位置读数。

参考图7，上述步骤具体包括：针对第二人眼数据对应的人眼相对位置读数，计算均值MEAN和方差STD；将各个校准样例中的人眼相对位置读数先减去均值MEAN再除以方差STD，得到对应的第二眼动数据。

与现有技术相比，本申请实施例提供的一种视线估计方法，采集用户注视各个预设标志物时的第一人眼数据以及对应的预设标志物位置数据，得到第一采样数据集；通过对第一采样数据集进行数据质量检测，得到数据质量合格的校准数据集；对校准数据集中的校准样例进行预处理，得到对应的第一眼动数据和第一视线数据作为训练样例，并生成训练数据集；利用训练数据集对构建的第一视线估计模型进行训练，得到第二视线估计模型。实现用户的高精度视线进行估计，极大降低了视线估计的精度误差。

另外，本发明实施例还提供了一种视线估计设备，所述设备包括：处理器和存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行如上任一项所述的一种视线估计方法的步骤。

另外，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述一种视线估计方法的步骤。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器（Digital Signal Processor，简称DSP）、专用集成电路（Application Specific Integrated Circuit，简称ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，简称FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器（Read-Only Memory，简称ROM）、可编程只读存储器（Programmable ROM，简称PROM）、可擦除可编程只读存储器（Erasable PROM，简称EPROM）、电可擦除可编程只读存储器（Electrically EPROM，简称EEPROM）或闪存。

易失性存储器可以是随机存取存储器（Random Access Memory，简称RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（Static RAM，简称SRAM）、动态随机存取存储器（Dynamic RAM，简称DRAM）、同步动态随机存取存储器（Synchronous DRAM，简称SDRAM）、双倍数据速率同步动态随机存取存储器（Double Data RateSDRAM，简称DDRSDRAM）、增强型同步动态随机存取存储器（EnhancedSDRAM，简称ESDRAM）、同步连接动态随机存取存储器（Synchlink DRAM，简称SLDRAM）和直接内存总线随机存取存储器（DirectRambus RAM，简称DRRAM）。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种视线估计方法，其特征在于，所述方法包括：

构建第一视线估计模型；

对所述第一采样数据集进行数据质量检测；

其中，对所述第一采样数据集进行数据质量检测，包括：

2.如权利要求1所述的一种视线估计方法，其特征在于，所述方法还包括：

采集用户注视目标标志物时的第二人眼数据；

3.如权利要求2所述的一种视线估计方法，其特征在于，所述方法还包括：

4.如权利要求3所述的一种视线估计方法，其特征在于，对各个聚类数据点进行聚类分析，包括：

5.如权利要求4所述的一种视线估计方法，其特征在于，所述第一人眼数据为由多个空间分布稀疏的传感器阵列获得的人眼相对位置读数，对所述校准数据集中的各个第一人眼数据以及对应的预设标志物位置数据进行预处理，包括：

6.如权利要求4所述的一种视线估计方法，其特征在于，对所述第一采样数据集进行数据质量检测，还包括：

7.如权利要求4或6所述的一种视线估计方法，其特征在于，所述第一人眼数据为由相机拍摄的人眼图像数据，对所述校准数据集中的各个第一人眼数据以及对应的预设标志物位置数据进行预处理，包括：

8.一种视线估计系统，其特征在于，所述系统包括：

模型构建模块，用于构建第一视线估计模型；

其中，对所述第一采样数据集进行数据质量检测，包括：

9.一种视线估计设备，其特征在于，所述设备包括：处理器和存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1至7任一项所述的一种视线估计方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的一种视线估计方法的步骤。