CN112183160A

CN112183160A - 视线估计方法及装置

Info

Publication number: CN112183160A
Application number: CN201910597835.2A
Authority: CN
Inventors: 赵志忠; 姚涛; 杨孟
Original assignee: Beijing 7Invensun Technology Co Ltd
Current assignee: Beijing 7Invensun Technology Co Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2021-01-05

Abstract

本申请公开了一种视线估计方法及装置。其中，该方法包括：获取待测试图像和基准图像的特征数据，其中，该特征数据包括眼部图像数据，以及对视线估计产生影响的信息；基于待测试图像的特征数据和基准图像的特征数据确定待测试图像中的注视点位置与基准图像中的注视点位置的差异；依据基准图像中的注视点位置和差异确定待测试图像中的注视点位置。本申请解决了现阶段利用差分网络模型技术对视线进行估计时，没有考虑用户的头部姿态、是否佩戴眼镜和/或美瞳对视线估计的影响，从而导致视线估计精度低的技术问题。

Description

视线估计方法及装置

技术领域

本申请涉及视线追踪领域，具体而言，涉及一种视线估计方法及装置。

背景技术

人的眼球结构存在诸多差异，尤其是眼睛的视轴和光轴存在偏差因人而异，所以基于眼图外观的深度学习视线估计方法需要与校准步骤结合。有学者提出了一种基于差分的视线估计方法，该方法能有效解决人眼生理性差异，(主要是眼睛视轴和光轴方向偏差)获得比较好的视线方向估计精度。但这类方法在计算时，采用左右眼的图像分别进行计算，但没有考虑到用户的头部姿态和是否佩戴眼镜和/或美瞳对视线估计的影响。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种视线估计方法及装置，以至少解决现阶段利用差分网络模型技术对视线进行估计时，没有考虑用户的头部姿态、是否佩戴眼镜和/或美瞳对视线估计的影响，从而导致视线估计精度低的技术问题。

根据本申请实施例的一个方面，提供了一种视线估计方法，包括：获取待测试图像和基准图像的特征数据，其中，该特征数据包括眼部图像数据，以及对视线估计产生影响的信息；基于待测试图像的特征数据和基准图像的特征数据确定待测试图像中的注视点位置与基准图像中的注视点位置的差异；依据基准图像中的注视点位置和差异确定待测试图像中的注视点位置。

可选地，在获取待测试图像和基准图像的特征数据之前，上述方法还包括：对待测试图像进行归一化处理。

可选地，对待测试图像进行归一化处理，包括：以获取待测试图像的图像采集装置为原点建立原始空间坐标系；旋转原始空间坐标系，使待测试图像中的原点与原始空间坐标系的Z轴重合，得到旋转矩阵，待测试图像中的原点包括如下至少之一：鼻尖、左/右眼瞳孔中心、左右眼瞳孔连线的中心；依据原始空间坐标系、旋转矩阵及缩放因子确定目标空间坐标系，缩放因子依据与待测试图像对应的目标物和图像采集装置的距离确定；在目标空间坐标系中确定待测试图像中的注视点位置，得到归一化处理后的待测试图像。

可选地，对视线估计产生影响的信息包括如下至少之一：头部姿态信息、眼部是否佩戴眼镜和/或美瞳的状态信息。

可选地，基于待测试图像的特征数据和基准图像的特征数据确定待测试图像中的注视点位置与基准图像中的注视点位置的差异，包括：将待测试图像的特征数据和基准图像的特征数据输入至深度学习模型中进行预测，得到待测试图像中的注视点位置与基准图像中的注视点位置的差异。

可选地，在将待测试图像的特征数据和基准图像的特征数据输入至深度学习模型中进行预测之前，上述方法还包括：获取训练数据集，其中，训练数据集包括：第一样本图像及第二样本图像，其中，第一样本图像和第二样本图像均包括：眼部图像数据、头部姿态信息、眼部是否配戴眼镜的状态信息及第一样本图像中的注视点位置与第二样本图像中的注视点位置的差异；基于训练数据集，生成深度学习模型。

可选地，基于训练数据集，生成深度学习模型，包括：设置训练深度学习模型的超参数，其中，超参数包括如下至少之一：训练轮数、学习率以及批处理数量大小；依据训练数据集和梯度下降法最小化深度学习模型的目标函数，其中，目标函数的取值为第一样本图像中的注视点位置与第二样本图像中的注视点位置的差异对应的真值；在目标函数的取值小于或者等于预设阈值时，得到训练好的深度学习模型。

可选地，依据基准图像中的注视点位置和差异确定待测试图像中的注视点位置，包括：将与差异对应的真值与基准图像中的注视点位置叠加，在目标空间坐标系中得到待测试图像中的注视点位置。

可选地，在得到待测试图像中的注视点位置之后，上述方法还包括：依据待测试图像中的注视点在目标空间坐标系中的位置、旋转矩阵及缩放因子确定待测试图像中的注视点在原始空间坐标系中的位置。

根据本申请实施例的另一方面，还提供了一种视线估计装置，包括：获取模块，用于获取待测试图像和基准图像的特征数据,其中，特征数据包括眼部图像数据，以及对视线估计产生影响的信息；第一确定模块，用于基于待测试图像的特征数据和基准图像的特征数据确定待测试图像中的注视点位置与基准图像中的注视点位置的差异；第二确定模块，用于依据基准图像中的注视点位置和差异确定待测试图像中的注视点位置。

根据本申请实施例的再一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，程序运行时控制存储介质所在的设备执行以上的视线估计方法。

根据本申请实施例的再一方面，还提供了一种处理器，处理器用于运行程序，其中，处理器运行时执行以上的视线估计方法。

在本申请实施例中，采用获取待测试图像和基准图像的特征数据,其中，该特征数据包括眼部图像数据，以及对视线估计产生影响的信息；基于待测试图像的特征数据和基准图像的特征数据确定待测试图像中的注视点位置与基准图像中的注视点位置的差异；依据基准图像中的注视点位置和差异确定待测试图像中的注视点位置的方式，通过在现有的差分网络模型的网络结构中增加头部姿态信息、眼部是否佩戴眼镜和/或美瞳的状态信息，将头部姿态信息、眼部是否佩戴眼镜和/或美瞳的状态信息及眼部图像数据一同作为网络的输入，达到了使利用差分网络模型估计视线方向的方法适应一定范围内的头部转动的目的，即头部转动角度在一定的范围内，也可以获得比较准确的视线估计，从而实现了提高了利用差分网络模型对视线进行估计的精度的技术效果，进而解决了现阶段利用差分网络模型技术对视线进行估计时，没有考虑用户的头部姿态、是否佩戴眼镜和/或美瞳对视线估计的影响，从而导致视线估计精度低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种视线估计方法的流程图；

图2是根据本申请实施例的一种对图像进行归一化处理的示意图；

图3是根据本申请实施例的一种利用差分网络模型进行视线预测的过程示意图；

图4是根据本申请实施例的一种视线估计装置的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，在利用差分网络模型对人眼的视线方向进行估计时没有考虑到用户的头部姿态、是否佩戴眼镜和/或美瞳对视线估计的影响，从而导致视线估计精度较低。

为解决上述问题，本申请通过在现有的差分网络模型的网络结构中增加头部姿态信息、眼部是否佩戴眼镜和/或美瞳的状态信息，将头部姿态信息、眼部是否佩戴眼镜和/或美瞳的状态信息及眼部图像数据一同作为网络的输入，达到了使利用差分网络模型估计视线方向的方法适应一定范围内的头部转动的目的，即头部转动角度在一定的范围内，也可以获得比较准确的视线估计。

基于上述原理，根据本申请实施例，提供了一种视线估计方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种视线估计方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待测试图像和基准图像的特征数据,其中，该特征数据包括眼部图像数据，以及对视线估计产生影响的信息。

眼部图像数据特征用向量X₁标示。

根据本申请的一个可选地实施例，对视线估计产生影响的信息包括如下至少之一：头部姿态信息、眼部是否佩戴眼镜和/或美瞳的状态信息。

根据本申请的一个可选的实施例，步骤S102中的眼部图像数据是指图像采集装置采集的多个眼部特征数据，可以包括：瞳孔位置、瞳孔形状、虹膜位置、虹膜形状、眼皮位置、眼角位置、光斑(也称为普尔钦斑)位置等数据。

头部姿态信息包括头部水平移动信息和头部垂直移动信息，头部姿态信息分别用θ和φ表示，其中，θ表示头部水平移动的角度(摇头的角度)，φ表示头部垂直移动的角度(抬头的角度)；可选地，可以以待测试图像中的鼻尖为原点建立空间坐标系，通过检测鼻尖的坐标变化计算头部水平移动的角度θ(摇头的角度)和头部垂直移动的角度φ(抬头的角度)。

是否佩戴眼镜的状态信息是待测试图像或者基准图像中的人眼是否配戴眼镜，用ρ表示，其中，ρ＝0表示未佩戴眼镜，ρ＝1表示配戴眼镜。

是否佩戴美瞳的状态信息是待测试图像或者基准图像中的人眼是否配戴美瞳，用σ表示，其中，σ＝0表示未佩戴美瞳，σ＝1表示配戴美瞳。

组合这些头部姿态以及佩戴眼镜、美瞳信息得到第二部分特征X₂＝[θ，φ，ρ，σ]

将这两部分特征连接得到向量X＝[X₁，X₂]。向量X代表待测试图像的特征数据。

需要说明的是，待测试图像和基准图像的特征数据可以使用眼动追踪装置(眼动仪)进行获取，其中，在校准过程中，当被测用户注视校准点时拍摄基准图像，并获取基准图像的特征数据；在对用户的视线进行估计的过程中拍摄待测试图像，并获取待测试图像的特征数据。

步骤S104，基于待测试图像的特征数据和基准图像的特征数据确定待测试图像中的注视点位置与基准图像中的注视点位置的差异。

在本申请的一些实施例中，上述待测试图像中的注视点位置与基准图像中的注视点位置的差异是指待测试图像中的注视点位置与基准图像中的注视点位置的差值或者视线方向的差值。

步骤S106，依据基准图像中的注视点位置和差异确定待测试图像中的注视点位置。

通过上述步骤，通过在现有的差分网络模型的网络结构中增加头部姿态信息、眼部是否佩戴眼镜和/或美瞳的状态信息，将头部姿态信息、眼部是否佩戴眼镜和/或美瞳的状态信息及眼部图像数据一同作为网络的输入，达到了使利用差分网络模型估计视线方向的方法适应一定范围内的头部转动的目的，即头部转动角度在一定的范围内，也可以获得比较准确的视线估计，从而实现了提高了利用差分网络模型对视线进行估计的精度的技术效果。

在本申请的一些可选的实施例中，在执行步骤S102之前，还需要对待测试图像进行归一化处理。

根据本申请的一个可选的实施例，对待测试图像进行归一化处理，包括：以获取待测试图像的图像采集装置为原点建立原始空间坐标系；旋转原始空间坐标系，使待测试图像中的原点与原始空间坐标系的Z轴重合，得到旋转矩阵，待测试图像中的原点包括如下至少之一：鼻尖、左/右眼瞳孔中心、左右眼瞳孔连线的中心

；依据原始空间坐标系、旋转矩阵及缩放因子确定目标空间坐标系，缩放因子依据与待测试图像对应的目标物和图像采集装置的距离确定；在目标空间坐标系中确定待测试图像中的注视点位置。

需要说明的，待测试图像中的原点可以定义为人的鼻尖位置，也可以是左眼或者右眼的瞳孔中心位置，也可以是左右眼瞳孔连线的中心，或者是任何需要提取特征数据的位置。需要说明的是，当以人的鼻尖作为待测试图像的原点时，归一化后的图像为人的整个脸部图像；当以左眼或者右眼的瞳孔中心为待测试图像的原点时，归一化后的图像为人的左眼或者右眼图像；当以左右眼瞳孔连线的中心作为待测试图像的原点时，归一化后的图像为人的两只眼睛的图像。

头部姿态直接影响到视线估计的结果,由于头部姿态的变化空间非常大，要获得如此大空间的样本数据难度非常大，我们采取归一化过程来解决头部姿态的影响。使用红外相机以及深度相机采集设备获得眼图红外图以及眼部区域的三维模型。根据实际相机采集的图像以及深度信息，可以获得眼睛和真实相机之间的位置关系。图2是根据本申请实施例的一种对图像进行归一化处理的示意图，如图2所示，Hr为以鼻尖为圆心的待测试图像坐标系，Cr为相机坐标系(原始空间坐标系)，Cn为深度相机坐标系(目标空间坐标系)，Icr为Cr获得的图像(实际采集的图像)，Icn为Cn对应的图像(归一化空间的图像)。Cn坐标系构造方法如下：以Cr原点为中心旋转Cr坐标系，使待测试图像中的原点落在Cr的z轴上，从而得到旋转矩阵为R；

根据物理相机和待测试图像的距离，确定缩放因子S，使得归一化后的图像只显示需要提取特征数据的图像而去掉不必要的图像，例如背景环境图像等；具体的确定过程为：如果物理相机距离待测试图像较远，则需要将相机坐标系向待测试图像坐标系方向平移，当图象中只显示人脸图像而没有背景环境图像时，停止移动相机坐标系，根据相机坐标系移动的位移可以确定相机的焦距变化，根据相机的焦距变化确定缩放因子S；

Cr和Cn之间的变换关系为Cn＝S*R*Cr；根据Cn和Cr之间的关系，可以确定图像之间的关系为

可以获得归一化后的图像。视线方向由相机坐标系下的方向变换为归一化后的坐标系下的方向。

通过上述归一化算法，将眼图映射在深度相机的成像面上，同时将注视点映射到深度相机的空间坐标系中，可以实现对头部姿态进行的有效地补偿。

根据本申请的一个可选的实施例，执行步骤S104通过以下方法实现：将待测试图像的特征数据和基准图像的特征数据输入至深度学习模型中进行预测，得到待测试图像中的注视点位置与基准图像中的注视点位置的差异。

根据本申请的一个可选的实施例，在将待测试图像的特征数据和基准图像的特征数据输入至深度学习模型中进行预测之前，还需要训练该深度学习模型，具体训练方法包括以下步骤：获取训练数据集，其中，训练数据集包括：第一样本图像及第二样本图像，其中，第一样本图像和第二样本图像均包括：眼部图像数据、头部姿态信息、眼部是否配戴眼镜的状态信息及第一样本图像中的注视点位置与第二样本图像中的注视点位置的差异；基于训练数据集，生成深度学习模型。

因为视线估计方法为有监督学习方法，所以用于训练的所有数据都是有标签的，即模型的输入图像和输出的屏幕坐标之间有对应关系。

在本申请提供的一个实施例中，在对深度学习模型进行训练时，选择多个眼部图像，学习两个眼部图像中注视点的差值。即该深度学习模型的输入为多个眼部图像，输出为两个眼部图像中注视点在屏幕上的坐标的差值。需要说明的是，输入的多个眼部图像均为通过上述图2所示归一化处理方法处理后的图像。

根据本申请的一个可选的实施例，基于训练数据集，生成深度学习模型，包括：设置训练深度学习模型的超参数，其中，超参数包括如下至少之一：训练轮数、学习率以及批处理数量大小；依据训练数据集和梯度下降法最小化深度学习模型的目标函数，其中，目标函数的取值为第一样本图像中的注视点位置与第二样本图像中的注视点位置的差异对应的真值；在目标函数的取值小于或者等于预设阈值时，得到训练好的深度学习模型。

模型的训练过程是模型参数更新的过程，具体训练的算法如下：

(i)初始化网络模型的权重参数，设置模型训练的超参数(训练轮数n，学习率lr，批处理数量大小batchsize等)。

(ii)通过训练数据集和优化算法获得目标函数的梯度信息；深度学习中使用的优化算法除了常见的梯度下降，还有Adadelta，Adagrad，RMSProp等。

(iii)更新模型参数，根据得到的梯度更新模型参数。

重复(ii)。

当损失函数下降到比较小的值时，保存对应的深度学习网络模型。模型的损失函数用来衡量模型预测结果的好坏，在本申请实施例中，模型在更新时的损失函数为：loss＝∑||d^p(I，J)–(g^gt(I)-g^gt(J))||₁，d^p(I，J)为深度学习模型的预测值，g^gt(I)为图像I视线方向的真值，g^gt(J)为图像J的视线方向真值。当损失函数的值小于或者等于一个预设阈值时，模型训练完成。

根据本申请的一个可选的实施例，执行步骤S106通过以下方法实现：依据基准图像中的注视点位置和差异确定待测试图像中的注视点位置，包括：将与差异对应的真值与基准图像中的注视点位置叠加，在目标空间坐标系中得到待测试图像中的注视点位置。

在本申请的一些实施例中，在得到待测试图像中的注视点位置之后，还需要依据待测试图像中的注视点在目标空间坐标系中的位置、旋转矩阵及缩放因子确定待测试图像中的注视点在原始空间坐标系中的位置。

具体地，将基准图像中注视点位置与待测试图像中注视点位置的差值与校准的注视点位置叠加，得到测试图像中注视点位置。需要说明的是，此时得到的测试图像中注视点位置是深度相机的空间坐标系中的位置，因此，还需要将深度相机的空间坐标系中的注视点位置变换至上述原始空间坐标系中的位置，相当于上述的对待测试图像进行归一化处理的一种逆变换处理过程。

图3是根据本申请实施例的一种利用差分网络模型进行视线预测的过程示意图，如图3所示，该预测过程如下：输入待测试图像，对图像进行归一化处理，归一化处理后获得待测试图像的双眼眼部图像、头部姿态信息以及是否配戴眼镜和/或美瞳的状态信息，将待测试图像归一化后的双眼眼部图像、头部姿态信息、是否戴眼镜和/或美瞳的状态信息和基准图像的双眼眼部图像、头部姿态信息、是否戴眼镜和/或美瞳的状态信息作为深度学习模型的输入，输出为基准图像的注视点位置和待测试图像注视点位置的差值，根据基准图像的注视点位置与上述差值叠加，可以获得注视点在归一化空间坐标系中的位置，对归一化空间的注视点坐标进行变换，即可获得注视点在相机坐标系中的位置，即注视点在显示设备屏幕上的注视点坐标。

差分网络模型的基本思想是可以根据预先确定的规则对数据流进行分类，由于每个人的眼睛视轴和光轴的夹角不同，在对人眼的视线方向进行估计时，采用通用的深度学习模型不能很好地区分个体差异，而采用差分网络模型对人眼的视线方向进行估计可以很好地弥补这个缺点。光轴，又称为眼轴，是指角膜正中到视神经与视网膜黄斑中心窝之间的一条假设线。视轴，自注视点通过结点与黄斑中心窝的连线。视轴与光轴之间有一定的夹角，采用差分网络模型，用双眼作为输入，精度可以达到3.3°左右。在网络结构中增加头部姿态和把双眼作为网络的输入，可以使该视线估计方法适应一定范围内的头部转动，即在头部在±5°范围内转动时，可以获得比较准确的注视点，还可以在戴眼镜的情况下获得比较准确的视线方向估计。

图4是根据本申请实施例的一种视线估计装置的结构图，如图4所示，该装置包括：

获取模块40，用于获取待测试图像和基准图像的特征数据,其中，特征数据包括眼部图像数据，以及如下至少之一：头部姿态信息、眼部是否佩戴眼镜和/或美瞳的状态信息。

眼部图像数据特征用向量X₁标示。

根据本申请的一个可选的实施例，步骤S102中的头部姿态信息包括头部水平移动信息和头部垂直移动信息，头部姿态信息分别用θ和φ表示，其中，θ表示头部水平移动的角度(摇头的角度)，φ表示头部垂直移动的角度(抬头的角度)；

第一确定模块42，用于基于待测试图像的特征数据和基准图像的特征数据确定待测试图像中的注视点位置与基准图像中的注视点位置的差异。

第二确定模块44，用于依据基准图像中的注视点位置和差异确定待测试图像中的注视点位置。

需要说明的是，图4所示实施例的优选实施方式可以参见图1所示实施例的相关描述，此处不再赘述。

本申请实施例还提供了一种存储介质，存储介质包括存储的程序，其中，程序运行时控制存储介质所在的设备执行以上的视线估计方法。

存储介质用于存储执行以下功能的程序：获取待测试图像和基准图像的特征数据,其中，该特征数据包括眼部图像数据，以及对视线估计产生影响的信息；基于待测试图像的特征数据和基准图像的特征数据确定待测试图像中的注视点位置与基准图像中的注视点位置的差异；依据基准图像中的注视点位置和差异确定待测试图像中的注视点位置。

本申请实施例还提供了一种处理器，处理器用于运行程序，其中，处理器运行时执行以上的视线估计方法。

处理器用于运行执行以下功能的程序：获取待测试图像和基准图像的特征数据,其中，该特征数据包括眼部图像数据，以及对视线估计产生影响的信息；基于待测试图像的特征数据和基准图像的特征数据确定待测试图像中的注视点位置与基准图像中的注视点位置的差异；依据基准图像中的注视点位置和差异确定待测试图像中的注视点位置。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视线估计方法，其特征在于，包括：

获取待测试图像和基准图像的特征数据,其中，所述特征数据包括眼部图像数据，以及对视线估计产生影响的信息；

基于所述待测试图像的特征数据和所述基准图像的特征数据确定所述待测试图像中的注视点位置与所述基准图像中的注视点位置的差异；

依据所述基准图像中的注视点位置和所述差异确定所述待测试图像中的注视点位置。

2.根据权利要求1所述的方法，其特征在于，在获取待测试图像和基准图像的特征数据之前，所述方法还包括：

对所述待测试图像进行归一化处理。

3.根据权利要求2所述的方法，其特征在于，对所述待测试图像进行归一化处理，包括：

以获取所述待测试图像的图像采集装置为原点建立原始空间坐标系；

旋转所述原始空间坐标系，使所述待测试图像中的原点与所述原始空间坐标系的Z轴重合，得到旋转矩阵，所述待测试图像中的原点包括如下至少之一：鼻尖、左/右眼瞳孔中心、左右眼瞳孔连线的中心；

依据所述原始空间坐标系、所述旋转矩阵及缩放因子确定目标空间坐标系，所述缩放因子依据与所述待测试图像对应的目标物和所述图像采集装置的距离确定；

在所述目标空间坐标系中确定所述待测试图像中的注视点位置，得到归一化处理后的所述待测试图像。

4.根据权利要求1所述的方法，其特征在于，所述对视线估计产生影响的信息包括如下至少之一：头部姿态信息、眼部是否佩戴眼镜和/或美瞳的状态信息。

5.根据权利要求4所述的方法，其特征在于，基于所述待测试图像的特征数据和所述基准图像的特征数据确定所述待测试图像中的注视点位置与所述基准图像中的注视点位置的差异，包括：

将所述待测试图像的特征数据和所述基准图像的特征数据输入至深度学习模型中进行预测，得到所述待测试图像中的注视点位置与所述基准图像中的注视点位置的差异。

6.根据权利要求5所述的方法，其特征在于，在将所述待测试图像的特征数据和所述基准图像的特征数据输入至深度学习模型中进行预测之前，所述方法还包括：

获取训练数据集，其中，所述训练数据集包括：第一样本图像及第二样本图像，其中，所述第一样本图像和所述第二样本图像均包括：眼部图像数据、头部姿态信息、眼部是否配戴眼镜的状态信息及所述第一样本图像中的注视点位置与所述第二样本图像中的注视点位置的差异；

基于所述训练数据集，生成所述深度学习模型。

7.根据权利要求6所述的方法，其特征在于，基于所述训练数据集，生成所述深度学习模型，包括：

设置训练所述深度学习模型的超参数，其中，所述超参数包括如下至少之一：训练轮数、学习率以及批处理数量大小；

依据所述训练数据集和梯度下降法最小化所述深度学习模型的目标函数，其中，所述目标函数的取值为所述第一样本图像中的注视点位置与所述第二样本图像中的注视点位置的差异对应的真值；

在所述目标函数的取值小于或者等于预设阈值时，得到训练好的深度学习模型。

8.根据权利要求3所述的方法，其特征在于，依据所述基准图像中的注视点位置和所述差异确定所述待测试图像中的注视点位置，包括：

将所述差异对应的真值与所述基准图像中的注视点位置叠加，在所述目标空间坐标系中得到所述待测试图像中的注视点位置。

9.根据权利要求8所述的方法，其特征在于，在所述目标空间坐标系中得到所述待测试图像中的注视点位置之后，所述方法还包括：

依据所述待测试图像中的注视点在所述目标空间坐标系中的位置、所述旋转矩阵及所述缩放因子确定所述待测试图像中的注视点在所述原始空间坐标系中的位置。

10.一种视线估计装置，其特征在于，包括：

获取模块，用于获取待测试图像和基准图像的特征数据,其中，所述特征数据包括眼部图像数据，以及对视线估计产生影响的信息；

第一确定模块，用于基于所述待测试图像的特征数据和所述基准图像的特征数据确定所述待测试图像中的注视点位置与所述基准图像中的注视点位置的差异；

第二确定模块，用于依据所述基准图像中的注视点位置和所述差异确定所述待测试图像中的注视点位置。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时控制存储介质所在的设备执行权利要求1至9中任意一项所述的视线估计方法。

12.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至9中任意一项所述的视线估计方法。