CN113419623A

CN113419623A - 一种非标定眼动交互方法和装置

Info

Publication number: CN113419623A
Application number: CN202110587945.8A
Authority: CN
Inventors: 闫野; 王小东; 谢良; 张敬; 印二威; 闫慧炯; 张亚坤; 艾勇保; 罗治国
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-21

Abstract

本发明公开了一种非标定眼动交互方法与装置，属于计算机视觉技术领域。所述方法包括：采集大量双眼图像、场景图像和头部运动信息，并对采集到的数据进行预处理；使用所采集的大量数据训练深度卷积网络注视点预测模型，获得所述双眼图像、场景图像和头部运动信息到预估注视点坐标的映射关系；将已有或实时采集数据输入已完成训练的深度卷积网络注视点预测模型，获取预估注视点。相较于标定式眼动交互方法，本方法通过预先训练卷积神经网络模型，实现使用时无需标定的效果，增强了头戴式设备使用的便捷性；本发明还整合了人眼图像，场景图像以及头部运动信息对注视点估计的贡献，三者相互补充，使得注视点估计的精度更好，鲁棒性更强。

Description

一种非标定眼动交互方法和装置

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种非标定眼动交互方法和装置。

背景技术

头戴式AR设备能够为用户提供丰富的生活工作交流体验，也被称为是新一代移动互联设备。眼动交互作为人员观测世界最直接的方式，是头戴式AR设备的关键交互方式。眼动交互需要精确鲁棒的视线估计做支撑，通过检测用户实时视觉注视方向，可以有效地理解用户的行为意图。当前基于头戴式AR设备的眼动交互已经在多种应用中部署。如基于视线的目标选择、注意力监控和视网膜中心凹式渲染等。

头戴式眼动仪通常使用依赖图像特征的标定式眼动交互方法，该方法为使用红外光照亮眼睛，进行瞳孔位置检测后以获取瞳孔的坐标，再根据反射亮斑的位置检测以获取亮斑的坐标，最后根据屏幕注视点的位置，瞳孔位置与亮斑位置之间的关系进行函数拟合。该方法中拟合得到的函数输入需要提供指定的显性眼部特征，在光线不足，图片模糊的情况下无法检测到这些显性的眼部特征，进而无法进行注视点估计。

标定式眼动交互方法至少有两个问题，一是在光线较差的情况下依赖于额外的红外光源，但额外的红外光源又会扰乱甚至完全阻碍眼部图像特征的获取。因此到目前为止，眼球跟踪研究大多局限于具有充分控制的照明条件的室内环境；二是使用前用户必须进行繁琐的眼动校准并且保持头部姿势的固定，在佩戴位置发生变化时需要重新标定，标定步骤过于繁琐，增加了设备使用的复杂度，对协助校准的人员专业性要求也比较高。因为这些问题，导致了目前采用标定式眼动交互方法的头戴式设备难以在长时间佩戴、高加速度运动等场景下使用。

发明内容

有鉴于此，本发明提供的一种非标定眼动交互方法和装置，通过融合头部运动信息，眼部图像与场景图像等与眼动相关的信息，能够有效提高眼动交互算法的精度和复杂场景下的算法鲁棒性。

根据本发明一个方面，提供了一种非标定眼动交互方法，该方法包括步骤：S1：采集双眼图像、场景图像和头部运动信息为第一采集数据；采集大量不同人员在不同场景下的所述第一采集数据为第一采集数据组，对所述第一采集数据组中的数据进行预处理；S2：使用所述第一采集数据组训练深度卷积网络注视点预测模型，获得所述双眼图像、场景图像和头部运动信息到预估注视点坐标的映射关系；S3：将已有或实时采集的所述第一采集数据进行预处理后，输入已完成训练的所述深度卷积网络注视点预测模型，获取预估注视点。

作为本发明的进一步改进，对所述第一采集数据进行预处理包括：通过头戴式设备的近眼摄像头采集佩戴所述头戴式设备的人员的双眼图像数据，对所述双眼图像数据进行预处理，获取双眼图像标准化向量数据；通过所述头戴式设备采集场景图像数据，对所述场景图像数据进行预处理，获取场景图像标准化向量数据；通过所述头戴式设备中的陀螺仪采集所述人员的头部运动信息数据，对所述人员的头部运动信息进行预处理，获取头部运动一维向量数据。

作为本发明的进一步改进，所述深度卷积网络注视点预测模型包括：选择任意一种在国际公开的显著性检测数据集上已训练完成的卷积神经网络为所述第一卷积神经网络，用于将所述场景图像标准化向量数据输入所述第一卷积神经网络进行处理，获取显著图数据，对所述显著图数据进行全连接层处理产生显著图高维特征；选择任意一种开源基础卷积神经网络作为所述第二卷积神经网络，用于将所述双眼图像标准化向量数据输入所述第二卷积神经网络进行处理，获取双眼图像高维特征；将所述显著图高维特征、所述双眼图像高维特征以及所述头部运动一维向量数据融合后，进行三层全连接层处理，获取预估注视点坐标。

作为本发明的进一步改进，使用所述第一采集数据组训练深度卷积网络注视点预测模型包括：S21：将所述第一采集数据组分为训练组和测试组；S22：使用所述训练组对所述深度卷积网络注视点预测模型进行训练，以对训练组中所有数据进行一次训练作为一轮，在每轮训练完成后，以每轮训练完成后的所述深度卷积网络注视点预测模型对测试组数据进行测试，计算损失函数值，使用Adam优化算法更新并保存此轮训练后的所述深度卷积网络注视点预测模型参数；S23：进行多轮训练，选择所述损失函数值最小的所述深度卷积网络注视点预测模型的参数，确定最终所述深度卷积网络注视点预测模型。

作为本发明的进一步改进，所述第一卷积神经网络为U^2 Net。

作为本发明的进一步改进，所述第二卷积神经网络为MobileNetV3。

根据本发明另一个方面，提供了一种非标定眼动交互装置，包括：数据采集与预处理模块：采集双眼图像、场景图像和头部运动信息为第一采集数据；采集大量不同人员在不同场景下的所述第一采集数据为第一采集数据组，对所述第一采集数据组中的数据进行预处理；深度卷积网络注视点预测模型：使用所述第一采集数据组训练所述深度卷积网络注视点预测模型，获得所述双眼图像、场景图像和头部运动信息到预估注视点坐标的映射关系；将已有或实时采集的所述第一采集数据进行预处理后，输入训练好的所述深度卷积网络注视点预测模型，获取预估注视点。

作为本发明的进一步改进，所述深度卷积网络注视点预测模型包括：显著图特征提取模块：选择任意一种在国际公开的显著性检测数据集上已训练完成的卷积神经网络为所述第一卷积神经网络，用于将所述场景图像标准化向量数据输入所述第一卷积神经网络进行处理，获取显著图数据，对所述显著图数据进行全连接层处理产生显著图高维特征；眼部特征提取模块：选择任意一种开源基础卷积神经网络作为所述第二卷积神经网络，用于将所述双眼图像标准化向量数据输入所述第二卷积神经网络进行处理，获取双眼图像高维特征；眼动预测模块：将所述显著图高维特征、所述双眼图像高维特征以及所述头部运动一维向量数据融合后，进行三层全连接层处理，获取预估注视点坐标。

藉由上述技术方案，本发明提供的有益效果如下：

(1)相较于现有技术中通常使用的标定式眼动交互方法，本方法通过预先训练深度卷积网络注视点预测模型，实现使用时无需标定的效果，增强了头戴式设备使用的便捷性，能够长时间佩戴使用。

(2)由于模型的训练数据包括了各类光线(光线强烈、光线暗淡或眨眼)的情况下的双眼图像，训练得到的深度卷积网络注视点预测模型具备比较好的抗光线干扰能力。

(3)整合了人眼图像，场景图像以及头部运动信息对注视点估计的贡献，三者相互补充，使得注视点估计的精度更好，鲁棒性更强。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种非标定眼动交互方法的总体流程图；

图2示出了本发明实施例提供的一种非标定眼动交互方法中显著图特征提取流程；

图3示出了本发明实施例提供的一种非标定眼动交互方法中双眼图像转化为眼部高纬特征的流程；

图4示出了本发明实施例提供的一种非标定眼动交互装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

可以理解的是，本发明的说明书和权利要求书及附图中的方法与装置中的相关特征可以相互参考。另外，本发明的说明书和权利要求书及附图中的“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

首先，在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

深度学习：深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

卷积神经网络：Convolutional Neural Networks基于卷积运算的神经网络系统是深度学习一种方式。卷积神经网络主要由两部分组成，一部分是特征提取(卷积、激活函数、池化)，另一部分是分类识别(全连接层)。其中：卷积(convolution)：提取输入的不同特征；激活函数(Activation Function)：引入非线性因素，把卷积层的结果进行非线性映射；池化层(Pooling)：缩小输入图像，减少计算量；全连接层(Fully connected layers)：全连接层在整个卷积神经网络中起到“分类器”的作用，即通过卷积、激活函数、池化等深度网络后，再经过全连接层对结果进行识别分类。

PyTorch：PyTorch是一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序。

全连接层：全连接层中的每一层是由许多神经元组成的的平铺结构，核心操作就是矩阵向量乘积y＝Wx，本质就是由一个特征空间线性变换到另一个特征空间。

基础卷积神经网络模型：即Base CNN Model，基础模型很大程度上决定了业界的发展，一个好的模型对整个视觉任务的影响是巨大的。最初主要用于进行图片分类任务，但可基于此模型架构修改，组合而进行其他深度学习任务如目标检测，语义分割等等，常见的基础卷积神经网络模型包括AlexNet，GoogLenet，ResNet，MobileNet，EfficientNet等等。

U^2Net：一种用于图像语义分割，图像显著性检测的卷积神经网络结构。

MobileNetV3：Google提出的第三代MobileNet系列网络，一种致力于应用于移动设备运行的基础卷积神经网络结构。

本发明要解决的核心技术问题为，现有技术中的标定式眼动交互方法校准和使用步骤过于繁琐，难以适用长时佩戴、高加速度运动等场景的问题。

针对上述技术问题，本发明提出一种非标定眼动交互方法与装置，通过预先训练深度卷积网络注视点预测模型，实现使用时无需标定的效果，增强了头戴式设备使用的便捷性，能够长时间佩戴使用；通过在模型的训练数据中包含各类光线情况下的双眼图像，训练得到的深度卷积网络注视点预测模型具备比较好的抗光线干扰能力；通过融合头部运动信息，眼部图像与场景图像等与眼动相关的信息，能够有效提高眼动交互算法的精度和复杂场景下的算法鲁棒性，使用场景丰富灵活。

实施例1

请参考图1，其示出了本发明实施例提供的一种非标定眼动交互方法的总体流程图。

如图1所示，本发明实施例方法主要包括以下步骤：

S1：采集双眼图像、场景图像和头部运动信息为第一采集数据；采集大量不同人员在不同场景下的第一采集数据为第一采集数据组，对第一采集数据组中的数据进行预处理。

通过头戴式设备的近眼摄像头采集佩戴头戴式设备的人员的双眼图像数据，对双眼图像数据进行预处理，获取双眼图像标准化向量数据；通过头戴式设备采集场景图像数据，对场景图像数据进行预处理，获取场景图像标准化向量数据；

具体来说，将双眼图像与场景图像分别生成3*128*128与3*196*128大小的tensor向量，再对每个通道的向量进行均值与标准差分别为[0.485，0.456，0.406]，[0.229，0.224，0.225]的标准化处理，获取双眼图像标准化向量数据及场景图像标准化向量数据。

通过头戴式设备中的陀螺仪采集人员的头部运动信息数据，对人员的头部运动信息进行预处理，获取头部运动一维向量数据；

具体来说，将内置陀螺仪采集到的头部运动信息数据转化为长度为9的数据类型为float的一维tensor向量，得到头部运动一维向量数据。

当本方法用于头戴式AR设备时，本方法使用的场景图像为使用者前置摄像头所拍摄的现实场景图像，当用于头戴式VR设备或混合现实设备时，本方法使用的场景图像为使用者所观察的虚拟图像。

S2：使用第一采集数据组训练深度卷积网络注视点预测模型，获得双眼图像、场景图像和头部运动信息到预估注视点坐标的映射关系；

具体来说，其中深度卷积网络注视点预测模型包括：

1、选择任意一种在国际公开的显著性检测数据集上已训练完成的卷积神经网络为第一卷积神经网络，用于将场景图像标准化向量数据输入第一卷积神经网络进行处理，获取显著图数据；对显著图数据进行全连接层处理产生显著图高维特征；

具体来说，先通过卷积神经网络生成场景图像的显著图，再通过全连接层产生高维特征。所使用的第一卷积神经网络通常需要用额外的显著性检验数据集预训练产生，需要大量的训练数据及繁琐的标定工作，因此本实施例使用了在国际公开的显著性检测数据集如DUTS，HKU-IS，ECSSD上已训练完成的卷积神经网络进行显著性检测任务，并在后续训练中冻结此部分参数，不再更新。这些训练模型均已在github上开源公开。

具体的，本实施例中所采用的是U^2 Net网络，全连接层处理包括两层全连接层处理。

如图2所示出的显著图特征提取流程，可以看出：输入场景图像标准化向量数据，经过U^2 Net卷积神经网络后输出196*128的单通道的显著性图，再通过两层全连接层后输出的显著图高维特征为一个长为128的一维向量。

2、选择任意一种开源基础卷积神经网络作为第二卷积神经网络，用于将双眼图像标准化向量数据输入第二卷积神经网络进行处理，获取双眼图像高维特征；

在本实施例中，考虑到头戴式设备计算资源有限，现有技术中的开源基础卷积神经网络为计算资源消耗较小的MobileNetV3。

如图3所示出的双眼图像转化为眼部高纬特征的流程，可以看出：对左右眼图像标准化向量数据分别使用同一MobileNetV3卷积神经网络(共享相同的参数)得到双眼图像高维特征。具体的，双眼图像高维特征为两个长为128的一维向量。

3、将所述显著图高维特征、所述双眼图像高维特征以及所述头部运动一维向量数据融合后，进行三层全连接层处理，获取预估注视点坐标。

具体的，显著图高维特征为显著图生成模块输出的长为128的一维向量，双眼图像高维特征为经眼部图像处理模块输出的两个长为128的一维向量，陀螺仪所提供的头部运动特征为陀螺仪所记录的三维空间角度，三维空间角速度以及三维空间速度组成的长为9的一维向量，将上述向量拼接为一个长为393的一维向量。将上述一维向量经过三层全连接层处理，其中，每两层全连接层之间包含一个Relu激活函数。如果不使用激活函数，无论神经网络有多少层，都只是线性组合而已。输入的向量每通过一层全连接层即进行一次线性变化，并通过非线性激活函数Relu完成非线性映射，最终输出为一个长为2的一维向量即预测的注视点坐标。

除注视点坐标外，还可生成双眼在头部坐标下与世界坐标系下的的俯仰角与偏航角，双眼在头部坐标下与世界坐标系下的三维注视单位向量，双眼在真实事件中的注视目标等，以上所有输出目标均可通过几何关系进行相互转化，无本质区别。

使用第一采集数据集训练深度卷积网络注视点预测模型，具体来说步骤包括：

S21：将第一采集数据集分为训练组和测试组；

具体的，采集50名被试者的大量数据，包括双眼图像，场景图像及头部运动数据，大量数据以4：1的方式划分为训练组与测试组，并对训练组数据与测试组数据进行预处理。其中采集双眼图像的场景包括光线正常，光线强烈、光线暗淡或者被试者眨眼的情况。其中训练组与测试组数据设置有实际屏幕注视点标签。

S22：使用训练组对深度卷积网络注视点预测模型进行训练，以对训练组中所有数据进行一次训练作为一轮，在每轮训练完成后，以每轮训练完成后的深度卷积网络注视点预测模型对测试组数据进行测试，计算损失函数值，使用Adam优化算法更新并保存此轮训练后的深度卷积网络注视点预测模型参数；

具体来说，深度学习训练分为前向运算与反向传播两个过程，需通过反向传播更新神经网络参数使得预测注视点坐标与实际屏幕注视点尽可能接近。反向传播过程一般分为计算损失函数，计算梯度以及权重更新三个步骤组成。

本实施例的损失函数为L1损失函数，其对离群点有很强的鲁棒性，具体公式如下：

其中y_i表示预估注视点坐标，g_i表示实际屏幕注视点坐标。

具体来说，计算出损失函数值后，使用Adam优化算法更新本案例所提出的深度学习模型的参数。示例的，初始学习率为1e-3，每经过30轮迭代学习率衰减为原学习率的0.1，模型训练迭代总轮数为120轮。

S23：进行多轮训练，选择损失函数值最小的深度卷积网络注视点预测模型的参数，确定最终深度卷积网络注视点预测模型。

在深度学习训练过程中，以对训练组中所有数据进行一次训练作为一轮，并在每轮训练完成后，以每轮训练完成后的神经网络结构对测试组数据进行测试，并计算出测试组上的平均损失函数值并保存此轮训练后的深度卷积网络注视点预测模型参数。示例的，在完成120轮训练后，选择损失函数值最小的深度卷积网络注视点预测模型的参数，确定最终深度卷积网络注视点预测模型。

需要强调的是，由于训练组与测试组的数据包括了各类光线(光线强烈、光线暗淡或眨眼)的情况下的双眼图像，训练得到的深度卷积网络注视点预测模型具备比较好的抗光线干扰能力。在光线条件不好的情况下，也能有较为准确的输出。

S3将已有或实时采集的第一采集数据进行预处理后，输入已完成训练的深度卷积网络注视点预测模型，获取预估注视点。

当获得训练完成的深度卷积网络注视点预测模型后，即可将得到的模型嵌入到头戴式眼动设备程序之中。在具体过程中，只需使用者佩戴所述设备，就可通过事先编写好的计算机程序自动采集到眼部图像，场景图像及陀螺仪数据将其输入至深度卷积网络注视点预测模型，实时输出使用者所注视的屏幕坐标。

实施例2

进一步的，作为对上述实施例所示方法的实现，本发明另一实施例还提供了一种非标定眼动交互装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。图4示出了本发明实施例提供的一种非标定眼动交互装置的示意图。如图4所示，在该实施例的装置中，具有以下模块：

1、数据采集与预处理模块：采集双眼图像、场景图像和头部运动信息为第一采集数据；采集大量不同人员在不同场景下的第一采集数据为第一采集数据组，对第一采集数据组中的数据进行预处理；

通过头戴式设备的近眼摄像头采集佩戴头戴式设备的人员的双眼图像数据，对双眼图像数据进行预处理，获取双眼图像标准化向量数据；通过头戴式设备采集场景图像数据，对场景图像数据进行预处理，获取场景图像标准化向量数据；通过头戴式设备中的陀螺仪采集所述人员的头部运动信息数据，对人员的头部运动信息进行预处理，获取头部运动一维向量数据；

2、深度卷积网络注视点预测模型：使用第一采集数据组训练深度卷积网络注视点预测模型，获得双眼图像、场景图像和头部运动信息到预估注视点坐标的映射关系；将已有或实时采集的第一采集数据进行预处理后，输入训练好的深度卷积网络注视点预测模型，获取预估注视点。

其中深度卷积网络注视点预测模型包括了显著图特征提取模块、眼部特征提取模块及眼动预测模块。

2.1显著图特征提取模块：选择任意一种在国际公开的显著性检测数据集上已训练完成的卷积神经网络为第一卷积神经网络，用于将场景图像标准化向量数据输入第一卷积神经网络进行处理，获取显著图数据；对显著图数据进行全连接层处理产生显著图高维特征；

2.2眼部特征提取模块：选择任意一种开源基础卷积神经网络作为第二卷积神经网络，用于将双眼图像标准化向量数据输入第二卷积神经网络进行处理，获取双眼图像高维特征；

2.3眼动预测模块：将所述显著图高维特征、所述双眼图像高维特征以及所述头部运动一维向量数据融合后，进行三层全连接层处理，获取预估注视点坐标。

使用第一采集数据组训练深度卷积网络注视点预测模型的步骤在实施例1的步骤S21-S23中已具体描述，此处不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

Claims

1.一种非标定眼动交互方法，其特征在于，包括步骤：

S1：采集双眼图像、场景图像和头部运动信息为第一采集数据；采集大量不同人员在不同场景下的所述第一采集数据为第一采集数据组，对所述第一采集数据组中的数据进行预处理；

S2：使用所述第一采集数据组训练深度卷积网络注视点预测模型，获得所述双眼图像、场景图像和头部运动信息到预估注视点坐标的映射关系；

S3：将已有或实时采集的所述第一采集数据进行预处理后，输入已完成训练的所述深度卷积网络注视点预测模型，获取预估注视点。

2.根据权利要求1所述的非标定眼动交互方法，其特征在于，对所述第一采集数据进行预处理包括：

通过头戴式设备的近眼摄像头采集佩戴所述头戴式设备的人员的双眼图像数据，对所述双眼图像数据进行预处理，获取双眼图像标准化向量数据；通过所述头戴式设备采集场景图像数据，对所述场景图像数据进行预处理，获取场景图像标准化向量数据；通过所述头戴式设备中的陀螺仪采集所述人员的头部运动信息数据，对所述人员的头部运动信息进行预处理，获取头部运动一维向量数据。

3.根据权利要求2所述的非标定眼动交互方法，所述深度卷积网络注视点预测模型包括：

选择任意一种在国际公开的显著性检测数据集上已训练完成的卷积神经网络为第一卷积神经网络，用于将所述场景图像标准化向量数据输入所述第一卷积神经网络进行处理，获取显著图数据；对所述显著图数据进行全连接层处理产生显著图高维特征；

选择任意一种开源基础卷积神经网络作为第二卷积神经网络，用于将所述双眼图像标准化向量数据输入所述第二卷积神经网络进行处理，获取双眼图像高维特征；

将所述显著图高维特征、所述双眼图像高维特征以及所述头部运动一维向量数据融合后，进行三层全连接层处理，获取预估注视点坐标。

4.根据权利要求3所述的非标定眼动交互方法，其特征在于，使用所述第一采集数据组训练深度卷积网络注视点预测模型包括：

S21：将所述第一采集数据组分为训练组和测试组；

S22：使用所述训练组对所述深度卷积网络注视点预测模型进行训练，以对所述训练组中所有数据进行一次训练作为一轮，在每轮训练完成后，以每轮训练完成后的所述深度卷积网络注视点预测模型对测试组数据进行测试，计算损失函数值，使用Adam优化算法更新并保存此轮训练后的所述深度卷积网络注视点预测模型参数；

S23：进行多轮训练，选择所述损失函数值最小的所述深度卷积网络注视点预测模型的参数，确定最终所述深度卷积网络注视点预测模型。

5.根据权利要求3或4所述的非标定眼动交互方法，其特征在于，所述第一卷积神经网络为U^2Net。

6.根据权利要求3或4所述的非标定眼动交互方法，其特征在于，所述第二卷积神经网络为MobileNetV3。

7.一种非标定眼动交互装置，其特征在于，包括：

数据采集与预处理模块：采集双眼图像、场景图像和头部运动信息为第一采集数据；采集大量不同人员在不同场景下的所述第一采集数据为第一采集数据组，对所述第一采集数据组中的数据进行预处理；

深度卷积网络注视点预测模型：使用所述第一采集数据组训练所述深度卷积网络注视点预测模型，获得所述双眼图像、场景图像和头部运动信息到预估注视点坐标的映射关系；将已有或实时采集的所述第一采集数据进行预处理后，输入训练好的所述深度卷积网络注视点预测模型，获取预估注视点。

8.根据权利要求7所述的非标定眼动交互装置，其特征在于，对所述第一采集数据进行预处理包括：

9.根据权利要求8所述的非标定眼动交互装置，所述深度卷积网络注视点预测模型包括：

显著图特征提取模块：选择任意一种在国际公开的显著性检测数据集上已训练完成的卷积神经网络为第一卷积神经网络，用于将所述场景图像标准化向量数据输入所述第一卷积神经网络进行处理，获取显著图数据；对所述显著图数据进行全连接层处理产生显著图高维特征；

眼部特征提取模块：选择任意一种开源基础卷积神经网络作为第二卷积神经网络，用于将所述双眼图像标准化向量数据输入所述第二卷积神经网络进行处理，获取双眼图像高维特征；

眼动预测模块：将所述显著图高维特征、所述双眼图像高维特征以及所述头部运动一维向量数据融合后，进行三层全连接层处理，获取预估注视点坐标。

10.根据权利要求9所述的非标定眼动交互装置，其特征在于，使用所述第一采集数据组训练深度卷积网络注视点预测模型包括：

S21：将所述第一采集数据组分为训练组和测试组；