CN111949131B

CN111949131B - 一种基于眼动追踪技术的眼动交互方法、系统及设备

Info

Publication number: CN111949131B
Application number: CN202010827022.0A
Authority: CN
Inventors: 陈涛
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2023-04-25
Anticipated expiration: 2040-08-17
Also published as: CN111949131A

Abstract

本发明属于眼动追踪技术领域，公开了一种基于眼动追踪技术的眼动交互方法、系统及设备，采用设置感应区域被动吸附注视光标或眼动交互意图预测主动吸附注视光标对目标进行选择；通过为不同的目标设置相应感应区域即有效点击区域，当光标接触或覆盖某一目标的感应区域时，同时检测是否存在眼颤、扫视距离是否超过阈值等眼动行为，进而吸附或突出显示目标物体。本方法还采用机器学习算法对用户眼睛运动行为数据进行训练，对数据进行过滤、处理和分析，训练出眼动行为规律，获得用户主观意识眼动交互意图模型。通过上述方法以增加眼动交互过程中的稳定性、准确性，提高眼动交互的用户体验度。

Description

一种基于眼动追踪技术的眼动交互方法、系统及设备

技术领域

本发明属于眼动追踪技术领域，尤其涉及一种基于眼动追踪技术的眼动交互方法、系统及设备。该系统利用人机界面(HMI)，可穿戴计算，人体生理学，图像处理和深度学习等领域的技术

背景技术

所述近眼显示设备(HMD)或车载显示器还包括电子显示器和光学组件。HMD可以是例如混合现实(Mixed Reality) —MR眼镜、增强现实(Augmented Reality)—AR眼镜，例如Microsoft，Vuzix和DigiLens制造的显示器；虚拟现实(Virtual Reality)—VR眼镜，例如Sony，Samsung，Oculus，Carl Zeiss制造的显示器；扩展现实(Extended Reality)—XR眼镜或其某种组合；车载显示器可以包括但不限于平行显示器(HUD)或具有增强现实系统的平行显示器(AR-HUD)，驾驶员信息控制台(DIC)，基于投影的显示器，信息娱乐单元或主机单元(HU)的显示器。和类似的设备。眼动追踪可用于查看此类显示并指定位置信息。但是，在正常的人类活动中，眼睛也被广泛使用。

目前，近眼显示设备采用的交互方式中，通过眼动追踪的交互方式以其隐蔽性高、交互方便快捷、同时兼具虹膜识别身份验证等优点，相较于其他的交互方式更具发展潜力，但是如今市面上的近眼显示设备中的眼动追踪交互仍然存在一些亟待解决的问题。

目前的眼动追踪交互是基于眼动追踪装置捕获眼睛注视点坐标，将坐标位置映射在交互界面上，以光标形式呈现，用户通过眼睛视点移动控制光标选择目标，并通过眨眼动作或者其他辅助点击设备进行点击或进入下一步。所述光标特指映射眼睛注视点的光标/标记，又称为眼动光标或注视光标(注视点光标)，为了方便技术方法的描述，下文可直接简称为光标。然而在实际交互体验中，由于大多数人的眼睛存在生理性眼颤，导致眼动追踪装置所计算的注视点信号可能会出现节律不规则的抖动，并且显示出偏移，这就无法可靠地通过眼动注视点选中较小且紧密定位的目标；某些时候希望视野中的画面没有任何遮挡，或者在随便看看的过程中，不希望每次视线的转移都触发某些计算机指令，因此始终跟随用户眼睛视点的光标可能会让一些用户产生不好的体验；随之可能会导致的，用户会习惯性地注视屏幕上的“注视点光标”而产生轻微的移动，然后“注视点光标”根据注视点位移产生，这会造成用户对“注视点光标”的追视，无止境地移动“注视光标”。另一方面，现有的眼动交互方式操作效率不高，采用单眼眨眼或双眼眨眼动作进行点击操作会容易造成眼睛的疲倦，并且眨眼的点击的过程中由于眼球图像信号的丢失导致注视光标的偏移和错位，即可以理解为在眼动交互过程中通过眨眼行为进行点击确认的同时注视光标偏移原先对准的位置，这样使得用户无法流畅的与功能按钮交互。

通过上述分析，现有技术存在的问题及缺陷为：

(1)如今基于近眼显示设备的交互方式较落后、体验感不佳，例如按键式移动控制器具有携带不便、易丢失、易损坏等缺点；手势识别与语音识别的交互方式不便在公众场合进行，且具有暴露个人隐私的风险；而传统的眼动交互方式依靠用户的眨眼动作进行交互以及不精确的选择方式带来了非常不好的用户体验；

(2)大约有50％～70％的人会出现双眼节律不规则的冲动性眼球震颤，产生的原因可能是由于眼肌牵伸反射所致。这样的生理性眼颤会导致眼动坐标的抖动，在眼动交互中不利于准确选中目标，影响用户体验；

(3)现有的MR眼镜的交互方法是基于光学显示器呈现的虚拟全息对象进行交互，几乎不考虑对于真实物理世界中的事物进行交互。例如可通过图像识别技术/深度相机对真实物理世界中的物体进行识别，并建立可交互虚拟/全息UI；

(4)现有技术中，鼠标轨迹球有吸附的技术和方法，但是同方法不适用于眼动吸附，眼动交互的同时除了交互需求，还有认知需求、查看需求，那么再没有合理的机制辨别这些眼睛需求时，胡乱吸附眼动光标会给用户造成困扰。

用户在使用MR眼镜进行眼动交互时，眼动光标始终跟随用户注视点或者任何时刻触碰交互目标都会产生交互反馈，这是一种“米达斯接触”问题，用户会产生不佳的交互体验，因为其可能希望能随便看看什么而不必非“意味着”什么，更不希望每次转移视线都可能启动一条计算机命令；

(5)用户在驾驶车辆时，需要双手握持在方向盘上，眼睛注视前方以保证驾驶安全，任何需要用户双手离开方向盘或眼睛离开前方视野都是不安全的行为，因此通过眼动追踪控制车载显示器交互对安全驾驶显得尤为重要；

(6)当存在两个或多个相邻的微小的交互按钮时，眼动光标的几何中心在其间颤动时，会导致选择反复，光标指点(选择目标的过程)的准确度降低。

(7)现有的眼动交互方式操作效率不高，采用单眼眨眼或双眼眨眼动作进行点击操作会容易造成眼睛的疲倦，并且眨眼的点击的过程中由于眼球图像信号的丢失导致注视光标的偏移和错位，即可以理解为在眼动交互过程中通过眨眼行为进行点击确认的同时注视光标偏移原先对准的位置，这样使得用户无法流畅的与功能按钮交互。

解决以上问题及缺陷的难度为：

(1)眼睛不停地运动，获取有关日常生活几乎各个方面的信息。特别地，在观看显示器或视网膜投影设备的过程中必须使用眼睛。为了辨别意图，必须将用于查看和探索显示器的眼动测量与故意的眼动信号区分开。(2)大多数眼睛的自愿运动可分为1)平稳追视，2)扫视，其中扫视可以是自愿的也可以是非自愿的。大脑的不同区域参与每种运动的控制。另外，每种类型的眼睛运动都具有不变的局限性。例如，平稳追视必须涉及跟踪不超过大约30°/秒的角速度的对象或边缘。平稳追视超过此角速度的目标对象会导致多次短暂的扫视运动，以围绕视野“追逐”该对象。扫视可以以高达900°/秒的角速度产生；但一旦启动，即使目标已经移动或消失，也无法进行调整以更正目标位置。与平稳追视眼球运动相反，扫视在视野范围内无察觉。在眼睛信号的检测期间，从算法上区分(即过滤器)平稳追视，眼跳和其他形式的眼睛运动特别重要。

(2)为了解决眼颤造成的交互问题，本发明通过吸附光标的方法来解决眼颤问题，但是需要在什么机制条件下对眼动光标进行吸附呢？要知道用户的眼睛可能只是某个目标按钮随便看看，并不一定存在交互点击需求。在眼睛行为方面“随便看看”与“交互点击”的差别是十分微弱的，因此本发明主要提出了两种实施例“基于设置感应区域的被动吸附视点光标的眼动交互方法”和“基于AI眼动交互意图预测模型的主动光标吸附交互方法”。

(3)基于AI眼动交互意图预测模型的主动光标吸附交互方法中,如何识别“扫视状态”？选用什么样的眼动数据可以有效的训练出眼动交互意图预测模型？如何识别出潜在的交互目标(UI按钮)？

(4)眼动交互意图模型如何适应每个人的眼动习惯？例如，有经验的人(例如经常使用者)比没有经验的人(新手用户)的眼动轨迹更加精简、注视点数量更少、注视平均时间更少、眼跳落点位置距离交互目标更短。再比如不同的用户之间，视觉搜索的习惯和认知带宽不同，例如人看书时的认知习惯，有的人看书慢，有的人一目十行，有的人习惯反复看已读的文字(回视)，有的人看书容易看漏等。例如，女性更善于广泛的搜索多个目标，男性更善于专注于一个目标。综上，每个人的交互意图模型可能存在一定偏差，那么如何为每个用户提供好的交互体验呢？

(5)在眼动吸附的交互过程中可能会遇到交互目标十分密集的情况，例如眼动光标可能同时接触2个以上的交互目标，那么这时眼动光标应该吸附那个交互目标？

(6)在吸附状态和突显状态下，以什么机制脱离吸附状态和突显状态？

解决以上问题及缺陷的意义为：

(1)提出了效率更高用户体验更佳的眼动交互方法，在使用MR眼镜或者汽车/飞机驾驶室的HUD的场景中，使得眼动交互更加智能、流畅，大大降低用户在使用眼动交互过程中的疲劳感。

(2)“基于设置感应区域的被动吸附视点光标的眼动交互方法”：通过为不同的目标设置相应感应区域即有效点击区域，当光标主要接触或覆盖某一目标的感应区域时，或/和同时检测是否存在眼颤、扫视距离是否超过阈值等眼动行为，若存在则动吸附于该目标上，及通过检测用户的眼球状态和感应区的接触情况，光标被动吸附在交互目标上。

(3)“基于AI眼动交互意图预测模型的主动吸附光标眼动交互技术方法”。基于用户视线运动行为的规律特征去预测他们的下一步眼动着陆点，能够帮助用户快速选中目标，极大地提高用户的眼动交互效率，避免了因为视点颤动影响光标的准确性而导致的选择困难。

(4)当眼动光标同时重叠在多个交互目标时，可以通过泰森多边形算法在多个交互目标之间设置感应区域，计算眼动光标与每个交互目标的重叠面积占比，选择感应区上的面积占比最大的交互目标作为吸附目标。进一步解决眼动交互过程中的特殊情况。

(5)提供了眼动交互意图预测AI模型构建方法，根据用户情况阶梯的训练创建通用眼动交互意图预测模型、个人用户眼动交互意图预测模型、特定应用软件眼动交互意图预测模型。通过预测注视点的着陆点坐标与交互目标位置坐标之间的位置关系确定交互意图。进一步，通过AI训练算法找出用户对某一目标进行眼动交互前一时间段内用户产生的眼睛动作/状态与交互目标位置之间的关系。这使得眼动交互意图预测模型更加精准。

(6)提出了一种间接对真实物理世界中的物体进行交互的方法，例如通过图像识别技术识别实物后，系统为其构建虚拟交互边框，用户可通过眼动交互点击查看实物识别结果，或打开购物页面。

(7)在用户可能存在交互意图的交互目标上呈现“突显效果”(如图7A-7C)。突显效果具体为出现一个鱼眼球形/ 六边形的窗口，窗口内所显示内容为当前注视位置放大一定比例之后的影像，例如交互目标的图表都会相应放大，但是注视交互的光标将保持原有大小。此时的突显窗口不会随着注视点位置的移动而改变位置，注视交互的光标可以在突显窗口更精确选择放大后交互目标。

(8)当眼动追踪装置检测眼睛的注视点离开突显窗口，MR眼镜的眼动追踪装置通过检测眼睛离开感应区后的第一眼跳落点位置与突显窗口中心点距离超过一定阈值，则可关闭突显窗口，或停止吸附状态时。

发明内容

针对现有技术存在的问题，本发明提供了一种基于眼动追踪技术的眼动交互方法、系统及设备。

本发明是这样实现的，基于眼动追踪技术的眼动交互方法，所述基于眼动追踪技术的眼动交互方法采用设置感应区域被动吸附注视光标或眼动交互意图预测主动吸附注视光标对目标进行选择；

所述设置感应区域被动吸附注视光标对目标进行选择的方法通过为不同的目标设置相应感应区域即有效点击区域，当光标接触或覆盖某一目标的感应区域时，或/和同时检测是否存在眼颤、扫视距离是否超过阈值等眼动行为，若存在则动吸附于该目标上，及通过检测用户的眼球状态和感应区的接触情况，光标被动吸附在交互目标上；

所述眼动交互意图预测主动吸附注视光标对目标进行选择的方法采用人工智能的机器学习算法对用户眼睛运动行为数据进行训练，对数据进行过滤、处理和分析，训练出眼动行为规律，获得用户主观意识眼动交互意图模型，基于所述眼动交互意图模型对用户正在进行的眼动行为进行预测下一步的眼动着陆点，并系统主动选中着陆点附近吸附目标。

进一步，所述设置感应区域被动吸附注视光标对目标进行选择的方法包括：

步骤一、显示系统呈现虚拟交互目标；

步骤二、设备的眼动追踪模组捕获用户注视点位置坐标，注视点以光标的形式映射在显示设备屏幕或/和三维空间中；

步骤三、设备客户端实时检测注视点光标位置与虚拟交互目标的感应区之间的是否碰撞；

步骤四、在与感应区发生碰撞时，设备客户端检测用户发生注视时间超过一定阈值、扫视距离在预设阈值范围内、在感应区域附近反复眼颤、形成注视点云、特殊的视线运动轨迹眼睛行为数据，或/和用户情绪；

步骤五、根据第四步的检测结果，将交互光标被动吸附于虚拟目标并选中，和/或呈现突显效果；

步骤六、当眼动光标如上述方法选中目标按钮后，MR眼镜的反馈装置向用户发出反馈信息，并通过其他交互模组或者直接检测眼睛的动作进行点击操作。

进一步，步骤二中，所述眼动追踪模组捕获用户眼睛注视点坐标和视线运动轨迹及相关眼球行为数据的方法包括：

(1)利用多个不可见红外光源、微型摄像头、反光热镜、光波导镜片及其他硬件通过接收眼睛反射光线，计算瞳孔中心与角膜中心的连线进行眼动追踪；

(2)利用不可见红外光源、光敏传感器、MEMS微机械系统反射镜、光波导镜片捕获眼睛图像或者计算视网膜的影像或者视网膜反射光的强度进行眼动追踪；

(3)通过发射结构光对眼睛建模，计算眼睛模型的视觉中心进行眼动追踪；

(4)利用不可见红外光源、光敏传感器、MEMS微机械系统反射镜、光波导镜片接收眼睛角膜的反射光线，计算角膜中心反射的强度最大的光来进行眼动追踪。

进一步，步骤二中，所述眼动数据为由眼动追踪模组采集的用户眼睛的运动数据转化成的实时变化的数字信号；所述眼动数据包括眼睛注视点的x，y，z坐标、视觉深度、眼跳频率、眼跳距离、运动加速度、眼颤、注视时长、眨眼、瞳孔直径变化等，并且可以将眼动数据分析成热力图、视觉轨迹图等分析图表，所述滤波算法包括限幅滤波法即程序预判滤波法、中位值滤波法、算术平均滤波法、递推平均滤波法即滑动平均滤波法、中位值平均滤波法即防脉冲干扰平均滤波法、限幅平均滤波法、一阶滞后滤波法、加权递推平均滤波法、消抖滤波法、限幅消抖滤波法、IR数字滤波器。

进一步，步骤二中，所述注视点以光标的形式映射显示设备屏幕或/和三维空间中包括：

将用户眼睛视线坐标映射于MR眼镜的混合现实空间中或/和光学显示器坐标系中，以光标的形式呈现；

将稳定的实时动态变化的眼动数据输入至一种动态光标的几何中心上，并实时映射于设备的光学成像屏幕上，得到运动轨迹稳定、平滑的动态眼动光标；

所述动态光标为在光学成像屏幕上呈现的肉眼可见的图形；或不可见的隐形光标；或者为在交互时可见，不交互时不可见的图形；

所述眼动光标可具有圆形、矩形、圆角矩形、三角形、圆角三角形、以及其他多边形/圆角多边形形状；所述眼动光标的大小根据用户的使用习惯或者交互界面的设计和布局确定。

进一步，步骤三中，所述虚拟交互目标包括MR眼镜的光学成像屏幕上呈现的可点击的交互目标象，及所有可进行点击交互的按钮、UI、图片、文字菜单；或通过图像识别模组识别实际的物体。

进一步，步骤三中，所述设备客户端实时检测注视点光标位置与虚拟目标的感应区之间的是否碰撞的方法具体是：客户端软件或内部系统软件在运行时加载检测眼动光标与交互目标及其感应区之间接触情况的可执行代码程序组件；另一种实施例中网页浏览器可能需要安装某种插件用于光标与交互目标的接触检测，所述代码程序组件可由客户端/系统开发时即配置完成，或者由是一种API可调用程序接口实现。

进一步，步骤三中，所述眼动光标与各个交互目标的感应区之间的接触情况的实时检测方法包括：通过软件程序实现眼动光标与任意交互目标感应区的接触反馈，反馈信息包括光标与目标感应区接触的起止时间、光标与各个目标感应区重叠部分的面积、光标到交互目标的几何中心距离等，通过上述反馈信息检测接触情况。

进一步，步骤三中，所述交互目标设置感应区的设置方法具体为：自动设置感应区域插件首先在编程界面中检测交互指令的代码和/或定义UI图层的代码，确定UI界面的交互目标，再经开发工程师确认后，根据UI图层的几何中心坐标、大小、形状、层级自动添加眼动感应区域；客户端软件或内部系统软件在启动/运行时加载为所有可点击的交互目标设置感应区的可执行代码程序组件，网页浏览器可能需要安装某种插件用于交互目标的感应区设置；

所述感应区是指交互目标的有效点击区域，由所述脚本/插件按目标大小和形状的一定比例或者根据目标的分布按泰森多边形算法进行设置，感应区一般设置不可见，也包括可见的设置；所述一定比例根据交互目标的大小取不小于1的任何合适的比例。

进一步，步骤四中，所述接触/碰撞情况包括：在与感应区发生碰撞时，设备客户端检测用户发生注视时间在预设阈值范围内、反复眼颤、形成注视点云、扫视距离、特殊的视线运动轨迹等眼睛行为数据中；所述眼睛行为数据是指眼动追踪模组采集的用户眼睛运动过程中信息，将眼睛的运动信息转化为数字信号，并且是实时变化的，其眼动追踪模组被配置为检测的眼睛行为数据包括但不限于：眼睛注视点的x，y，z坐标、视觉深度、眼跳频率、眼跳距离、运动加速度、眼颤、注视时长、眨眼、瞳孔直径变化，并且将眼动数据分析成热力图、视觉轨迹图分析图表。

进一步，所述注视点云具体为：注视点云为多个检测到的注视位置形成的云状注视范围，注视点云作为单个光标或作为动态光标出现；随着检测到的多个注视位置的变化而变化的形状；注视点数量的是任意数量和任意采样率来收集检测到的注视位置的序列，任意持续时间。

进一步，步骤五中，所述眼动光标被动吸附于交互目标并选中是指在程序处理层面选中该交互目标作为下一步的计算目标；当步骤四判断用户对该交互按钮具有交互意图时，则将眼动光标脱离原有注视点映射关系，主动吸附在交互目标上，对交互按钮进行选择，其中交互目标可以是三维模型、平面图像等，眼动光标将吸附到几何中心上；

系统根据此时发生眼颤的注视位置为中心启动突显效果，突显效果具体为出现一个鱼眼球形/六边形的窗口，窗口内所显示内容为当前注视位置放大一定比例之后的影像；突显窗口不会随着注视点位置的移动而改变位置，注视交互的光标可以在突显窗口更精确选择放大后交互目标；

当眼动追踪装置检测眼睛的注视点离开突显窗口，MR眼镜的眼动追踪装置通过检测眼睛离开感应区后的第一眼跳落点位置与突显窗口中心点距离超过一定阈值，则可关闭突显窗口，或停止吸附状态时。

进一步，步骤六中，所述通过其他交互模组或者直接检测眼睛的动作进行点击操作包括：

1)通过移动控制器进行点击操作；

所述移动控制器包括：多自由度的按键式控制器、指尖控制器、戒指控制器、手环控制器；

2)通过手势识别模组进行点击操作；

所述手势识别模组包括：手势识别摄像头或结构光摄像机；

所述手势识别摄像头或结构光摄像机捕获用户手部的动作图像，通过计算机比对识别特定的手势进行交互；

3)通过语音识别模组进行点击操作；

所述语音识别模组包括：一种有声语音识别模组包括录音装置、声音过滤器、语音识别装置或者一种无声语言识别模组包括肌肉电接收和识别装置。

进一步，所述基于眼动追踪技术的眼动交互方法为真实物理世界中的物体建立可点击的交互目标的方法包括：

通过MR眼镜前端的图像识别摄像头获取用户前方的真实环境画面，将视频画面/图像画面信息转化为电信息；

进行图像信息预处理；

进行特征抽取和选择，输入图像卷积神经网络模型训练，得到图像识别模型，图像识别模型识别真实物理世界中的物体后，通过设备的光学成像屏幕为这些物体边缘叠加虚拟全息交互边框；

用户通过眼动追踪控制眼动光标与该物体进行交互。

进一步，所述基于眼动追踪技术的眼动交互方法基于AI眼动交互意图预测模型的主动选择交互方法包括以下步骤：

第一步，显示系统呈现虚拟交互目标，同时获取虚拟交互目标位置坐标；

第二步，设置在MR眼镜或车载显示器的客户端、系统中的脚本、插件或从数据库采集用户一组或多组的眼动行为数据、头动数据、用户属性数据、终端本地数据、用户情绪/心态，通过这些信息选择至少一种合适眼动预测模型；

第三步，对上述数据进行预处理，识别相应的行为事件并分类，其中包括识别是否发生扫视和摆头行为，若发生则进行第四步；

第四步，将实时检测到的用户眼动数据、头动数据和交互目标位置坐标输入第二步选择的“眼动交互意图预测模型” 进行匹配计算，进而预测用户对目标按钮的交互意图和/或的眼动着陆点；

第五步，根据第四步的预测结果，将交互光标主动吸附于虚拟目标并选中，和/或呈现突显效果；

第六步，当眼动光标如上述方法选中目标按钮后，MR眼镜或车载显示器的反馈装置向用户发出反馈信息，并通过其他交互模组或者直接检测眼睛的动作进行点击操作；

第七步，记录用户最终选择的结果，并将实时的眼动数据反馈至眼动交互意图模型继续训练。

进一步，第二步中，设置在MR眼镜客户端、系统中的脚本、插件或从数据库采集一组或多组用户的眼动行为数据、头动数据、用户属性数据、终端本地数据、用户情绪/心态，通过信息选择至少一种合适眼动交互意图预测模型；

收集该信息可以包括收集注视位置信息，收集头部位置信息，收集图像数据；

头部位置跟踪系统包括位置和运动传感器，加速度计光源和/或其他用于获取MR眼镜的位置，方向和运动的设备；从头部位置跟踪系统接收头部位置信息；将头部位置信息提供给眼动交互意图预测模型的头部位置跟踪系统；在MR眼镜上共同形成一个惯性测量单元；头部位置信息可以帮助确定用户的头部运动，旋转或方向；

眼动交互意图预测模型包括通用眼动预测模型，个人眼动预测模型，应用软件眼动预测模型；

眼动交互意图预测模型的选择机制如下：

如果终端MR眼镜刚激活，和/或某应用软件第一次安装，和/或在网络/本地数据库没有检索到与当前用户匹配的账户，并且也没有在数据库检索到该应用软件UI界面信息，则仅使用通用眼动预测模型；

如果系统检索到与当前用户匹配的账户，及在服务器数据库中检索到用户个人信息和历史眼动轨迹、眼动习惯数据，则使用已训练好的个人眼动预测模型，个人眼动预测模型”完全替换通用眼动预测模型；个人眼动预测模型通过用户历史使用过程中产生的数据优化通用眼动预测模型获得，即在通用眼动预测模型基础上进一步训练获得个人眼动预测模型；数据例如其中所述个人用户数据包括用户的年龄、用户的性别、学历、阅读或/和认知习惯、个人的扫视速度、用户当前环境、用户当前眼动行为发生的起始时间以及经历时间多个维度的特征；

如果系统在数据库检索到当前应用软件信息，及应用软件UI界面信息，则加载该软件已训练应用软件眼动预测模型；应用软件眼动预测模型与个人眼动预测模型和通用眼动预测模型任意叠加使用；

所述用户主观意识眼动交互意图模型包括眼动交互意图模型包括通用型眼动交互意图模型、个人眼动预测模型、应用软件眼动预测模型；

首先，通用型眼动交互意图模型：通过成千上万不同MR眼镜终端设备获取不同用户眼睛行为数据样本训练获得；用于根据当前发生的眼动交互意图用户下一步的眼动着陆点，并移动至着陆点附近吸附目标；

所述训练数据包括各个年龄段、不同性别、不同学历人群、不同功能或意义的交互按钮的眼球行为数据；所述眼球行为数据包括：视觉搜索轨迹、眼跳幅度、眼球运动速度、瞳孔直径；

其次，个人眼动预测模型：获取个人用户的用户的年龄、用户的性别、学历、用户当前环境、阅读或/和认知习惯、用户当前眼动行为发生的起始时间以及经历时间相关信息数据；将用户个人数据上传至服务器进行人工智能运算，即可获得针对于个人的个人眼动预测模型；

最后，应用软件眼动预测模型：通过MR眼镜客户端的内置插件捕获网页或终端软件的本地数据和网页或终端软件使用过程中的历史眼动行为即认知轨迹，并发送至云端服务器进行人工智能AI训练得到应用软件眼动预测模型；

所述网页或终端软件的本地数据包括交互UI按钮位置坐标、交互UI按钮的作用、该软件信息、终端设备信息、本地网络信息。

进一步，第三步中，对数据进行预处理，识别相应行为事件并分类，其中包括识别是否发生扫视行为，若发生扫视进行第四步；

在收集信息之后，在中进行预处理和事件检测/分类，事件检测/分类包括识别不同的眼睛/头部运动类型，预处理可能包括对接收到的信息进行初始处理，以将数据以更好的格式放置以进行进一步分析，如果注视跟踪系统或头部位置跟踪系统的采样率是可变的，则执行数据插值以填充任何丢失的数据点或以规则的间隔放置样本；对数据进行滤波以使数据平滑；获得数据的移动平均值以帮助平滑数据；执行下采样和/或上采样，某些初始属性可以在预处理步骤中确定；

在识别是否发生扫视行为中以评估数据以确定扫视是否正在发生；

在另外的实施例中，系统还需同时识别用户大幅度的摆头和扫视行为，用户预测用户的交互意图；

如果在第三步未检测到扫视，则再循环进行第二步，再检测新的眼动数据；

如果在第三步检测到扫视，则可以使用来自第三步的预处理数据确定其他特征；每个特征可以是独立可测量的属性或特征，由机器学习预测网络使用。

进一步，第四步中将实时检测到的用户眼动数据、头动数据和可能存在的交互目标位置坐标输入S202选择的眼动交互意图预测模型进行匹配计算，进而预测用户下一时刻对目标按钮的交互意图和/或的眼动着陆点；

所述根据预测模型得到用户下一时刻选择着陆点的目标或位置包括预测目标位置的方向、距离、坐标；

所述用户下一步选择的目标眼动着陆点是指用户在下一时刻后视线将要选择的目标抵达的位置坐标，所述眼动着陆点表示用户即将想要发生的交互意图或者搜寻的目标位置；

第六步中所述选中目标后发出交互反馈信息以及通过其他交互模组或者直接检测眼睛动作进行点击操作的方法；

第七步中记录用户最终选择的结果，在网络允许的情况下，将眼动历史数据反馈至眼动眼动交互意图模型继续训练；所述用户最终选择的结果指的是：所述眼动眼动交互意图模型根据用户已经发生的眼动行为数据预测其下一步的眼动着陆点交互目标位置，并将所述眼动光标移动至该预测着陆点的位置或者着陆点附近吸附目标后，用户对这一预测结果的最终交互结果；该结果有两种情况，一种是预测正确，用户对预测的交互目标进行了交互操作；另一种是预测错误，用户未对预测的交互目标进行交互操作；用户最终选择的结果与所述眼动眼动交互意图模型预测的结果是否有差异，系统都将该结果反馈至所述预测模型继续训练，优化模型参数。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

采用设置感应区域被动吸附注视光标或眼动交互意图预测主动吸附注视光标对目标进行选择；

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

所述眼动交互意图预测主动吸附注视光标对目标进行选择的方法采用人工智能的机器学习算法对用户眼睛运动行为数据进行训练，对数据进行过滤、处理和分析，训练出眼动行为规律，获得用户主观意识眼动交互意图模型，基于所述眼动交互意图模型对用户正在进行的眼动行为进行预测下一步的眼动着陆点，并系统主动选中着陆点附近的吸附目标。

本发明的另一目的在于提供一种实施所述基于眼动追踪技术的眼动交互方法的基于眼动追踪技术的眼动交互系统，所述基于眼动追踪技术的眼动交互系统包括：

MR眼镜、显示设备、设备框架以及微型计算机系统；

所述MR眼镜包括MR眼镜、AR眼镜或XR眼镜，为基于增强现实AR、虚拟现实VR以及混合现实MR技术的智能近眼成像显示设备；

所述显示设备为部分透明或全透明；用于通过显示虚拟目标的一个或多个部分透明像素查看物理环境中的物理真实世界对象；

所述设备框架内置传感器；所述设备框架包括图像处理单元GPU，5G网络通信模块，前置摄像头，惯性测量单元IMU 和眼动追踪系统；用于支持MR眼镜的附加组件；

所述微型计算机系统包括逻辑和配置的相关计算机存储器；用于接收来自IMU和其他传感器的感觉信号，并向显示设备提供显示信号，从收集的数据中导出信息。

本发明的另一目的在于提供一种实施如所述基于眼动追踪技术的眼动交互方法的MR眼镜，所述MR眼镜的眼动追踪模组捕获用户注视点坐标，通过眼睛注视进行交互。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

本发明解决了眼动光标因用户自身眼睛颤动而导致的颤动使其无法精准定位目标的问题；本发明通过人工智能机器学习建立用户眼动行为的预测模型，实时根据用户的眼动交互意图其下一步的眼动着陆点，并将眼动光标移动至着陆点附近吸附目标，大大提高用户的交互效率；本发明提高了MR眼镜以及车载显示器的眼动光标的操作效率和点击绩效。

本发明基于眼动追踪技术眼动追踪的眼动交互方式相比于手势识别、语音识别的交互方式更能保护用户的隐私，具有交互更自然、方便、快捷的优点；通过设置光标接触目标、点击目标发生震动或声音反馈来提高用户的交互满意度；通过主动吸附粘连以及泰森多边形技术或算法解决眼动光标对较小、紧密和相连的按钮反复指点(选择目标的过程)的问题；随注视时长增加，增强眼动光标与目标的粘性，使光标不易离开目标，同时依靠眨眼动作刷新粘性计时，交互体验更佳。

本发明基于设置感应区域的被动吸附眼动交互技术提出了一种新型的眼动气泡光标技术，使用户采用眼睛注视进行目标选择，并且能够满足在密集分布的目标中准确快捷地选中用户的期望目标，有效解决了眼动交互绩效低的问题，在现有眼动交互技术的基础上进一步得到优化和改善。

本发明基于AI眼动交互意图预测模型的主动选择交互技术基于用户视线运动行为的规律特征去预测他们的下一步眼动着陆点，能够帮助用户快速选中目标，极大地提高用户的眼动交互效率，避免了因为视点颤动影响光标的准确性而导致的选择困难。

附图说明

图1是本发明实施例提供的基于设置感应区域的被动吸附视点光标的眼动交互技术方法流程图。

图2是本发明实施例提供的基于AI眼动交互意图预测模型的主动吸附视点光标的眼动交互技术方法流程图。

图3是本发明实施例提供的眼动光标同时重叠在多个交互目标的感应区被动吸附眼动交互技术方法流程图。

图4是本发明实施例提供的图2中眼动交互意图预测模型的构建训练模型的方法流程图。

图5A-图5C是本发明实施例提供的视点光标吸附的效果示意图。

图5A为基于设置感应区域的被动吸附视点光标的眼动交互技术效果示意图；图5B为基于AI眼动交互意图预测模型的主动吸附视点光标的眼动交互技术方法的效果示意图；图5C是基于特定应用软件眼动交互意图预测模型的主动选择交互技术效果示意图。

图6A、图6B是本发明实施例中图3所述同时重叠在多个交互目标情况下，提供的泰森多边形算法设置交互目标感应区域示意图。

图7A、图7B和图7C是本发明提供的触发突显效果(放大镜)的效果示意图。其中图7A是触发突显效果前眼动光标发生的眼颤示意图，图7B是触发突显效果后眼动光标选择放大后的目标示意图，图7C是眼动光标远离突显效果范围一定距离后关闭突显窗口的瞬间。

图8是本发明实施例提供的眼动注视点选择与移动控制器点击操作结合的交互方法示意图。

图9是示出真实物理世界物体建立虚拟交互边框的示意图。

图10A-图10D根据本公开的至少一个搭载本眼动交付方法的终端设备，包括波导的头戴式显示器(MR眼镜)的透视图和智能汽车；图10A是佩戴MR眼镜601的用户600的透视图。图10B是图10A的MR眼镜的系统示意图。图10C是根据本公开的至少一个实施例的车载显示交互系统。图10D是图10C的车载显示交互系统结构组件图。

图11用于检测扫视的方法的时序图。

图12示出了本发明实施例采用的示例性AI神经网络，该示例性神经网络用于为观看MR眼镜中的MR场景的一个或多个用户建立扫视运动模型。

图13示出了基于LSTM的预测网络的人工智能训练流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于眼动追踪技术的眼动交互方法，下面结合附图对本发明作详细的描述。

近眼显示设备(HMD)还包括电子显示器和光学组件。HMD可以是例如混合现实(Mixed Reality)—MR眼镜、增强现实(Augmented Reality)—AR眼镜、虚拟现实(VirtualReality)—VR眼镜、扩展现实(Extended Reality)—XR眼镜或其某种组合。电子显示器配置为发射图像光。光学组件被配置为将图像光引导到与用户眼睛的位置对应的MR眼镜的出射光瞳，在本发明提供的实施例中，近眼显示器可以是位于用户的眼睛附近的任何显示器，用户的视野可以被波导至少部分地包围，用户通过波导可以查看他们的周围环境。波导可以将来自显示设备的显示光引导到用户的视野。波导可以在出射光耦合之前引导显示光。在将光输出耦合之后，波导可以将显示光的视觉信息与来自用户周围的环境光相结合，以将视觉信息传递给用户，让用户既可以看到现实世界也可以看到虚拟的全息影像。以补充用户的周围环境的视图 (例如增强或混合现实设备)，或替换用户的周围环境的视图(例如虚拟现实设备)。在用户周围将来自MR眼镜的视觉信息覆盖可能需要视觉信息相对于用户眼睛的精确生成和定位。在本发明提供的实施例中，增强现实或混合现实设备可

为了更好的描述本发明方法，下文将以MR眼镜作为说明主体进行描述，MR眼镜将代表AR眼镜、VR眼镜、XR眼镜或其某种组合的近眼显示设备(MR眼镜)。

车载显示器可以包括但不限于平行显示器(HUD)或具有增强现实系统的平行显示器(AR-HUD)，驾驶员信息控制台(DIC)，基于投影的显示器，信息娱乐单元或主机单元(HU)的显示器，透视/透明液晶显示器，智能眼镜显示器和/或电致变色显示器等。在示例中，显示器是车辆的窗户/挡风玻璃，可能不是车辆的所有窗户，并且可能是不透明的，例如车辆的圆顶屋顶或车辆前仪表板或侧面板。在微处理器的控制下，显示器的光引擎可以生成车辆路况警报和/或所确定的导航预测路径和/或用户客户端交互界面和/或车辆状况信息的二维(2D)或三维(3D)图形或文字视图，并传输至显示器显示。

MR眼镜的眼动追踪设备可以使用户的眼睛的至少一部分(诸如瞳孔，虹膜或巩膜)成像并且识别用户的注视的方向或位置，除此以外图8说明给出了更多其他眼动追踪技术。然后，可以将用户注视的方向或位置映射至近眼显示器上和/ 或虚拟环境中的位置。光标可以与注视位置相关联，以允许用户通过查看该位置来突出显示或选择虚拟环境中的位置。

在本发明实施例中，注视跟踪设备可以包括陀螺仪，加速度计，多个视觉传感器以对位置进行三角测量，或其他允许测量MR眼镜相对于虚拟环境的方向和/或位置的设备。例如，用户的“注视”可以是从MR眼镜向前投射的射线，以通过将用户的头部位置和取向近似代表他们的注视方向来。在一些示例中，这样的头部跟踪“注视”可能比眼动追踪注视更简单，因为用户在其视场中保持自由浏览，而不会无意中移动注视位置光标。在其他示例中，由于用户在与虚拟环境的交互过程中自然会看着用户感兴趣的任何对象，因此眼动追踪的目光可能更为直观。

如图1所示，本发明实施例提供的基于设置感应区域的被动吸附视点光标的眼动交互方法。基于设置感应区域的被动吸附光标眼动交互技术：通过为不同的目标设置相应感应区域即有效点击区域，当光标主要接触或覆盖某一目标的感应区域时，或/和同时检测是否存在眼颤、扫视距离是否超过阈值等眼动行为，若存在则动吸附于该目标上，及通过检测用户的眼球状态和感应区的接触情况，光标被动吸附在交互目标上。

佩戴MR眼镜的用户正在虚拟全息界面中操作某个功能界面，功能界面上分布着数个可交互目标，通过眼动追踪技术控制跟随其视点运动的光标进行交互。当用户视点移动到某个目标感应区域时，眼动追踪装置检测到眼颤或者眼跳行为，眼动光标则吸附到该目标上，目标呈现出被选中的视觉反馈特效。眼动光标可以是不可见的，被选中后的目标呈现的视觉反馈特效是显而易见的；

如图1所示，本发明实施例提供的基于设置感应区域的被动吸附眼动交互技术包括：

方法步骤：

S101：显示系统呈现虚拟交互目标；

S102：设备的眼动追踪模组捕获用户注视点位置坐标，注视点以光标的形式映射在显示设备屏幕或/和三维空间中；

S103：设备客户端实时检测注视点光标位置与虚拟交互目标的感应区之间的是否碰撞(重叠)；

S104：在与感应区发生碰撞时，设备客户端检测用户发生注视时间超过一定阈值、扫视距离在预设阈值范围内、在感应区域附近反复眼颤、形成注视点云、特殊的视线运动轨迹等眼睛行为数据，或/和用户情绪；

S105：根据S104的检测结果，将交互光标被动吸附于虚拟目标并选中，和/或呈现突显效果(放大镜效果)；

S106：当眼动光标如上述方法选中目标按钮后，MR眼镜的反馈装置向用户发出反馈信息，并通过其他交互模组或者直接检测眼睛的动作进行点击操作。

S101中，所述向用户呈现虚拟环境。MR眼镜图像处理去(例如GPU)渲染生成图像信息，通过光引擎发出图像光，再由光学显示系统传导图像光在双眼前方呈现虚拟影像。光学显示器包括共轴棱镜、离轴棱镜、光波导、共轴空导；其中显示系统包括光引擎、耦合光学元件、波导，耦合光学元件设置在波导上面或波导内部，用于将光引擎发射的影像耦合入射角进入光波导元件中，改变光的入射角度使其达到全反射条件，在光波导元件中无损传播，最终通过输出衍射耦合器耦合射出；所述光引擎被配置为OLED、LED、Micro-LED、LCOS、MEMS以及光纤扫描成像；所述波导包括几何式光波导和半透半反镜面阵列、衍射式光波导和表面浮雕光栅、衍射式光波导和全息体光栅。虚拟环境可以是由HMD 或与HMD通信的其他计算设备生成的三维空间。例如，混合现实HMD可以结合用户的周围物理环境来呈现虚拟环境。然后，MR眼镜可以使用共享环境将虚拟环境中的虚拟元素定位为周围物理环境的物理元素。

在这样的实施例中，MR眼镜可以使用例如MR眼镜上的相机或其他传感器来测量用户的周围物理环境，以将周围物理环境的信息赋予虚拟环境以创建共享环境。

尽管本公开描述了通过MR眼镜与虚拟环境的交互，但是应该理解，在其他实施例中，虚拟环境可以呈现在另一显示器上，例如笔记本电脑，平板电脑，台式机，汽车前挡风玻璃的HUD，其他与处理器和/或注视跟踪设备通信的显示器。例如，本文描述的方法和系统可以同等地适用于与会议室壁上的大型显示器交互的用户。用户可以使用眼动追踪设备和与大型显示器通信的其他输入设备来控制虚拟环境中的光标位置。在其他示例中，笔记本电脑，智能手机，平板电脑，汽车前挡风玻璃的HUD或其他个人电子设备可以具有前置摄像头，该摄像头可以用作眼动追踪设备，以允许用户与之交互而对虚拟元素进行基于注视点的移动和/或操纵另一个显示器，例如会议室墙上的大幅面显示器。

S101中，所述虚拟交互目标包括MR眼镜的软件和/或客户端和/或系统UI界面上的所有可进行点击交互的元素(通过光学成像屏幕呈现)，例如增强现实显示器内，一个或多个字母数字字符，晕圈，光标，箭头或其他符号可以叠加在特定对象之上、按钮、UI、图片、文字菜单等等，以及通过图像识别模组识别真实物理世界中的任何物体，例如识别杯子、书本、座椅、书桌等物体后，系统分别为其建立虚拟边框。可以给交互交互目标设置某种动态特效，使用户一看就知道这是可以交互的对象。在另一实施例中，按钮位置坐标可以被预先存储在存储器中，根据需要可以直接获取位置坐标。在另一种实施例中，可以通过图像识别技术识别显示器界面图像(例如MR眼镜的全息界面)，识别出UI按钮图像，定位获取按钮图像几何中心坐标位置，及获取交互目标位置坐标。

所述为真实物理世界中的物体建立可点击的交互目标的方法，具体包括：首先通过MR眼镜前端的图像识别摄像头获取用户前方的真实环境画面，将视频画面/图像画面信息进行图像信息预处理，例如A/D、二值化、图像的平滑、变换、增强、恢复、滤波等处理；下一步进行特征抽取和选择，输入图像卷积神经网络模型训练，得到图像识别模型，图像识别模型识别真实物理世界中的物体后，通过设备的光学成像屏幕为这些物体边缘叠加虚拟全息交互边框，例如图像识别模型识别出当前摄像头视野画面中的杯子物体后，通过光学成像屏幕在其周围构建一个虚拟的矩形边框，该矩形边框始终锚定在该杯子的四周；用户可以通过眼动追踪控制眼动光标与该物体进行交互，例如通过眼动光标选中该物体对应的虚拟边框后可点击弹出关于这个物体的信息/购物页面。

S102中，所述眼动追踪模组捕获用户注视点位置坐标方法具体为：

可以通过使用在此描述的眼动追踪设备来检测注视位置，以基于眼动追踪或基于用户眼睛行为来测量用户的注视的位置。

在本发明提供的实施例中，例如当与MR眼镜的虚拟界面交互时，注视位置可以包括x和y坐标。在其他实施例中，注视位置可以包括相对于用户的x坐标，y坐标和z坐标，例如当与三维空间中的虚拟元素进行交互时。其眼动追踪模组被配置为检测的眼睛行为数据包括但不限于：眼睛注视点的x，y，z坐标、视觉深度、眼跳频率、眼跳距离、运动加速度、眼颤、注视时长、眨眼、瞳孔直径变化等，并且可以将眼动数据分析成热力图、视觉轨迹图等分析图表。

在本发明提供的实施例中，在三维空间中，可以通过沿眼动追踪设备检测到的用户注视的方向投射来自MR眼镜的射线来测量注视位置，并且注视位置可以是与虚拟环境或共享环境的表面进行交互。例如，射线可以与虚拟元件的上表面相互作用，并且注视位置可以被测量为在虚拟元件的上表面上已经响应。在其他示例中，射线可以与物理对象(例如，用户面前的桌子表面)相互作用。注视位置可以被测量为在物理平台的表面上已经响应。

在其他实施例中，在三维空间中，可以使用检测到的每个用户眼睛的注视的焦距来测量注视位置。例如，基于用户正在注视的物体的距离，检测到的每只眼睛的眼睛位置和相关的注视方向将是不同的。每只眼睛的不同注视位置可以允许计算用户的焦深。使用用户注视的焦深来测量注视位置可以允许注视位置位于空间中，而不是位于(虚拟或物理)表面上。

进一步，S102中，所述眼睛注视点坐标在全息界面交互(选择)过程中被配置为已经过相关滤波算法的处理，可以过滤不稳定眼球运动。将过滤后的平稳的数据输入至眼动光标的几何中心上，得到运动轨迹稳定、平滑的动态眼动光标。所述滤波方法包括但不限于：限幅滤波法(又称程序预判滤波法)、中位值滤波法、算术平均滤波法、递推平均滤波法(又称滑动平均滤波法)、中位值平均滤波法(又称防脉冲干扰平均滤波法)、限幅平均滤波法、一阶滞后滤波法、加权递推平均滤波法、消抖滤波法、限幅消抖滤波法、IR数字滤波器等。

进一步，S102中，所述将用户眼睛视线坐标映射于MR眼镜的混合现实空间中或/和光学显示器坐标系中，获得可用于计算机处理的注视点。注视点可以呈现视觉反馈(可见注视点)，及以动态光标的形式光学成像屏幕上呈现的可见的图形，也可以是不呈现视觉反馈。特别地，在优选实施例为不呈现视觉反馈，原因是有时候用户希望屏幕中的内容无任何物体遮挡，有一个光标会使用户始终跟随其视点运动会造成一些不好的体验(例如狗咬着狗尾巴转圈的效果)。

所述一种动态光标是映射注视点坐标的光标，可被称作眼动光标/注视点光标/注视光标，为了方便技术方法的描述，下文可直接简称光标。所述眼动光标可以具有圆形、矩形、圆角矩形、三角形、圆角三角形、以及其他多边形/圆角多边形等形状，在这些形状中，优选形状为圆形。所述眼动光标的大小可以根据用户的使用习惯或者交互界面的设计和布局来确定。

S103中，所述设备客户端实时检测注视点光标位置与虚拟目标的感应区之间的是否碰撞(重叠)的方法具体是：客户端软件或内部系统软件在运行时加载检测眼动光标与交互目标及其感应区之间接触情况的可执行代码程序组件。另一种实施例中网页浏览器可能需要安装某种插件用于光标与交互目标的接触检测。所述代码程序组件可由客户端/系统开发时即配置完成，或者由是一种API可调用程序接口实现。

进一步，S103中，所述眼动光标与各个交互目标的感应区之间的接触情况的实时检测方法包括：通过软件程序实现眼动光标与任意交互目标感应区的接触反馈，反馈信息包括光标与目标感应区接触的起止时间、光标与各个目标感应区重叠部分的面积、光标到交互目标的几何中心距离等，通过上述反馈信息检测接触情况。

进一步，S103中：所述交互目标设置感应区的设置方法具体为：在常规方法中，在某应用程序UI界面开发期间，程序员手动设置(绘制)图形，将图形与注视射线相对应，形成碰撞体属性，进而使该图形成为感应区域。

但是上述常规方法在程序开发过程中过于繁琐，不利于提升开发效率。在本发明中提出一种在开发过程中自动设置感应区域的方法。具体为本自动设置感应区域程序以Unity3D、UE4、等程序开发平台的插件和/或脚本的形式呈现。

自动设置感应区域插件首先在编程界面中检测交互指令的代码和/或定义UI图层的代码，进而确定UI界面的交互目标，例如检测后缀名“.JPG”,“.PNG”等，前缀名“url”等类型命名代码。再经开发工程师确认后，根据UI图层的几何中心坐标、大小、形状、层级自动添加眼动感应区域。例如一种副本程序/插件，在调用时再安装，或者是客户端软件或内部系统软件开发时设置好的的API调用接口，用于为开发人员在软件UI界面开发时为交互元素自动设置感应区。进一步，客户端软件或内部系统软件在启动/运行时加载为所有可点击的交互目标设置感应区的可执行代码程序组件，网页浏览器可能需要安装某种插件用于交互目标的感应区设置。

所述感应区是指交互目标的有效点击区域，由所述脚本/插件按目标大小和形状的一定比例或者根据目标的分布按泰森多边形算法进行设置，感应区一般设置不可见，也包括可见的设置。所述一定比例可以根据交互目标的大小取不小于1 的任何合适的比例，例如但不限于1.2、1.5、2.0以及2.5等。增大图标和吸附感应区的相对大小，可以有效降低误操作发生的频率，以及图标尺寸较小时，需要设置较大的感应区(32像素，2.5倍)，图标尺寸偏大时，则采用较小的感应区 (80像素，1.5倍)的结论。

进一步，S104：在与感应区发生碰撞时，设备客户端检测用户发生注视时间超过一定阈值、反复眼颤、形成注视点云、扫视距离、特殊的视线运动轨迹等眼睛行为数据中。所述眼睛行为数据是指眼动追踪模组采集的用户眼睛运动过程中信息(图像信息或光强度信息)，将眼睛的运动信息转化为数字信号，并且是实时变化的，其眼动追踪模组被配置为检测的眼睛行为数据包括但不限于：眼睛注视点的x，y，z坐标、视觉深度、眼跳频率、眼跳距离、运动加速度、眼颤、注视时长、眨眼、瞳孔直径变化等，并且可以将眼动数据分析成热力图、视觉轨迹图等分析图表。

进一步，所述注视点云具体为：

注视点云为多个检测到的注视位置形成的云状注视范围，注视点云可以作为单个光标或作为动态光标出现。随着检测到的多个注视位置的变化而变化的形状。注视点数量的可以是任意数量和任意采样率来收集检测到的注视位置的序列，任意持续时间。在本发明提供的实施例中，注视云边界可以是基本上圆形的。例如，注视云可以通过平均检测到的注视位置的位置并应用半径来涵盖所有检测到的注视位置来计算。在其他实施例中，注视云边界可以是椭圆形的。例如，注视云可以通过平均检测到的注视位置的位置并施加椭圆以涵盖所有检测到的注视位置来计算。在其他实施例中，注视云边界可以是不规则形状的。例如，注视云可以通过用不规则形状限制所有检测到的注视位置来计算。

进一步，用户情绪具体为：

诸如认知负荷和恐惧、感兴趣之类的因素会导致瞳孔容易检测到的扩张，当设备佩戴者正在观看对象时用户发生上述的情绪，可以进一步辨别意图。可以基于眼睛的运动和眼睛的不同部分的几何形状的变化来辨别不同的情绪。各种感觉数据可以被保存在凝视和对象数据库中，并且在辨别用户意图方面也可能是有用的。例如，通过观察用户面部，面部区域，皮肤运动区域的摄像机数据可用于识别用户情绪。这样的一个或多个照相机可以被以任何形式部署在MR眼睛内或头戴式近眼显示设备。

例如，在物理世界中，MR眼镜佩戴者关注到一条物理/虚拟的广告，设备眼动追踪装置检测到用户的瞳孔直径变大，眼睛瞪大(眼脸上提，眼角扩开)，在一定程度上可以说明用户对这个广告的潜在交互需求，进而可以根据用户操作为用户提供详细广告内容信息。

进一步，S105中，所述眼动光标被动吸附于交互目标(如图5A)并选中是指在程序处理层面选中该交互目标作为下一步的计算目标。当S104判断用户对该交互按钮具有交互意图时，则将眼动光标脱离原有注视点映射关系(注视点与显示器对应关系)，主动吸附(校正位置)在交互目标上，对交互按钮进行选择。其中交互目标可以是三维模型、平面图像等，眼动光标将吸附到几何中心上。

在另外一种可替代性实施例中，如图7A-7C，系统可以根据此时发生眼颤的注视位置为中心启动突显效果(放大镜)，突显效果具体为出现一个鱼眼球形/六边形的窗口，窗口内所显示内容为当前注视位置放大一定比例之后的影像，例如交互目标的图表都会相应放大，但是注视交互的光标将保持原有大小。此时的突显窗口不会随着注视点位置的移动而改变位置，注视交互的光标可以在突显窗口更精确选择放大后交互目标。

进一步，S106中，所述MR眼镜的反馈装置向用户发出反馈信息的方法中，反馈装置被配置为向包括在MR眼镜或由MR眼镜用户操作的另一设备(包括控制器)中的触觉反馈硬件/装置提供信号，包括：视觉反馈、触觉反馈装置和声音反馈装置，触觉反馈可以包括多种形式，例如震动反馈、温度反馈、压力反馈等，除此之外还可以通过系统/客户端中的程序/插件实现视觉反馈。向用户反馈信息目的是让用户明确当前交互的目标物体。

其中，特别的视觉反馈通过MR眼镜显示系统呈现，例如当注视点光标触碰交互目标并确定被选中后，注视点光标在感应区域内消失，同时交互目标外围呈现高亮光晕，以展示正在被选中。

进一步，S106中，所述通过其他交互模组进行点击操作具体包括：

1)通过移动控制器进行点击操作；

所述移动控制器包括：多自由度的按键式控制器、指尖控制器、戒指控制器、手环控制器等。MR眼镜包含一种信号接收装置，例如蓝牙、WIFI、其他信号接收器，所述移动控制器包含一种信号发射装置，例如蓝牙、WIFI、其他信号发射器，用户通过移动控制器上的按键/触摸键/触摸屏幕向设备发射特殊的信号，设备接收特殊信号转化成特定的计算机指令实现点击操作。

2)通过手势识别模组进行点击操作；

所述手势识别模组包括：手势识别摄像头/结构光摄像机。手势识别摄像头/结构光摄像机捕获用户手部的动作图像，通过计算机比对识别特定的手势进行交互，例如手势识别模组检测到对应的某一手势动作即触发点击操作。

3)通过语音识别模组进行点击操作；

所述语音识别模组包括：一种有声语音识别模组包括录音装置、声音过滤器、语音识别装置或者一种无声语言识别模组包括肌肉电接收和识别装置。例如有声语音识别模组检测到用户发出的特定语音指令即触发点击操作；或者无声语言识别模组检测到用户面部特殊的肌肉电信号翻译成语言指令进行识别，从而触发点击操作。

进一步，S106中，所述通过直接检测眼睛的动作进行点击操作包括眼动追踪模组检测到用户的至少一只眼睛的至少一次眨眼动作即出发点击操作。

通过上述操作方式激活视线选中的交互目标，进而执行与交互目标对应的程序。

如图2所示，本发明另外一种实施例提供的基于AI眼动交互意图预测模型的主动光标吸附交互方法包括：

基于AI眼动交互意图预测模型的主动吸附光标眼动交互技术：基于人工智能的机器学习算法，对用户眼睛运动行为数据进行训练，对数据进行过滤、处理和分析，训练眼动行为数据，获得眼动交互意图预测模型，基于预测模型对用户正在进行的眼动行为进行预测其下一步的眼动着陆点，并MR眼镜系统主动将眼动光标移动至着陆点附近吸附目标。

基于AI眼动交互意图预测模型的自动选择交互技术基于用户视线运动行为的规律特征去预测他们的下一步眼动着陆点，能够帮助用户快速选中目标，极大地提高用户的眼动交互效率，避免了因为视点颤动影响光标的准确性而导致的选择困难。

如图2所示，本发明实施例提供的基于AI眼动交互意图预测模型的主动光标吸附交互方法步骤包括：

S201：显示系统呈现虚拟交互目标，同时获取虚拟交互目标位置坐标。

S202：设置在MR眼镜客户端或车载显示器系统中的脚本、插件或从数据库采集用户一组或多组的眼动行为数据、头动数据、用户属性数据、终端本地数据、用户情绪/心态，通过这些信息选择至少一种合适眼动预测模型。

S203：对上述数据进行预处理，识别相应的行为事件并分类，其中包括识别是否发生扫视和摆头行为，若发生则进行步骤S204。

S204：将实时检测到的用户眼动数据、头动数据和交互目标位置坐标输入S202选择的“眼动交互意图预测模型”进行匹配计算，进而预测用户对目标按钮的交互意图和/或的眼动着陆点。

S205：根据S204的预测结果，将交互光标主动吸附于虚拟目标并选中，和/或呈现突显效果(放大镜效果)。

S206：当眼动光标如上述方法选中目标按钮后，MR眼镜的反馈装置向用户发出反馈信息，并通过其他交互模组或者直接检测眼睛的动作进行点击操作。

S207：记录用户最终选择的结果，并将实时的眼动数据反馈至眼动交互意图模型继续训练。

其中，S201：显示系统呈现虚拟交互目标在实施例一“提供的基于设置感应区域的被动吸附眼动交互技术”有详细的描述，在此不做赘述。

获取虚拟交互目标位置坐标具体为获取显示器UI界面上交互按钮的位置坐标。在另一实施例中，按钮位置坐标可以被预先存储在存储器中，根据需要可以直接获取位置坐标。在另一种实施例中，可以通过图像识别技术识别显示器界面图像(例如MR眼镜的全息界面)，识别出UI按钮图像，定位获取按钮图像几何中心坐标位置，及获取交互目标位置坐标。

在S202中：设置在MR眼镜客户端、系统中的脚本、插件或从数据库采集一组或多组用户的眼动行为数据、头动数据、用户属性数据、终端本地数据、用户情绪/心态，通过这些信息选择至少一种合适眼动交互意图预测模型。

收集该信息可以包括收集注视位置信息(例如，从眼动追踪系统)，收集头部位置信息(例如，从头部位置跟踪系统)，收集图像数据。

头部位置跟踪系统包括位置和运动传感器(例如，指南针，陀螺仪)，加速度计光源和/或其他用于获取MR眼镜的位置，方向和运动的设备。可以从头部位置跟踪系统接收头部位置信息。将头部位置信息提供给眼动交互意图预测模型的头部位置跟踪系统。在MR眼镜上共同形成一个惯性测量单元(IMU)。头部位置信息可以帮助确定用户的头部运动，旋转或方向。

眼动交互意图预测模型包括“通用眼动预测模型”，“个人眼动预测模型”，“应用软件眼动预测模型”。

眼动交互意图预测模型构建方法见图4。眼动交互意图预测模型的选择机制如下：

如果终端MR眼镜刚激活，和/或某应用软件第一次安装，和/或在网络/本地数据库没有检索到与当前用户匹配的账户，并且也没有在数据库检索到该应用软件UI界面信息，则仅使用“通用眼动预测模型”。

如果系统检索到与当前用户匹配的账户，及在服务器数据库中检索到用户个人信息和历史眼动轨迹、眼动习惯数据，则使用已训练好的“个人眼动预测模型”，“个人眼动预测模型”可以完全替换“通用眼动预测模型”。“个人眼动预测模型”通过用户历史使用过程中产生的数据优化“通用眼动预测模型”获得，即在“通用眼动预测模型”基础上进一步训练获得“个人眼动预测模型”。数据例如其中所述个人用户数据包括用户的年龄、用户的性别、学历、阅读或/和认知习惯、个人的扫视速度、用户当前环境、用户当前眼动行为发生的起始时间以及经历时间等多个维度的特征。

如果系统在数据库检索到当前应用软件信息，及应用软件UI界面信息，则可以加载该软件已训练“应用软件眼动预测模型”。“应用软件眼动预测模型”可以与“个人眼动预测模型”和“通用眼动预测模型”任意叠加使用，以使精度进一步提高，并非完全替换关系。

在S203中：对数据进行预处理，识别相应行为事件并分类，其中包括识别是否发生扫视行为，若发生扫视进行第四步；

在S202中收集信息之后，可以在S203中进行预处理和事件检测/分类。事件检测/分类可以包括识别不同的眼睛/头部运动类型，例如注视，扫视，平滑追视，前庭眼反射(VOR)，眨眼，视动性眼球震颤(OKN)等。预处理可能包括对接收到的信息进行初始处理，以将数据以更好的格式放置以进行进一步分析。例如，如果注视跟踪系统或头部位置跟踪系统的采样率是可变的，则可以执行数据插值以填充任何丢失的数据点或以规则的间隔放置样本。可以对数据进行滤波以使数据平滑(例如，使用Savitzky-Golay滤波器，中值滤波器，指数移动平均值，双边滤波器，小波信号降噪滤波器或其他任何所需类型的滤波器)。可以获得数据的移动平均值以帮助平滑数据。还可以执行下采样和/或上采样。某些初始属性可以在预处理步骤中确定。例如，在S203收集的原始视线位置信息可以用于确定用户的眼睛的位置，眼镜移动的速度和加速度。

在识别是否发生扫视行为中，可以评估数据以确定扫视是否正在发生。某些眼动可能涉及与扫视不同的眼动，例如，平滑追视的眼动行为不具备对目标进行交互的意图。扫视的识别方法与原理可相见图9。可能会发生其他事件，这些事件会导致丢失数据点(例如，眨眼，眼睑局部闭合或极端角度观察)，但不同于扫视运动。为了准确地根据需要预测用户的注视点，重要的是识别是否发生扫视或上述行为中的某一行为。

在另外的实施例中，系统还需同时识别用户大幅度的摆头和扫视行为，用户预测用户的交互意图。例如在生活中，突然有个人在你的旁边叫你的名字，通常情况你会转动头和眼睛看准那个人。可想而知在MR眼镜增强现实场景下交互时，当用户对当前视野范围外的目标有交互需求时，一定会转动头部，同时移动眼睛注视(或扫视行为)方向至虚拟交互目标位置附近，这正是检测头部运动的原因。

如果在S203未检测到扫视，则再循环进行下S202，再检测新的眼动数据。

如果在S203检测到扫视，则可以使用来自S203的预处理数据来确定其他特征。每个特征可以是独立可测量的属性或特征，以后可以由机器学习预测网络使用。

在S204中：将实时检测到的用户眼动数据、头动数据和可能存在的交互目标位置坐标输入S202选择的“眼动交互意图预测模型”进行匹配计算，进而预测用户下一时刻对目标按钮的交互意图和/或的眼动着陆点。对比于；

进一步，S204中，所述根据预测模型得到用户下一时刻选择着陆点的目标或位置包括预测目标位置的方向、距离、坐标等。

进一步，所述用户下一步选择的目标眼动着陆点是指用户在下一时刻后视线将要选择的目标抵达的位置坐标，所述眼动着陆点表示用户即将想要发生的交互意图或者搜寻的目标位置，以达到提前一定时刻预测用户眼动行为的目的。所述一定时刻将会随着机器学习模型的不断优化而逐渐增加，预测的效率和准确率会不断提高。

S205：与实施例一的S105步骤说明相同，不在此做过多赘述。

S206：当眼动光标如上述方法选中目标按钮后，近眼显示设备的反馈装置向用户发出交互反馈信息，并通过其他交互模组或者直接检测眼睛的动作进行点击操作。

进一步，S206中，所述选中目标后发出交互反馈信息以及通过其他交互模组或者直接检测眼睛动作进行点击操作的方法如实施例一的S106中所述相同，在此不进行赘述。

S207：记录用户最终选择的结果，在网络允许的情况下，将眼动历史数据反馈至眼动眼动交互意图模型继续训练；

进一步，S207中，所述用户最终选择的结果指的是：所述眼动眼动交互意图模型根据用户已经发生的眼动行为数据预测其下一步的眼动着陆点交互目标位置，并将所述眼动光标移动至该预测着陆点的位置或者着陆点附近吸附目标后，用户对这一预测结果的最终交互结果。该结果有两种情况，一种是预测正确，用户对预测的交互目标进行了交互操作；另一种是预测错误，用户未对预测的交互目标进行交互操作。用户最终选择的结果与所述眼动眼动交互意图模型预测的结果是否有差异，系统都将该结果反馈至所述预测模型继续训练，优化模型参数，提高预测准确度。

本发明还提供两种基于近眼显示设备的眼动交互方法的设备，具体包括：

所述MR眼镜为基于增强现实AR、虚拟现实VR以及混合现实MR技术的智能近眼成像显示设备，包括近眼显示设备、AR眼镜或XR眼镜。

对于混合现实(MR)或增强现实体验，显示设备可以是至少部分透明的，使得近眼显示设备的用户可以通过显示虚拟交互目标的一个或多个部分透明像素来查看物理环境中的物理真实世界对象。例如，显示装置可以包括图像产生元件，例如透明有机发光二极管(OLED)显示器或与光波导元件结合使用的MEMS。

设备框架还可以支持近眼显示设备的附加组件，其他内置传感器包括图像处理单元GPU，网络通信模块(5G)，前置摄像头，惯性测量单元(IMU)和眼动追踪系统。微型计算机系统可以包括逻辑和配置的相关计算机存储器接收来自 IMU和其他传感器的感觉信号，向显示模块提供显示信号，从收集的数据中导出信息，以及实施本发明所述的各种控制过程。

在两种眼动交互方法中的所述应用于交互设计、AI预测模型设计的脚本、插件、程序、客户端软件涉及的计算机程序包括用于可编程处理器的机器指令，并且可以以高级过程和/或面向对象的编程语言和/或以汇编/机器的形式实现。

如图3所示，另外一种实施例提供的眼动光标同时重叠在多个交互目标的感应区被动吸附眼动交互技术方法步骤为。

S301：显示系统呈现虚拟交互目标；

S302：设备的眼动追踪模组捕获用户注视点位置坐标，注视点以光标的形式映射在显示设备屏幕或/和三维空间中；

S303：设备客户端实时检测注视点光标同时与多个虚拟交互目标的感应区重叠，计算眼动光标与每个交互目标的重叠面积占比，选择感应区上的面积占比最大的交互目标作为吸附目标；

S304：在与感应区发生碰撞时，设备客户端检测用户发生注视时间超过一定阈值、在感应区域附近反复眼颤、形成注视点云、特殊的视线运动轨迹等眼睛行为数据；

S305：根据步骤S304的检测结果，将交互光标被动吸附于虚拟目标并选中，和/或呈现突显效果(放大镜效果)；

S306：当眼动光标如上述方法选中目标按钮后，MR眼镜的反馈装置向用户发出反馈信息，并通过其他交互模组或者直接检测眼睛的动作进行点击操作。

在本实施例中，S303设备客户端实时检测注视点光标同时与多个虚拟交互目标的感应区重叠，计算眼动光标与每个交互目标的重叠面积占比，选择感应区上的面积占比最大的交互目标作为吸附目标。具体如图6，当佩戴MR眼镜的用户正在虚拟界面中操作某个功能界面，功能界面上密集分布着数个可交互目标，或交互目标面积较小时，可以通过泰森多边形算法在多个交互目标之间设置感应区域。所述泰森多边形算法是针对于密集分布的交互目标进行感应区设置的方法，该算法是将在一定范围内的所有目标标定几何中心坐标，将这些相邻的坐标连线形成三角形，并作这些三角形各边垂直平分线，将每个三角形的三条边的垂直平分线的交点连接起来得到一个多边形，这个多边形就是对应所述目标的分割区域/有效点击区域。即通过眼动追踪技术控制跟随其视点运动的光标选择目标，当用户视点移动到这些目标之间时，眼动光标立即吸附到最近的/交互意图最大的一个目标上，目标呈现出被选中的视觉反馈特效。使得眼动交互能够满足在密集分布的目标中准确快捷地选中用户的期望目标，有效解决了眼动交互绩效低的问题，在现有眼动交互技术的基础上进一步得到优化和改善。

眼动光标与每个交互目标的重叠面积占比计算结果包括：

当眼动光标与某个交互目标及其感应区相接触，或者覆盖于某个交互目标及其感应区上的面积占比最大。所述眼动光标覆盖于某个交互目标的感应区上的面积占比最大的方法中，例如在单位时间内，眼动光标同时覆盖2个以上的目标，如目标A、目标B、目标C，分别计算眼动光标与这些目标感应区的重叠部分面积的比例，如目标A为45％、目标B为30％、目标C为25％，则视为选中覆盖面积占比最大的那个目标，如目标A(45％)。例如眼动光标接触到某一目标的感应区或者在一定时间内覆盖于某个交互目标的感应区上的面积占比最大时，自动移动到该目标实际大小的边缘或中间。构建眼动交互意图预测模型：

在眼动交互过程中需要确定眼睛运动是否“有意图”，并对眼睛运动进行分类。这通常与生理“非自愿”和“自愿” 眼动之间的区别有关。眼睛的非自愿运动不受意识控制，因此在与眼睛交互过程中帮助不大。自愿的眼球运动在有意识的控制下，因此可用于在眼球信号形成过程中传达有目的的意图。

例如，可以使用特定眼睛运动是否“有意图”的知识来避免眼动交互时的对交互目标(按钮)意外激活。如果眼球运动看起来是无目的的，则可以视为“随便看看”，进而忽略激活。相反，如果眼动看起来是有意图的，则可以辅助对凝视激活区域的选择(吸附)。如果已经发现正在进行“有意图的”眼动，甚至可以减少或消除一些眼动信号。

此外，可以通过其他感测的数据来通知对目的性的确定。这种感官数据的示例包括头部移动，面部移动，手部移动以及其他可量化的数据。此外，概述的上下文以及对象注视特定的上下文可以帮助确定目的。

为了对“有意图”眼动与“无意图”眼动进行分类，进而根据眼动交互意图进行交互预测，需要同时考虑多种措施。这些度量可以包括扫视发射延迟，峰值扫视速度，扫视所覆盖的角距离，在平滑追视期间行进的距离，矫正扫视的数量，注视时长等。换句话说，这种分类通常是多元的。此类数据的分类方法可以使用：1)统计和2)神经网络方法。

统计方法涉及本领域众所周知的技术。这种方法的示例包括线性分类器，二次分类器和贝叶斯统计。监督学习(即，可以使用正确识别结果的数据集)可以用于机器学习。训练和验证数据集可以例如通过使设备佩戴者在执行眼信号时实时指示眼动是否“有意图”(例如，通过按下开关)来收集。用于获取此类数据的典型且易于使用的设置涉及在进行有意图的眼动时按住计算机鼠标上的按钮。然后，通常将具有已知结果的此类数据集分为用于训练(即机器学习)的数据集和用于验证的数据集。

同样，具有正确识别结果的数据集也可以用于神经网络或深度学习分类方法的训练和验证。训练神经网络的方法，例如反向传播，在本领域中是众所周知的。具有大量中间(或称为“隐藏”)层和互连关系(数百万至数十亿)的神经网络的应用通常称为“深度学习”。这些非常适合根据眼动模式和其他感官输入来识别用户的意图。

当使用许多人工智能(AI)或基于神经网络的分类方法时，通常难以确定诸如相对重要性或不同输入之间的相互作用之类的因素，或者很难插入概率信息来改善网络。在某些情况下这可能是不利的。但是，一旦经过培训，基于神经网络的实现可能会非常快，并且在存储和功耗方面都非常高效。神经网络也可以很容易地直接在固件逻辑中实现(例如在FPGA中)，而无需利用中央处理单元(CPU)资源。

眼动交互主观意识的生理眼动理论基础：

一般认为，眼球运动有四种基本类型：1)前庭眼，2)汇聚/扩散，3)平滑追视和4)眼球运动。可以根据诸如运动范围，速度分布，两只眼睛是否执行共轭(相对方向不同)运动以及头部或视野的运动参数来区分每种运动类型。每种类型的眼睛运动都涉及不同的神经回路。不同的眼球运动涉及不同程度的自愿(即意识控制)与非自愿(即反射)神经通路。在辨别眼睛信号的过程中，特别重要的是能够识别传达意识意图的眼睛自愿运动。

前庭眼眼球运动通过使眼睛移动与头部旋转相同的角度但方向相反来补偿头部运动。这具有稳定投射到眼睛中央凹区域的外部世界图像保持高分辨率的作用。具体的当用户正在注视某个物体的同时扭转头部到左/右一侧，此时眼球会向与转头方向相反的方向偏转，以此来保持对目标物体的始终注视。尽管前庭眼运动本质上是自反的，但前庭眼运动的检测可用于间接辨别头部运动的绝对位置(特别是与其他输入(例如，与头部运动的加速度计耦合)时)。通常这是人类的主观意识才能够实现行为。

汇聚/扩散眼动用于独立对准每只眼的中央凹区域，以观察与观察者一定距离之外的物体。与其他眼睛运动不同的是，汇聚/扩散运动是不确定的，其中每只眼睛向不同的方向运动。汇聚运动指的是双眼相向运动汇聚至一点，双眼视线的夹角较大，扩散运动指的是双眼相反运动，双眼视线的夹角较大。例如，当用户在注视远处和近处两个距离的目标物体时，人双眼的汇聚/扩散是不同的，在观察近处物体时相对处于汇聚状态，双眼视线的夹角较大，在观察远处物体时相对处于扩散状态，双眼视线的夹角较小。通常只有在用户在主观意识层面对某个物体具备明确的观察需求时才可以出现汇聚/扩散眼动用，在没有目标物体的空间中，双眼很难控制双眼运动调节对焦深度。因此汇聚/扩散眼动可以间接的作为是人类才能够实现的主观意识行为。

平滑追视眼睛运动是缓慢的，用户主观意识控制，且自愿的眼睛运动。可将移动目标对象的投影保持在眼睛的中央凹区域上。因此，平滑追踪运动的整体速度通常对应于观察中的移动目标的速度。对于大多数人来说，很难在不实际观察移动目标的情况下执行平稳的跟踪运动。换句话说，除非进行了观察者的大量专业训练，否则在没有跟踪运动目标的能力的情况下试图进行平滑跟踪的尝试只会导致观察者进行一个或多个眼跳运动。因此平滑追视眼动可以作为是人类的主观意识才能够实现行为。

扫视(眼跳)运动是快速运动，会突然改变眼睛的注视点。扫视是“弹道的”，即一旦开始，扫视所覆盖的方向和距离仅由扫视发射控制。换句话说，即使在扫视开始和/或其执行期间目标的位置发生变化，扫视期间也无法进行中间校正。扫视运动是人体产生的最快运动，达到了高达900°/秒的角速度。扫视角大约大于20°时，通常会伴随头部运动，尽管个体之间差异很大。

就速度分布而言，扫视也是“弹道”的。响应意外的刺激，扫视的起始部分大约需要200毫秒。起爆导致进入快速加速阶段，在此阶段(类似于其他弹道速度曲线)，峰值速度与行进距离大致成比例。扫视的运动阶段持续20到200毫秒，具体取决于所移动的总角距离。通常，只要头部保持不动，扫视镜就不会使眼睛在扭转轴上旋转(即所谓的李斯特定律)。扫视角大约大于20°时，通常会伴随头部运动，尽管个体之间差异很大。

通常用户通过眼睛注视点对准交互目标时，长距离扫视通常覆盖目标距离的90％，然后是10％的校正扫视(例如当扫视到目标位置时，初始扫视眼运动(预测的或测量的)可能不在落入距目标的预定阈值距离之内。但是，一个或多个矫正扫视可能会导致用户的视线逐渐接近目标)。向心扫视比离心扫视更准确选中目标。下冲或过冲后进行的校正可能会出现较长或较短的延迟。校正扫视可以快速执行(即动态下冲或过冲)，也可能需要数百毫秒(即滑行下冲或过冲)。视线方向落在新的目标位置上时，有一个快速减速阶段。在非常短的延迟之后，大扫视通常会伴随至少一个较小的校正扫视，以进一步接近目标位置。即使目标已经消失，也可能发生矫正扫视，从而进一步支持了眼跳运动的投射弹道性质。但是，如果目标仍然可见，则矫正扫视的频率会更高。

通过仔细控制注视点，可以通过关闭任何注视点来显着减少运动前的眼跳潜伏期(最多减少一半)。固定点的关闭似乎既向观看者发出警报，又减少了与维护固定点相关的心理处理。在进行扫视运动之前将注视点关闭以注视到新的目标位置会在视觉处理中留下“空白”。这种情况称为“间隙效应”。

在“间隙”情况下，快速扫视的起始等待时间为80-120毫秒。仔细控制注视点和目标的外观，以及用户的实践和培训，可以大大提高连续目标选择的最大速度。安排目标位置以便可以利用内存引导的扫视镜可以进一步提高目标选择的最大速度。

这些中间的眼睛运动包括一个或多个矫正扫视(通常是短距离的)，眨眼，震颤，漂移等。眼颤指的是瞳孔和角膜缘 (通常程度较小)可能会出现位移，当眼球运动到达目标目标时可能产生眼颤，其表现为阻尼振荡。这些运动的主要振荡频率通常约为20赫兹(即50毫秒的周期)。通常可以检测到约50-60毫秒的阻尼振荡。这样就可以观察1-3个这样的阻尼振荡。在该时间段内会持续抑制跳音。否则，运动模糊将在观察到的场景中显而易见。眼睛的生理漂移，震颤和其他较小运动的测量可以用作识别设备佩戴者的生理和心理状态的组件。这些运动对于确定和监测各种病理状况(尤其是神经肌肉疾病)以及药物和其他化合物的作用也很有价值。

如图4所示，图2中所述的眼动交互意图预测AI模型构建方法步骤为。

下面结合构建训练模型的方法具体为：

S401：设置在MR眼镜客户端、系统中的脚本、插件或从数据库采集用户一组或多组的眼动行为数据、头动数据、用户属性数据、终端本地数据、用户情绪/心态、目标对象的交互行为，发送至交互意图模型训练服务器；

S402：从所述眼动行为数据、头动数据、用户属性数据、用户情绪/心态、终端本地数据中分别提取多个维度的特征，并设定对应的标签。尤其需要识别出扫视行为和交互目标位置信息；

S403：首先将上述眼动行为数据、头动数据和交互目标的位置坐标、按键功能输入卷积神经网络进行模型训练，得到通用眼动交互意图预测模型；

S404：进一步输入已采集的个人用户属性数据进行优化训练，得到个人用户眼动交互意图预测模型；

S405：进一步输入已采集的终端本地数据和软件信息进行优化训练，得到特定应用软件眼动交互意图预测模型。

在本发明中，S401：设置在MR眼镜客户端、系统中的脚本、插件/数据库采集用户一组或多组的眼动行为数据和终端本地数据、用户属性数据、头动数据、目标对象的交互行为，发送至模型训练服务器；

进一步，S401中，所述客户端/系统具体为：应用在安装在MR眼镜上的客户端软件、网页浏览器或者内部系统软件。

进一步，S401中，所述脚本/插件具体为：

(1)客户端软件或内部系统软件在启动/运行时加载调用眼动追踪模组采集一组或多组用户的眼动行为数据的可执行代码程序组件，网页浏览器可能需要安装某种插件用于眼动行为数据的获取。

(2)系统软件(特指更高权限的操作系统程序)为所有客户端软件、网页浏览器授权眼动追踪的使用或者数据获取的权限。例如眼动追踪模组的使用权限直接受操作系统管理，其他客户端软件或网页浏览器需要获得用户眼动数据时，向用户申请授权，得到授权后系统将用户的眼动数据共享给这些软件。

在另一种实施例中，MR眼镜操作系统或已被授权的APP可记录一段时间用户的眼睛行为数据，形成历史数据库。还可以从客户端的历史数据库采集训练数据。

所述脚本/插件可以为副本程序，首次使用时再安装，也可以为客户端软件或内部系统软件开发时设置好的API调用接口。

进一步，S401中，系统采集的数据包括眼动行为数据，头动数据，终端本地数据，用户属性数据，目标对象的交互行为。

所述眼动行为数据包括但不限于：视线位置坐标和轨迹、注视时长、眨眼和瞳孔直径变化、眼跳频率、眼跳时的速度、眼跳距离；

所述头动数据为头部位置跟踪系统获取位置和运动传感器(例如，指南针，陀螺仪)，加速度计，光源和/或其他用于 MR眼镜的位置，方向和运动的设备。可以从头部位置跟踪系统接收头部位置信息。在MR眼镜上共同形成一个惯性测量单元(IMU)。头部位置信息可以帮助确定用户的头部运动，旋转或方向。

所述终端本地数据包括但不限于：软件的交互UI按钮位置坐标、交互UI按钮的作用、该软件信息、软件的功能用途、服务对象、终端设备信息(例如硬件设备)、本地网络信息等；

所述个人用户属性数据包括但不限于：用户的年龄、用户的性别、学历、阅读或/和认知习惯、用户当前环境、用户当前眼动行为发生的起始时间以及经历时间等；

进一步，S401中，所述模型训练服务器为一种云端服务器，云端服务器被配置为可以接收成千上万已配备了眼动追踪装置的终端设备(例如MR眼镜、智能汽车等)，并具有分布式的强大的计算能力，被用于运行AI算法训练大量眼动数据、个人数据等。云端服务器需要通过网络与所述MR眼镜建立通信，例如数据/信息的上传与下发。所述网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。例如云端模型训练服务器接收数据的方式是，MR眼镜通过眼动追踪模组收集到的用户眼动行为数据经过加密，由上述一种网络连接类型通过某种网络通讯协议发送至所述模型训练服务器，模型训练服务器对接收到的数据进行解密计算，再进行下一步的数据整理。所述某种网络通讯协议可以是TCP/IP协议、IPX/SPX及其兼容协议、NetBEUI协议。

进一步，所述用户的眼动行为数据经过加密发送至服务器中，可以通过的加密技术主要包括如下技术内容：

1)随机因子；2)RSA费堆成秘钥算法；3)AES对称秘钥算法；4)SIIA256哈希值摘要算法。在PKI加密技术中，数据加密报文格式包含5个参数：appid(即应用所授权的合法授权ID)、key密钥(30位的用于AES加密的workkey)、 checker(完整性验证码)、zip(压缩数据流标识)、postmsg(提交的数据)，所有参数值要在传入前需要先做HtmlEncode、再做UrlEncode后再进行提交。

S402：从所述眼动行为数据、头动数据、用户属性数据、终端本地数据、用户情绪/心态、交互目标的交互时刻中分别提取多个维度的特征，并设定对应的标签。尤其需要识别出眼跳行为和交互目标位置信息。

进一步，S402中，对所述眼动行为数据以及用户属性数据分别提取多个维度的特征的方法：首先对原始眼动行为数据和用户属性数据进行预处理。具体来说，所述预处理可以包括数据等长填充和异常数据清洗等。然后，对于经过预处理后的眼动行为数据和用户属性数据执行多个维度的特征提取处理。例如，提取特征的处理可以包括对非数值的特征进行数值化以及对多种数据进行归一化等操作。

进一步，所述归一化处理指的是将所有需要训练的数据经过处理后限定在一定的范围内，以使数据更容易正确地收敛到最优解，提高数据处理的准确性。比如，可以对所有数据进行归一化处理。可以利用最大一最小标准化方法、z-score 标准化方法，函数转化方法等方法对需要训练的数据进行归一化处理。

进一步，S402中，所述多个维度的特征包括：眼动行为数据包括注视点位置特征、注视停留特征、眼跳特征、瞳孔直径变化特征、眼颤特征；头动数据包括；终端本地数据包括交互目标内容、交互目标位置坐标；用户信息特征以及软件信息特征等等；

综上，通过上述数据特征的提取最终达到效果为，以用户对某个交互目标明确执行了眼动交互指令这一时刻之前一段时间内用户所产生所有行为数据(如眼动、扫视、头动、转身、眼颤等)。因此在被用于训练的数据预处理过中，需要根据“用户交互”为标杆去过滤筛选有效的行为数据。例如某用户甲正在执行某项任务，在这项任务总时间中包括Ta、Tb、 Tc、Td，用户甲在Tc时刻执行了点击指令，Ta-Tb时间段中用户可能漫无目的浏览网页。Tb-Tc时间段为用户甲发出交互指令的前一段时间，在这段时间中用户可能有了明确的交互目标正准备寻找某UI按钮。Tc-Td时间段为用户甲发出交互指令的后一时刻，在这一时刻用户可能在等待程序的响应与执行。在本实施例中，数据提取的为Tb-Tc时间段内用户甲所产生的所有可采集的用户行为数据，识别这段时间内的特征行为，这可以更有效的预测用户的交互意图。

S403：将上述眼动数据特征、头动数据特征和交互目标位置通过卷积神经网络模型进行训练，得到通用眼动交互意图预测模型；

进一步，S403中，所述将上述眼动数据特征、头动数据特征和交互目标位置通过卷积神经网络模型进行训练，得到通用眼动交互意图模型的方法具体为：本通用眼动交互意图预测模型通过预测注视点的着陆点坐标与交互目标位置坐标之间的位置关系确定交互意图。进一步，通过AI训练算法找出用户对某一目标进行眼动交互前一时间段内用户产生的眼睛动作/状态与交互目标位置之间的关系。预测注视点的着陆点坐标需要眼动数据特征和头动数据特征、交互目标位置。

进一步，上述训练通用眼动预测模型的数据被配置为包括各个年龄段、不同性别、不同学历人群、不同功能(意义) 的交互按钮的眼球行为数据。眼球行为数据包括：注视点位置坐标(在三维空间中的X横坐标、Y纵坐标、Z竖坐标)、视觉搜索轨迹、眼跳幅度、每个采样点眼球运动速度、眼球运动速度图的片段、眼球运动的方向、每个采样点的时间、瞳孔直径、注视时长、眨眼和眼跳频率。

头部运动数据被头部位置跟踪系统采集。头部位置跟踪系统包括位置和运动传感器(例如，指南针，陀螺仪)，加速度计，光源和/或其他用于MR眼镜的位置，方向和运动的设备。可以从头部位置跟踪系统接收头部位置信息。在MR眼镜上共同形成一个惯性测量单元(IMU)。头部位置信息可以帮助确定用户的头部运动，旋转或方向。

进一步，所述通用眼动预测模型通过成千上万不同MR眼镜终端设备获取不同用户眼睛行为数据样本训练获得。虽然不是很精准但是却可以在初始状态下提供用户一个较为精准的预测模型，一般是终端系统/软件在使用之初没有个人用户数据的的情况下优先使用通用预测模型，例如终端设备第一次激活、用户第一次注册账户。

将训练数据输入卷积神经网络模型，通过不断迭代对卷积神经网络模型进行训练，得到性能较好、稳定性较好的卷积神经网络模型，进一步地可以将训练好的卷积神经网络模型确定为预测模型。

见图10，进一步说明交互意图模型训练的神经网络，建立眼动交互意图模型的人工智能训练包括有标记的监督训练和无标记的无监督训练两种方式。所述有标记的监督训练方式具体为：将样本库中有类别标记的用户眼动行为特征数据输入到卷积神经网络模型中训练，以得到该卷积神经网络模型的模型参数，将确定模型参数的卷积神经网络模型作为卷积神经网络眼动交互意图模型。从样本库中的有类别标记的用户行为数据以及用户属性数据中提取特征，主要包括眼动行为数据，终端本地数据，用户个人数据。

进一步，S403中，所述眼动交互意图模型是包含多个不同类型的输入数据训练出来的不同适用条件的卷积神经网络模型的集合，这些模型可以独立运行，也可任意几个互相配合，目的旨在输出更高准确率的眼动交互意图值。

S404：进一步输入个人用户属性数据进行优化训练，得到个人用户眼动交互意图预测模型的原因在于通用眼动预测模型并不完全精准，不同的人存在不同的视觉认知模型，因此通用眼动预测模型应用于不同的人会存在一定的误差。例如，有经验的人(例如经常使用者)比没有经验的人(新手用户)的眼动轨迹更加精简、注视点数量更少、注视平均时间更少、眼跳落点位置距离交互目标更短。再比如不同的用户之间，视觉搜索的习惯和认知带宽不同，例如人看书时的认知习惯，有的人看书慢，有的人一目十行，有的人习惯反复看已读的文字(回视)，有的人看书容易看漏等。例如，女性更善于广泛的搜索多个目标，男性更善于专注于一个目标。综上所述，用户的信息包括但不限于用户的年龄、用户的性别、学历、用户当前环境、阅读或/和认知习惯、用户当前眼动行为发生的起始时间以及经历时间等，这些个人因素会造成与通用模型预测之间的误差。

进一步，S404收集个人用户的信息数据，针对于每一个用户在通用眼动预测模型的基础上进一步训练更加精准的“个人眼动预测模型”训练，及利用用户个人特征优化通用眼动预测模型。用户个人收集的过程为终端设备(MR智能眼镜) 在被个人用户使用的过程中逐渐收集用户信息和眼动认识习惯，可替换的也可以在已建立用户个人数据库获取数据；将用户个人数据上传至服务器进行人工智能(AI)的运算，进而获得针对于个人的“个人眼动交互意图预测模型”，然后“个人眼动预测模型”回传至MR眼镜用于眼动交互。

其中所述个人用户数据包括用户的年龄、用户的性别、学历、阅读或/和认知习惯、个人的扫视速度、用户当前环境、用户当前眼动行为发生的起始时间以及经历时间等多个维度的特征。应注意的是“个人眼动预测模型”仅针对用户个人具有较好的预测效果，非本人用户将实际眼动行为与预测结果存在一定误差。

S405：进一步输入终端本地数据和软件信息进行优化训练，得到特定应用软件眼动交互意图预测模型。

S405中可生成“特定应用软件眼动预测模型”。由于在功能网站上，用户都有着明确的目标和意愿，因而大部分用户的认知轨迹大似相同，操作轨迹也大似相同。例如在订票(机票、火车票)、电商购物网站或APP等等，在这些应用软件中，同一款APP里面用户对UI交互设计(按钮位置)、按钮功能是相同的，因而用户操作流程、眼睛认知轨迹(眼动轨迹)是大致相同的，是有规律可循的。

综上所述，S405：进一步输入终端本地数据和软件信息进行优化训练，得到特定应用软件眼动交互意图预测模型集体为。将某网页/某终端软件的本地数据和该网页或某某终端软件使用过程中的历史眼动行为(认知轨迹)发送至云端服务器进行人工智能AI训练。

其中，网页/终端软件的本地数据包括交互UI按钮位置坐标、交互UI按钮的作用、该软件信息、终端设备信息(例如硬件设备)、本地网络信息等。

在另外一种实施例中，可以同通过对UI界面的图像进行目标检测，识别出按钮图标(例如方形、圆形等图标)，进而获得UI按钮位置坐标。OCR图像文字识别技术识别按钮图标内的文字提示，计算机通过对文字处理的进而获得UI按钮的作用。在实施例一的S103中以详细说明，在此不做赘述。

上述网页/终端软件的本地数据的采集方式为，通过MR眼镜客户端的内置插件捕获。在可代替的一种采集方式中可以通过开发者在开发过程中调用本文所述“眼动吸附API”接口，在开发过程中需要设置交互UI按钮位置坐标和交互UI 按钮的作用，因此可以通过“眼动吸附API”获取。在另一种可代替的一种采集方式中，可以从网络上获取已公开软件信息, 例如应用商店的备案信息，软件著作权信息等。历史眼动轨迹数据被具有内置API插件的可客户端软件获取并存储为数据库，其中具体为随机采集一段时间内的眼动轨迹数据作为历史数据。

本发明还提供了另外一种可替代性眼动交互意图模型的构建方法。

收集用户利用眼睛对目标按钮选择成功前一段时间内的眼动数据、头动数据以及其他传感器数据；将这些数据集输入AI 算法中进行无监督训练；进而获得眼动交互意图预测模型。

在本发明所提到的用于“眼动交互意图预测模型”构建的训练AI算法包括但不限于SVM算法,LSTM-BASED预测网络，回归算法，基于实例的算法(例如学习向量量化)，决策树算法(例如分类和回归树)，贝叶斯算法(例如朴素贝叶斯)，聚类算法(例如k-means聚类)，关联规则学习算法(例如(例如先验算法)，人工神经网络算法(例如Perceptron)，深度学习算法(例如Deep Boltzmann机器或深度神经网络)，降维算法(例如主成分分析)，集成算法(例如Stacked Generalization)和/或其他机器学习算法。可以为各个数据集定制各个模型。上述算法可能被应用于“通用眼动交互意图预测模型”、“个人用户眼动交互意图预测模型”、“特定应用软件眼动交互意图预测模型”。

本发明还提出上述图1、图2、图3中眼动注视光标吸附后脱离交互目标的吸附状态的方法。具体如下。

在吸附状态下，实时检测用户的眼睛运动状态，当眼睛扫视速度或加速度达到预设阈值时，则接触吸附光标状态。该方法的原理在于眼睛扫视状态下的速度或加速度与扫视的距离(眼跳距离)是成正相关的，通过扫视距离和方向可以预判扫视落点位置的范围，如果扫视落点位置距离当前交互目标感应区域很远，则可以说明用户已明确脱离交互目标的意图，如果扫视落点位置距离当前交互目标感应区域边缘/附近徘徊，则该用户只是看一看，并没有明确脱离吸附的意图。在另外一种增加或可替换性实施例中还可以通过计算扫视跳转到交互目标感应区域外的第一位置坐标到交互目标几何中心的距离，若距离超过预设阈值则接触吸附光标。

本发明提供一种实施所述基于眼动追踪技术的眼动交互方法的MR眼镜，所述MR眼镜的眼动追踪模组捕获用户注视点坐标，通过眼睛注视进行交互。

图5A-图5C是本发明提供的基于眼动追踪技术的眼动光标吸附交互技术示意图，其中图5A是基于设置感应区域的被动吸附眼动交互技术示意图，图5B是基于AI眼动交互意图模型的主动选择交互技术过程示意图，图5C是基于特定应用软件眼动交互意图预测模型的主动选择交互技术效果示意图。

图5A中，用户101使用MR眼镜103进行眼动交互，其当前用户视野画面102为MR眼镜成像屏幕104上显示的虚拟全息影像106。其注视点位置105映射在虚拟全息影像106上。在基于设置感应区域的被动吸附眼动交互技术中，其交互过程是：成像屏幕显示的虚拟全息内容106中有两个交互目标123和121，124为交互目标123的交互感应区域，122 为交互目标121的交互感应区域。122、124感应区域一般设置为不可见，按照交互目标123的一定比例进行设置。此时，用户控制眼睛注视点经过一系列的轨迹126，途径注视点125、127，最终到达当前注视点128处，系统检测到当前注视点光标129与交互目标123的感应区域124处相接触，在注视点128时刻检测是否发生眼颤行为，或者是否存在大扫视后的矫正扫视行为等(图1中S104中行为所述)，若发生则吸附。在另外增加或替换性实施例中，还可以同时通过前一时刻注视点125到注视点1128之间发生的扫视行为，以此来确定是否执行吸附指令(例如，如图11所示，通过检测眼睛运动速度是否达到阈值来确认扫视行为)。吸附指令为眼动光标移动并吸附到交互目标123上，即移动后的眼动光标128 的中心正吸附在交互目标123之上。另外的交互目标123周围产生高亮效果，以提示用户该目标此时正在被选中。由于此时眼动光标128已经移动并吸附在交互目标123上，故注视点光标128是为不可见，并且其是用户此时眼睛注视点位置，因此用栅格线填充来表示。特别地，有时在眼动交互过程中眼动光标也可全程为不可见，只有被选中的目标发生高亮显示以提示用户。并且注视点在感应区域内移动过程中始终保持交互目标123高亮状态。

图5B中，是基于AI眼动交互意图模型的主动选择交互技术过程示意图，其当前用户视野画面为MR眼镜成像屏幕 104上显示的虚拟全息影像106。全息影像106展示的是三个交互目标107、108、109，眼动轨迹111是由第一注视点110、第二注视点112、第三注视点113组成的，其中110-112为第一次扫视，112-113为第二次扫视，应特别说明的是第一注视点110、112、113可能在任何位置，任意的运动方向。方向向量114为第一注视点110与交互目标109几何中心得连线。在程序运行过程中，系统会根据已知的数据库信息或者图像识别技术获得交互目标107、108、109的几何中心位置坐标和面积。当系统检测到用户的眼跳行为(如图11)，系统进一步将“本次眼跳的方向(110和112连线方向)”、“起跳点到每个交互目标107、108、109连线方向向量”、交互目标107/108/109的位置坐标、眼睛运动速度、加速度、还包括110-112 过程中眼动数据、头动数据输入至眼动交互意图预测模型进行计算分析，计算获得这一阶段用户对每个交互目标107、108、 109的交互意图概率，本演示性实施例中交互意图概率分别为P107<P108<P109，显然交互目标109为最有可能为第一潜在交互目标。当用户进行112-113为第二次扫视过程中，系统再一次检测到扫视行为，根据上述数据第二次带入眼动交互意图预测模型进行计算分析，计算获得交互目标107、108、109的交互意图概率分别为N107<N108<N109，这说明用户第二次的扫视过程中的行为比第一次扫视具备更大的交互意图的可能行，并且N109的交互意图超过或等于预设阈值。当系统判定用户对交互目标109有交互需求时，将扫视落点113吸附至目标几何中心点115。

图5C，基于特定应用软件眼动交互意图预测模型的主动选择交互技术效果示意图中，用户101使用MR眼镜103进行眼动交互，其当前用户视野画面102为MR眼镜成像屏幕104上显示的某文章的文字信息进行阅读。其注视点位置105 反映在成像屏幕上形成对应的映射光标。在基于AI眼动交互意图模型的主动选择交互技术中，其交互过程是：成像屏幕显示的虚拟全息内容106中有一段文字内容122以及两个交互目标123和126，在用户的这一交互过程里，用户为了阅读呈现的文字内容122将其眼睛注视点从注视停留点120出发经过一系列的视线轨迹121最后到达当前注视点124处。系统可以收集注视点120至注视点124这段时间内的眼动行为数据，可以获得界面上所有交互目标123、126和文字内容122 的位置坐标，同时系统可以基于上下文分析出当前显示页面为文字内容122，将上述三个方面的特征信息输入至AI眼动交互意图模型，得到用户下一步眼动着陆点的预测结果。在该呈现文字信息的软件被用户阅读时，其页面布局为阅读从左到右和从上到下排列的文本时，在完成特定页面的查看后，自然会到达屏幕的右下角。因此，在到达屏幕的该区域时自然而然的预测“翻一页”(即前进至下一页)。除了实际的视线位置之外，可以选择考虑查看该位置的时间，以确保有足够的时间完成页面的阅读。在到达页面末尾并转到新页面时，可以使用生理原理来引导用户的眼睛自然过渡到新页面。

例如如图5C，当用户完成阅读时眼动注视点移动至124，在124这一时刻用户可能会产生“关闭”或“下一页”的功能点击需求，因此在这一时刻124用户的眼动行为(眼睛运动方向、速度、眼跳距离)是不同于阅读文章时的眼动行为，再通过,根据当前注视点124时刻的眼动行为、移动方向、以及在这个方向延长线上附近具有交互目标126，则“眼动交互意图模型”可以推断出用户对交互目标126具有交互意图。于是系统主动将眼动光标125移动并选中预测的交互目标126 的位置，同时，被选中的交互目标126发出高亮效果显示，以提示用户该目标正在被选中。由于此时眼动光标125已经由注视点光标124移动并吸附在交互目标126上，故注视点光标124是为不可见，并且其是用户此时眼睛注视点位置，因此用栅格线填充来表示。同样地，眼动光标125可全程不可见。

图6是本发明提供的泰森多边形算法设置交互目标感应区域示意图，该方法是所述基于设置感应区域的被动吸附眼动交互技术的一种实施例，为了使用户更方便、快捷地选中密集分布的目标。图中分为四个过程进行示意，首先MR眼镜的成像屏幕上呈现出数个密集分布的虚拟交互目标，例如形如交互目标201的数个目标随机密集分布；其次通过系统的脚本程序，确定这些交互目标的几何中心，标定坐标，例如图6B中202，并将相邻目标的几何中心坐标相连；例如204，进一步，作这些连线的垂直平分线；例如205，确定这些垂直平分线的交点坐标；例如206，将这些垂直平分线及其交点坐标围城的多边形分别作为这些交互目标的感应区域；例如208，最后由系统检测眼动光标207在这些密集分布的交互目标及其感应区域上覆盖的面积占比，确定覆盖面积占比最大的那个区域对应的目标即为当前选中的目标。目标被选中后眼动光标将吸附在该目标之上，并且目标周围产生高亮效果，以提示用户该目标正在被选中。进一步，一种运算更简单的判定眼动光标207选中哪个目标的方法为检测眼动光标的几何中心(在该实施例示意图中为光标207的十字中心)在一定时间内平均落在哪个多边形区域内的次数最多，即为选中该区域对应的目标。

图7A、图7B和图7C是本发明提供的眼颤触发突显效果(放大镜)的交互示意图。其中图7A是触发突显效果前眼动光标发生的眼颤示意图，图7B是触发突显效果后眼动光标选择放大后的目标示意图，图7C是眼动光标远离突显效果范围一定距离后关闭突显窗口的瞬间。

图7A中，用户通过MR眼镜的显示装置300查看到某一应用的交互界面310，交互界面中包括许多可交互按钮，例如密集分布的按钮群311，此时用户正在注视按钮群311，计算机检测到眼动光标320产生了震颤，和/或在一定时刻内发生震颤的光标320形成了注视点云321以及图1、图2中所提到的可以判断用户眼动交互意图的条件/机制。其中注视点云可以是圆形、椭圆形或不规则的云状不可见区域，在此处用虚线示意。

图7B中，当系统检测到用户可以表明眼动交互意图的眼球行为时(图1、图2所述方法中所提到的可以判断用户眼动交互意图的条件/机制)，则在该注视点云中心点位置生成突显效果330，所述突显效果可以呈现圆形、矩形、多边形、圆角多边形等样式，突显效果330是将注视点云处的内容进行放大呈现，类似于“放大镜”(以下简称“放大镜”)的效果，内容通过“放大镜”放大后，用户再控制眼动光标320进一步选择交互目标，例如选中按钮群311中的“按钮3”331，同时“按钮3”产生显著视觉效果提示用户其正在被选中，例如按一定预设比例放大，以及发光/加粗效果。

图7C中，若用户想要放弃选择，则可以通过使注视点远离“放大镜”330，使其关闭，例如控制光标320移动并离开“放大镜”的限定范围333，“放大镜”330随机关闭，在光标320仍在限定范围333以内时，光标与“放大镜”之间形成粘连效果 332，以表示此时光标并未离开“放大镜”。

图8是本发明提供的通过移动控制器进行点击操作的示意图。图中用户401佩戴智能MR眼镜402查看虚拟全息交互页面404，全息交互页面404中含有一段文字信息405以及可点击的交互目标407，此时用户正在将视线控制眼动光标 406选中这一交互目标407，同时交互目标407发生高亮效果显示提示用户其正在被选中，进一步用户将控制手上的6DOF移动控制器进行点击操作。与传统的移动控制器发出射线选中目标并点击的交互方式不同，此处是由用户眼睛视线选中目标再通过移动控制器来进行点击。此处为了说明通过眼动选中目标并进行点击操作，将用户当前视线对准了该目标，可以理解的是，用户经过上述两种辅助其选择目标的技术(即吸附选择技术和AI眼动交互意图预测技术)进行目标的选中，用户视线可不对准在目标上。本领域技术人员应理解此处文中提到的“6DOF移动控制器”可以是戴在手上的任意形状的设备，例如指环、手环、臂环等。

在另外一种可替换性实施例中，正常状态下MR眼镜402上的眼动追踪装置不捕获且不计算眼睛注视点位置；当用户按压外设控制器408上的某按钮后，其按压动作为持续不松手按住控制器物理按钮，控制器408向MR眼镜402发射预设指令信息；指令信息控制MR眼镜系统启动眼动追踪装置以获得用户眼睛注视点位置，同时光学显示器上显示出注视点光标以反馈用户当前注视点位置；当用户将注视点光标移动至交互目标附近时，系统可以使用“感应区域被动吸附方法”或“AI预测模型主动吸附方法”将光标吸附至交互目标上；进而，当用户确认已选中目标时松开控制器物理按钮，这时系统对当前注视点光标位置的UI目标进行点击指令，执行与该UI目标预设的功能指令，同时接触吸附状态。其中，应注意在本实施例中控制器按钮需要在眼动交互全过程中保持运行状态(按住不松手)，松手则会使注视光标消失，只在具备交互属性的目标上送手才具备确认点击功能。在另外可替换实施例中，在松手状态下可以不是在硬件层面停止获取眼动追踪装置数据，而是可以在效果层面不显示光标，及获取的眼动追踪装置数据但是不现实注视光标。当用户按压外设控制器408上的某按钮时显示注视光标。

图9是本发明提供的为真实物理世界物体建立虚拟交互边框的示意图。图中透过MR眼镜520的光学成像屏幕521 看到的真实物理环境画面500中，分别有以下实物：笔记本电脑501、鼠标502、文件夹503、杯子504、手机505、手 506、手握着的笔507以及手腕戴着的手表508等等。在为真实物理环境中的物体建立虚拟交互边框的过程中，MR眼镜的图像识别摄像头522捕获当前真实物理环境画面500，并通过图像识别模型识别画面中的实物。然后通过光学成像屏幕 521为这些已经识别的物体建立虚拟全息交互边框，例如笔记本电脑交互边框509、鼠标交互边框510、文件夹交互边框 511、杯子交互边框512、手机交互边框513、手交互边框506、笔交互边框507以及手表交互边框508等等。所述虚拟全息交互边框始终跟随对应的实物移动，并可通过用户眼睛注视点控制眼动光标进行选择，并操作其他交互装置进行点击操作，进行点击后可弹出关于该实物的信息页面或者商品购买页面。在本发明提供的实施例中，图像识别模型识别真实物理环境画面中的笔记本电脑后，通过MR眼镜的光学成像屏幕为该笔记本电脑构建虚拟全息交互边框，用户通过眼睛注视控制眼动光标移动至该交互边框上，即是选中该笔记本的交互边框，并且产生特效动画提示用户。此时用户通过其他交互装置进行点击弹出该笔记本的购买页面，用户可进一步对购买页面进行交互。

图10A是根据本公开的至少一个实施例的包括波导的头戴式显示器(MR眼镜)的透视图；

图10A是佩戴MR眼镜601的用户600的透视图。在本发明提供的实施例中，MR眼镜601可以具有外壳602，该外壳包含一个或多个处理器，存储设备，电源，音频设备，显示设备，照相机，通信设备，或其组合，用于接收，收集，存储，处理或计算提供给用户的信息。例如，显示设备603可以光学上邻近波导或其他近眼显示器604定位，以向近眼显示器604提供视觉信息，该信息又可以由近视显示器604呈现在用户的视野中。近眼显示器604。头动追踪装置610 追踪用户头部运动，当前头部位置、轨迹。

在本发明提供的实施例中，MR眼镜601可以具有位于用户600附近的近眼显示器604，以将视觉信息引导到用户600。 MR眼镜601可以包括单个近眼显示器604，用于近视的单独的近眼显示器604。用户的每只眼睛(即，两个近眼显示器 604)或多于两个的近眼显示器604，以在较大的视场上提供视觉信息。

在本发明提供的实施例中，MR眼镜601可以包括可以对用户的物理环境成像的一个或多个相机605。例如，相机605 可以是可以对周围环境成像的可见光相机605。处理器可以在可见光图像上执行图像识别例程，以检测和识别周围环境中的元素，例如物理对象或人。在其他示例中，一个或多个相机605可以是可以创建周围环境的深度图像的一个或多个深度感测相机。例如，相机605可以是飞行时间相机，结构光相机，立体相机或其他可以使用可见，红外，紫外线或其他波长的光来收集有关周围环境的三维信息的相机。

在本发明提供的实施例中，MR眼镜601可以进一步包括眼动追踪设备606，其位于MR眼镜601中以跟踪用户的注视的方向。眼动追踪设备606可以包括一个或多个照相机以对用户的眼睛成像。换句话说，眼动追踪设备606可以对用户的瞳孔，虹膜，巩膜，用户眼睛的其他部分或其组合成像，以计算用户正在看的方向。在本发明提供的实施例中，眼动追踪设备606可以测量和/或计算用户注视的x和y、z分量。在其他实施例中，眼动追踪设备606可以包括陀螺仪，加速计，用于对位置进行三角测量的多个传感器，或者允许测量MR眼镜相对于虚拟环境的方向和/或位置的其他设备。

1)通过接收眼睛反射光线，计算瞳孔中心与角膜中心的连线进行眼动追踪。硬件包括多个不可见红外光源、微型摄像头、反光热镜、光波导镜片。

2)另一种眼动追踪技术实施例为通过捕获眼睛图像或者计算视网膜的影像或者视网膜反射光的强度进行眼动追踪。硬件包括不可见红外光源、光敏传感器、MEMS微机械系统反射镜、光波导镜片。

3)另一种眼动追踪技术实施例为通过发射结构光对眼睛建模，计算眼睛模型的视觉中心进行眼动追踪。

4)另一种眼动追踪技术实施例为通过接收眼睛角膜的反射光线，计算角膜中心反射的强度最大的光来进行眼动追踪。硬件包括不可见红外光源、光敏传感器、MEMS微机械系统反射镜、光波导镜片，光波导镜片可以配置为靠近眼睛的一层或多层光波导进行眼睛图像的获取和传导，波导中的输入衍射耦合器将眼睛图像耦合，眼睛图像光线在光波导中传导，同时图像传感器配置在光波导输出衍射耦合器的光线出射端。

图10B是图10A的MR眼镜的示意图。参照图10A，根据本公开的至少一个实施例。

图10B是MR眼镜601的示意图。与近眼显示器604通信的显示设备603可以与处理器607进行数据通信。类似地，相机605和眼动追踪设备606可以与显示器607进行数据通信。处理器607。处理器607可以进一步与存储设备608进行数据通信。存储设备608可以是硬件存储设备，例如基于压板的存储设备，固态存储设备或其他非暂时性的。或长期存储设备。存储设备608可以在其上存储指令以执行一种或多种方法或本文描述的方法的一部分。还可以使用头动追踪装置609中的其他输入设备来收集诸如头部旋转或位置信息之类的用户行为。头动追踪装置609可以包括例如位置和运动传感器(例如，指南针，陀螺仪)，加速度计和/或其他用于监视设备601的位置，方向和运动的设备，可以包括力传感器，温度传感器，触摸传感器，按钮，电容式接近传感器，基于光的接近传感器，其他接近传感器，应变压力计，气体传感器，压力传感器，湿度传感器，磁传感器和其他传感器。

图10C是根据本公开的至少一个实施例的车载显示交互系统。图10C中，用户驾驶车辆视角画面如620所示，在所述的一个车载显示交互系统实施例中，包括但不限于车载显示系统621，眼动追踪装置622，实体键盘623，车载前置相机624以及车载处理器625等。

在该所述实施例中，车载处理器625可以处理来自车载前置相机624捕获的车辆前方路况画面及信息，并生成特殊图文信息发送至车载显示器621进行显示，例如路线导航、路障/路况报警、变道提示、限速提示等等。同时眼动追踪装置622可以实时捕获驾驶员眼睛注视点的，映射在车载显示器621上，用户可以通过注视点对显示器显示的虚拟界面进行交互，并结合实体按键623进行输入/控制，例如实现驾驶路线规划、接听/拨打电话、查看天气信息等交互操作。

所述车载显示器可以包括但不限于平行显示器(HUD)或具有增强现实系统的平行显示器(AR-HUD)，驾驶员信息控制台(DIC)，基于投影的显示器，信息娱乐单元或主机单元(HU)的显示器，透视/透明液晶显示器，智能眼镜显示器和/或电致变色显示器等。在示例中，显示器是车辆的窗户/挡风玻璃，可能不是车辆的所有窗户，并且可能是不透明的，例如车辆的圆顶屋顶或车辆前仪表板或侧面板。在微处理器的控制下，显示器的光引擎可以生成车辆路况警报和/或所确定的导航预测路径和/或用户客户端交互界面和/或车辆状况信息的二维(2D)或三维(3D)图形或文字视图，并传输至显示器显示。

根据示例，车载显示系统的交互输入系统可以包括但不限于触屏输入、手势识别输入、语音识别输入、实体按键输入、眼动追踪输入等等。触屏输入指用户通过手触碰显示器表面进行输入的交互方式；手势识别输入指通过被配置在车内任意能够拍摄到用户手部交互动作位置的手势识别摄像头进行输入的方式；语音识别输入指通过被配置在车内的语音收录识别装置对用户发出的指令进行识别控制交互的输入方式；实体按键输入指通过安装在车内例如方向盘、操作盘等处的实体按键来控制交互；眼动追踪输入指通过安装在车内任意能够拍摄/捕获用户眼睛投影在显示屏上的注视点的眼动追踪装置识别用户眼睛的动作进行交互的方式。

图10D是图10C的车载显示交互系统结构组件图。参照图10C，根据本公开的至少一个实施例。图10D中，车载显示器621与车载处理器625进行通信，显示和呈现处理器处理的虚拟交互界面给驾驶员。眼动追踪装置622将捕获到的驾驶员眼睛注视点信息传输给处理器，以进行眼动数据分析或提供眼动交互反馈。实体按键623作为一种便捷交互弥补了眼动交互的缺陷，保证用户驾驶安全。车载前置相机624与车载处理器625进行通信以提供车辆行驶时前方路况图像和/或信息，处理器进行处理以通过显示器反馈和提醒用户。存储装置626可以是硬件存储设备，例如基于压板的存储设备，固态存储设备或其他非暂时性的，或长期存储设备。存储装置626可以在其上存储指令以执行一种或多种方法或本文描述的方法的一部分。

图11是示出用于检测扫视的方法的时序图。眼动追踪设备606持续监视眼睛运动的速度。可以基于扫视开始之后的位移和扫视开始之后的时间来计算眼睛移动速度。眼动速度可以每秒眼位移的程度来测量。曲线720表示针对示例性扫视相对于时间绘制的眼睛运动速度。如图11所示，曲线720在时间Ts超过扫视开始阈值水平，在时间Td超过扫视检测阈值水平，然后在时间Te降至扫视结束阈值水平以下。

通常，由眼动追踪设备606收集的眼动追踪数据可能相当嘈杂，因此对数据进行过滤可以帮助确定何时实际需要注视预测。通过设置眼动追踪设备606确认已经发生有效扫视之前必须满足的某些条件，可以实现适当的过滤。在一种合适的布置中，眼动追踪系统606可以仅在时间Ts(当曲线720超过开始阈值)和时间Td(当曲线720超过检测阈值)之间的时间间隔ΔT超过预定持续时间时确定执行注视交互意图预测。

作为非限制性示例，可以将开始阈值设置为240度/秒，将检测阈值设置为400度/秒，并且将预定持续时间设置为30ms。换句话说，在注视检测系统606将验证有效扫视之前，所检测到的眼睛运动速度将必须超过400度/秒并且具有240度/ 秒的后向阈值并且必须持续至少30ms。

仅当ΔT超过某个预定持续时间时才激活眼动交互意图预测，这仅是要激活预测系统所必须满足的几个条件之一。另一个条件可能要求Tsaccade大于另一个预定量，该预定量可以是ΔT的至少2倍，ΔT的至少3倍，ΔT的至少4倍，等等。注视预测需要满足的示例性条件可能包括：将沿(否则理想的直线)直线视觉路径的注视点的允许角度偏差限制为30°，将Tsaccade限制为不超过150ms，要求眼睛运动到严格单调增加，并有一定的误差幅度，等等。注视预测不应该执行，但是，如果注视行为是眨眼或部分眼睑闭合的一部分，平滑的追逐眼球运动(SPEM)或某些其他无法预见的情况，其中眼球运动的轨迹似乎偏离了理想的建模情况。例如，如果眼睛的运动在80度-120度之间的角度向下笔直或向上笔直，则可以检测到眨眼。这些数字仅是说明性的。确切的阈值可能取决于所使用的眼动仪的制造商和准确性。平滑跟踪眼睛运动是一种场景，其中眼睛平滑地跟踪屏幕中移动的某个对象，这不同于扫视运动。

在上述基于信号处理的事件检测/分类概率分析的替代方案中，也可以使用基于机器学习的事件检测/分类概率分析。换句话说，使用机器学习训练的模型可以用于确定扫视发生的概率。可使用经训练以对扫视进行编码的自动编码器模型来执行扫视检测。自动编码器是一种人工神经网络，它学会通过减小数据的维数然后将数据从潜在空间解码来将数据编码到潜在空间中。训练自动编码器以使其输出与输入匹配，从而使如何在潜在表示中对输入的分布进行最佳编码。

响应于检测到有效的扫视运动并执行注视预测，注视预测系统100可以使用注视预测模型来预测最终的扫视着陆位置，以帮助减少注视跟踪等待时间并减少“可见偏心误差”。通常，注视预测模型可以从具有训练注视数据的大型离线数据集中创建，或者可以使用来自用户的过去注视数据进行连续精炼。注视预测模型可以包括多个较小的局部模型或子模型，用于针对不同类别的连声运动准确地预测连声着陆位置。

图12示出了本发明实施例采用的示例性神经网络，该示例性神经网络用于为观看MR眼镜中的MR场景的一个或多个用户建立扫视运动模型。

图12示出了示例神经网络，基于测得的测试对象扫视建立扫视模型和/或那些扫视模型的速度图，例如在MR眼镜的显示器上执行着陆点的预测。

具体地，扫视运动预测引擎中的深度学习或机器学习引擎800被配置为接收与用户的眼睛取向数据有关的信息(例如，注视方向，时间，扫视运动的速度图的片段等)作为输入。深度学习引擎800利用人工智能，

也就是说，在学习和/或建模阶段期间，深度学习引擎800使用输入数据(例如，测试对象的扫视的测量)来创建扫视模型(包括那些扫视模型的速度图)，用于预测用户的眼睛所指向的显示器的着陆点。例如，输入数据可以包括对测试对象的扫视的多次测量，当将其输入深度学习引擎800时，该测量被配置为创建一个或多个扫视模型，并且对于每个扫视模型与该扫视模型匹配时，可以用于识别的扫视识别算法。

特别地，神经网络800代表用于分析数据集以确定相应用户的响应、动作、行为。不同类型的神经网络800是可能的。在示例中，神经网络800支持深度学习。因此，可以实现使用监督训练或无监督训练的深度神经网络，卷积深度神经网络和/或递归神经网络。在另一个示例中，神经网络800包括支持强化学习的深度学习网络。例如，神经网络800被设置为支持强化学习算法的马尔可夫决策过程(MDP)。

通常，神经网络800代表互连节点的网络，例如人工神经网络。每个节点都从数据中学习一些信息。可以通过互连在节点之间交换知识。输入到神经网络800激活了一组节点。反过来，这组节点会激活其他节点，从而传播有关输入的知识。跨其他节点重复此激活过程，直到提供输出为止。

如图所示，神经网络800包括节点的层次结构。在最低层次级别，存在输入层801。输入层801包括一组输入节点。例如，在监视正在经历相应扫视的测试用户/对象(例如，眼睛取向数据)期间，这些输入节点中的每一个被映射到通过致动器主动地收集或通过传感器被动地收集的本地数据。

在最高层级上，存在输出层803。输出层803包括一组输出节点。输出节点表示与当前经历的扫视的信息有关的决策 (例如，预测)。如前所述，输出节点可以将用户经历的扫视运动与先前建模的扫视运动相匹配，并且还识别出用户的视线方向指向目标的显示器(例如，MR眼镜)的预测着陆点。/或扫视结束时。

可以将这些结果与从先前的交互和测试对象的监视获得的预定和真实结果进行比较，以细化和/或修改深度学习引擎 800使用的参数以迭代地确定适当的扫视模型和预测的着陆点对于给定的一组输入，在扫视期间和/或结束时，与用户的视线方向相对应的显示器的显示角度。即，神经网络800中的节点学习扫视模型的参数，该扫视模型的参数可用于在细化参数时做出这样的决定。

特别地，在输入层801和输出层803之间存在隐藏层802。隐藏层802包括“N”个隐藏层，其中“N”是大于或等于1 的整数。继而，每个隐藏层也包括一组隐藏节点。输入节点互连到隐藏节点。同样，隐藏节点互连到输出节点，以使输入节点不直接互连到输出节点。如果存在多个隐藏层，则输入节点将互连到最低隐藏层的隐藏节点。这些隐藏节点又互连到下一个隐藏层的隐藏节点，依此类推。下一个最高隐藏层的隐藏节点互连到输出节点。互连连接两个节点。

通常，隐藏层802允许在与输出节点相对应的所有任务之间共享关于输入节点的知识。为此，在一种实现方式中，变换f通过隐藏层802应用于输入节点。在一个示例中，变换f是非线性的。可以使用不同的非线性变换f，例如，包括线性整流器函数f(x)＝max(0，x)。

神经网络800还使用成本函数c来找到最优解。成本函数测量对于给定的输入x，由定义为f(x)的神经网络800 输出的预测与地面真实性或目标值y(例如，预期结果)之间的偏差。最佳解决方案表示一种情况，其中没有一种解决方案的成本低于最佳解决方案的成本。成本函数的一个示例是预测和基本事实之间的均方误差，对于可获得此类基本事实标签的数据。在学习过程期间，神经网络800可以使用反向传播算法来采用不同的优化方法来学习最小化成本函数的模型参数(例如，隐藏层802中的节点之间的互连的权重)。

在示例中，用于神经网络800的训练数据集可以来自相同的数据域。例如，训练神经网络800以基于给定的一组输入或输入数据来学习测试对象的相似扫视的图案和/或特征。例如，数据域包括眼睛取向数据。在另一个示例中，训练数据集来自不同的数据域，以包括除基线以外的输入数据。这样，神经网络800可以使用眼睛取向数据来识别扫视，或者可以被配置为基于眼睛取向数据为给定扫视生成扫视模型。

图13示出了基于LSTM的预测网络的人工智能训练流程图，基于LSTM的预测网络的特征在于不同时间步长之间的信息共享。例如，当分析给定时间点的数据时，使用先前时间点的数据。基于LSTM的预测网络的特征还在于特征之间的信息共享。如图13所示。基于LSTM的预测网络900包括输入层902，其在给定时间TN接收特征作为输入。在一个示例中，输入层可以包括13个神经元。该示例仅是示例性的，并且输入层可以具有任何期望数量的神经元(例如，在 10与20之间，大于κ，大于10等)。可以从输入层902到长期短期存储器(LSTM)层904提供这些特征。LSTM层可以包括64个单元，并且可以具有缺失。该示例仅是示例性的，LSTM层可以具有任何所需数量的单元(例如，大于20，大于40，大于60，大于80，大于100，小于100，在20与100之间，等等。)。辍学是指基于预定的概率，将LSTM单元从激活中排除，以减少过度拟合并提高模型性能。每个LSTM单元可以从在输入层1202接收的每个特征中接收信息。 LSTM单元还可以从先前的时间点接收有关特征的信息，例如从时间TN-1开始的特征。LSTM单位可以在随后的时间使用时间TN处来自LSTM单位的信息。

最终将来自LSTM层的信息提供给完全连接的层906。完全连接的层906可以具有到先前层的所有神经元的连接。全连接层可以将输出提供给回归层908和固有数据不确定性块910。回归层908可以用于确定最终位移估计D*。回归层 908可以使用的回归方法包括线性回归，逻辑回归，多项式回归，逐步回归，岭回归，套索回归和其他合适的技术。另外，不确定性可以由固有数据不确定性框910确定。

在本发明中，基于LSTM的预测网络的特征在于不同时间步长之间的信息共享。例如，当分析给定时间点的数据时，使用先前时间点的数据。基于LSTM的预测网络的特征还在于特征之间的信息共享。如图13所示。基于LSTM的预测网络900包括输入层902，其在给定时间TN接收特征作为输入。在一个示例中，输入层可以包括13个神经元。该示例仅是示例性的，并且输入层可以具有任何期望数量的神经元(例如，在10与20之间，大于κ，大于10等)。可以从输入层1202到长期短期存储器(LSTM)层1204提供这些特征。LSTM层可以包括64个单元，并且可以具有缺失。该示例仅是示例性的，LSTM层可以具有任何所需数量的单元(例如，大于20，大于40，大于60，大于80，大于100，小于 100，在20与100之间，等等。)。辍学是指基于预定的概率，将LSTM单元从激活中排除，以减少过度拟合并提高模型性能。每个LSTM单元可以从在输入层1202接收的每个特征中接收信息。LSTM单元还可以从先前的时间点接收有关特征的信息，例如从时间TN-1开始的特征。LSTM单位可以在随后的时间使用时间TN处来自LSTM单位的信息(例如，最终将来自LSTM层的信息提供给完全连接的层906。完全连接的层906可以具有到先前层的所有神经元的连接。全连接层可以将输出提供给回归层908和固有数据不确定性块910。回归层908可以用于确定最终位移估计D*。回归层908可以使用的回归方法包括线性回归，逻辑回归，多项式回归，逐步回归，岭回归，套索回归和其他合适的技术。另外，不确定性可以由固有数据不确定性框910确定。

任何期望的技术可以用于估计模型不确定性。在一个示例中，可以使用称为蒙特卡洛辍学的变分推断技术来估计模型的不确定性。在理想条件下，使用无限的训练数据和训练时间，模型不确定性将接近零。但是，实际上，模型不确定性是不可忽略的。固有的数据不确定性是与数据本身相关的不确定性。扫视可能发生在少于100毫秒的总时间长度内。通常，扫视时间不超过100毫秒。在扫视开始时，在预测最终扫视着陆位置时可能会有更多的不确定性。换句话说，数据中存在随机性，因此相同的输入数据可能导致不同的最终结果。扫视进行的时间越长，固有数据不确定性将减少的越多。不确定性估计器910可以输出与最终位移估计相关联的总不确定性，同时考虑了模型不确定性和固有数据不确定性。

事件检测/分类可以使用基于机器学习的算法来执行，或者可以不使用机器学习来执行(例如，使用信号处理方法)。在信号处理方法中，注视位置信息可以被处理以确定扫视发生的概率。信号处理可以包括将当前的眼睛运动与已知的眼跳行为进行比较。例如，扫视可能发生在某个已知的时间长度(例如，小于100毫秒)中，因此可以确定持续时间长于某个阈值(以毫秒为单位)(例如，100毫秒或某个其他阈值)的眼球运动不做个扫视。扫视之间可能有一个不应期，意味着扫视不可能在距上一个扫视的一定时间内发生。眼睛注视点的加速度，角度偏差和位置都可以用来评估扫视的可能性。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、 CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于眼动追踪技术的眼动交互方法，其特征在于，所述基于眼动追踪技术的眼动交互方法采用设置感应区域被动吸附注视光标或眼动交互意图预测主动吸附注视光标对目标进行选择；

所述设置感应区域被动吸附注视光标对目标进行选择的方法通过为不同的目标设置相应感应区域即有效点击区域，当光标接触或覆盖某一目标的感应区域时，或/和同时检测是否存在眼颤、扫视距离是否超过阈值眼动行为，若存在则动吸附于该目标上，及通过检测用户的眼球状态和感应区的接触情况，光标被动吸附在交互目标上；

所述眼动交互意图预测主动吸附注视光标对目标进行选择的方法采用人工智能的机器学习算法对用户眼睛运动行为数据进行训练，对数据进行过滤、处理和分析，训练出眼动行为规律，获得用户主观意识眼动交互意图模型，基于所述眼动交互意图模型对用户正在进行的眼动行为进行预测下一步的眼动着陆点，并系统主动选中着陆点附近吸附目标；

所述设置感应区域被动吸附注视光标对目标进行选择的方法包括：

步骤一、显示系统呈现虚拟交互目标；

2.如权利要求1所述基于眼动追踪技术的眼动交互方法，其特征在于，步骤二中，所述眼动追踪模组捕获用户眼睛注视点坐标和视线运动轨迹及相关眼球行为数据的眼动追踪硬件技术方法包括：

（1）利用多个不可见红外光源、微型摄像头、反光热镜、光波导镜片及其他硬件通过接收眼睛反射光线，计算瞳孔中心与角膜中心的连线进行眼动追踪；

（2）利用不可见红外光源、光敏传感器、MEMS微机械系统反射镜、光波导镜片捕获眼睛图像或者计算视网膜的影像或者视网膜反射光的强度进行眼动追踪；

（3）通过发射结构光对眼睛建模，计算眼睛模型的视觉中心进行眼动追踪；

（4）利用不可见红外光源、光敏传感器、MEMS微机械系统反射镜、光波导镜片接收眼睛角膜的反射光线，计算角膜中心反射的强度最大的光来进行眼动追踪。

3.如权利要求1所述基于眼动追踪技术的眼动交互方法，其特征在于，步骤二中，眼动数据为由眼动追踪模组采集的用户眼睛的运动数据转化成的实时变化的数字信号；所述眼动数据包括眼睛注视点的x，y，z坐标、视觉深度、眼跳频率、眼跳距离、运动加速度、眼颤、注视时长、眨眼、瞳孔直径变化。

4.如权利要求1所述基于眼动追踪技术的眼动交互方法，其特征在于，步骤二中，所述注视点以光标的形式映射显示设备屏幕或物理/虚拟三维空间中包括：

5.如权利要求1所述基于眼动追踪技术的眼动交互方法，其特征在于，步骤三中，所述虚拟交互目标包括MR眼镜的光学成像屏幕上呈现的可点击的交互目标象，及所有可进行点击交互的按钮、UI、图片、文字菜单；或通过图像识别模组识别实际的物体。

6.如权利要求1所述基于眼动追踪技术的眼动交互方法，其特征在于，步骤三中，所述设备客户端实时检测注视点光标位置与虚拟目标的感应区之间的是否碰撞的方法具体是：客户端软件或内部系统软件在运行时加载检测眼动光标与交互目标及其感应区之间接触情况的可执行代码程序组件；网页浏览器需要安装某种插件用于光标与交互目标的接触检测，所述代码程序组件可由客户端/系统开发时即配置完成，或者是由一种API可调用程序接口实现。

7.如权利要求1所述基于眼动追踪技术的眼动交互方法，其特征在于，步骤三中，所述眼动光标与各个交互目标的感应区之间的接触情况的实时检测方法包括：通过软件程序实现眼动光标与任意交互目标感应区的接触反馈，反馈信息包括光标与目标感应区接触的起止时间、光标与各个目标感应区重叠部分的面积、光标到交互目标的几何中心距离，通过上述反馈信息检测接触情况。

8.如权利要求6所述基于眼动追踪技术的眼动交互方法，其特征在于，步骤三中，所述交互目标设置感应区的设置方法具体为：自动设置感应区域插件首先在编程界面中检测交互指令的代码和/或定义UI图层的代码，确定UI界面的交互目标，再经开发工程师确认后，根据UI图层的几何中心坐标、大小、形状、层级自动添加眼动感应区域；客户端软件或内部系统软件在启动/运行时加载为所有可点击的交互目标设置感应区的可执行代码程序组件，网页浏览器可能需要安装某种插件用于交互目标的感应区设置；

所述感应区是指交互目标的有效点击区域，由所述插件按目标大小和形状的一定比例或者根据目标的分布按泰森多边形算法进行设置，感应区一般设置不可见，也包括可见的设置；所述一定比例根据交互目标的大小取不小于1的任何合适的比例。

9.如权利要求1所述基于眼动追踪技术的眼动交互方法，其特征在于，步骤四中，所述接触/碰撞情况包括：在与感应区发生碰撞时，设备客户端检测用户发生注视时间超过一定阈值、反复眼颤、形成注视点云、扫视距离、特殊的视线运动轨迹眼睛行为数据中；所述眼睛行为数据是指眼动追踪模组采集的用户眼睛运动过程中信息，将眼睛的运动信息转化为数字信号，并且是实时变化的，其眼动追踪模组被配置为检测的眼睛行为数据包括但不限于：眼睛注视点的x，y，z坐标、视觉深度、眼跳频率、眼跳距离、运动加速度、眼颤、注视时长、眨眼、瞳孔直径变化，并且将眼动数据分析成热力图、视觉轨迹图分析图表。

10.如权利要求9所述基于眼动追踪技术的眼动交互方法，其特征在于，所述注视点云具体为：注视点云为多个检测到的注视位置形成的云状注视范围，注视点云作为单个光标或作为动态光标出现；随着检测到的多个注视位置的变化而变化的形状；注视点数量的是任意数量和任意采样率来收集检测到的注视位置的序列，任意持续时间。

11.如权利要求1所述基于眼动追踪技术的眼动交互方法，其特征在于，步骤五中，所述眼动光标被动吸附于交互目标并选中是指在程序处理层面选中该交互目标作为下一步的计算目标；当步骤四判断用户对该交互按钮具有交互意图时，则将眼动光标脱离原有注视点映射关系，主动吸附在交互目标上，对交互按钮进行选择，其中交互目标是三维模型、平面图像，眼动光标将吸附到几何中心上；

12.如权利要求1所述基于眼动追踪技术的眼动交互方法，其特征在于，步骤六中，所述通过其他交互模组或者直接检测眼睛的动作进行点击操作包括：

1）通过移动控制器进行点击操作；

2）通过手势识别模组进行点击操作；

所述手势识别模组包括：手势识别摄像头或结构光摄像机；

3）通过语音识别模组进行点击操作；

13.如权利要求1所述的基于眼动追踪技术的眼动交互方法，其特征在于，所述基于眼动追踪技术的眼动交互方法为真实物理世界中的物体建立可点击的交互目标的方法包括：

进行图像信息预处理；

用户通过眼动追踪控制眼动光标与该物体进行交互。

14.如权利要求1所述的基于眼动追踪技术的眼动交互方法，其特征在于，所述基于眼动追踪技术的眼动交互方法基于AI眼动交互意图预测模型的主动选择交互方法包括以下步骤：

第四步，将实时检测到的用户眼动数据、头动数据和交互目标位置坐标输入第二步选择的“眼动交互意图预测模型”进行匹配计算，进而预测用户对目标按钮的交互意图和/或的眼动着陆点；

15.如权利要求14所述的基于眼动追踪技术的眼动交互方法，其特征在于，第二步中，设置在MR眼镜客户端、系统中的脚本、插件或从数据库采集一组或多组用户的眼动行为数据、头动数据、用户属性数据、终端本地数据、用户情绪/心态，通过信息选择至少一种合适眼动交互意图预测模型；

收集该信息包括收集注视位置信息，收集头部位置信息，收集图像数据；

眼动交互意图预测模型的选择机制如下：

如果系统检索到与当前用户匹配的账户，及在服务器数据库中检索到用户个人信息和历史眼动轨迹、眼动习惯数据，则使用已训练好的个人眼动预测模型，个人眼动预测模型”完全替换通用眼动预测模型；个人眼动预测模型通过用户历史使用过程中产生的数据优化通用眼动预测模型获得，即在通用眼动预测模型基础上进一步训练获得个人眼动预测模型；其中所述个人用户数据包括用户的年龄、用户的性别、学历、阅读或/和认知习惯、个人的扫视速度、用户当前环境、用户当前眼动行为发生的起始时间以及经历时间多个维度的特征；

所述眼动交互意图模型包括眼动交互意图模型包括通用型眼动交互意图模型、个人眼动预测模型、应用软件眼动预测模型；

16.如权利要求14所述基于眼动追踪技术的眼动交互方法，其特征在于，第三步中，对数据进行预处理，识别相应行为事件并分类，其中包括识别是否发生扫视行为，若发生扫视进行第四步；

在收集信息之后，在中进行预处理和事件检测/分类，事件检测/分类包括识别不同的眼睛/头部运动类型，预处理可能包括对接收到的信息进行初始处理，以将数据以更好的格式放置以进行进一步分析，如果注视跟踪系统或头部位置跟踪系统的采样率是可变的，则执行数据插值以填充任何丢失的数据点或以规则的间隔放置样本；对数据进行滤波以使数据平滑；获得数据的移动平均值以帮助平滑数据；执行下采样和/或上采样；

系统还需同时识别用户大幅度的摆头和扫视行为，用户预测用户的交互意图；

如果在第三步检测到扫视，则使用来自第三步的预处理数据确定其他特征；每个特征是独立可测量的属性或特征，由机器学习预测网络使用。

17.如权利要求14所述基于眼动追踪技术的眼动交互方法，其特征在于，第四步中将实时检测到的用户眼动数据、头动数据和可能存在的交互目标位置坐标输入第二步选择的眼动交互意图预测模型进行匹配计算，进而预测用户下一时刻对目标按钮的交互意图和/或的眼动着陆点；

18.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

所述设置感应区域被动吸附注视光标对目标进行选择的方法通过为不同的目标设置相应感应区域即有效点击区域，当光标接触或覆盖某一目标的感应区域时，或/和同时检测是否存在眼颤、扫视距离是否超过阈值眼动行为，若存在则动吸附于该目标上或突显目标图像，及通过检测用户的眼球状态和感应区的接触情况，光标被动吸附在交互目标上；

步骤一、显示系统呈现虚拟交互目标；

19.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

步骤一、显示系统呈现虚拟交互目标；

20.一种实施如权利要求1-17任意一项所述基于眼动追踪技术的眼动交互方法的基于眼动追踪技术的眼动交互系统，其特征在于，所述基于眼动追踪技术的眼动交互系统包括：

MR眼镜、显示设备、设备框架以及微型计算机系统；

所述设备框架内置传感器；所述设备框架包括图像处理单元GPU，5G网络通信模块，前置摄像头，惯性测量单元IMU和眼动追踪系统；用于支持MR眼镜的附加组件；

21.一种实施如权利要求1-17任意一项所述基于眼动追踪技术的眼动交互方法的MR眼镜，其特征在于，所述MR眼镜的眼动追踪模组捕获用户注视点坐标，通过眼睛注视进行交互。