CN117897674A - 使用自然凝视动力学来检测输入识别错误的系统和方法 - Google Patents
使用自然凝视动力学来检测输入识别错误的系统和方法 Download PDFInfo
- Publication number
- CN117897674A CN117897674A CN202280057907.4A CN202280057907A CN117897674A CN 117897674 A CN117897674 A CN 117897674A CN 202280057907 A CN202280057907 A CN 202280057907A CN 117897674 A CN117897674 A CN 117897674A
- Authority
- CN
- China
- Prior art keywords
- user
- gaze
- user interface
- tracking
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000003993 interaction Effects 0.000 claims abstract description 57
- 230000000246 remedial effect Effects 0.000 claims abstract description 33
- 230000008859 change Effects 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 22
- 238000006073 displacement reaction Methods 0.000 claims description 21
- 238000010801 machine learning Methods 0.000 claims description 16
- 239000006185 dispersion Substances 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 description 32
- 230000006399 behavior Effects 0.000 description 31
- 210000001747 pupil Anatomy 0.000 description 31
- 230000003287 optical effect Effects 0.000 description 28
- 230000008569 process Effects 0.000 description 19
- 230000033001 locomotion Effects 0.000 description 15
- 230000009471 action Effects 0.000 description 14
- 238000011084 recovery Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 12
- 230000004424 eye movement Effects 0.000 description 12
- 230000005855 radiation Effects 0.000 description 12
- 238000012937 correction Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 11
- 238000002347 injection Methods 0.000 description 11
- 239000007924 injection Substances 0.000 description 11
- 238000007427 paired t-test Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000004434 saccadic eye movement Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 210000003128 head Anatomy 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000000692 Student's t-test Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000012353 t test Methods 0.000 description 6
- 230000010076 replication Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 210000000554 iris Anatomy 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 241000226585 Antennaria plantaginifolia Species 0.000 description 3
- 230000004075 alteration Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 210000000613 ear canal Anatomy 0.000 description 3
- 230000000116 mitigating effect Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 2
- 241000746998 Tragus Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 210000004087 cornea Anatomy 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004418 eye rotation Effects 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000013383 initial experiment Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 210000001525 retina Anatomy 0.000 description 2
- 230000002207 retinal effect Effects 0.000 description 2
- 229910052710 silicon Inorganic materials 0.000 description 2
- 239000010703 silicon Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 235000001808 Ceanothus spinosus Nutrition 0.000 description 1
- 241001264786 Ceanothus spinosus Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 1
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 1
- 241000593989 Scardinius erythrophthalmus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000000845 cartilage Anatomy 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000001444 catalytic combustion detection Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006998 cognitive state Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000003155 kinesthetic effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 229910052744 lithium Inorganic materials 0.000 description 1
- 229910001416 lithium ion Inorganic materials 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012898 one-sample t-test Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000019612 pigmentation Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004478 pupil constriction Effects 0.000 description 1
- 230000010344 pupil dilation Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 208000014733 refractive error Diseases 0.000 description 1
- 210000001210 retinal vessel Anatomy 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001711 saccadic effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000021317 sensory perception Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
所公开的计算机实现的方法可以包括:(1)在用户与用户界面交互时追踪该用户的凝视;(2)基于对该用户的凝视的追踪来确定检测到的与该用户界面的用户交互表示该用户界面的假阳性输入推断;以及(3)基于确定检测到的用户交互表示用户界面的假阳性输入推断来执行至少一个补救动作。还公开了各种其它方法、系统和计算机可读介质。
Description
技术领域
本公开涉及使用自然凝视动力学来检测输入识别错误的系统和方法。
背景技术
基于识别的输入技术在增强现实应用和虚拟现实应用中越来越受欢迎。这些技术必须将有意的输入动作(例如,用户执行自由手(free-hand)选择手势)与所有其它用户行为区分开。当这种识别失败时,可能会发生两种系统错误:假阳性,其中系统在用户无意执行输入动作时识别到输入动作;以及假阴性,其中系统没有识别到用户有意执行的输入动作。
如果输入系统能够检测到其何时犯了这些错误,则该输入系统就可以使用该信息来改进其识别模型,以便在未来犯更少错误。另外,如果系统可以在错误发生后足够快地检测到这些错误,则该系统可以帮助错误恢复。这种能力对于假阳性错误尤其引人注目。这些假阳性错误可能会损害用户体验,部分原因是在发生这些假阳性错误时用户需要/花费精力来检测和修复它们。例如,如果系统要快速检测到假阳性,则该系统可以增加撤销按钮的物理显著性和尺寸,或者提供“撤销”确认对话框。
本公开涉及使用自然凝视动力学来检测输入识别错误的系统和方法。凝视可以是实现此目的的令人信服的方式,因为凝视可以提供对认知状态的快速、实时变化的指示,凝视可以与行为和手势紧密相关,并且凝视可以对环境不一致敏感。
本公开可以聚焦于假阳性错误,因为假阳性错误已被表明对于用户来说代价特别高。此外,可能存在许多旨在帮助处理假阴性错误的新兴技术,例如双级阈值(bi-levelthresholding),其可以通过接近识别器阈值的分数来隐式地检测假阴性错误,然后调整阈值以允许用户在第二次尝试该手势时成功。本公开的系统和方法可以是不同的,因为它们可以聚焦于检测假阳性错误。这些系统和方法还可以涉及使用凝视来检测识别器错误,因为双级阈值仅聚焦于手势识别器使用的信号。
发明内容
根据第一方面,提供了一种计算机实现的方法,该计算机实现的方法包括:在用户与用户界面交互时追踪用户的凝视;基于对用户的凝视的追踪来确定检测到的与用户界面的用户交互表示用户界面的假阳性输入推断;以及基于确定检测到的用户交互表示用户界面的假阳性输入推断来执行至少一个补救动作。
追踪用户的凝视可以包括:在用户与用户界面交互时从用户的凝视中提取至少一个凝视特征。
该至少一个凝视特征可以包括以下中的至少一者:注视持续时间;初始注视形心与后续注视形心之间的角位移;初始扫视形心与后续扫视形心之间的角位移;初始扫视着陆点与后续扫视着陆点之间的角位移;扫视幅度;扫视持续时间;注视概率;扫视概率;凝视速度;或凝视分散度。
基于对用户的凝视的追踪来确定检测到的与用户界面的用户交互表示用户界面的假阳性输入推断可以包括:使用用户的凝视特征来训练用于区分真阳性事件和假阳性事件的机器学习模型;以及使用经训练的机器学习模型来分析追踪到的用户的凝视。
基于对用户的凝视的追踪来确定检测到的与用户界面的用户交互表示用户界面的假阳性输入推断可以包括:使用一组用户的凝视特征来训练用于区分真阳性事件和假阳性事件的机器学习模型;以及使用经训练的机器学习模型来分析追踪到的用户的凝视。
执行该至少一个补救动作可以包括:经由用户界面接收与假阳性输入推断相关联的用户输入。该方法还可以包括:基于对用户的凝视的附加追踪和与假阳性输入推断相关联的用户输入,确定检测到的与用户界面的附加用户交互表示用户界面的附加假阳性输入推断。
执行该至少一个补救动作可以包括:确定检测到的与用户界面的用户交互引起了与该用户界面相关联的应用的应用状态的改变;以及自动撤销该应用状态的改变。
执行该至少一个补救动作可以包括:在用户界面内呈现指示已发生假阳性输入推断的通知。
该通知还可以指示检测到的用户交互引起了与用户界面相关联的应用的应用状态的改变。
该通知还可以包括确认控件,该确认控件使用户能够确认检测到的用户交互。
该通知可以包括撤销控件。该方法还可以包括:经由用户界面的撤销控件接收撤销因检测到的用户交互而执行的命令的指令;以及响应于接收到撤销因检测到的用户交互而执行的命令的指令,撤销因检测到的用户交互而执行的命令。
根据第二方面,提供了一种系统,该系统被配置为执行根据第一方面所述的方法,该系统包括:至少一个物理处理器;存储器;追踪模块,该追踪模块存储在存储器中,该追踪模块在用户与用户界面交互时追踪该用户的凝视;确定模块,该确定模块存储在存储器中,该确定模块确定检测到的与用户界面的用户交互表示用户界面的假阳性输入推断;以及执行模块,该执行模块存储在存储器中,该执行模块执行至少一个补救动作。
确定模块可以通过以下方式基于对用户的凝视的追踪来确定检测到的与用户界面的用户交互表示用户界面的假阳性输入推断:使用用户的凝视特征来训练用于区分真阳性事件和假阳性事件的机器学习模型;以及使用经训练的机器学习模型来分析追踪到的用户的凝视。
确定模块可以通过以下方式基于对用户的凝视的追踪来确定检测到的与用户界面的用户交互表示用户界面的假阳性输入推断:使用一组用户的凝视特征来训练用于区分真阳性事件和假阳性事件的机器学习模型;以及使用经训练的机器学习模型来分析追踪到的用户的凝视。
执行模块可以通过以下方式执行该至少一个补救动作:经由用户界面接收与假阳性输入推断相关联的用户输入。确定模块还可以基于对用户的凝视的附加追踪和与假阳性输入推断相关联的用户输入,确定检测到的与用户界面的附加用户交互表示用户界面的附加假阳性输入推断。
执行模块可以通过以下方式执行该至少一个补救动作:确定检测到的与用户界面的用户交互引起了与用户界面相关联的应用的应用状态的改变;以及自动撤销该应用状态的改变。
根据第三方面,提供了一种非暂态计算机可读介质,该非暂态计算机可读介质包括计算机可读指令,所述计算机可读指令在被计算系统的至少一个处理器执行时使该计算系统执行根据第一方面所述的方法。该介质可以是非暂态的。
根据第四方面,提供了一种计算机程序产品,该计算机程序产品包括指令,所述指令在计算机程序被计算机执行时使该计算机执行根据第一方面所述的方法。
附图说明
各附图示出了多个示例,并且附图是本说明书的一部分。这些附图与以下描述一起说明和解释了本公开的各种原理。
图1示出了根据本文所提供的一些示例的研究任务界面的界面视图。
图2示出了对于真阳性(例如,对目标的有意选择)和假阳性(例如,对非目标项的注入选择)、围绕用户点击的图块(tile)交互的示例时间线。
图3A至图3C示出了一组图表,该组图表可视化了真阳性(true positive,TP)选择和假阳性(false positive,FP)选择之后的各种凝视数据时间序列,并且可以指示根据每个成对t检验(如上所述)在每个时间点是否存在显著差异。
图4A至图4D示出了一组图表,该组图表可以包括来自本文所描述的个体模型的受试者工作特征(Receiver Operator Characteristic,ROC)的曲线下面积(area-under-the-curve,AUC)(本文中也称为“AUC-ROC”)分数。
图5A至图5D示出了一组图表,该组图表可以包括来自本文所描述的组模型的AUC-ROC分数。
图6A至图6C示出了一组图表,该组图表可以包括来自本文所描述的原始研究和复制研究中的匹配参与者的凝视特征的多个时间序列。
图7示出了表明本文所描述的个体模型结果和组模型结果的图表。
图8A至图8C示出了个体模型平均学习曲线的一组图表。
图9A至图9C示出了组模型学习曲线的一组图表。
图10示出了在连续真阳性和最终真阳性之后的用户界面(UI)变化的可视化。
图11A至图11C示出了一组图表,该组图表可视化了每个特征的连续真阳性和最终真阳性的时间序列。
图12A至图12D包括在连续真阳性和最终真阳性上对组模型进行测试时的AUC-ROC分数的一组图表。
图13A至图13D示出了匹配的原始研究参与者和复制研究参与者的AUC-ROC分数的一组图表。
图14是用于使用自然凝视动力学来检测输入识别错误的示例系统的框图。
图15是用于使用自然凝视动力学来检测输入识别错误的系统的示例实施方式的框图。
图16是用于使用自然凝视动力学来检测输入识别错误的示例方法的流程图。
图17是本文所描述的一些示例的示例补救动作和/或对用户体验的影响的流程图。
图18是示例增强现实眼镜的图示。
图19是示例虚拟现实头戴式设备(headset)的图示。
图20是结合有能够追踪用户的单眼或双眼的眼动追踪子系统的示例系统的图示。
图21是图20中所示出的眼动追踪子系统的各个方面的更详细的图示。
在所有附图中,相同的附图标记和描述指代相似但不一定相同的元件。
具体实施方式
下面将参考图1至图14提供对发明人所进行的与本文所描述的系统和方法有关的研究和实验工作的描述和解释。下面还将参考图15和图17至图21提供对用于使用自然凝视动力学来检测输入识别错误的系统的详细描述。还将结合图16提供对相应的计算机实现的方法的详细描述。
为了提供凝视对系统错误敏感的证明,开发了实验任务来模拟常见的连续选择任务,在该连续选择任务中,用户通过图块来进行搜索以定位所隐藏的目标。当用户通过图块进行搜索时,系统偶尔会注入代表用户选择项的“点击”动作(即假阳性错误)。通过检查真阳性(即,用户发起的选择)与假阳性(即,注入的选择)之后的凝视行为,发明人测试了凝视可以用于区分假阳性选择的假设。
结果揭示了几个关于凝视的新发现,这可能与假阳性输入错误有关。例如,凝视特征始终在真选择事件与系统生成的输入错误之后变化。另外,简单的机器学习模型能够区分真选择与假选择,使用受试者工作特征(ROC)的曲线下面积(AUC)获得0.81的分数。这可以表明凝视对于错误检测的效用。此外,该模型几乎立即检测到错误(在50毫秒(ms)处,0.63AUC-ROC),并且解码性能随着时间继续而提高(在550ms处,0.81AUC-ROC)。最后,模型性能在300ms至550ms之间达到峰值,这表明系统可能能够使用凝视动力学来检测错误并提供低摩擦的错误调解。
总之,这些发现可能对检测系统何时错误地推断了用户输入的模型的设计具有影响,使得系统能够自适应地修复这些错误并减少可能会影响用户体验的摩擦。此外,考虑到凝视可以在错误发生后快速检测到错误,这可能会围绕系统如何使用这种能力来帮助用户从错误中恢复、并总体上改善用户体验而打开新的研究问题空间。
三十二名参与者(平均年龄=35,13名女性,30名右手惯用者)根据西方机构审查委员会批准的协议提供了知情同意书。各参与者被筛选为视力正常或戴隐形眼镜时矫正至正常视力(不允许戴眼镜,因为眼镜会干扰成功的眼动追踪)。各参与者通过邮递接收器材(equipment),并通过视频通话与研究人员交流,以远程完成实验。在最终分析中剔除了三名参与者,使得最终样本大小为29名参与者;一名参与者因其由于代码中的错误未通过数据验证(见下文)而被剔除,两名参与者没有收到假阳性错误。
从头戴式显示器(head-mounted display,HMD)收集眼动和头部运动。对于所有参与者,以60赫兹(Hz)记录眼动追踪数据。在实验之前,每个参与者完成了9点校准程序。为了确保在任务环境中成功校准,各参与者在任务教程期间在中央图块上保持注视达60秒(s)。如果参与者在中央图块上保持注视达60s时间段的至少75%、并且凝视速度低于30°/s,则允许参与者完成剩余的研究。如果不满足这些标准,则重复校准和验证程序。
图1示出了研究任务界面的界面视图100。研究任务涉及使用光线投射指针来发现和选择目标项。每当参与者将其拇指放在HMD控制器的触摸板上时,该指针就会被激活。在每个“页面”上,激活了3×3网格中的六个随机选择的图块。用户被指示搜索指定数量的目标项(例如,“选择2×绿色圆圈”)。为了显示已激活的图块的内容,用户需要在该图块上停留1.25秒。在停留期间,径向进度指示器逐渐填充。一旦停留时间完成,该图块就会翻转以显示六个图标(例如,绿色圆圈、红色心形、橙色三角形、黄色星星、蓝色月亮或紫色加号)中的一个图标。如果图标与目标匹配(绿色圆圈,继续以上示例),则用户被引导通过短暂地中断然后重新接合用户的拇指与控制器的触摸板之间的接触来选择图块。如果在1.0秒内未选择图块,则该图块将自动关闭。如果选择了,则该图块将在点击后的0.5秒关闭。
为了提供对选择的反馈,将给予该图块一蓝色边框,光线投射指针将改变为黄色,并且将发出点击声音。为了防止快速点击,点击后会强制锁定1.0秒。在此期间,光线投射指针将暂时变为灰色,以传达锁定状态。一旦选择了指定数量的目标项,系统就会继续到下一页。
图2示出了一组时间线200,该组时间线指示对于真阳性(例如,对目标的有意选择)和假阳性(例如,对非目标项的注入选择)、围绕用户点击的图块交互的时间线。如图2所示,在实验期间,当用户发现非目标图标时,系统偶尔会注入假阳性错误。点击会在图块打开之后0.2秒到0.5秒之间的随机选择时间或在用户的光线投射指针离开该图块的时刻(以先发生的为准)注入。当系统注入错误时,非目标项将看起来被选择,并且将发生点击反馈。要取消选择被错误选择的项,用户需要首先重新打开图块,然后点击以取消选择该项。为了对各错误产生一致的惩罚,系统会阻止用户打开任何其它图块,直到错误得到纠正。
真阳性和假阳性之后的视觉反馈被设计为在点击发生之后的500ms内是相同的,以确保在用户界面视觉中不存在会影响眼动的系统差异。
每个参与者经历了上述任务的12个“框”,每个“框”由经过多次试验的60个图块开口组成。在一个框中的所有图块开口中,约50%显示了目标项,并且其余的显示了随机选择的非目标项;总共注入了9次假阳性(9/60次试验,或15%的时间)。在每个框开始之前,将用作目标项的图标传输给参与者(例如,“该框的目标项是圆圈”)。在各参与者之间使用平衡的拉丁方来平衡不同目标项的顺序。
在实验开始时,存在两个练习框。各参与者在第一练习框中练习选择目标图标,并在第二练习框中练习在错误被注入时取消选择图标。
对凝视数据进行预处理的第一步骤涉及使用头部方位将三维(3D)凝视向量从眼睛在头部中的参考系变换为眼睛在世界中的方向。接下来,发明人计算了连续凝视样本之间的角位移,表示为归一化向量u和v,θ=2·arctan2(∥u-v∥,∥u+v∥)。凝视速度被计算为θ除以各凝视样本之间的时间变化。
然后,在事件检测和特征提取之前,对凝视数据进行过滤以去除噪声和不需要的片段。在分析之前,丢弃来自练习试验和中断的数据,并且我们删除了凝视速度超过每秒800度的、表示快得不合理的眼动的所有凝视样本。然后通过内插替换所有缺失值。最后,在事件检测之前,将宽度为七个样本的中值过滤器应用到凝视速度信号,以平滑信号并处理噪声。
通过识别超过每秒700度的连续样本,来对过滤后的凝视速度执行I-VT扫视检测。执行扫视的最短持续时间为17ms,最长持续时间为200ms。通过计算在时间窗上的分散度作为距凝视样本形心的最大角位移来执行I-DT注视检测。将分散度不超过1度的时间窗标记为注视。执行注视的最短持续时间为50ms,最长持续时间为1.5s。
发明人探索了至少10个总特征,包括但不限于:注视持续时间、各注视形心之间的角位移、当前扫视形心与先前扫视形心之间的角位移、当前扫视着陆点与先前扫视着陆点之间的角位移、扫视幅度、扫视持续时间、注视概率、扫视概率、凝视速度和分散度。
在一些示例中,注视持续时间、以及注视与目标之间的距离这两者可能受到不一致的场景信息的影响。因此,发明人选择观察注视持续时间、以及当前注视形心与先前注视形心之间的角位移。沿着同一脉络,各注视形心之间的角位移可能与眼睛从注视到注视(即,扫视)移动的距离有关。因此,发明人还观察了几个扫视特征:当前扫视形心与先前扫视形心之间的角位移、当前扫视着陆点与先前扫视着陆点之间的角位移、扫视幅度和扫视持续时间。最后,由于错误很可能影响用户移动其眼睛的程度以及用户移动其眼睛的概率(例如,在错误注入之后用户可能较少移动其眼睛),因此发明人还使用了提供视觉探索测量结果的多个连续特征:注视概率、扫视概率、凝视速度和分散度。分散度算法(dispersionalgorithm)需要指示要包括在计算中的凝视数据量的时间参数。在一些示例中,该时间参数可以被设置为1000ms。
为了将这些特征表示为连续的时间序列,发明人在每个扫视与注视特征之间线性地内插有空值。然后在参与者内对每个特征进行z评分。
为了确定根据各个时间点在真选择与假阳性之后凝视特征是否不同,发明人对各时间序列进行了统计分析。为了做到这一点,发明人针对每个参与者计算了各个特征和各个时间点的平均值。然后,发明人通过成对t检验对每个时间点进行统计比较,以确定对于各个特征哪些时间点在统计上是不同的。使用了在选择之后从17ms开始到600ms的所有36个时间点。这使得对每个特征进行36次成对t检验。假阳性率(false detection rate,FDR)校正被用于控制对每个特征的各透镜尺寸的多次比较。
为了确定凝视特征是否可以用于对真选择与假阳性进行分类,发明人训练并测试了一组逻辑回归模型。重要的是,为了探索系统可以多快地检测假阳性错误,发明人用在选择事件之后的不同的持续时间训练了模型,发明人将其称为透镜方法。此处,发明人使用了选择事件(真和假)之后的从50ms到600ms、以50ms为单位(例如,总共12个透镜尺寸)的凝视数据。发明人将600ms设置为所使用的最大时间,因为这是在真选择之后选择新图块所需的平均时间量。此外,发明人仅使用跟随有另一选择的真选择,并且消除了在试验结束时发生的真选择,因为在试验结束时的真选择跟随有独特的图形可视化(即,各图块的重排)而不是标准选择反馈,这可能会引出不同的凝视行为。
此处,每个样本是最终的β参数。对于50ms的透镜尺寸,每个特征存在3个β参数,因为在错误注入后的50ms内存在3个样本。将权重设置为逆类别平衡。
使用受试者工作特征(ROC)的曲线下面积(AUC)来测量预测的模型性能。ROC曲线被构建为根据不同阈值下的假阳性来对真阳性率进行建模。值越大说明模型的预测性能越好,并且所有结果与基准值0.5进行比较,该基准值0.5表示通过猜测执行分类的无技能分类器。
第一组模型针对每个个体进行了训练和测试,这允许这些模型表示凝视特征中的个体差异。个体模型在80%的数据上进行训练,并在20%的保留数据上进行测试。
使用组模型来确定区分真选择与假阳性的凝视行为在人们之间是否实际上一致。组模型在让一名参与者退出交叉验证的情况下进行训练。此处,模型在N-1个数据集上进行训练,并在剩下的数据集上进行测试。
使用单样本t检验将透镜尺寸下的AUC-ROC值的任何比较与机会值(0.5)进行比较。使用成对t检验对给定透镜尺寸的两个AUC-ROC值进行任何比较。假阳性率(FDR)校正被用于控制每个特征的各透镜尺寸的多次比较。
在一个示例中,前述内容示出了在真阳性选择和假阳性选择之后凝视特征可能不同。发明人的第一假设测试了在真阳性选择和假阳性选择之后凝视特征是否不同以及这与时间有何关系。图3A至图3C示出了一组图表300(例如,图表300(A)至图表300(J)),该组图表可视化了真阳性(TP)选择和假阳性(FP)选择之后的各种凝视数据时间序列,并且可以根据成对t检验(如上所述)指示在每个时间点是否存在显著差异。
图3A至图3C中所包括的各图表可视化了真阳性选择(虚线)和假阳性(点划线)选择之后的注视特征、扫视特征和连续特征的时间序列。范围(brackets)对应于时间序列中在每个成对t检验中彼此显著不同的点。误差带对应于平均值的一个标准误差。
总体而言,如图3A至图3C所示,在所有特征上存在显著差异。总之,这些结果反映了这样的行为模式:人们在假阳性选择之后立即移动其眼睛,因为他们没有意识到错误被注入,并且随后一旦他们意识到错误发生,就会更少移动其眼睛。相反,人们在真选择之后较少立即移动其眼睛,因为他们将注意力集中在确保系统正确地登记了选择,并且随后更多地移动其眼睛,因为他们在探索接下来要选择哪个图块。总之,这些数据支持我们的如下假设:在真阳性选择和假阳性选择之后,存在不同的凝视模式。
前述内容还可以示出个体用户模型可以仅使用凝视动力学来区分真选择和假阳性。通过首先探索个体模型,发明人确保模型能够处理跨用户的凝视特征中的潜在个体差异。发明人测试了:当同时考虑每个个体的凝视特征且考虑所有凝视特征时,个体模型是否能够检测到高于机会值的错误。
一个样本t检验表明,对于每个特征的所有透镜尺寸,个体模型可以以远高于机会值来区分真选择和假阳性(错误发现率校正p值(FDR ps)<0.05),但有三个例外:发明人发现600ms处的扫视幅度、以及150ms处和600ms处的扫视持续时间没有统计学意义(图4;FDRps>0.05)。这表明:对于每个参与者,每个特征对错误注入相对敏感,并且这些影响不归因于单个特征。
接下来,发明人测试了在所有特征上训练的个体模型能否区分真选择和假阳性。事实的确如此:单样本t检验显示,对于所有透镜尺寸,使用所有特征的个体模型表现得明显比机会值更好(所有FDR ps<0.05)。
图4A至图4C示出了一组图表,该组图表可以包括来自个体模型的AUC-ROC分数。图4A中的图表400示出了在个体模型中考虑了每个透镜尺寸处的所有特征时、每个透镜尺寸的AUC-ROC值。图表410(例如,在图4B至图4D中的图表410(A)至图表410(J))示出了个体特征在每个透镜尺寸下的AUC-ROC值。误差线指置信区间。
总之,这些发现支持这样的假设:在凝视特征上训练的个体模型可以在事件的几毫秒内区分真选择和假阳性错误。此外,似乎并不是特定特征在驱动分类准确性,因为所有特征都对真选择和假选择敏感。
另外,实验结果支持这样的假设:存在可以区分许多参与者的真选择和假阳性的通用凝视特征。如果组模型即使对保留参与者也有效,则可以表明存在通用的凝视模式,并且即使对于全新用户,该通用模型也可以有用。如果是这种情况,那么凝视的组模型很可能可以用作系统中尚未个性化的冷启动模型。与个体模型一样,发明人测试了:在考虑个体特征且考虑所有凝视特征时,组模型能否检测到高于机会值的错误。
当考虑每个个体特征时,通过单样本t检验,每个特征的所有透镜尺寸显著大于机会值(所有FDR ps<0.05)。当考虑使用所有特征和所有透镜尺寸的组模型时,情况也是如此(表3;所有FDR ps<0.05)。总体而言,这些发现表明,个体特征的组模型能够检测何时为保留的参与者注入了假阳性错误,并且这种影响不是由任何特定特征驱动的。总之,这些结果支持这样的假设:在凝视特征上训练的组模型可以为用户检测模型没有看到的错误。这表明组模型将是系统中尚未个性化的合适的冷启动模型。
此外,如以下所更详细地论述的,各学习曲线可以表明,如果个体模型包含更多训练数据,则个体模型很可能会比组模型表现得更好。此外,当在真选择之后用户界面(UI)和任务存在变化时,组模型的性能很大程度上不会改变。
图5A至图5D示出了一组图表,该组图表可以包括来自组模型的AUC-ROC分数。图5A中的图表500示出了当在组模型中考虑每个透镜尺寸的所有特征时、每个透镜尺寸的AUC-ROC值。图表510(例如,在图5B至图5D中的图表510(A)至图表510(J))示出了个体特征在每个透镜尺寸下的AUC-ROC值。误差线指置信区间。
在初始实验中的一个潜在的混淆可能是注入错误的方法。具体地,在图块打开的200ms至500ms内、或者在参与者的光标离开图块的边界时,随机注入了错误。后一种标准可能会引起混淆,因为假阳性错误更有可能发生在手部运动期间,发明人知道这与凝视运动相关联。为了解决这个潜在的问题,发明人在没有这种偶然性的情况下重新运行了实验;替代地,发明人仅基于时间(图块打开后200ms到500ms)随机注入了假阳性。
发明人对10名原始参与者(平均年龄=35,5名女性,10名右手惯用者)实施了修改后的实验。通过使用原始研究参与者的子集,发明人能够直接测试行为是否根据错误如何注入而改变。如果行为根据自适应注入而不是基于时间的注入而改变,那么这表明原始结果只是任务设置的产物。然而,如果无论如何注入错误,行为都是稳定的,那么这表明原始结果采集了响应错误的通用行为。图6示出了实验1和实验2中真阳性和错误注入之后的凝视特征的时间序列。总体而言,该可视化显示了:尽管改变了注入错误的机制,但是跨研究的时间序列是相似的。此外,当发明人重新进行建模分析时,这些结果没有改变。
图6A至图6C示出了一组图表600(例如,图表600(A)到图表600(J)),该组图表可以包括来自原始研究和复制研究中匹配参与者的凝视特征的多个时间序列。该图表可视化了来自原始研究和复制研究的匹配参与者的注视特征、扫视特征和连续特征的时间序列。从原始研究(在误差区域/带中具有斑点填充图案的虚线)和复制(在误差区域/带中具有向下对角线填充图案的点划线)以及来自原始研究的自适应假阳性(在误差区域/带中具有向上对角线填充图案的虚线)和来自复制的基于时间的假阳性(在误差区域/带中具有网格填充图案的点线)可视化了对应于真阳性选择的时间序列。误差区域/带对应于平均值的一个标准误差。
在一些示例中,个体模型与组模型之间的模型性能可能不同。在补充分析中,发明人还针对每个参与者比较了组模型和个体模型的性能。这是一个有用的比较,以确定组模型是否可以用作系统中尚未个性化的冷启动模型。为了简单起见,发明人对包含所有特征的组模型和个体模型进行了此操作。
图7示出了显示个体模型结果和组模型结果的图表700。如图表700所示,总体而言,使用FDR族群校正ps>0.05),在每个透镜尺寸下的成对t检验显示了组模型与个体模型之间没有显著差异。
由于预期个体模型应该比组模型表现得更好,因此发明人通过计算训练集和交叉验证集的学习曲线来进一步研究这一点。图8A至图8C示出了个体模型平均学习曲线的一组图表800(例如,图表800(A)至图表800(L))。类似地,图9A至图9C示出了组模型学习曲线的一组图表900(例如,图表900(A)至图表900(L))。总体而言,结果表明,组模型具有足够的数据,但是个体模型将受益于具有更多的数据。这表明,尽管组模型与个体模型之间的模型性能没有显著差异,但如果有足够的数据来训练模型,个体模型可能会比组模型表现得更好。
在一些示例中,透镜模型可以对在TP选择之后的UI改变和任务改变具有弹性。附加的后续分析测试了发明人的模型是否对在真阳性选择之后的用户界面(userinterface,UI)和任务的改变具有弹性。这对于测试很重要,因为可能是这样的情况:发明人的模型学习的是特定于UI和任务的行为,而不是跨UI和任务的通用行为。
发明人使用试验中间发生的真阳性选择(连续真阳性)和试验结束时发生的真阳性选择(最终真阳性)来测试模型是否对UI和任务的改变具有弹性。连续的真阳性之后是新的选择,而最终的真阳性之后是在试验结束时重排图块。
图10示出了在连续真阳性和最终真阳性之后的UI变化的可视化1000。如图所示,在连续真阳性之后,当人们选择新的图块时,用户界面没有改变。然而,在最终真阳性之后,用户界面改变了,因为图块被重排以表明将进行新的试验。
此外,连续真阳性具有与最终真阳性不同的任务。此处,期望在连续真阳性之后移动眼睛来选择另一图块,而不期望在最终真阳性之后将眼睛移到新的图块上,因为试验结束了。考虑到在连续真阳性与最终真阳性之后UI和任务的不同,这提供了对模型性能稳定性的测试。
另外,发明人测试了已经看到连续真阳性的组模型是否仅在最终真阳性上表现不同。重要的是,最终真阳性并不包括在训练模型中,仅包括在测试数据中。图11A至图11C示出了一组图表1100(例如,图表1100(A)到图表1100(J)),该组图表可视化了每个特征的连续真阳性和最终真阳性的时间序列。这些图表可视化了在连续真阳性选择(在误差区域/带中具有斑点填充图案的虚线)、最终真阳性选择(在误差区域/带中具有向下对角线填充图案的点划线)、以及假阳性选择(在误差区域/带中具有向上对角线填充图案的虚线)之后的注视特征、扫视特征和连续特征的时间序列。误差区域/带对应于平均值的一个标准误差。总体而言,最终真阳性与假阳性之间的关系和连续真阳性与假阳性之间的关系相似。
根据成对t检验,当考虑个体特征模型时,注视持续时间模型在除了600ms(FDR ps>0.05)之外的所有时间点(FDR ps<0.05)的最终真阳性上表现得比连续真阳性更好。这很可能是因为与连续真阳性相比,最终真阳性看起来更容易与假阳性分开。对于先前注视形心与当前注视形心之间的角位移,在透镜尺寸为200(FDR ps<0.05)的情况下,该模型在最终真阳性上的表现显著好于连续真阳性。相比之下,在透镜尺寸为350、400和450(FDR ps<0.05)的情况下,该模型能够更好地区分连续真阳性与假阳性。所有其它透镜尺寸无显著差异(FDR ps>0.05)。对于先前扫视形心与当前扫视形心之间的角位移以及先前扫视着陆点与当前扫视着陆点之间的角位移,该模型在除了600ms之外的所有时间点上的连续真阳性的表现显著好于最终真阳性。当考虑扫视概率、注视概率和凝视速度时,该模型在连续真阳性和最终真阳性上的表现没有差异。对于分散度,在时间点400ms和450ms(FDR ps<0.05),与区分最终真阳性和假阳性相比,该模型能够更好地区分连续真阳性和假阳性。所有其它时间点没有显著差异。
转向全特征模型,当通过成对t检验(FDR ps>0.05)对任何透镜尺寸的连续真阳性或最终真阳性进行组模型测试时,模型性能之间没有显著差异。这表明,无论用户界面或任务是否更改,该模型都能够区分假阳性和真阳性。
图12A至图12D包括在连续真阳性和最终真阳性上对组模型进行测试时的AUC-ROC分数的一组图表。图表1200显示了当考虑组模型中的所有特征时,在连续真阳性和最终真阳性上对(仅看到连续真阳性的)组模型进行测试时在每个透镜尺寸下的AUC-ROC值。图表1210(例如,图表1210(A)至图表1210(J))示出了在每个透镜尺寸下每个个体特征的连续真阳性和最终真阳性的AUC-ROC值。误差线指置信区间。
总之,这些结果表明,UI和任务的改变很大程度上不会改变模型性能。对于大多数特征,当UI或任务变化时,各真阳性之间没有差异,这可能会促使所有特征模型中缺乏差异。受影响最大的特征是扫视特征和注视持续时间。任务的改变可能会影响扫视特征,因为人们是在连续真阳性之后而不是在最终真阳性之后,执行新的眼动来选择新的图块。这可能会使得最终真阳性与假阳性之间的差异比连续真阳性与假阳性之间的差异幅度更小。最终真阳性之后的注视持续时间比连续真阳性之后的注视持续时间更长。由于人们不需要在最终真阳性之后移动其眼睛,因此他们在最终真阳性之后可能比在连续真阳性之后注视得更久。然而,不管这些差异,连续真阳性和最终真阳性相对于假阳性的方向是相同的,这表明发明人的发现很可能采集到凝视行为,因为凝视行为通常与真选择有关,而不是与UI和任务中的变化有关。
这些发现提供了这样的初步证据:发明人的结果反映了凝视行为,因为凝视行为通常与错误注入有关,并且这种影响可能不是由于UI或任务的变化。
发明人的初始实验中附加的潜在混淆是注入错误的方法。在图块打开的200ms至500ms内、或者在参与者的光标离开图块的边界时,随机注入了错误。由于发明人知道凝视运动与手部运动相关,因此后一种标准可能会产生混淆。为了解决这个问题,发明人在没有这种偶然性的情况下重新进行了实验;此处,发明人仅基于时间(图块打开后的200ms到500ms)随机注入了假阳性。在这项复制研究中运行了原始研究参与者的子集,以便发明人可以比较行为是否根据错误如何注入而改变。
然后训练两组模型。一组模型使用匹配的原始研究参与者来训练,第二组使用在每个透镜尺寸下的复制研究参与者来训练。使用留一法交叉验证来测试这些模型中的每一个模型,然后发明人比较了在个体特征上训练的组模型的和在所有特征上训练的组模型的所得AUC-ROC值。
图13A至图13D示出了匹配的原始研究参与者和复制研究参与者的AUC-ROC分数的一组图表。图13A中的图表1300示出了同时考虑所有特征时匹配的原始参与者和复制参与者的AUC-ROC值。图13B至图13D中所包括的图表1310(A)至图表1310(J)示出了每个特征的原始研究和复制研究在每个透镜尺寸下的AUC-ROC值。误差线指置信区间。
当考虑在个体特征上训练的组模型时,通过成对t检验,每个透镜尺寸和每个特征的AUC-ROC分数之间不存在显著差异(所有FDR ps>0.05)。对于原始研究参与者,根据单样本t检验,除了在50ms处的注视持续时间和在50ms处的凝视速度(FDR ps>0.05),每个特征的AUC-ROC分数在每个时间点(FDR ps<0.05)是显著的。对于复制参与者,在考虑单样本t检验时,除了在复制中在50ms处的注视持续时间和在100ms至450ms处的扫视持续时间(FDRps>0.05)之外,每个特征在每个透镜尺寸处的AUC-ROC分数显著大于机会值(FDR ps<0.05)。
对于在所有特征上训练的组模型,当考虑成对t检验时,匹配的原始研究组和复制组在每个透镜尺寸处的AUC-ROC值之间没有显著差异(所有FDR ps>0.05)。在考虑单样本t检验时,原始模型和复制模型在每个透镜尺寸处的表现显著好于机会值(所有FDR ps<0.05)。
总体而言,除了扫视持续时间之外,组合后的特征结果和个体特征结果被复制。因为结果不会根据错误如何被注入而改变,这表明发明人的模型很可能采集到了凝视行为,因为凝视行为与错误相关,而不是由于任务伪像。扫视持续时间可能没有被复制,因为扫视持续时间的时间序列通常比其它特征更具噪声。这可能是由于研究中所使用的商业眼动追踪器的低采样率,而不是由于与错误相关的行为。考虑到原始研究中使用所有29名参与者的扫视持续时间的组模型在所有透镜尺寸下的表现显著高于机会值,可能只是这样的情况:当对扫视持续时间进行建模时,需要更多的数据,因为扫视持续时间通常是更具噪声的特征。然而,不管这种异常,这个发现提供了强有力的这样的证据:发明人的模型采集到了凝视行为,因为凝视行为与错误检测相关,而不是与任务伪像相关。
前述研究和补充调查的目的是探索是否可以使用自然凝视动力学来检测系统生成的错误,以及如果可以的话,探索仅使用凝视可以多早检测到这些错误。
发明人发现,在真选择事件与系统生成的输入错误之后,凝视特征的变化是一致的。事实上,仅使用凝视特征,简单的机器学习模型就能够区分真选择和假选择,证明了凝视用于错误检测的潜在效用。重要的是,发明人发现该模型可以几乎立即检测到错误(例如,在50ms处,0.63的AUC-ROC),并且解码性能随着时间继续而提高(例如,在550ms处,0.81的AUC-ROC)。模型性能在300ms至550ms之间达到峰值,这表明系统可能能够利用凝视动力学来检测潜在的错误并提供低摩擦的错误调解。
尽管个体模型和组模型的性能之间没有显著差异,但是补充分析表明个体模型可以受益于更多数据,并且很可能用更多数据在性能上超越组模型。这个结果并不令人意外,因为用户移动其眼睛的方式存在相当大的个体差异。考虑了这些差异的模型可以比一般模型表现得更好。也就是说,发明人的结果提供了这样的令人信服的证据:组模型可以从开箱(unboxing)那一刻起帮助进行系统生成的错误检测。
这些结果表明了在假阳性选择之后立即增加眼动的模式,这可能采集到用户将其注意力定向到其它目标。事实上,当登记了假选择时,用户很可能已经进行到下一个图块的过程中了,就像他们在使用基于模型的手势识别器或一些其它基于推断的输入设备的真实系统中一样。另外,当用户检测到错误时,他们很可能会放弃当前的计划以将注意力重新定向到被错误地选择的对象上。这种重新定向在图3A至图3D中的300ms至550ms之间得到了证明,其中扫视概率急剧增加、角位移增加、并且凝视速度和分散度增加。总之,这些凝视行为表明,用户正在改变其凝视轨迹(即,角位移),并快速将其眼睛移回错误的选择(即,扫视特征、速度特征、以及分散特征)。
总之,这些发现表明,该模型正在采集两种类型的信号,因为这些信号与真选择和假选择相关。首先,在选择之后立即发生的凝视行为反映对所选目标的关注(或缺乏)。如H1(图3A至图3D)所证明的,这些行为发生在选择后的几毫秒内。其次,发明人的模型很可能采集到了与注意到错误相关的凝视行为,该凝视行为很可能反映了对反馈的关注以及对需要重新定向目标以纠正错误的认识。这些可以在本文所提供的各附图中的稍后时间帧(例如,300ms至450ms)中看到。
发明人的发现与关于响应期望的凝视的认知心理学文献一致。该文献表明,当发明人对世界中的所属物的预期被违背时,眼动会受到影响。在本公开中,发明人提供了这样的第一证据:凝视也对系统生成的错误敏感,根据定义,所述系统生成的错误是违反预期的。
发明人的发现对于用户如何在交互任务中在真选择和假阳性错误之后来定向其凝视具有直观的意义。事实上,发明人的图块任务模仿了在实践中发生假阳性的一类广泛的情境(例如,照片选择、电影选择、在计算器上打字)。此处,用户可能会将注意力集中在界面元素(例如,电影预览)上,但决定不与该界面元素交互(例如,选择电影)。此处,当他们的凝视在中途转向另一选择时,就会发生错误(例如,错误地选择了一部电影)。一旦他们接收到反馈(例如,电影开始播放),他们必须将他们的凝视重新定向回被错误地选择的目标。尽管发明人的研究提供了凝视对错误敏感的第一个概念证明,并且需要在未来的工作中得到确认,但观察到的行为模式使我们相信,这种模式将推广到新的任务和界面。
总体而言,连续特征和注视特征倾向于产生比扫视特征更强的模型性能。扫视因其弹道性质而会在较短时间段内发生,而连续特征和注视特征会在较长的时间段内发生。由于商业眼动追踪器的采样频率相对较低,因此这可能会导致系统丢失或解析保真度较低的扫视特征,因为扫视特征的时间进程很快。尽管如前所述,即使所使用的商用眼动追踪器的采样频率较低,发明人的模型也表现得非常好。一旦眼动追踪技术可以以更高的保真度采集凝视,该模型的表现可以甚至更好。
发明人的研究发现对于基于识别的输入系统的设计具有多个意义。在错误发生后立即发现错误的能力为自适应调解技术开辟了新的设计空间。
首先,由于假阳性错误不会响应于明确的用户动作而发生、且因而需要用户监测假阳性的发生,因此输入系统可以帮助用户基于凝视注意到这些错误。例如,系统可以使用户更容易地在出错后立即“撤销”。
其次,可以将减轻系统中假阳性错误的方法与本文所公开的新型凝视模型融合,以提高这些模型在工作系统中的准确性。例如,如果分数接近系统中的识别器阈值、且凝视模型检测到发生了错误,则可以融合这些分数以提高错误检测的可靠性。如果识别器或凝视模型中存在噪声,这将尤其有用。
最后,本研究发现凝视对在选择之后的用户输入较敏感。由于注视对有意用户输入的开始和偏移较敏感,这表明通过连续处理用户行为(例如,采集在事件之前、事件期间和事件之后的用户行为),系统可以产生比将这些行为视为一次性事件时更强的模型性能。
前述内容提供了新的实证框架,以理解凝视是否对系统产生的错误做出反应、以及如何对系统产生的错误做出反应。总体而言,发明人发现凝视从最早的时刻起就对错误注入较敏感,这一发现潜在的用于在下文附加详细描述的自适应系统。
图14是用于使用自然凝视动力学来检测输入识别错误的示例系统1400的框图。如该图所示,示例系统1400可以包括用于执行一个或多个任务的一个或多个模块1402。如以下将更详细地解释的,模块1402可以包括追踪模块1404,该追踪模块在用户与用户界面(例如,以下所描述的用户界面1440)交互时追踪用户的凝视。示例系统1400还可以包括确定模块1406,该确定模块基于对用户的凝视的追踪来确定检测到的与用户界面的用户交互表示用户界面的假阳性输入推断。类似地,示例系统1400还可以包括执行模块1408,该执行模块可以基于确定检测到的用户交互表示用户界面的假阳性输入推断来执行至少一个补救动作。
如图14进一步所示,示例系统1400还可以包括一个或多个存储设备,例如存储器1420。存储器1420概括地表示能够存储数据和/或计算机可读指令的任何类型或形式的、易失性或非易失性的存储设备或介质。在一个示例中,存储器1420可以存储、加载和/或维护多个模块1402中的一个或多个模块。存储器1420的示例包括但不限于:随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、闪存、硬盘驱动器(Hard Disk Drive,HDD)、固态驱动器(Solid-State Drive,SSD)、光盘驱动器、高速缓冲存储器、以上中的一者或多者的变型或组合、或任何其它合适的存储器。
如图14进一步所示,示例系统1400还可以包括一个或多个物理处理器,例如物理处理器1430。物理处理器1430概括地表示能够解译和/或执行计算机可读指令的任何类型或形式的、硬件实现的处理单元。在一个示例中,物理处理器1430可以访问和/或修改存储在存储器1420中的多个模块1402中的一个或多个模块。附加地或替代地,物理处理器1430可以执行多个模块1402中的一个或多个模块以促进使用自然凝视动力学来检测输入识别错误。物理处理器1430的示例包括但不限于:微处理器、微控制器、中央处理单元(CentralProcessing Unit,CPU)、实现软核处理器的现场可编程门阵列(Field-Programmable GateArray,FPGA)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、以上中的一者或多者中的部分、以上中的一者或多者的变型或组合、或任何其它合适的物理处理器。
如图14所还示出的,示例系统1400还可以包括具有界面元素142的用户界面140。如本文所述,示例系统1400可以在用户与用户界面1440和/或用户界面元素1442交互时追踪用户的凝视。用户界面1440可以包括和/或表示任何合适的用户界面,该用户界面包括但不限于,图形用户界面、听觉计算机界面和触觉用户界面等。
许多其它设备或子系统可以连接到图14中的系统1400。反之,图14中所示出的所有部件和设备不需要被呈现为对本文所描述和/或所示出的示例进行实践。以上提到的设备和子系统也可以以不同于图14中所示出的方式互连。系统1400还可以采用任何数量的软件、固件和/或硬件配置。例如,本文所公开的多个示例中的一个或多个示例可以被编码为计算机可读介质上的计算机程序(也称为计算机软件、软件应用、计算机可读指令和/或计算机控制逻辑)。图14中的示例系统1400可以以多种方式实现。例如,示例系统1400的全部或部分可以表示图15中的示例系统1500(“系统1500”)的部分。如图15所示,系统1500可以包括计算设备1502。在至少一个示例中,计算设备1502可以用多个模块1402中的一个或多个模块来编程。
在至少一个示例中,来自图14的多个模块1402中的一个或多个模块可以在被计算设备1502执行时使计算设备1502能够在用户与用户界面交互时追踪用户的凝视。例如,如以下将更详细地描述的,追踪模块1404可以使计算设备1502在用户与用户界面(例如,用户界面1440)交互时(例如,经由眼动追踪子系统1508)追踪用户(例如,用户1506)的凝视(例如,1504)。在一些示例中,追踪模块1404可以通过从用户的凝视中提取至少一个凝视特征(例如,凝视特征1510)来追踪用户的凝视。
另外,在一些示例中,确定模块1406可以使计算设备1502基于对用户的凝视的追踪来确定检测到的与用户界面的用户交互(例如,检测到的用户交互1512)表示用户界面的假阳性输入推断(例如,图5中的“假阳性1514”)。此外,在至少一个示例中,执行模块1408可以使计算设备1502基于确定检测到的用户交互表示用户界面的假阳性输入推断,来执行至少一个补救动作(例如,补救动作1516)。
计算设备1502概括地表示能够读取和/或执行计算机可执行指令的任何类型或形式的计算设备。计算设备1502的示例可以包括但不限于,服务器、台式计算机、膝上型计算机、平板电脑、蜂窝电话(例如,智能手机)、个人数字助理(personal digital assistant,PDA)、多媒体播放器、嵌入式系统、可穿戴设备(例如,智能手表、智能眼镜等)、游戏控制台、以上中的一者或多者的组合、或任何其它合适的移动计算设备。
在至少一个示例中,计算设备1502可以是用多个模块1402中的一个或多个模块编程的计算设备。各模块1402的全部或部分功能可以由计算设备1502来执行。如以下将更详细地描述的,来自图14的多个模块1402中的一个或多个模块可以在被计算设备1502的至少一个处理器执行时,可以使计算设备1502能够使用自然凝视动力学来检测输入识别错误。
许多其它设备或子系统可以连接到图14中的系统1400和/或图15中的系统1500。反之,图14中和图15中所示出的所有部件和设备不需要被呈现为对本文所描述和/或所示出的示例进行实践。以上提到的设备和子系统也可以以不同于图15中所示出的方式互连。系统1400和系统1500还可以采用任何数量的软件、固件和/或硬件配置。例如,本文所公开的多个示例中的一个或多个示例可以被编码为计算机可读介质上的计算机程序(也称为计算机软件、软件应用、计算机可读指令和/或计算机控制逻辑)。
图16是用于在多租户环境中分配共享资源的示例计算机实现的方法1600的流程图。图16中所示的各步骤可以由任何合适的计算机可执行代码和/或计算系统(包括图1中的系统1400和/或该系统的变型或组合)来执行。在一个示例中,图16中所示的多个步骤中的每个步骤可以表示算法,该算法的结构包括多个子步骤和/或由多个子步骤表示,这些子步骤的示例将在以下更详细地提供。
如图16所示,在步骤1610处,本文所描述的多个系统中的一个或多个系统可以在用户与用户界面交互时追踪该用户的凝视。例如,作为图15中的计算设备1502的一部分,图14中的追踪模块1404可以使计算设备1502在用户1506与用户界面1440交互时追踪用户1506的凝视1504。追踪模块1404可以以任何合适的方式追踪凝视1504,例如经由眼动追踪子系统1508来追踪凝视。以下将参考图20和图21提供眼动追踪子系统的附加解释、示例和图示。
在步骤1620处,本文所描述的多个系统中的一个或多个系统可以基于对用户的凝视的追踪来确定检测到的与用户界面的用户交互表示用户界面的假阳性输入推断。例如,作为图15中的计算设备1502的一部分,图14中的确定模块1406可以使计算设备1502基于(例如,通过追踪模块1404和/或眼动追踪子系统1508)对用户的凝视的追踪来确定检测到的与用户界面1440的用户交互1512表示用户界面1440的假阳性输入推断1514。
确定模块1406可以在各种上下文中确定检测到的用户交互1512表示假阳性输入推断1514。例如,如以上参考图1至图14所描述的,多个模块1402中的一个或多个模块可以从由追踪模块1404(例如,经由眼动追踪子系统1508)生成的追踪数据中提取至少一个凝视特征。如上所述,凝视特征可以包括但不限于,注视持续时间、初始注视形心与后续注视形心之间的角位移、初始扫视形心与后续扫视形心之间的角位移、初始扫视着陆点与后续扫视着陆点之间的角位移、扫视幅度、扫视持续时间、注视概率、扫视概率、凝视速度和注视分散度等。
确定模块1406可以以本文所描述的多种方式中的任何方式(例如以上参考图1至图14所公开的那些方式),使用用户1506的凝视特征和/或一组用户的凝视特征来训练用于区分真阳性事件和假阳性事件的机器学习模型。确定模块1406还可以使用经训练的机器学习模型以本文所描述的多种方式中的任何方式(例如以上参考图1至图14所公开的那些方式)来分析追踪到的用户1506的凝视。这可以使确定模块1406能够确定检测到的与用户界面的用户交互(例如,检测到的用户交互1512)表示假阳性输入推断(例如,假阳性输入推断1514)。
在步骤1630处,本文所描述的多个系统中的一个或多个系统可以基于确定检测到的用户交互表示用户界面的假阳性输入推断来执行至少一个补救动作。例如,图14中的执行模块1408可以基于(例如,通过确定模块1406)确定检测到的用户交互1512表示用户界面1440的假阳性输入推断(例如,假阳性1514)来执行补救动作1516。
执行模块1408可以在各种上下文中执行各种补救动作。如本文所公开的,可以以多种方式使用检测手势识别器(例如,追踪模块1404、用户界面1440等)何时发生假阳性错误的能力。例如,交互式调解技术可以帮助用户进行错误恢复。
当在用户与用户界面交互时检测到的用户交互发生假阳性时,假阳性可能导致向系统提供无意的输入。如果系统被配置为提供与用户输入相关联的反馈(例如,视觉反馈、触觉反馈、听觉反馈等),那么该系统可以响应于假阳性而提供这样的反馈。另外,由假阳性产生的输入可能引起与用户界面相关联的应用的状态的一个或多个改变(例如,选择了用户无意选择的项)。
执行模块1408可以执行一个或多个补救动作以帮助用户进行错误恢复。在一些示例中,错误恢复可以包括用户响应于无意输入的后果而必须采取的认知动作和行为动作。例如,在假阳性引起项被选择的情况下,用户可以通过识别到项已被无意地选择并取消选择该项来进行恢复。在没有发生应用状态改变的情况下,错误恢复可以涉及用户确认无意的输入没有改变应用状态。
考虑到假阳性错误发生在用户无意向系统提供输入的情况下,用户的错误恢复的第一步骤可以是注意到错误已经发生,并理解应用状态是否因无意的输入而发生了改变以及发生了什么改变。执行模块1408可以执行一个或多个补救动作,以通过指示可能已经发生假阳性错误并突出显示可能已经由对系统的相关联的输入引起的应用状态的任何改变来帮助用户。例如,在用户可以选择项的系统中,执行模块1408可以在最近选择的对象周围提供发光轮廓,该发光轮廓可以在短时间段之后消失。类似地,在一些实施方式中,执行模块1408可以提供应用状态没有因可能的手势FP错误而发生改变的指示。这可以帮助用户确认输入没有造成任何改变,并且消除了用户通过检查界面的改变来确认这一点的任何需要。
在一些示例中,在由假阳性引起的输入已经引起应用状态改变的情况下,执行模块1408可以促进用户逆转这些改变。例如,执行模块1408可以在用户界面1440内显示显眼的按钮,用户1506与该按钮交互时可以使执行模块1408撤销改变。类似地,撤销动作可以映射到输入设备上的微手势或易于访问的按钮。现代应用通常提供逆转应用状态的大多数改变的一些方法,但是恢复促进技术可以通过提供逆转由检测到的用户交互的假阳性错误导致的无意结果的更一致的方法(例如,跨许多系统动作的同一方法)来提供益处,并且还通过使恢复动作更易于执行(例如,在删除文件操作上的“撤销”按钮,以代替导航到回收站、定位已删除文件和点击复原的多动作过程)来提供益处。
附加地或替代地,执行模块1408可以代表用户自动逆转应用状态的改变。在一些示例中,这种自动恢复操作可以包括和/或采用先前的通知技术和恢复促进技术。这可以避免、减轻或解决这种自动恢复操作可能带来的一些挑战。
在一些示例中,多个模块1402中的一个或多个模块还可以结合关于用户在较长时间范围内的行为的信息,以帮助检测和/或补救输入错误。作为说明,考虑用户选择要在消息中发送的一组照片的情况。如果用户选择了一张猫的照片、一张收据的照片,然后又选择了三张猫的照片,则收据照片可能会因与其它照片明显不同而较突出。
本文所描述的多个系统中的一个或多个系统(例如,多个模块1402中的一个或多个模块)可以使用关于用户动作的该“语义”信息以及凝视信息,以产生更全面的用户动作的模型并确定检测到的用户交互是否表示假阳性。例如,继续前述内容说明,多个模块1402中的一个或多个模块(例如,追踪模块1404、确定模块1406、执行模块1408等)可以随时间收集和分析与用户1506的照片选择行为相关联的凝视信息和/或附加输入信息,从而构建可以区分有意的照片选择事件和无意的照片选择事件的模型。响应于以上所提及的对收据照片的选择,多个模块1402中的一个或多个模块(例如,执行模块1408)可以执行补救动作,其中一经点击发送按钮,用户界面1440就可以呈现请求用户1506确认用户1506有意包括收据照片的提示。执行模块1408还可以使用户界面1440向用户1506呈现从选择中容易地移除收据照片的选项。
图17包括示出了示例补救动作和/或自动错误恢复操作对用户体验的影响的流程图1700。从过程1702开始,在过程1702处,用户界面(例如,用户界面1440)可以识别或接收点击手势(例如,检测到的用户交互1512),登记点击已发生,并改变应用状态。
在决策1704处,流程图1700区分用户(例如,用户1506)是否想要用户界面识别或接收点击手势。如果否(即,用户界面或手势识别器接收到假阳性),则在决策1706处,本文所描述的多个系统中的一个或多个系统(例如,确定模块1406)可以确定是否已发生检测错误。如果是(即,确定模块1406确定检测到的用户交互1512是假阳性),则在过程1708处,多个模块1402中的一个或多个模块(例如,执行模块1408)可以通过自动撤销或回滚对应用状态的改变并用对话框通知用户来执行补救动作(例如,补救动作1516)。如果否,则在过程1710处(即,确定模块1406不确定检测到的用户交互1512是假阳性),本文所描述的系统和方法可以不执行补救动作和/或替代动作。
返回到决策1704,如果是(即,用户界面或手势识别器接收到真阳性),则在决策1712处,本文所描述的多个系统中的一个或多个系统(例如,确定模块1406)可以确定是否已发生检测错误。如果否(即,确定模块1406确定检测到的用户交互1512是真阴性),则在过程1714处,本文所描述的系统和方法可以不执行补救动作和/或替代动作。如果是(即,确定模块1406确定检测到的用户交互1512是假阳性),则在过程1716处,多个模块1402中的一个或多个模块(例如,执行模块1408)可以通过自动撤销或回滚对应用状态的改变并用对话框通知用户来执行补救动作(例如,补救动作1516)。
如在整个本公开中所论述的,所公开的系统和方法可以提供一个或多个优势。例如,通过确定检测到的用户交互表示用户界面的假阳性输入推断,所公开的系统和方法的示例可以使用该信息来采取一个或多个补救动作以改进用户界面的识别模型,以便在未来犯更少错误。另外,如果系统可以在错误发生后足够快地检测到这些错误,则该系统可以帮助错误恢复。这种能力对于假阳性错误可能尤其引人注目。这些假阳性错误可能会损害用户体验,部分原因是在发生这些假阳性错误时用户需要/花费精力来检测和修复它们。例如,如果系统要快速检测到假阳性,则该系统可以增加撤销按钮的物理显著性和尺寸,或者提供“撤销”确认对话框。
本公开的各实施例可以包括各种类型的人工现实系统或结合各种类型的人工现实系统来实现。人工现实是在呈现给用户之前已经以某种方式进行了调整的现实形式,该人工现实例如可以包括虚拟现实、增强现实、混合现实(mixed reality)、混合现实(hybridreality)、或它们的某种组合和/或衍生物。人工现实内容可以包括完全的计算机生成的内容、或与所采集的(例如,真实世界的)内容相结合的计算机生成的内容。人工现实内容可以包括视频、音频、触觉反馈、或它们的某种组合,以上中的任何一者可以在单个通道或多个通道中呈现(例如,为观看者带来三维(three-dimensional,3D)效果的立体视频)。另外,在一些示例中,人工现实还可以与应用、产品、附件、服务或它们的某种组合相关联,这些应用、产品、附件、服务或它们的某种组合例如用于在人工现实中创建内容、和/或以其它方式用于人工现实中(例如,在人工现实中执行活动)。
人工现实系统可以以各种不同的外形要素和配置来实现。一些人工现实系统可以被设计成在没有近眼显示器(near-eye display,NED)的情况下工作。其它人工现实系统可以包括NED,该NED还提供对真实世界的可见性(例如,图18中的增强现实系统1800)或者使用户在视觉上沉浸于人工现实中(例如,图19中的虚拟现实系统1900)。尽管一些人工现实设备可以是独立的系统,但其它人工现实设备可以与外部设备通信和/或与外部设备协调以向用户提供人工现实体验。这种外部设备的示例包括手持控制器、移动设备、台式计算机、由用户佩戴的设备、由一个或多个其他用户佩戴的设备、和/或任何其它合适的外部系统。
转到图18,增强现实系统1800可以包括具有框架1810的眼镜设备1802,该框架被配置为将左显示设备1815(A)和右显示设备1815(B)保持在用户双眼的前方。显示设备1815(A)和显示设备1815(B)可以一起或独立地动作,以向用户呈现图像或系列图像。尽管增强现实系统1800包括两个显示器,但是本公开的各实施例可以在具有单个NED或多于两个NED的增强现实系统中实现。
在一些示例中,增强现实系统1800可以包括一个或多个传感器,例如传感器1840。传感器1840可以响应于增强现实系统1800的运动而生成测量信号,并且可以大体上位于框架1810的任何部分上。传感器1840可以表示多种不同感测机构中的一个或多个感测机构,例如位置传感器、惯性测量单元(inertial measurement unit,IMU)、深度摄像头组件、结构光发射器和/或检测器、或它们的任意组合。在一些示例中,增强现实系统1800可以包括或可以不包括传感器1840,或者可以包括多于一个的传感器。在传感器1840包括IMU的示例中,该IMU可以基于来自传感器1840的测量信号来生成校准数据。传感器1840的示例可以包括但不限于:加速度计、陀螺仪、磁力计、检测运动的其它合适类型的传感器、用于IMU的误差校正的传感器、或它们的某种组合。
在一些示例中,增强现实系统1800还可以包括传声器阵列,该传声器阵列具有多个声学换能器1820(A)至1820(J),该多个声学换能器被统称为声学换能器1820。声学换能器1820可以表示检测由声波引起的气压变化的换能器。每个声学换能器1820可以被配置为检测声音并将检测到的声音转换成电子格式(例如,模拟格式或数字格式)。图18中的传声器阵列例如可以包括十个声学换能器:可被设计为放置在用户的相应耳朵内的1820(A)和1820(B),可被定位在框架1810上的各个位置处的声学换能器1820(C)、1820(D)、1820(E)、1820(F)、1820(G)和1820(H),和/或可被定位在对应的颈带705上的声学换能器1820(I)和1820(J)。
在一些示例中,声学换能器1820(A)至1820(J)中的一个或多个声学换能器可以用作输出换能器(例如,扬声器)。例如,声学换能器1820(A)和/或1820(B)可以是耳塞、或任何其它合适类型的耳机或扬声器。
传声器阵列中的各声学换能器1820的配置可以改变。尽管增强现实系统1800在图18中被显示为具有十个声学换能器1820,但声学换能器1820的数量可以多于或少于十个。在一些示例中,使用更多数量的声学换能器1820可以增加收集到的音频信息的量和/或提高音频信息的灵敏度和准确度。相比之下,使用更少数量的声学换能器1820可以降低相关联的控制器1850处理收集到的音频信息所需的计算能力。另外,传声器阵列中的各声学换能器1820的位置可以改变。例如,声学换能器1820的位置可以包括用户身上的限定位置、框架1810上的限定坐标、与每个声学换能器1820相关联的方位、或它们的某种组合。
声学换能器1820(A)和1820(B)可以被定位在用户耳朵的不同部位上,例如耳廓(pinna)后面、耳屏后面、和/或耳廓(auricle)或耳窝内。或者,除了耳道内的声学换能器1820之外,还可以在耳朵上或耳朵周围存在附加的声学换能器1820。将声学换能器1820定位在用户的耳道附近可以使传声器阵列能够收集关于声音如何到达耳道的信息。通过将多个声学换能器1820中的至少两个声学换能器定位在用户头部的两侧(例如,作为双耳传声器),增强现实系统1800可以模拟双耳听觉并采集用户头部周围的3D立体声场。在一些实例中,声学换能器1820(A)和1820(B)可以经由有线连接1830而连接到增强现实系统1800,而在其它示例中,声学换能器1820(A)和1820(B)可以经由无线连接(例如,蓝牙连接)而连接到增强现实系统1800。在另外一些示例中,声学换能器1820(A)和1820(B)可以完全不与增强现实系统1800结合使用。
框架1810上的多个声学换能器1820可以以各种不同的方式而被定位,这些不同的方式包括沿着眼镜腿的长度、跨过鼻梁架、在显示设备1815(A)和显示设备1815(B)的上方或下方、或它们的某种组合。多个声学换能器1820还可以被定向为使得传声器阵列能够检测正佩戴着增强现实系统1800的用户周围的宽方向范围内的声音。在一些示例中,可以在增强现实系统1800的制造期间执行优化过程,以确定各个声学换能器1820在传声器阵列中的相对定位。
在一些示例中,增强现实系统1800可以包括或连接到外部设备(例如,配对设备),例如颈带1805。颈带1805概括地表示任何类型或形式的配对设备。因此,以下对颈带1805的论述也可以应用于各种其它配对设备,例如充电盒、智能手表、智能手机、腕带、其它可穿戴设备、手持控制器、平板计算机、膝上型计算机、其它外部计算设备等。
如图所示,颈带1805可以经由一个或多个连接器而耦接到眼镜设备1802。这些连接器可以是有线的或无线的,并且可以包括电子部件和/或非电子部件(例如,结构部件)。在一些情况下,眼镜设备1802和颈带1805可以在它们之间没有任何有线连接或无线连接的情况下独立地运行。尽管图18示出了眼镜设备1802和颈带1805中的多个部件位于眼镜设备1802和颈带1805上的示例位置,但这些部件可以位于眼镜设备1802和/或颈带1805上的其它位置和/或以不同的方式分布在该眼镜设备和/或该颈带上。在一些示例中,眼镜设备1802和颈带1805中的多个部件可以位于一个或多个附加的外围设备上,该一个或多个附加的外围设备与眼镜设备1802、颈带1805、或它们的某种组合配对。
将外部设备(例如,颈带1805)与增强现实眼镜设备配对可以使眼镜设备能够实现一副眼镜的外形要素,同时仍然为扩展后的能力提供足够的电池电量和计算能力。增强现实系统1800的电池电量、计算资源、和/或附加特征中的一些或全部可以由配对设备来提供,或者在配对设备与眼镜设备之间共享,从而总体上降低眼镜设备的重量、热量分布和外形要素,同时仍然保持所期望的功能。例如,由于与用户在其头部上承受的相比,其可以在其肩部上承受更重的重量负荷,因此颈带1805可以允许即将以其它方式被包括在眼镜设备上的多个部件包括在颈带1805中。颈带1805还可以具有较大的表面积,通过该较大的表面积将热量扩散和散发到周围环境。因此,与在独立眼镜设备上以其它方式可行的电池容量和计算能力相比,颈带1805可以允许更大的电池容量和更强的计算能力。由于颈带1805中携载的重量可以比眼镜设备1802中携载的重量对用户的侵害小,因此,与用户忍受佩戴重的独立眼镜设备相比,用户可以忍受更长时间佩戴较轻的眼镜设备且携带或佩戴配对设备,从而使用户能够将人工现实环境更充分地融入到其日常活动中。
颈带1805可以与眼镜设备1802通信耦接,和/或通信耦接至多个其它设备。这些其它设备可以向增强现实系统1800提供某些功能(例如,追踪、定位、深度图构建(depthmapping)、处理、存储等)。在图18的示例中,颈带1805可以包括两个声学换能器(例如,1820(I)和1820(J)),该两个声学换能器是传声器阵列的一部分(或者潜在地形成它们自己的传声器子阵列)。颈带1805还可以包括控制器1825和电源1835。
颈带1805中的声学换能器1820(I)和1820(J)可以被配置为检测声音并将检测到的声音转换成电子格式(模拟或数字)。在图18的示例中,声学换能器1820(I)和1820(J)可以被定位在颈带1805上,从而增加了颈带的声学换能器1820(I)和1820(J)与被定位在眼镜设备1802上的其它声学换能器1820之间的距离。在一些情况下,增加传声器阵列中的多个声学换能器1820之间的距离可以提高经由该传声器阵列执行的波束成形的准确性。例如,如果声学换能器1820(C)和1820(D)检测到声音,且声学换能器1820(C)与1820(D)之间的距离例如大于声学换能器1820(D)与1820(E)之间的距离,则所确定的检测到的声音的源位置可以比当该声音被声学换能器1820(D)和1820(E)检测到时更准确。
颈带1805中的控制器1825可以对由颈带1805和/或增强现实系统1800上的多个传感器生成的信息进行处理。例如,控制器1825可以对来自传声器阵列的、描述该传声器阵列检测到的声音的信息进行处理。对于每个检测到的声音,控制器1825可以执行波达方向(direction-of-arrival,DOA)估计,以估计检测到的声音从哪个方向到达传声器阵列。当传声器阵列检测到声音时,控制器1825可以用该信息填充音频数据集。在增强现实系统1800包括惯性测量单元的示例中,控制器1825可以计算来自位于眼镜设备1802上的IMU的所有惯性计算和空间计算。连接器可以在增强现实系统1800与颈带1805之间、以及在增强现实系统1800与控制器1825之间传送信息。该信息可以是光学数据形式、电子数据形式、无线数据形式、或任何其它可传输的数据形式。将对由增强现实系统1800所生成的信息进行的处理移动至颈带1805可以减少眼镜设备1802的重量和热量,使得该眼镜设备对用户而言更舒适。
颈带1805中的电源1835可以向眼镜设备1802和/或颈带1805供电。电源1835可以包括但不限于:锂离子电池、锂-聚合物电池、一次锂电池、碱性电池、或任何其它形式的电力存储器。在一些情况下,电源1835可以是有线电源。将电源1835包括在颈带1805上而不是眼镜设备1802上可以有助于更好地分散由电源1835产生的重量和热量。
如所提到的,一些人工现实系统可以使用虚拟体验来大体上代替用户对真实世界的多个感官知觉中的一个或多个感官知觉,而不是将人工现实与真实现实混合。这种类型的系统的一个示例是大部分或完全覆盖用户的视场的头戴式显示系统,例如图19中的虚拟现实系统1900。虚拟现实系统1900可以包括前部刚性体1902和被成形为适合围绕用户头部的带1904。虚拟现实系统1900还可以包括输出音频换能器1906(A)和1906(B)。此外,尽管图19中未示出,但前部刚性体1902可以包括一个或多个电子元件,该一个或多个电子元件包括一个或多个电子显示器、一个或多个惯性测量单元(IMU)、一个或多个追踪发射器或检测器、和/或用于生成人工现实体验的任何其它合适的设备或系统。
人工现实系统可以包括各种类型的视觉反馈机制。例如,增强现实系统1800中和/或虚拟现实系统1900中的显示设备可以包括:一个或多个液晶显示器(liquid crystaldisplay,LCD)、一个或多个发光二极管(light emitting diode,LED)显示器、一个或多个微型LED显示器、一个或多个有机LED(organic LED,OLED)显示器、一个或多个数字光投影仪(digital light projector,DLP)微型显示器、一个或多个硅基液晶(liquid crystalon silicon,LCoS)微型显示器、和/或任何其它合适类型的显示屏。这些人工现实系统可以包括用于两只眼睛的单个显示屏,或者可以为每只眼睛提供一个显示屏,这可以为变焦调整或为校正用户的屈光不正而提供额外的灵活性。这些人工现实系统中的一些人工现实系统还可以包括多个光学子系统,这些光学子系统具有一个或多个透镜(例如,凹透镜或凸透镜、菲涅耳透镜、可调节的液体透镜等),用户可以透过该一个或多个透镜观看显示屏。这些光学子系统可以用于各种目的,包括对光进行准直(例如,使对象显现在比其物理距离更远的距离处)、对光进行放大(例如,使对象显现得比其实际尺寸更大)、和/或传递光(例如,将光传递到观看者的眼睛)。这些光学子系统可以用于直视型架构(non-pupil-formingarchitecture)(例如,直接对光进行准直但会产生所谓的枕形失真(pincushiondistortion)的单透镜配置)和/或非直视型架构(pupil-forming architecture)(例如,产生所谓的桶形失真以消除枕形失真的多透镜配置)。
除了使用显示屏之外,或代替使用显示屏,本文所描述的多个人工现实系统中的一些人工现实系统可以包括一个或多个投影系统。例如,增强现实系统1800中和/或虚拟现实系统1900中的显示设备可以包括(例如,使用波导)将光投射到显示设备中的微型LED投影仪,例如允许环境光通过的透明组合透镜。显示设备可以将所投射的光折射朝向用户的瞳孔,并且可以使用户能够同时观看人工现实内容和真实世界这两者。显示设备可以使用各种不同光学部件中的任何光学部件来实现该目的,这些不同光学部件包括波导部件(例如,全息元件、平面元件、衍射元件、偏振元件、和/或反射波导元件)、光操纵表面和元件(例如,衍射元件和光栅、反射元件和光栅、以及折射元件和光栅)、耦合元件等。人工现实系统还可以配置有任何其它合适类型或形式的图像投影系统,例如用于虚拟视网膜显示器的视网膜投影仪。
本文所描述的人工现实系统还可以包括各种类型的计算机视觉部件和子系统。例如,增强现实系统1800和/或虚拟现实系统1900可以包括一个或多个光学传感器,例如二维(two-dimensional,2D)摄像头或3D摄像头、结构光发射器和检测器、飞行时间深度传感器、单波束测距仪或扫描激光测距仪、3D激光雷达(LiDAR)传感器、和/或任何其它合适类型或形式的光学传感器。人工现实系统可以对来自这些传感器中的一个或多个传感器的数据进行处理,以识别用户的位置、绘制真实世界的地图、向用户提供与真实世界周围环境有关的上下文、和/或执行各种其它功能。
本文所描述的人工现实系统还可以包括一个或多个输入和/或输出音频换能器。输出音频换能器可以包括音圈扬声器、带式扬声器、静电式扬声器、压电式扬声器、骨传导换能器、软骨传导换能器、耳屏振动换能器、和/或任何其它合适类型或形式的音频换能器。类似地,输入音频换能器可以包括电容式传声器、动态传声器、带式传声器、和/或任何其它类型或形式的输入换能器。在一些示例中,对于音频输入和音频输出这两者,可以使用单个换能器。
在一些示例中,本文所描述的人工现实系统还可以包括触觉(tactile)(即,触觉(haptic))反馈系统,所述触觉反馈系统可以结合到头饰、手套、服装、手持控制器、环境设备(例如椅子、地板垫等)、和/或任何其它类型的设备或系统中。触觉反馈系统可以提供各种类型的皮肤反馈,包括振动、推力、牵拉、质地和/或温度。触觉反馈系统还可以提供各种类型的动觉反馈,例如运动和顺应性。可以使用电机、压电式致动器、流体系统、和/或各种其它类型的反馈机构来实现触觉反馈。触觉反馈系统可以独立于其它人工现实设备而实现、在其它人工现实设备内实现、和/或结合其它人工现实设备来实现。
通过提供触觉感知、听觉内容和/或视觉内容,人工现实系统可以创建完整的虚拟体验或增强用户在各种上下文和环境中的真实世界体验。例如,人工现实系统可以辅助或扩展用户在特定环境中的感知、记忆或认知。一些系统可以增强用户与真实世界中的其他人的交互,或者可以实现与虚拟世界中的其他人的更沉浸式的交互。人工现实系统还可以用于教育目的(例如,用于学校、医院、政府机构、军事机构、企业等中的教学或训练)、娱乐目的(例如,用于玩视频游戏、听音乐、观看视频内容等)、和/或用于可接入性目的(例如,用作助听器、视觉辅助等)。本文所公开的各实施例和各示例可以在这些上下文和环境中的一个或多个上下文和环境中、和/或在其它上下文和环境中实现或增强用户的人工现实体验。
在一些示例中,本文所描述的系统还可以包括被设计为识别和追踪用户的单眼或双眼的各种特性(例如,用户的凝视方向)的眼动追踪子系统。在一些示例中,短语“眼动追踪”可以指通过其测量、检测、感测、确定、和/或监测眼睛的位置、方位、和/或运动的过程。所公开的系统可以以各种不同的方式来测量眼睛的位置、方位、和/或运动,这些方式包括通过使用各种基于光学的眼动追踪技术、基于超声波的眼动追踪技术等。眼动追踪子系统可以以多种不同的方式进行配置,并且可以包括各种不同的眼动追踪硬件部件或其它计算机视觉部件。例如,眼动追踪子系统可以包括各种不同的光学传感器,例如,二维(2D)摄像头或3D摄像头、飞行时间深度传感器、单波束或扫描激光测距仪、3D LiDAR传感器、和/或任何其它合适类型或形式的光学传感器。在该示例中,处理子系统可以处理来自这些传感器中的一个或多个传感器的数据,以测量、检测、确定、和/或以其它方式监测用户的单眼或双眼的位置、方位和/或运动。
图20是结合有能够追踪用户的单眼或双眼的眼动追踪子系统的示例性系统2000的图示。如图20中所描绘的,系统2000可以包括光源2002、光学子系统2004、眼动追踪子系统2006和/或控制子系统2008。在一些示例中,光源2002可以生成图像的光(例如,以呈现给观看者的眼睛2001)。光源2002可以表示各种合适的设备中的任何设备。例如,光源2002可以包括二维投影仪(例如,LCoS显示器)、扫描源(例如,扫描激光器)或其它设备(例如,LCD、LED显示器、OLED显示器、有源矩阵OLED(active-matrix OLED display,AMOLED)显示器、透明OLED(transparent OLED,TOLED)显示器、波导、或能够生成光以用于向观看者呈现图像的某种其它显示器)。在一些示例中,图像可以表示虚拟图像,该虚拟图像可以指根据来自空间点的光线的表观发散形成的光学图像,而不是指根据光线的实际发散形成的图像。
在一些示例中,光学子系统2004可以接收由光源2002生成的光,并且基于接收到的光生成包括图像的会聚光2020。在一些示例中,光学子系统2004可以包括可能与致动器和/或其它设备组合的任何数量的透镜(例如,菲涅耳透镜、凸透镜、凹透镜)、光圈、滤光器、反射镜、棱镜和/或其它光学部件。特别地,致动器和/或其它设备可以平移和/或转动多个光学部件中的一个或多个光学部件,以改变会聚光2020的一个或多个方面。此外,各种机械联接件可以用于以任何合适的组合保持各光学部件的相对间隔和/或方位。
在一个示例中,眼动追踪子系统2006可以生成指示观看者的眼睛2001的凝视角度的追踪信息。在该示例中,控制子系统2008可以至少部分地基于该追踪信息来控制光学子系统2004的各方面(例如,会聚光2020的入射角)。另外,在一些示例中,控制子系统2008可以存储和利用历史追踪信息(例如,在给定持续时间(例如,前一秒或前一秒的几分之一)内的追踪信息的历史),以预测眼睛2001的凝视角度(例如,眼睛2001的视轴与解剖轴之间的角度)。在一些示例中,眼动追踪子系统2006可以检测从眼睛2001的某个部分(例如,角膜、虹膜或瞳孔等)发出的辐射,以确定眼睛2001的当前凝视角度。在其它示例中,眼动追踪子系统2006可以采用波前传感器,以追踪瞳孔的当前位置。
可以使用任何数量的技术来追踪眼睛2001。一些技术可以涉及用红外光照射眼睛2001,并且用被调谐为对红外光敏感的至少一个光学传感器来测量反射。可以分析关于红外光如何从眼睛2001反射的信息,以确定一个或多个眼睛特征(例如,角膜、瞳孔、虹膜、和/或视网膜血管)的一个或多个位置、一个或多个方位和/或一个或多个运动。
在一些示例中,由眼动追踪子系统2006的传感器采集的辐射可以被数字化(即,转换成电子信号)。此外,传感器可以将该电子信号的数字表示发送到一个或多个处理器(例如,与包括眼动追踪子系统2006的设备相关联的处理器)。眼动追踪子系统2006可以包括处于各种不同配置的各种传感器中的任何传感器。例如,眼动追踪子系统2006可以包括对红外辐射作出反应的红外探测器。红外探测器可以是热探测器、光子探测器和/或任何其它合适类型的探测器。热探测器可以包括对入射的红外辐射的热效应作出反应的探测器。
在一些示例中,一个或多个处理器可以处理由眼动追踪子系统2006的一个或多个传感器生成的数字表示,以追踪眼睛2001的运动。在另一示例中,这些处理器可以通过执行由存储在非暂态存储器上的计算机可执行指令表示的算法来追踪眼睛2001的运动。在一些示例中,片上逻辑(例如,专用集成电路或ASIC)可以用于执行此类算法的至少一部分。如所指出的,眼动追踪子系统2006可以被编程为使用一个或多个传感器的输出来追踪眼睛2001的运动。在一些示例中,眼动追踪子系统2006可以分析由传感器生成的数字表示,以从反射的变化中提取眼睛转动信息。在一个示例中,眼动追踪子系统2006可以使用角膜反射或闪烁(也称为浦肯野(Purkinje)图像)和/或眼睛的瞳孔2022的中心作为随时间追踪的特征。
在一些示例中,眼动追踪子系统2006可以使用眼睛的瞳孔2022的中心和红外或近红外的非准直光来产生角膜反射。在这些示例中,眼动追踪子系统2006可以使用眼睛的瞳孔2022的中心与角膜反射之间的矢量来计算眼睛2001的凝视方向。在一些示例中,所公开的系统可以在追踪用户眼睛之前(使用例如监督技术或非监督技术)对个人执行校准过程。例如,校准过程可以包括引导用户观看显示在显示器上的一个或多个点,同时眼动追踪系统记录对应于与每个点相关联的每个凝视位置的值。
在一些示例中,眼动追踪子系统2006可以使用两种类型的红外和/或近红外(也称为有源光)眼动追踪技术:亮瞳眼动追踪和暗瞳眼动追踪,这可以基于照明源相对于所使用的光学元件的位置来区分。如果照明与光路同轴,则眼睛2001可以作为回射器,因为光从视网膜反射回来,从而产生类似于摄影中的红眼效应的亮瞳效应。如果照明源偏移光路,则眼睛的瞳孔2022可能看起来较暗,因为来自视网膜的回射被引导远离传感器。在一些示例中,亮瞳追踪可以产生更大的虹膜/瞳孔对比度,以允许在虹膜色素沉积的情况下进行稳健的眼动追踪,并且可以具有减少干扰(例如,由睫毛和其它模糊特征造成的干扰)的特点。亮瞳追踪还可以允许在从完全黑暗到非常明亮的环境的照明条件下进行追踪。
在一些示例中,控制子系统2008可以控制光源2002和/或光学子系统2004,以减少可能由眼睛2001造成的或受该眼睛影响的图像的光学像差(例如,色差和/或单色像差)。在一些示例中,如以上所提及的,控制子系统2008可以使用来自眼动追踪子系统2006的追踪信息,以执行这种控制。例如,在控制光源2002时,控制子系统2008可以(例如,通过图像渲染的方式)改变由光源2002生成的光,以修改(例如,预失真)图像,从而减少由眼睛2001造成的图像的像差。
所公开的系统可以追踪瞳孔的(例如,由于瞳孔放大和/或缩小的)位置和相对大小这两者。在一些示例中,对于不同类型的眼睛,用于检测和/或追踪瞳孔的眼动追踪设备和部件(例如,传感器和/或源)可以是不同的(或被不同地校准)。例如,对于不同颜色和/或不同瞳孔类型、和/或尺寸等的眼睛,传感器的频率范围可以是不同的(或被单独校准)。因此,可能需要针对每个单独的用户和/或眼睛来校准本文所描述的各种眼动追踪部件(例如,红外源和/或传感器)。
所公开的系统可以追踪具有眼科矫正(例如,由用户佩戴的隐形眼镜提供的矫正)和不具有眼科矫正这两者的眼睛。在一些示例中,眼科矫正元件(例如,可调节透镜)可以直接结合到本文所描述的人工现实系统中。在一些示例中,用户眼睛的颜色可能需要修改相应的眼动追踪算法。例如,眼动追踪算法可能需要至少部分地基于例如棕色眼睛与蓝色眼睛之间的不同颜色对比度来进行修改。
图21是图20中所示出的眼动追踪子系统的各个方面的更详细的图示。如这幅图所示,眼动追踪子系统2100可以包括至少一个源2104和至少一个传感器2106。源2104概括地表示能够发射辐射的任何类型或形式的元件。在一个示例中,源2104可以生成可见辐射、红外辐射、和/或近红外辐射。在一些示例中,源2104可以朝向用户的眼睛2102辐射电磁波谱的非准直的红外部分和/或近红外部分。源2104可以利用各种采样率和速度。例如,所公开的系统可以使用具有较高采样率的源,以采集用户的眼睛2102的注视性眼动、和/或正确地测量用户的眼睛2102的扫视动态。如以上所提到的,可以使用任何类型或形式的眼动追踪技术(包括基于光学的眼动追踪技术、基于超声波的眼动追踪技术等)来追踪用户的眼睛2102。
传感器2106概括地表示能够检测辐射(例如,从用户的眼睛2102反射的辐射)的任何类型或形式的元件。传感器2106的示例包括但不限于,电荷耦合器件(charge coupleddevice,CCD)、光电二极管阵列、和/或基于互补型金属氧化物半导体(complementarymetal-oxide-semiconductor,CMOS)的传感器设备等。在一个示例中,传感器2106可以表示具有预定参数的传感器,这些参数包括但不限于动态分辨率范围、线性度、和/或专门为眼动追踪选择和/或设计的其它特性。
如以上所详述的,眼动追踪子系统2100可以生成一个或多个闪烁。如以上所详述的,闪烁2103可以表示来自用户眼睛结构的辐射(例如,来自红外源(例如,源2104)的红外辐射)的反射。在各种示例中,可以使用由(位于人工现实设备内或位于人工现实设备外部的)处理器执行的眼动追踪算法来追踪闪烁2103和/或用户的瞳孔。例如,人工现实设备可以包括处理器和/或存储设备,以在本地执行眼动追踪,和/或可以包括收发器,以发送和接收在外部设备(例如,移动电话、云服务器、或其它计算设备)上执行眼动追踪所需的数据。
图21示出了由眼动追踪子系统(例如,眼动追踪子系统2100)采集的示例图像2105。在该示例中,图像2105可以包括用户的瞳孔2108和该用户的瞳孔附近的闪烁2110这两者。在一些示例中,可以使用基于人工智能的算法(例如,基于计算机视觉的算法)来识别瞳孔2108和/或闪烁2110。在一个示例中,图像2105可以表示可以被连续分析以追踪用户的眼睛2102的一系列帧中的单个帧。此外,可以在一段时间内追踪瞳孔2108和/或闪烁2110,以确定用户的凝视。
在一个示例中,眼动追踪子系统2100可以被配置为识别和测量用户的瞳距(inter-pupillary distance,IPD)。在一些示例中,眼动追踪子系统2100可以在用户正佩戴人工现实系统时测量和/或计算用户的IPD。在这些示例中,眼动追踪子系统2100可以检测用户眼睛的位置,并且可以使用该信息来计算用户的IPD。
如所提到的,本文所公开的眼动追踪系统或眼动追踪子系统可以以各种方式追踪用户的眼睛位置和/或眼动。在一个示例中,一个或多个光源和/或光学传感器可以采集用户眼睛的图像。然后,眼动追踪子系统可以使用所采集的信息来确定用户的每只眼睛的瞳距、眼间距、和/或3D位置(例如,用于失真调整目的),包括每只眼睛的扭转和转动(即,翻转(roll)、上下转动(pitch)和左右转动(yaw))的幅度和/或每只眼睛的凝视方向。在一个示例中,红外光可以由眼动追踪子系统发射并且从每只眼睛反射。反射光可以由光学传感器接收或检测,并且进行分析以从由每只眼睛反射的红外光的变化中提取眼睛转动数据。
眼动追踪子系统可以使用各种不同方法中的任何一种方法来追踪用户的眼睛。例如,光源(例如,红外发光二极管)可以将点图案发射到用户的每只眼睛上。然后,眼动追踪子系统可以(例如,经由耦接到人工现实系统的光学传感器)检测并且分析来自用户的每只眼睛的点图案的反射,以识别用户的每个瞳孔的位置。因此,眼动追踪子系统可以追踪每只眼睛的多达六个自由度(即,3D位置、翻转、上下转动和左右转动),并且可以将来自用户的双眼的追踪量的至少一个子集组合起来,以估计凝视点(即,用户正在看的虚拟场景中的3D位置或位置)和/或IPD。
在一些情况下,当用户的眼睛移动以在不同方向上观看时,用户的瞳孔与显示器之间的距离可以改变。当观看方向改变时,瞳孔与显示器之间的变化距离可以被称为“瞳孔游移”,并且可能会导致用户感觉到的失真,因为当瞳孔与显示器之间的距离改变时,光聚焦在不同的位置。因此,测量相对于显示器的不同眼睛位置和瞳距处的失真并且为不同位置和距离生成失真校正,可以允许通过追踪用户眼睛的3D位置并且应用与用户眼睛中的每只眼睛在给定时间点的3D位置相对应的失真校正,来减轻由瞳孔游移引起的失真。因此,知道用户眼睛中的每只眼睛的3D位置可以允许通过对每个3D眼睛位置应用失真校正来减轻由眼睛的瞳孔与显示器之间的距离变化造成的失真。此外,如以上所提到的,知道用户眼睛中的每只眼睛的位置还可以使眼动追踪子系统能够对用户的IPD进行自动调整。
在一些示例中,显示子系统可以包括各种附加子系统,这些附加子系统可以与本文所描述的眼动追踪子系统相结合地工作。例如,显示子系统可以包括变焦子系统、场景渲染模块、和/或辐辏处理(vergence-processing)模块。变焦子系统可以使左显示元件和右显示元件改变显示设备的焦距。在一个示例中,变焦子系统可以通过移动显示器、光学器件或这两者来物理地改变显示器与光学器件之间的距离,通过该光学器件可以观看显示器。另外,两个透镜相对于彼此移动或平移也可以用于改变显示器的焦距。因此,变焦子系统可以包括致动器或电机,该致动器或电机移动显示器和/或光学器件以改变它们之间的距离。该变焦子系统可以与显示子系统分开、或集成到该显示子系统中。该变焦子系统还可以集成到本文所描述的其致动子系统和/或眼动追踪子系统中、或与该致动子系统和/或该眼动追踪子系统分开。
在一个示例中,显示子系统可以包括辐辏处理模块,该辐辏处理模块被配置为基于由眼动追踪子系统确定的凝视点和/或凝视线的估计交叉点来确定用户的凝视的辐辏深度。辐辏可以指双眼同时沿相反方向移动或转动以维持双眼单视,这可以由人眼自然地和自动地执行。因此,用户双眼趋近的位置是用户正在看的位置,并且通常也是用户双眼聚焦的位置。例如,辐辏处理模块可以对凝视线进行三角测量,以估计距用户的、与凝视线的交叉点相关联的距离或深度。然后,与凝视线的交叉点相关联的深度可以用作调节距离的近似值,该调节距离可以识别用户双眼指向的位置与用户的距离。因此,辐辏距离可以允许确定用户双眼应当聚焦的位置、以及用户双眼聚焦位置距用户双眼的深度,从而提供用于对虚拟场景进行渲染调整的信息(例如,对象或焦平面)。
辐辏处理模块可以与本文所描述的眼动追踪子系统协作,以对显示子系统进行调整,从而考虑到用户的辐辏深度。当用户聚焦在远处的事物时,用户瞳孔可能比当用户聚焦在近处的事物时稍微分开得远一些。眼动追踪子系统可以获取关于用户的辐辏或聚焦深度的信息,并且可以在用户的眼睛聚焦或趋近近处的事物时将显示子系统调整为靠得更近,并且在用户的眼睛聚焦或趋近远处的事物时将显示子系统调整为离得更远。
例如,由上述眼动追踪子系统生成的眼动追踪信息还可以用于修改如何呈现不同的计算机生成的图像的各个方面。例如,显示子系统可以被配置为基于由眼动追踪子系统生成的信息来修改如何呈现计算机生成的图像的至少一个方面。例如,可以基于用户的眼动来修改计算机生成的图像,使得如果用户向上看,则计算机生成的图像可以在屏幕上向上移动。类似地,如果用户向一侧看或向下看,则计算机生成的图像可以在屏幕上向一侧移动或向下移动。如果用户的眼睛是闭上的,则可以暂停计算机生成的图像或从显示器移除该计算机生成的图像,并且一旦用户的眼睛再次睁开就恢复该计算机生成的图像。
上述眼动追踪子系统可以以各种方式结合到本文所描述的各种人工现实系统中的一个或多个人工现实系统中。例如,系统2000和/或眼动追踪子系统2100的各种部件中的一个或多个部件可以结合到图18中的增强现实系统1800中和/或图19中的虚拟现实系统12000中,以使这些系统能够执行各种眼动追踪任务(包括本文所描述的多个眼动追踪操作中的一个或多个眼动追踪操作)。
如上所详述的,本文所描述和/或所示出的计算设备和系统广泛地表示能够执行计算机可读指令(例如,包含在本文所描述的各模块中的那些指令)的、任何类型或形式的计算设备或系统。在这些一个或多个计算设备的最基本的配置中,这些一个或多个计算设备可以各自包括至少一个存储设备和至少一个物理处理器。
尽管本文所描述和/或所示出的多个模块被示出为单独的元件,但是这些模块可以表示单个模块或应用的部分。另外,在某些示例中,这些模块中的一个或多个模块可以表示一个或多个软件应用或程序,该一个或多个软件应用或程序在被计算设备执行时可以使该计算设备执行一个或多个任务。例如,本文所描述和/或所示出的多个模块中的一个或多个模块可以表示存储在本文所描述和/或所示出的多个计算设备或系统中的一者或多者上并且被配置为在该多个计算设备或系统中的一者或多者上运行的模块。这些模块中的一个或多个模块还可以表示被配置为执行一个或多个任务的一个或多个专用计算机的全部或部分。
另外,本文所描述的多个模块中的一个或多个模块可以将数据、物理设备和/或物理设备的表示从一种形式转换为另一种形式。例如,本文所记载的多个模块中的一个或多个模块可以接收要转换的眼动追踪、转换眼动追踪数据、输出该转换的结果以确定与用户界面的用户交互是否表示该用户界面的假阳性输入推断、使用该转换的结果来执行补救动作、以及存储该转换的结果以改进用户交互的模型。附加地或替代地,本文所记载的多个模块中的一个或多个模块可以通过在物理计算设备上执行、在该计算设备上存储数据、和/或以其它方式与该计算设备交互,来将该计算设备的处理器、易失性存储器、非易失性存储器和/或任何其它部分从一种形式转换成另一种形式。
如本文所使用的,术语“计算机可读介质”概括地指能够存储或携载计算机可读指令的任何形式的设备、载体或介质。计算机可读介质的示例包括但不限于,传输型介质和非暂态型介质,该传输型介质例如为载波,该非暂态型介质例如为磁存储介质(例如,硬盘驱动器、磁带驱动器和软盘)、光存储介质(例如,光盘(Compact Disc,CD)、数字视频盘(Digital Video Disc,DVD)和蓝光光盘(BLU-RAY disc))、电子存储介质(例如,固态驱动器和闪存介质)、以及其它分发系统。
如上所述,本公开的各实施例可以包括人工现实系统或结合人工现实系统来实现。人工现实是在呈现给用户之前已经以某种方式进行了调整的现实形式,该人工现实例如可以包括虚拟现实、增强现实、混合现实(mixed reality)、混合现实(hybrid reality)或它们的某种组合和/或衍生物。人工现实内容可以包括完全生成的内容、或与所采集的(例如,真实世界的)内容相结合的生成的内容。人工现实内容可以包括视频、音频、触觉反馈、或它们的某种组合,以上中的任何一者都可以在单个通道或多个通道中呈现(例如,为观看者带来三维效果的立体视频)。另外,在一些示例中,人工现实还可以与应用、产品、附件、服务或它们的某种组合相关联,这些应用、产品、附件、服务或它们的某种组合例如用于在人工现实中创建内容、和/或以其它方式用于人工现实中(例如,在人工现实中执行活动)。提供人工现实内容的人工现实系统可以在各种平台上实现,这些平台包括连接到主计算机系统的头戴式显示器、独立的HMD、移动设备或计算系统、或能够向一位或多位观看者提供人工现实内容的任何其它硬件平台。
本文所描述和/或所示出的过程参数和步骤顺序仅以示例的方式给出,并且可以根据需要进行改变。例如,尽管本文所示出和/或所描述的多个步骤可能是以特定顺序示出或论述的,但是这些步骤不一定需要以所示出或所论述的顺序来执行。本文所描述和/或所示出的各种示例性方法还可以省略本文所描述或所示出的多个步骤中的一个或多个步骤,或者可以包括除了所公开的那些步骤之外的附加步骤。
除非另有说明,否则如本说明书和权利要求书中所使用的术语“连接到”和“耦接到”(及它们的派生词)将被解释为允许直接连接和间接(即,经由其它元件或部件)连接这两者。另外,如本说明书和权利要求书中所使用的术语“一”或“一个”将被解释为意指“……中的至少一个”。最后,为了便于使用,如本说明书和权利要求书中所使用的术语“包含”和“具有”(及它们的派生词)与词语“包括”可互换,并且具有与词语“包括”相同的含义。
Claims (14)
1.一种计算机实现的方法,包括:
在用户与用户界面交互时追踪所述用户的凝视;
基于对所述用户的凝视的追踪,来确定检测到的与所述用户界面的用户交互表示所述用户界面的假阳性输入推断;以及
基于确定检测到的所述用户交互表示所述用户界面的所述假阳性输入推断来执行至少一个补救动作。
2.根据权利要求1所述的计算机实现的方法,其中,追踪所述用户的凝视包括:在所述用户与所述用户界面交互时从所述用户的凝视中提取至少一个凝视特征。
3.根据权利要求2所述的计算机实现的方法,其中,所述至少一个凝视特征包括以下中的至少一者:
注视持续时间;
初始注视形心与后续注视形心之间的角位移;
初始扫视形心与后续扫视形心之间的角位移;
初始扫视着陆点与后续扫视着陆点之间的角位移;
扫视幅度;
扫视持续时间;
注视概率;
扫视概率;
凝视速度;或
凝视分散度。
4.根据任一项前述权利要求所述的计算机实现的方法,其中,基于对所述用户的凝视的追踪来确定检测到的与所述用户界面的所述用户交互表示所述用户界面的所述假阳性输入推断包括:
使用所述用户的凝视特征来训练用于区分真阳性事件和假阳性事件的机器学习模型;以及
使用经训练的所述机器学习模型来分析追踪到的所述用户的凝视。
5.根据任一项前述权利要求所述的计算机实现的方法,其中,基于对所述用户的凝视的追踪来确定检测到的与所述用户界面的所述用户交互表示所述用户界面的所述假阳性输入推断包括:
使用一组用户的凝视特征来训练用于区分真阳性事件和假阳性事件的机器学习模型;以及
使用经训练的所述机器学习模型来分析追踪到的所述用户的凝视。
6.根据任一项前述权利要求所述的计算机实现的方法,其中:
执行所述至少一个补救动作包括:经由所述用户界面接收与所述假阳性输入推断相关联的用户输入;并且
所述方法还包括:基于对所述用户的凝视的附加追踪和与所述假阳性输入推断相关联的所述用户输入,确定检测到的与所述用户界面的附加用户交互表示所述用户界面的附加假阳性输入推断。
7.根据任一项前述权利要求所述的计算机实现的方法,其中,执行所述至少一个补救动作包括:
确定检测到的与所述用户界面的所述用户交互引起了与所述用户界面相关联的应用的应用状态的改变;以及
自动撤销所述应用状态的改变。
8.根据任一项前述权利要求所述的计算机实现的方法,其中,执行所述至少一个补救动作包括:在所述用户界面内呈现指示已发生假阳性输入推断的通知。
9.根据权利要求8所述的计算机实现的方法,其中,所述通知还指示检测到的所述用户交互引起了与所述用户界面相关联的应用的应用状态的改变。
10.根据权利要求8或9所述的计算机实现的方法,其中,所述通知还包括确认控件,所述确认控件使所述用户能够确认检测到的所述用户交互。
11.根据权利要求8至10中任一项所述的计算机实现的方法,其中:
所述通知包括撤销控件;并且
所述方法还包括:
经由所述用户界面的所述撤销控件接收撤销因检测到的所述用户交互而执行的命令的指令;以及
响应于接收到撤销因检测到的所述用户交互而执行的所述命令的所述指令,撤销因检测到的所述用户交互而执行的所述命令。
12.一种系统,所述系统被配置为执行根据任一项前述权利要求所述的方法,所述系统包括:
至少一个物理处理器;
存储器;
追踪模块,所述追踪模块存储在所述存储器中,所述追踪模块在用户与用户界面交互时追踪所述用户的凝视;
确定模块,所述确定模块存储在所述存储器中,所述确定模块确定检测到的与所述用户界面的用户交互表示所述用户界面的假阳性输入推断;以及
执行模块,所述执行模块存储在所述存储器中,所述执行模块执行至少一个补救动作。
13.一种计算机可读介质,所述计算机可读介质包括计算机可读指令,所述计算机可读指令在被计算系统的至少一个处理器执行时使所述计算系统执行根据权利要求1至11中任一项所述的方法。
14.一种计算机程序产品,所述计算机程序产品包括指令,所述指令在被计算机执行时使所述计算机执行根据权利要求1至11中任一项所述的方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/236,657 | 2021-08-24 | ||
US17/866,179 | 2022-07-15 | ||
US17/866,179 US20230069764A1 (en) | 2021-08-24 | 2022-07-15 | Systems and methods for using natural gaze dynamics to detect input recognition errors |
PCT/US2022/041415 WO2023028171A1 (en) | 2021-08-24 | 2022-08-24 | Systems and methods for using natural gaze dynamics to detect input recognition errors |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117897674A true CN117897674A (zh) | 2024-04-16 |
Family
ID=90639656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280057907.4A Pending CN117897674A (zh) | 2021-08-24 | 2022-08-24 | 使用自然凝视动力学来检测输入识别错误的系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117897674A (zh) |
-
2022
- 2022-08-24 CN CN202280057907.4A patent/CN117897674A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7342191B2 (ja) | 虹彩コードの蓄積および信頼性割当 | |
US10831268B1 (en) | Systems and methods for using eye tracking to improve user interactions with objects in artificial reality | |
US9380287B2 (en) | Head mounted system and method to compute and render a stream of digital images using a head mounted display | |
US11656693B2 (en) | Multimodal kinematic template matching and regression modeling for ray pointing prediction in virtual reality | |
US20230037329A1 (en) | Optical systems and methods for predicting fixation distance | |
WO2023147038A1 (en) | Systems and methods for predictively downloading volumetric data | |
US20230053497A1 (en) | Systems and methods for performing eye-tracking | |
CN117063142A (zh) | 用于自适应输入阈值化的系统和方法 | |
US20230069764A1 (en) | Systems and methods for using natural gaze dynamics to detect input recognition errors | |
CN117897674A (zh) | 使用自然凝视动力学来检测输入识别错误的系统和方法 | |
WO2023028171A1 (en) | Systems and methods for using natural gaze dynamics to detect input recognition errors | |
CN115698989A (zh) | 用于认证头戴式显示器的用户的系统和方法 | |
US11789544B2 (en) | Systems and methods for communicating recognition-model uncertainty to users | |
US20220236795A1 (en) | Systems and methods for signaling the onset of a user's intent to interact | |
US20230341812A1 (en) | Multi-layered polarization volume hologram | |
CN118119915A (zh) | 用于向用户传达模型不确定性的系统和方法 | |
WO2023023299A1 (en) | Systems and methods for communicating model uncertainty to users | |
WO2022235250A1 (en) | Handheld controller with thumb pressure sensing | |
WO2023014918A1 (en) | Optical systems and methods for predicting fixation distance | |
CN117795395A (zh) | 用于预测注视距离的光学系统和方法 | |
WO2023023206A1 (en) | Systems and methods for performing eye-tracking | |
EP4285206A1 (en) | Systems and methods for predicting an intent to interact | |
CN117882032A (zh) | 用于执行眼动追踪的系统和方法 | |
CN116964545A (zh) | 用于信号传递认知状态转换的系统和方法 | |
CN116830064A (zh) | 用于预测交互意图的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |