CN116133594A

CN116133594A - 基于声音的注意力状态评价

Info

Publication number: CN116133594A
Application number: CN202180057588.2A
Authority: CN
Inventors: G·H·姆里肯; C·戈德温; I·B·耶尔蒂兹; S·R·克里斯宾
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-06-03
Filing date: 2021-05-26
Publication date: 2023-05-16
Also published as: US20230282080A1; WO2021247310A1; EP4161387A1; EP4331489A1; EP4161387B1

Abstract

本文公开的各种具体实施包括基于与用户对听觉刺激的生理响应相关联的生理数据来确定该用户的注意力状态的设备、系统和方法。例如，一种示例性过程可包括：基于环境(可能是经由头带式设备提供的扩展现实环境)的特性来选择(302)听觉刺激；向用户呈现(304)该听觉刺激；使用传感器获得(306)与该用户对该听觉刺激的生理响应相关联的第一生理数据；以及基于该用户对该听觉刺激的该生理响应来评价(308)该用户的注意力状态。

Description

基于声音的注意力状态评价

技术领域

本公开总体涉及经由电子设备呈现内容，并且具体地讲，涉及在视觉内容或听觉内容的呈现期间和/或基于视觉内容或听觉内容的呈现来确定用户的注意力状态的系统、方法和设备。

背景技术

在查看和收听在电子设备上的内容时的用户的注意力状态可能对用户的体验有显著影响。例如，可能要求保持专注和参与来获得有意义的体验，诸如冥想、学习新的技能、观看教育内容或娱乐内容或阅读文档。用于评价查看内容和与内容交互的用户的注意力状态的改善的技术可增强用户的享受、理解和对内容的学习。此外，内容可能不以对特定用户有意义的方式进行呈现。内容创建者和系统可能能够基于注意力状态信息来提供用户更可能享受、理解和从中学习的更好且更定制的用户体验。

发明内容

本文公开的各种具体实施包括基于对听觉刺激的生理响应来评价用户的注意力状态的设备、系统和方法。听觉刺激可被选择为既引发用于评价注意力状态的响应又具有附加的合适属性。可选择刺激以例如与用户的当前环境的自然场景和周围环境混合。可选择刺激的听觉特性、空间位置和定时。例如，可基于鸟啁啾声声音既是用于引起可用于评价注意力状态的响应的合适声音又是与自然声景环境一致或以其他方式与该自然声景环境一致的声音的预期声音来选择特定听觉刺激(例如，鸟啁啾声)以用于在冥想期间使用的自然声景中。此外，还可选择听觉刺激的属性，诸如刺激的音量、空间定位和定时。一些具体实施改善了注意力状态评价准确度，例如，从而改善对用户对任务的注意力的评价(例如，在冥想体验期间专注于呼吸技巧上)。一些具体实施通过提供最小化或避免中断或干扰用户体验的认知评价来改善用户体验，例如，而不会显著地中断用户的注意力或执行任务的能力。

在一些具体实施中，可基于用户的环境的特性(例如，真实世界物理环境、虚拟环境或每一者的组合)来选择听觉刺激。设备(例如，手持式设备、膝上型电脑、台式电脑或头戴式设备(HMD))向用户提供真实世界物理环境、扩展现实(XR)环境或每一者的组合(例如，混合现实环境)的体验(例如，视觉体验和/或听觉体验)。设备用传感器获得与用户对听觉刺激的响应相关联的生理数据(例如，脑电图(EEG)振幅、瞳孔调制、眼睛注视扫视等)。基于所获得的生理数据，本文描述的技术可在体验(例如，冥想体验)期间确定用户的注意力状态(例如，专心、走神等)。基于生理数据和相关联生理响应，该技术可向用户提供当前注意力状态与体验的预期注意力状态不同的反馈，推荐该体验的类似内容或类似部分，并且/或者调整对应于该体验的内容或反馈机制。

在一个示例性具体实施中，用本文描述的技术对冥想和正念实践的整合可通过向个体提供关于冥想表现的实时反馈来增强冥想体验。在冥想期间保持专注和参与可改善用户的冥想实践并帮助用户得到与冥想相关联的益处。例如，对冥想感兴趣的新手可能在冥想会话期间保持在任务上有困难，并且他们可能受益于对他们的表现的准确反馈。本文描述的技术可呈现与用户的环境一致的自然化声音，以基于用户对听觉刺激的生理响应(或缺乏响应)来检测用户在冥想时何时变得分心。在冥想期间发现所定义的注意力流失的标志并提供表现反馈可增强用户体验，从而提供来自冥想会话的附加益处，并且提供经指导且支持的教导方法(例如，经由支架式教导方法)以使用户通过其冥想实践。

生理响应数据，诸如EEG振幅/频率、瞳孔调制、眼睛注视扫视等，可取决于个体的注意力状态和在他或她前面的场景的特性以及在其中呈现的听觉刺激。在用户执行需要不同注意力水平(诸如对呼吸冥想的专注的注意力)的正念任务时，可在使用具有眼睛跟踪技术的设备时获得生理响应数据。在一些具体实施中，可使用其他传感器(诸如EEG传感器)来获得生理响应数据。观察对听觉刺激的生理响应数据的重复测量可给出关于在不同时间尺度上对用户的潜在注意力状态的见解。这些注意力度量可用于在冥想体验期间提供反馈。

除冥想体验之外的体验可利用本文描述的关于评价注意力状态的技术。例如，教育体验可在学生看起来走神时通知他或她保持集中。另一个示例可以是通知需要专注于他或她的当前任务上的工作者的工作场所体验。例如，向可能在长时间外科手术期间变得有点累的外科医生提供反馈、提醒进行长时间驾驶的卡车驾驶员他或她正在失去专注并可能需要靠边停车进行睡眠等。本文描述的技术可针对可能需要一些类型的反馈机制来进入或维护一个或多个特定注意力状态的任何用户和体验定制。

一般来讲，本说明书中描述的主题的一个创新方面可体现为包括以下动作的方法：基于环境的特性来选择听觉刺激；向用户呈现听觉刺激；使用传感器获得与用户对听觉刺激的生理响应相关联的第一生理数据；以及基于用户对听觉刺激的生理响应来评价用户的注意力状态。

这些实施方案和其他实施方案均可任选地包括以下特征中的一个或多个特征。

在一些具体实施中，选择听觉刺激包括将环境分类为某一环境类型，并且基于该环境类型来选择听觉刺激。

在一些具体实施中，选择听觉刺激包括：对在环境中的一个或多个对象分类；以及基于所分类的一个或多个对象来选择听觉刺激。

在一些具体实施中，选择听觉刺激包括：从听觉刺激数据库确定引起用于评价用户的注意力的响应的一个或多个听觉刺激；以及基于环境来从一个或多个听觉刺激选择听觉刺激。

在一些具体实施中，听觉刺激是离散声音、一连串声音或空间化声音。

在一些具体实施中，环境是在用户周围的物理环境。在一些具体实施中，环境是向用户呈现的扩展现实(XR)体验。

在一些具体实施中，获得与用户对听觉刺激的生理响应相关联的第一生理数据包括监测在听觉刺激的呈现之后的预定时间内发生的响应或缺乏响应。在一些具体实施中，第一生理数据包括与用户相关联的脑电图(EEG)振幅数据。

在一些具体实施中，第一生理数据包括与用户相关联的瞳孔移动。在一些具体实施中，使用统计的或基于机器学习的分类技术来评价注意力状态。在一些具体实施中，该方法还包括基于注意力状态来向用户提供通知。

在一些具体实施中，该方法还包括识别内容的与注意力状态相关联的部分。

在一些具体实施中，该方法还包括基于用户的注意力状态来定制内容。

在一些具体实施中，该方法还包括聚合针对查看内容的多个用户确定的注意力状态以提供关于内容的反馈。

在一些具体实施中，设备是头戴式设备(HMD)，并且环境包括扩展现实(XR)环境。

根据一些具体实施中，非暂态计算机可读存储介质中存储有指令，所述指令是计算机可执行的以执行或使得执行本文所述的任何方法。根据一些具体实施，一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序；该一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且该一个或多个程序包括用于执行或使得执行本文所述方法中的任一种的指令。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1示出了根据一些具体实施的显示视觉体验并从用户获得生理数据的设备。

图2示出了根据一些具体实施的图1的用户的瞳孔，其中瞳孔的直径随时间变化。

图3是用于基于基于环境的特性选择的对听觉刺激的生理响应来评价用户的注意力状态的方法的流程图表示。

图4示出了基于环境的特性来选择听觉刺激并基于对听觉刺激的生理响应来评价用户的注意力状态。

图5是用于基于对与在三维(3D)坐标系中的虚拟位置相关联的听觉刺激的生理响应来评价用户的注意力状态的方法的流程图表示。

图6A和图6B示出了基于对与在3D坐标系中的虚拟位置相关联的听觉刺激的生理响应来评价用户的注意力状态。

图7示出了根据一些具体实施的示例性设备的设备部件。

图8示出了根据一些具体实施的示例性头戴式设备(HMD)。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的系统、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

具体实施方式

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将会知道，其他有效方面或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

图1示出了真实世界环境5，该真实世界环境包括具有显示器15的设备10。在一些具体实施中，设备10向用户25显示内容20，以及与内容20相关联的视觉特性30。例如，内容20可以是按钮、用户界面图标、文本框、图形等。在一些具体实施中，与内容20相关联的视觉特性30包括诸如色调、饱和度、尺寸、形状、空间频率、运动、突出显示等的视觉特性。例如，内容20可被显示为具有覆盖或包围内容20的绿色突出显示的视觉特性30。

在一些具体实施中，内容20可以是视觉体验(例如，冥想体验)，并且视觉体验的视觉特性30可在视觉体验期间持续地改变。如本文所用，短语“体验”是指在此期间用户使用电子设备并具有一个或多个注意力状态的时间段。在一个示例中，用户具有其中用户在持有、佩戴或接近包括获得生理数据以评价指示用户的注意力状态的眼睛特性的一个或多个传感器的电子设备时感知真实世界环境的体验。在另一个示例中，用户具有其中用户感知由电子设备显示的内容而相同或另一个电子器件获得生理数据(例如，瞳孔数据、EEG数据等)以评价用户的注意力状态的体验。在另一个示例中，用户具有其中用户持有、佩戴或接近提供指导体验的一连串可听或视觉指令的电子设备的体验。例如，指令可指示用户在体验的特定时段期间具有特定注意力状态，例如指示用户在前30秒专注于他或她的呼吸上，在接下来30秒停止专注于他或她的呼吸上，在再接下来45秒重新专注于他或她的呼吸上等。在这样的体验期间，相同或另一个电子设备可获得生理数据以评价用户的注意力状态。

在一些具体实施中，视觉特性30是用户的特定于体验的反馈机制(例如，关于在体验期间专注在特定任务(诸如在冥想体验期间的呼吸)上的视觉或音频提示)。在一些具体实施中，视觉体验(例如，内容20)可占据显示器15的整个显示区域。例如，在冥想体验期间，内容20可以是冥想视频或图像序列，其可包括视觉和/或音频提示作为向用户呈现的关于专注在呼吸上的视觉特性30。本文将进一步讨论可针对内容20显示的其他视觉体验和关于视觉特性30的视觉和/或音频提示。

设备10经由传感器35从用户25获得生理数据(例如，EEG振幅/频率、瞳孔调制、眼睛注视扫视等)。例如，设备10获得瞳孔数据40(例如，眼睛注视特性数据)。尽管本文讨论的该示例和其他示例示出了在真实世界环境5中的单个设备10，但是本文公开的技术适用于多个设备和多个传感器，以及其他真实世界环境/体验。例如，设备10的功能可由多个设备执行。

在一些具体实施中，如图1所示，设备10是手持电子设备(例如，智能手机或平板电脑)。在一些具体实施中，设备10是膝上型计算机或台式计算机。在一些具体实施中，设备10具有触控板，并且在一些具体实施中，设备10具有触敏显示器(也称为“触摸屏”或“触摸屏显示器”)。在一些具体实施中，设备10是可穿戴头戴式显示器(“HMD”)。

在一些具体实施中，设备10包括用于检测眼睛位置和眼睛移动的眼睛跟踪系统。例如，眼睛跟踪系统可包括一个或多个红外(IR)发光二极管(LED)、眼睛跟踪相机(例如，近红外(NIR)照相机)和向用户25的眼睛发射光(例如，NIR光)的照明源(例如，NIR光源)。此外，设备10的照明源可发射NIR光以照明用户25的眼睛，并且NIR相机可捕获用户25的眼睛的图像。在一些具体实施中，可分析由眼睛跟踪系统捕获的图像以检测用户25的眼睛的位置和移动，或检测关于眼睛的其他信息诸如瞳孔扩张或瞳孔直径。此外，从眼睛跟踪图像估计的注视点可使得能够与设备10的近眼显示器上示出的内容进行基于注视的交互。

在一些具体实施中，设备10具有图形用户界面(GUI)、一个或多个处理器、存储器以及存储在存储器中的用于执行多个功能的一个或多个模块、程序或指令集。在一些具体实施中，用户25通过触敏表面上的手指接触和手势与GUI进行交互。在一些具体实施中，这些功能包括图像编辑、绘图、呈现、文字处理、网页创建、盘编辑、电子表格制作、玩游戏、接打电话、视频会议、收发电子邮件、即时消息通信、健身支持、数字摄影、数字视频录制、网页浏览、数字音乐播放和/或数字视频播放。用于执行这些功能的可执行指令可被包括在被配置用于由一个或多个处理器执行的计算机可读存储介质或其他计算机程序产品中。

在一些具体实施中，设备10采用各种生理传感器、检测或测量系统。所检测的生理数据可包括但不限于：EEG、心电图(ECG)、肌电图(EMG)、功能近红外光谱信号(fNIRS)、血压、皮肤电导或瞳孔响应。此外，设备10可同时检测多种形式的生理数据，以便受益于生理数据的同步采集。此外，在一些具体实施中，生理数据表示非自愿数据，即，不受意识控制的响应。例如，瞳孔响应可表示非自愿移动。

在一些具体实施中，用户25的一只或两只眼睛45(包括用户25的一个或两个瞳孔50)以瞳孔响应的形式呈现生理数据(例如，瞳孔数据40)。用户25的瞳孔响应经由视神经和动眼神经颅神经导致瞳孔50的尺寸或直径的变化。例如，瞳孔响应可包括收缩响应(瞳孔缩小)，即，瞳孔变窄，或扩张响应(瞳孔散大)，即，瞳孔加宽。在一些具体实施中，设备10可检测表示时变瞳孔直径的生理数据的图案。

在一些具体实施中，瞳孔响应可响应于用户25的一个或两个耳朵60检测到的听觉刺激。例如，设备10可包括经由声波14投射声音的扬声器12。设备10可包括其他音频源，例如用于头戴式耳机的头戴式耳机插孔、与外部扬声器的无线连接等。

图2示出了图1的用户25的瞳孔50a至50b，其中瞳孔50a至50b的直径随时间变化。瞳孔直径跟踪可能潜在地指示用户的生理状态。如图2所示，当前生理状态(例如，当前瞳孔直径55a至55b)与过去生理状态(例如，过去瞳孔直径57a至57b)相比可能变化。例如，当前生理状态可包括当前瞳孔直径并且过去生理状态可包括过去瞳孔直径。

生理数据可随时间而变化，并且设备10可使用生理数据来测量用户对视觉特性30的生理响应或用户与内容20交互的意图中的一者或两者。例如，当由设备10呈现内容20诸如内容体验(例如，冥想环境)列表时，用户25可选择体验而无需用户25完成物理按钮按下。在一些具体实施中，生理数据包括经由眼睛跟踪技术测量的在用户25扫视内容20之后瞳孔50的半径的听觉刺激的生理响应。在一些具体实施中，生理数据包括经由EEG技术测量的EEG振幅/频率数据的听觉刺激的生理响应或从EMG传感器或运动传感器测量的EMG数据。

返回到图1，根据一些具体实施，设备10可生成并向其相应用户呈现扩展现实(XR)环境。扩展现实(XR)环境是指某人可使用电子设备与其交互和/或对其进行感测的完全或部分模拟的环境。例如，XR环境可包括虚拟现实(VR)内容、增强现实(AR)内容、混合现实(MR)内容等。使用XR系统，可跟踪人的身体运动的一部分或其表示。作为响应，可调整在XR环境中模拟的虚拟对象的一个或多个特征，使得其依附于一个或多个物理定律。例如，XR系统可检测用户的头部运动，并且作为响应，以与视图和声音将在物理环境中变化的方式类似的方式调整呈现给用户的图形和听觉内容。在另一示例中，XR系统可检测呈现XR环境的电子设备(例如膝上型电脑、移动电话、平板电脑等)的移动，并且作为响应，以与视图和声音将在物理环境中改变的方式类似的方式调整呈现给用户的图形和听觉内容。在一些情形中，XR系统可响应于物理运动的表示(例如语音命令)而调整XR环境中的图形内容的一个或多个特征。

各种电子系统使得某人能够与XR环境交互和/或感测XR环境。例如，可使用基于投影的系统、头戴式系统、平视显示器(HUD)、具有集成显示器的窗户、具有集成显示器的车辆挡风玻璃、被设计成放置在用户的眼睛上的显示器(例如类似于接触透镜)、扬声器阵列、头戴式耳机/听筒、输入系统(例如具有或不具有触觉反馈的可穿戴或手持式控制器)、平板电脑、智能电话和台式/膝上型电脑。一种头戴式系统可包括集成式不透明显示器和一个或多个扬声器。在其他示例中，头戴式系统可接受具有不透明显示器(例如智能电话)的外部设备。头戴式系统可包括一个或多个图像传感器和/或一个或多个麦克风以捕获物理环境的图像或视频和/或音频。在其他示例中，头戴式系统可包括透明或半透明显示器。表示图像的光被引导穿过的介质可包括在透明或半透明显示器内。显示器可利用OLED、LED、uLED、数字光投影、激光扫描光源、硅基液晶或这些技术的任何组合。介质可以是全息图介质、光学组合器、光学波导、光学反射器或它们的组合。在一些示例中，透明或半透明显示器可被配置成选择性地变得不透明。基于投影的系统可使用视网膜投影技术以将图形图像投影到用户的视网膜上。投影系统也可被配置成将虚拟对象投影到物理环境中，例如在物理表面上或作为全息图。

图3是示出示例性方法300的流程图。在一些具体实施中，设备诸如设备10(图1)执行方法300的技术，以基于对基于环境的特性选择的听觉刺激(例如，可能是真实世界物理环境、虚拟内容或每一者的组合的视觉和/或听觉电子内容)的生理响应来评价用户的注意力状态。在一些具体实施中，在移动设备、台式电脑、膝上型电脑、HMD或服务器设备上执行方法300的技术。在一些具体实施中，在处理逻辑部件(包括硬件、固件、软件或它们的组合)上执行方法300。在一些具体实施中，在执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器上执行方法300。

在框302处，方法300基于环境的特性来选择听觉刺激(例如，声音)。例如，基于确定用户正在查看其中可自然地发生鸟啁啾声的树木繁茂的环境来选择鸟啁啾声作为听觉刺激。在一些具体实施中，环境是向用户呈现的真实世界环境。例如，体验可包括物理环境的实时视频(例如，用于冥想的大自然的实时场景视图)或通过HMD的实时视图(例如，用户位于用于冥想的大自然的真实世界场景视图处，诸如安静的公园)。在一些具体实施中，环境是向用户呈现的XR环境。另选地，环境可以是向用户呈现的混合现实(MR)体验，其中虚拟现实图像可覆盖到物理环境的实时视图(例如，增强现实(AR))上。

在一些具体实施中，确定环境的特性可基于将环境分类为某一环境类型(例如，森林、公园、学校、海滩、人很多的事件等)并选择对应声音作为听觉刺激。附加地或另选地，确定环境的特性可基于对在环境中的一个或多个特定对象(例如，树、鸟、波等)分类，并且基于所分类的一个或多个对象来选择对应声音作为听觉刺激。

在一些具体实施中，系统可编译被确定为引起用于评价注意力的适当的用户响应的声音库并基于用户的环境来选择那些声音中的一个声音。例如，方法300还可包括从听觉刺激数据库确定引起用于评价用户的注意力的响应的一个或多个听觉刺激并基于环境来从一个或多个听觉刺激选择听觉刺激。

在框304处，方法300向用户呈现听觉刺激。例如，听觉刺激可以是离散声音(例如，鸟啁啾声)或一连串声音(例如，哔-哔-哔-哔)。在一些具体实施中，听觉刺激是空间化声音。听觉刺激可以是自然事件相关的感觉刺激，其在刺激可与用户的自然场景和周围环境混合的意义上很大程度上不被注意。特别地，可控制此类刺激的空间位置和定时，使得其统计数据与用户可能体验的特定感觉环境匹配。例如，可在冥想期间使用自然声景，其中鸟声音被分布在空间和时间上，但是能够产生感觉引发的神经响应，而不会出现令人讨厌或不自然的神经响应。此外，使用空间音频，这些特定事件(例如，听觉刺激)可以是空间上(例如，沿方位角)变化的，以引起单侧性脑响应(例如，EEG/EMP振幅数据)。

在框306处，方法300使用传感器获得与用户对听觉刺激的生理响应(或缺乏响应)相关联的第一生理数据(例如，EEG振幅/频率、瞳孔调制、眼睛注视扫视等)。例如，获得生理数据可涉及监测在呈现听觉刺激之后的预定时间内发生的响应或缺乏响应。

在一些具体实施中，获得与用户对听觉刺激的生理响应相关联的第一生理数据包括监测在听觉刺激的呈现之后的预定时间内发生的响应或缺乏响应。例如，系统可等待多达五秒以看看在视野外的空间化鸟啁啾声是否引起用户看向该方向(例如，生理响应)。

在一些具体实施中，获得生理数据(例如，瞳孔数据40)与可涉及获得可从中确定注视方向和/或移动的眼睛的图像或心电图信号(EOG)数据的用户的注视相关联。

在框308处，方法300基于用户对听觉刺激的生理响应来评价用户的注意力状态。例如，可将响应与用户自己的先前响应或对类似听觉刺激的典型的用户响应比较。在一些具体实施中，可使用统计的或基于机器学习的分类技术来确定注意力状态。所确定的注意力状态可用于向用户提供反馈、使用户重新取向、向用户提供统计数据和/或帮助内容创建者改善体验的内容。

在一些具体实施中，可确定、聚合和使用一个或多个瞳孔或EEG特性来使用统计或机器学习技术对用户的注意力状态分类。例如，可基于将生理数据的可变性与阈值比较来对生理数据分类。例如，如果在初始时段期间(例如，30秒至60秒)确定用户的EEG数据的基线，并且在听觉刺激之后的后续时段(例如，5秒)期间，EEG数据在后续时段期间偏离EEG基线超过+/-10％，则本文描述的技术可将用户分类为从第一注意力状态(例如，冥想)转变并进入第二注意力状态(例如，走神)。

在一些具体实施中，可基于声音的统计频率来比较生理响应。例如，可向用户呈现若干自然声音，自然声音中的一些自然声音是常见的(例如，出现80％的时间)，并且自然声音中的一些自然声音是不太常见的(例如，出现20％的时间)。在一些具体实施中，由于不太常见的声音相对于更常见的声音的新奇性，可能放大对不太常见的声音的生理响应，并且可在向用户呈现之后的约300ms至800ms测量对不太常见的声音的生理响应。

在一些具体实施中，机器学习模型可用于对用户的注意力状态分类。例如，可向机器学习模型提供关于用户的加标签的训练数据。在一些具体实施中，机器学习模型是神经网络(例如，人工神经网络)、决策树、支持向量机、贝叶斯网络等。这些标签可事先从用户或事先从人的群体收集，并且稍后针对单独用户进行微调。创建该加标签的数据可能要求许多用户经历其中用户可用混合自然探针收听自然声音(例如，听觉刺激)的体验(例如，冥想体验)，并且然后，随机地询问用户在呈现了探针之后不久有多专注或放松。这些问题的答案可在问题之前的时间生成标签，并且深度神经网络或深度长短期存储器(LSTM)网络可能学习特定于被给定那些标签的该用户或任务的特征的组合。

在一些具体实施中，基于用户对听觉刺激的生理响应来评价注意力状态的用例可包括冥想体验、教育体验、职业体验等。

在一些具体实施中，可基于确定第一注意力状态(例如，走神)与体验的预期注意力状态(例如，专注的注意力)不同来向用户提供反馈。在一些具体实施中，方法300还可包括响应于确定第一注意力状态与体验的预期的第二注意力状态不同而在体验期间呈现反馈(例如，音频反馈，诸如“控制您的呼吸”、视觉反馈等)。在一个示例中，在冥想体验的指示用户专注于他或她的呼吸上的部分期间，该方法基于检测到用户相反地处于走神的注意力状态来确定呈现反馈来提醒用户专注于呼吸上。

在一些具体实施中，可基于确定在所呈现的体验期间的注意力状态和在其中呈现的体验或内容的变化来提供针对内容开发员的内容推荐。例如，当提供特定类型的内容时，用户可能很专注。在一些具体实施中，方法300还可包括基于内容与体验的相似性来识别内容，并且基于确定用户在体验期间具有第一注意力状态(例如，走神)来向用户提供内容推荐。

在一些具体实施中，可基于与体验的预期注意力状态不同的注意力状态来与体验对应地调整体验的内容。例如，可由有经验的开发员调整内容以改善所记录的内容以用于用户或其他用户的后续使用。在一些具体实施中，方法300还可包括响应于确定第一注意力状态与旨在用于体验的第二注意力状态不同而调整对应于体验的内容。

在一些具体实施中，本文描述的技术基于识别用户与体验的典型的交互来从用户获得生理数据(例如，瞳孔数据40、EEG振幅/频率数据、瞳孔调制、眼睛注视扫视等)。例如，技术可确定用户的眼睛注视特性的可变性与与包括在体验内呈现的听觉刺激的体验的交互相关。另外，本文描述的技术然后可调整体验的视觉特性，或者调整/改变与听觉刺激相关联的声音，以增强与与体验和/或与在体验内现的听觉刺激的将来交互相关联的生理响应数据。此外，在一些具体实施中，在用户与在体验内的听觉刺激交互之后改变听觉刺激告知在与体验或体验的特定段的后续交互中用户的生理响应。例如，在听觉刺激在体验内改变之前，用户可呈现与听觉刺激的变化相关联的预期生理响应。因此，在一些具体实施中，技术基于预期生理响应来识别用户与听觉刺激交互的意图。例如，技术可通过基于用户与体验和听觉刺激的交互来捕获或存储用户的生理数据(包括用户对所增强/更新的听觉刺激的响应)来调适或训练指令集，并且可通过在预期所增强/更新的听觉刺激的呈现中识别用户的生理响应来检测用户与体验和听觉刺激交互的将来意图。

在一些具体实施中，估计器或统计学习方法用于更好地理解或预测生理数据(例如，瞳孔数据特性、EEG数据等)。例如，可通过用替换数据对数据集进行采样(例如，自助法)来估计EEG数据的统计数据。

图4是根据一些具体实施的示例性环境400的系统流程图，其中注意力状态评价系统可基于环境的特性来选择听觉刺激并基于对听觉刺激的生理响应来评价用户的注意力状态。在一些具体实施中，示例性环境400的系统流程是在设备(例如，图1的设备10)诸如移动设备、台式电脑、膝上型电脑或服务器设备上执行的。示例性环境400的内容可显示在具有用于显示图像的屏幕(例如，显示器15)和/或用于查看立体图像的屏幕的设备(例如，图1的设备10)上，诸如头戴式显示器(HMD)。在一些具体实施中，示例性环境400的系统流程在处理逻辑部件(包括硬件、固件、软件或其组合)上执行。在一些具体实施中，在执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器上执行示例性环境400的系统流程。

示例性环境400的系统流程从物理环境(例如，图1的物理环境5)的传感器获取图像数据和/或声音数据，分析环境图像和/或声音数据并对其分类，基于环境的特性来选择听觉刺激，向用户呈现听觉刺激，获得与用户对听觉刺激的生理响应相关联的第一生理数据，并且基于用户对听觉刺激的生理响应来评价用户的注意力状态。例如，本文描述的注意力状态评价技术通过提供基于用户的环境的听觉刺激(例如，当在户外冥想时的鸟啁啾声、当在学校学习时的学校钟声、在工作时的工作场所噪声等(诸如工作间的文件推车的滚动声))，基于所获得的生理数据来确定在体验(例如，冥想体验)期间的用户的注意力状态(例如，专心、走神等)。

在一个示例性具体实施中，环境400包括采集或获得物理环境的数据(例如，来自图像源诸如在设备402上的相机的图像数据)的图像和声音合成流水线。示例性环境400是采集当前环境的一个或多个图像帧的图像传感器数据(例如，光强度数据、深度数据和位置信息)和声音数据的示例。例如，用户采集物理环境(例如，图1的物理环境5)的图像数据404和声音数据406。图像源可包括采集物理环境的深度数据的深度相机、采集光强度图像数据(例如，RGB图像帧序列)的光强度相机(例如，RGB相机)，以及用于采集定位信息的位置传感器。声源可包括在设备402上的麦克风(例如，图1的设备10)。

在一些具体实施中，位置传感器可用于采集定位信息，该定位信息可用于采集关于在图像数据402和/或声音数据404的采集期间设备相对于环境的定位的附加信息。对于定位信息，一些具体实施包括视觉惯性测距(VIO)系统，该系统使用相机序列图像(例如，图像数据404)确定等效测距信息来估计行进的距离。另选地，本公开的一些具体实施可包括SLAM系统(例如，位置传感器)。该SLAM系统可包括独立于GPS并且提供实时同时定位与映射的多维(例如，3D)激光扫描和范围测量系统。该SLAM系统可生成并管理由来自环境中对象的激光扫描的反射而产生的非常准确的点云数据。随着时间推移，准确地跟踪点云中的任何点的移动，使得SLAM系统可使用点云中的点作为位置的参考点，在其行进通过环境时保持对其位置和取向的精确理解。该SLAM系统还可以是依赖于光强度图像数据来估计相机和/或设备的位置和取向的可视SLAM系统。

在一个示例性具体实施中，环境400包括环境分类器指令集410，该环境分类器指令集被配置有可由处理器执行以从环境的图像数据和/或声音数据生成所分类的环境数据的指令。例如，环境分类器指令集410从设备402上的传感器和物理环境(例如，图1的物理环境5)的物理环境信息(例如，相机定位信息诸如来自位置传感器的位姿数据)的其他源采集图像数据404(例如，实时相机素材诸如来自光强度相机的RGB图像)和/或声音数据406，并且将环境的分类确定为所分类的环境数据414。使用多个特定于类的神经网络中的一个神经网络来确定用户的环境的所分类的环境数据414：环境–类1神经网络412A、环境–类2神经网络412B、环境–类3神经网络412C、环境–类N神经网络412N(在本文中通称为环境–类神经网络412)。例如，训练第一网络(例如，环境-类1神经网络412A)以分析环境的特定对象或特征来确定该环境的分类。例如，环境-类神经网络412可检测树、动物等，以确定用户的当前环境在自然区域之外。环境-类神经网络412可检测汽车、建筑物等，以确定用户的当前环境在城市区域之外。环境-类神经网络412可检测桌面、书籍、学生等，以确定用户的当前环境在教室之内。每个分类还可包括子分类。例如，宁静的自然步道可在城市公园中，或者可在城市之外的更远区域。每个分类(或子分类)还可增强听觉刺激选择过程以选择听觉刺激，该听觉刺激可以是在刺激可与用户的自然场景和周围环境混合的意义上很大程度上不被注意的自然事件相关感觉刺激。特别地，可控制此类刺激的空间位置和定时，使得其统计数据与用户可能体验的特定感觉环境匹配。例如，可在冥想期间使用自然声景，其中鸟声音被分布在空间和时间上，但是能够产生感觉引发的神经响应，而不会出现令人讨厌或不自然的神经响应。

在一个示例性具体实施中，环境400还包括被配置有可由处理器执行以基于环境的数据来选择听觉刺激的指令的听觉刺激指令集420。例如，听觉刺激指令集420从环境分类器指令集410采集物理环境(例如，图1的物理环境5)的所分类的环境数据414，并且基于对环境的分类来确定听觉刺激422并从听觉刺激数据库425选择该听觉刺激。另选地，听觉刺激指令集420基于环境的所识别的特性来选择听觉刺激422。例如，如果在环境中识别了特定对象(例如，鸟)，则听觉刺激指令集420可然后选择鸟声音作为听觉刺激422。特别地，可控制此类刺激的空间位置和定时，使得其统计数据与用户可能体验的特定感觉环境匹配。例如，可在冥想期间使用自然声景，其中鸟声音被分布在空间和时间上，但是能够产生感觉引发的神经响应，而不会出现令人讨厌或不自然的神经响应。此外，使用空间音频，这些特定事件(例如，听觉刺激)可以是空间上(例如，沿方位角)变化的，以引起单侧性脑响应。在一些具体实施中，可在体验的整个持续时间内进行使用听觉刺激的认知评价技术而不显著地中断用户的注意力或用户执行任务的能力，但是同时产生用户对任务的注意力的改善的措施(例如，在冥想体验期间专注于呼吸技巧上)。

在一个示例性具体实施中，环境400还包括内容指令集430，该内容指令集被配置有可由处理器执行以提供和/或跟踪要在设备上显示的内容的指令。例如，内容指令集430从听觉刺激指令集420采集听觉刺激422并向用户25提供内容432。例如，内容432包括背景图像和声音数据434。内容432可以是XR体验(例如，冥想体验)，或者内容432可以是包括某种XR内容和物理环境的一些图像的MR体验。另选地，用户可穿戴HMD并经由实时相机视图看向真实物理环境，或者HMD允许用户观看显示器，诸如佩戴用户可通过其观看的智能眼镜，但是仍呈现视觉提示和/或音频提示。在体验期间，当用户25正在查看和收听背景图像和声音数据434时，可监测用户的眼睛的瞳孔数据435(例如，瞳孔数据40诸如眼睛注视特性数据)并作为生理数据444发送。附加地或另选地，用户25可穿戴传感器440(例如，EEG传感器)，该传感器生成传感器数据442(例如，EEG数据)作为生理数据。因此，在向用户呈现听觉刺激422时，使用本文讨论的技术中的一种或多种技术或可能适当的其他技术将生理数据444(例如，瞳孔数据435)和/或传感器数据442发送到生理跟踪指令集450以跟踪用户的生理属性作为生理跟踪数据452。

在一个示例性具体实施中，环境400还包括注意力状态指令集460，其被配置有可由处理器执行以使用本文讨论的技术中的一种或多种技术或可能适当的其他技术基于生理响应(例如，眼睛注视响应)来评价用户的注意力状态(例如，诸如走神、冥想等注意力状态)的指令。例如，注意力状态指令集460从生理跟踪指令集450采集生理跟踪数据452并在听觉刺激422的呈现之前、期间和/或之后确定用户25的注意力状态(例如，诸如走神、冥想等注意力状态)。在一些具体实施中，然后，注意力状态指令集460可基于认知评价来将反馈数据464提供到内容指令集430。例如，在冥想期间发现所定义的注意力流失的标志并提供表现反馈可增强用户体验，从而提供来自冥想会话的附加益处，并且提供经指导且支持的教导方法(例如，支架式教导方法)以使用户通过其冥想实践。

在一些具体实施中，可由内容状态指令集430利用反馈数据464来向用户25呈现音频和/或视觉反馈提示或机制以在冥想会话期间放松并专注于呼吸上。在教育体验中，基于来自注意力状态指令集460的表明用户25因为用户25被听觉刺激422分心而正在走神的评价，对用户的反馈提示可以是温和提醒(例如，舒缓或平静的视觉和/或音频警报)以重新开始学习任务。如本文所讨论的，听觉刺激422旨在被选择作为用户的当前环境的自然声音，使得如果用户专心进行在手边的任务，则用户不应当被听觉刺激422分心。例如，用户在湖边的宁静的自然内容的冥想体验中，用户不应当被在背景中听起来像鸟啁啾声的听觉刺激422分心。在另一个示例中，对于被确定为处于工作场所环境的用户，用户不应当被听起来像有人从他们的办公室/工作间走过(诸如同事推着文件推车从他们的工作空间走过)的听觉刺激422分心。

图5是示出示例性方法500的流程图。在一些具体实施中，设备诸如设备10(图1)执行方法500的技术以基于对与在3D坐标系中的虚拟位置相关联的听觉刺激的生理响应来评价用户的注意力状态。可在环境的内容(例如，可能是真实世界物理环境、虚拟内容或每一者的组合的视觉和/或听觉电子内容)的呈现期间呈现听觉刺激。在一些具体实施中，在移动设备、台式电脑、膝上型电脑、HMD或服务器设备上执行方法500的技术。在一些具体实施中，在处理逻辑部件(包括硬件、固件、软件或它们的组合)上执行方法500。在一些具体实施中，在执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器上执行方法500。

在框502处，方法500在XR环境的呈现期间呈现听觉刺激，其中听觉刺激与在3D坐标系中的虚拟位置相关联。例如，听觉刺激可以是通过操纵由立体声扬声器、扬声器阵列或头戴式耳机扬声器产生的声音以将声源虚拟地放置在3D空间中(例如，在用户的左侧、右侧、后面、上方、下方等)来产生的声音。在一些具体实施中，声音可以是在单个虚拟位置处的离散声音(例如，鸟啁啾声)。另选地，声音可以是随时间而发生的音频段，并且与虚拟位置相关联的3D坐标在时间段期间保持静止。听觉刺激可以是自然事件相关的感觉刺激，其在刺激可与用户的自然场景和周围环境混合的意义上很大程度上不被注意。例如，听觉刺激(例如，鸟啁啾声)可在相对于用户的相同3D位置发生。特别地，可控制此类刺激的空间位置和定时，使得其统计数据与用户可能体验的特定感觉环境匹配。例如，可在冥想期间使用自然声景，其中鸟声音被分布在空间和时间上，但是能够产生感觉引发的神经响应，而不会出现令人讨厌或不自然的神经响应。此外，使用空间音频，这些特定事件(例如，听觉刺激)可以是空间上(例如，沿方位角)变化的，以引起单侧性脑响应。另选地，声音可以是随时间而发生的音频段，并且与虚拟位置相关联的3D坐标在时间段期间改变。例如，声音可随时间而空间上改变，并且向用户表现出声音正在变得更靠近(例如，向你飞来的鸟，并且由于其似乎正在接近用户，听觉刺激正在变得更靠近)。

在一些具体实施中，系统可编译被确定为引起用于评价注意力的适当的用户响应的声音库并基于用户的环境来选择那些声音中的一个声音。例如，方法500还可包括从听觉刺激数据库确定引起用于评价用户的注意力的响应的一个或多个听觉刺激并在XR环境的呈现期间从一个或多个听觉刺激选择听觉刺激。

在框504处，方法500使用传感器获得与用户对听觉刺激的生理响应(或缺乏响应)相关联的第一生理数据(例如，EEG振幅/频率、瞳孔调制、眼睛注视扫视等)。例如，获得生理数据可涉及监测在呈现听觉刺激之后的预定时间内发生的响应或缺乏响应。

在一些具体实施中，获得与用户对听觉刺激的生理响应相关联的第一生理数据包括确定可能的响应与虚拟位置一致。例如，在用户的左侧的声音产生用户看向左侧的响应。

在框506处，方法500基于用户对听觉刺激的生理响应来评价用户的注意力状态。例如，可将响应与用户自己的先前响应或对类似听觉刺激的典型的用户响应比较。在一些具体实施中，可使用统计的或基于机器学习的分类技术来确定注意力状态。所确定的注意力状态可用于向用户提供反馈、使用户重新取向、向用户提供统计数据和/或帮助内容创建者改善体验的内容。

在一些具体实施中，可确定、聚合和使用一个或多个瞳孔或EEG特性来使用统计或机器学习技术对用户的注意力状态分类。在一些具体实施中，基于将生理数据的可变性与阈值比较来对生理数据分类。例如，如果在初始时段期间(例如，30秒至60秒)确定用户的EEG数据的基线，并且在听觉刺激之后的后续时段(例如，5秒)期间，EEG数据在后续时段期间偏离EEG基线超过+/-10％，则本文描述的技术可将用户分类为从第一注意力状态(例如，冥想)转变并进入第二注意力状态(例如，走神)。

在一些具体实施中，可基于确定第一注意力状态(例如，走神)与体验的预期注意力状态(例如，专注的注意力)不同来向用户提供反馈。在一些具体实施中，方法500还可包括响应于确定第一注意力状态与体验预期的第二注意力状态不同而在体验期间呈现反馈(例如，音频反馈，诸如“控制您的呼吸”、视觉反馈等)。在一个示例中，在冥想体验的指示用户专注于他或她的呼吸上的部分期间，该方法基于检测到用户相反地处于走神的注意力状态来确定呈现反馈来提醒用户专注于呼吸上。

在一些具体实施中，可基于确定在所呈现的体验期间的注意力状态和在其中呈现的体验或内容的变化来提供针对内容开发员的内容推荐。例如，当提供特定类型的内容时，用户可能很专注。在一些具体实施中，方法500还可包括基于内容与体验的相似性来识别内容，并且基于确定用户在体验期间具有第一注意力状态(例如，走神)来向用户提供内容推荐。

在一些具体实施中，可基于与体验的预期注意力状态不同的注意力状态来与体验对应地调整体验的内容。例如，可由有经验的开发员调整内容以改善所记录的内容以用于用户或其他用户的后续使用。在一些具体实施中，方法500还可包括响应于确定第一注意力状态与旨在用于体验的第二注意力状态不同而调整对应于体验的内容。

图6A和图6B示出了基于对与在3D坐标系中的虚拟位置相关联的听觉刺激的生理响应来评价用户的注意力状态。图6A示出了在内容呈现期间正在在所呈现的内容的3D位置向用户呈现听觉刺激，其中经由所获得的生理数据，用户具有对听觉刺激的生理响应(例如，用户看向空间化声音的3D位置)。例如，用户(例如，用户25)正在被呈现包括背景声音和视觉内容(例如，用于冥想的自然场景)的内容610a，并且用户的瞳孔数据612a被监测作为基线。然后，内容620a以听觉刺激呈现，因为正在监测用户的瞳孔数据622a的任何生理响应(例如，EEG振幅/频率、瞳孔调制、眼睛注视扫视等)。在听觉刺激已经开始之后的某一时段(例如，0秒至5秒)之后，通过继续相同听觉刺激呈现内容630a，并且用户的瞳孔数据632a说明用户眼睛注视被吸引到听觉刺激的3D位置。因此，用户对听觉刺激有生理响应，并且因此注意力状态评价将是用户不专心并且可能正在走神(例如，未专注于在手边的任务上，诸如冥想)。在一些具体实施中，如果用户被评价为走神，则反馈机制或提示可与内容的呈现一起呈现以使用户重新专注于与内容相关联的任务上。

图6B示出了在内容呈现期间正在向用户呈现听觉刺激，其中经由所获得的生理数据，用户对刺激无生理响应。例如，用户(例如，用户25)正在被呈现包括背景声音和视觉内容(例如，用于冥想的自然场景)的内容610b，并且用户的瞳孔数据612b被监测作为基线。然后，内容620b以听觉刺激呈现，因为正在监测用户的瞳孔数据622b的任何生理响应(例如，EEG振幅/频率、瞳孔调制、眼睛注视扫视等)。在听觉刺激已经开始之后的某一时段(例如，0秒至5秒)之后，通过继续相同听觉刺激呈现内容630b，并且用户的瞳孔数据632b说明用户眼睛注视未被吸引到听觉刺激的3D位置。因此，用户对听觉刺激无生理响应，并且因此注意力状态评价将是用户专心并且未走神(例如，专注于在手边的任务上，诸如冥想)。

在一些具体实施中，可对技术进行多组用户生理数据的训练，然后单独地适应于每个用户。例如，内容创建者可基于用户生理数据来定制冥想体验，诸如用户可能要求背景音乐来进行冥想或要求或多或少的音频或视觉提示来继续维持冥想。

在一些具体实施中，体验的定制可由用户控制。例如，用户可选择他或她想要的冥想体验，诸如他或她可选择周围环境、背景场景、音乐等。附加地，用户可响应于听觉刺激而变更提供反馈机制的阈值。例如，用户可基于响应于听觉刺激的会话的先前体验来定制触发反馈机制的灵敏度。例如，用户可能期望没有那么多反馈通知并在触发通知之前允许某种程度的走神(例如，眼睛位置偏差)。因此，当满足更高标准时，可在触发阈值时定制特定体验。例如，在一些体验(诸如教育体验)中，用户可能不想在学习会话期间受到打扰，即使他或她因短暂地看向听觉刺激片刻(例如，少于30秒)来思考他或她刚刚阅读的内容而短暂地盯着任务或走神也是如此。然而，学生/读者将希望在他或她因对听觉刺激做出响应而在较长时段(例如，长于或等于30秒)内走神的情况下得到通知。

在一些具体实施中，在评估将所呈现的内容或反馈机制调节或调整多少以增强用户25对视觉特性30(例如，反馈机制)的生理响应(例如，瞳孔响应)时，本文描述的技术可将对用户25的现实世界环境5(例如，视觉品质诸如亮度、对比度、语义背景)作出解释。

在一些具体实施中，生理数据(例如，瞳孔数据40)可随时间而变化，并且本文描述的技术可使用生理数据来检测模式。在一些具体实施中，图案是生理数据从一个时间到另一个时间的变化，并且在一些其他具体实施中，图案是一段时间内生理数据的一系列变化。基于检测到模式，本文描述的技术可识别用户的注意力状态(例如，走神)的变化，并且然后，可在体验(例如，冥想会话)期间向用户25提供反馈机制(例如，关于专注于呼吸上的视觉或听觉提示)以返回预期状态(例如，冥想)。例如，可通过检测在用户的注视特性中的模式来识别用户25的注意力状态，可调整与体验相关联的视觉或听觉提示(例如，表明“专注于呼吸上”的语音的反馈机制”还可包括视觉提示或场景的周围环境的变化)，并且与所调整的体验相比的用户的注视特性可用于确认用户的注意力状态。

在一些具体实施中，本文描述的技术可利用训练或校准序列来适应特定用户25的特定生理特性。在一些具体实施中，该技术向用户25呈现训练场景，在该场景中指示用户25与屏幕项目(例如，反馈对象)进行交互。通过向用户25提供已知意图或感兴趣区域(例如，经由指令)，该技术可记录用户的生理数据(例如，瞳孔数据40)并识别与用户的注视相关联的模式。在一些具体实施中，该技术可改变与内容20相关联的视觉特性30(例如，反馈机制)，以便进一步适应用户25的独特生理特性。例如，该技术可指示用户在数到三时主观上选择屏幕中心的与听觉刺激相关联的按钮，并记录用户的生理数据(例如，瞳孔数据40)以识别与用户的注意力状态相关联的模式。此外，该技术可改变或变更与听觉刺激相关联的视觉特性，以便识别与用户对变更的视觉特性的生理响应相关联的模式。在一些具体实施中，与用户25的生理响应相关联的图案被存储在与该用户相关联的用户配置文件中，并且可在将来的任何时间更新或重新校准该用户配置文件。例如，在用户体验期间可随时间推移自动修改用户配置文件以提供更个性化的用户体验(例如，个人冥想体验)。

在一些具体实施中，应用机器学习模型(例如，经训练的神经网络)来识别生理数据中的模式，包括识别在内容(例如，图1的内容20)的呈现期间对听觉刺激的生理反应。此外，该机器学习模型可用于将这些模式与对应于用户25与听觉刺激进行交互的兴趣或意图的指示相匹配。在一些具体实施中，本文描述的技术可学习特定于特定用户25的模式。例如，该技术可从确定峰模式表示用户25响应于在内容内的特定视觉特性30的兴趣或意图的指示开始学习，并且使用该信息以随后识别类似的峰模式作为用户25的兴趣或意图的另一个指示。这种学习可考虑到用户与多个视觉特性30的相对交互，以便进一步调整视觉特性30并增强用户对听觉刺激和所呈现的内容的生理响应。

在一些具体实施中，用户25的头部27的位置和特征(例如，眼睛、鼻部或鼻孔的边缘)由设备10提取并且用于查找用户25的眼睛45的粗略位置坐标，从而简化精确眼睛45特征(例如，位置、注视方向等)的确定，并且使得注视特性测量更可靠和稳健。此外，设备10可容易地将头部27的3D部件的位置与通过眼睛部件图像分析获得的注视角度信息组合，以便识别用户25在任何给定时间观看到的给定屏幕对象。在一些具体实施中，使用3D标测结合注视跟踪允许用户25自由地移动他或她的头部27和眼睛45，同时减少或消除使用头部27上的传感器或发射器主动跟踪头部27的需要。

通过跟踪眼睛45，一些具体实施减少了在用户25移动他或她的头部27之后重新校准用户25的需要。在一些具体实施中，设备10使用深度信息来跟踪瞳孔50的移动，从而使得能够基于用户25的单次校准来计算可靠的呈现的瞳孔直径55。利用诸如瞳孔中心角膜反射(PCCR)、瞳孔跟踪和瞳孔形状的技术，设备10可从头部27的定点计算瞳孔直径55以及眼睛45的注视角度，并且使用头部27的位置信息以便重新计算注视角度和其他注视特性测量。除了减少的重新校准之外，跟踪头部27的进一步有益效果可包括减少光投射源的数量并减少用于跟踪眼睛45的相机的数量。

在一些具体实施中，本文描述的技术可在用户注视方向上的位置处识别呈现在设备10的显示器15上的内容内的特定对象。此外，该技术可响应于从用户25接收的口头言语命令以及用户25的识别的注意力状态来改变与特定对象或总体内容体验相关联的视觉特性30的状态。例如，在内容内的特定对象可以是与软件应用程序相关联的图标，并且用户25可注视该图标，说出单词“选择”以选择该应用程序，并且可对该图标应用突出显示效果。然后，该技术可响应于视觉特性30(例如，反馈机制)而使用另外的生理数据(例如，瞳孔数据40)来进一步将用户25的注意力状态识别为对用户的言语命令的确认。在一些具体实施中，该技术可响应于用户注视的方向而识别给定交互式项目，并且响应于生理数据(例如，注视特性的可变性)而操纵该给定交互式项目。然后，该技术可基于用响应于听觉刺激的生理数据进一步识别用户的注意力状态来确认用户注视的方向。在一些具体实施中，该技术可基于识别的兴趣或意图来移除交互式项目或对象。在其他具体实施中，在确定了用户25的兴趣或意图时(例如，响应于听觉刺激)，该技术可自动地捕获内容的图像。

作为节电特征，本文描述的技术可检测用户25何时不观看显示器并且本文描述的技术可激活省电技术，例如，在用户25移开目光超过某个阈值时间段时禁用生理传感器。此外，在一些具体实施中，在用户25不观看显示器时，该技术可使显示器变暗或完全变黑(例如，降低亮度)。在用户25再次观看显示器时，该技术可停用节电技术。在一些具体实施中，该技术可使用第一传感器跟踪生理属性，然后基于该跟踪来激活第二传感器以获得生理数据。例如，该技术可使用相机(例如，在设备10上的相机)来识别用户25正在朝着设备10的方向观看，然后在确定用户25正朝设备10的方向观看时激活眼睛传感器。

图7是示例性设备700的框图。设备700示出了设备10的示例性设备配置。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，设备10包括一个或多个处理器702(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备和传感器706、一个或多个通信接口708(例如，USB、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE、SPI、I2C和/或相似类型的接口)、一个或多个编程(例如，I/O)接口710、一个或多个显示器712、一个或多个传感器系统714、存储器720以及用于互连这些部件和各种其他部件的一条或多条通信总线704。

在一些具体实施中，该一条或多条通信总线704包括互连系统部件和控制系统部件之间的通信的电路。在一些具体实施中，该一个或多个I/O设备及传感器706包括以下项中的至少一者：惯性测量单元(IMU)、加速度计、磁力计、陀螺仪、温度计、一个或多个生理传感器(例如，血压监测仪、心率监测仪、血氧传感器、血糖传感器等)、一个或多个麦克风、一个或多个扬声器、触觉引擎或者一个或多个深度传感器(例如，结构光、飞行时间等)和/或类似的装置。

在一些具体实施中，一个或多个显示器712被配置为向用户呈现物理环境或图形环境的视图。在一些具体实施中，一个或多个显示器712对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射器显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电系统(MEMS)和/或类似显示器类型。在一些具体实施中，一个或多个显示器712对应于衍射、反射、偏振、全息等波导显示器。例如，设备10包括单个显示器。又如，设备10包括针对用户的每只眼睛的显示器。

在一些具体实施中，该一个或多个传感器系统714被配置为获得对应于物理环境5的至少一部分的传感器数据。例如，该一个或多个传感器系统714包括一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、单色相机、IR相机、深度相机、基于事件的相机等。在各种具体实施中，该一个或多个传感器系统714还包括发射光的照明源，诸如闪光灯。在各种具体实施中，该一个或多个传感器系统714还包括相机上图像信号处理器(ISP)，该ISP被配置为对图像数据执行多个处理操作。

存储器720包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中，存储器720包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器720任选地包括与一个或多个处理器702远程定位的一个或多个存储设备。存储器720包括非暂态计算机可读存储介质。

在一些具体实施中，存储器720或存储器720的非暂态计算机可读存储介质存储可选的操作系统730和一个或多个指令集740。操作系统730包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。在一些具体实施中，指令集740包括由以电荷形式存储的二进制信息定义的可执行软件。在一些具体实施中，指令集740是能够由一个或多个处理器702执行以实施本文所述技术中的一种或多种的软件。

指令集740包括内容指令集742、生理跟踪指令集744和注意力状态指令集746。指令集740可体现为单个软件可执行文件或多个软件可执行文件。

在一些具体实施中，内容指令集742可由处理器702执行以提供和/或跟踪用于在设备上显示的内容。内容指令集742可被配置为随时间而监测和跟踪内容(例如，在体验诸如冥想会话期间)和/或识别出现在内容内的变化事件。在一些具体实施中，内容指令集742可被配置为使用本文讨论的技术中的一种或多种技术或可能适当的其他技术来将变化事件添加到内容(例如，反馈机制)中。出于这些目的，在各种具体实施中，该指令包括指令和/或用于该指令的逻辑以及启发法和用于该启发法的元数据。

在一些具体实施中，生理跟踪指令集744可由处理器702执行以使用本文讨论的技术中的一种或多种技术或可能适当的其他技术来跟踪用户的生理属性(例如，EEG振幅/频率、瞳孔调制、眼睛注视扫视等)。出于这些目的，在各种具体实施中，该指令包括指令和/或用于该指令的逻辑以及启发法和用于该启发法的元数据。

在一些具体实施中，注意力状态指令集746可由处理器702执行以使用本文讨论的技术中的一种或多种技术或可能适当的其他技术基于生理响应(例如，眼睛注视响应)来评价用户的注意力状态(例如，走神、专心、冥想等)。出于这些目的，在各种具体实施中，该指令包括指令和/或用于该指令的逻辑以及启发法和用于该启发法的元数据。

尽管指令集740被示出为驻留在单个设备上，但是应当理解，在其他具体实施中，元件的任何组合可位于单独的计算设备中。此外，图7更多地用作存在于特定具体实施中的各种特征部的功能描述，与本文所述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。指令集的实际数量以及如何在其中分配特征将根据具体实施而变化，并且可以部分地取决于为特定具体实施选择的硬件、软件和/或固件的特定组合。

图8示出了根据一些具体实施的示例性头戴式设备800的框图。头戴式设备800包括容纳头戴式设备800的各种部件的外壳801(或封装件)。外壳801包括(或耦接到)设置在外壳801的近侧(用户25的)端部处的眼垫(未示出)。在各种具体实施中，眼垫是塑料或橡胶件，其舒适且贴合地将头戴式设备800保持在用户25的面部上的适当位置(例如，围绕用户25的眼睛)。

外壳801容纳显示器810，该显示器显示图像、朝向用户25的眼睛发射光或将光发射到该用户的眼睛上。在各种具体实施中，显示器810通过具有一个或多个透镜805的目镜发射光，该透镜折射由显示器810发射的光，使显示器对用户25显示为比从眼睛到显示器810的实际距离更远的虚拟距离。为了用户25能够聚焦在显示器810上，在各种具体实施中，虚拟距离至少大于眼睛的最小焦距(例如，8cm)。此外，为了提供更好的用户体验，在各种具体实施中，虚拟距离大于1米。

外壳801还容纳跟踪系统，该跟踪系统包括一个或多个光源822、相机824和控制器880。一个或多个光源822将光发射到用户25的眼睛上，其反射为可由相机824检测的光图案(例如，闪光圈)。基于该光图案，控制器880可确定用户25的眼动跟踪特征。例如，控制器880可确定用户25的注视方向和/或眨眼状态(睁眼或闭眼)。又如，控制器880可确定瞳孔中心、瞳孔大小或关注点。因此，在各种具体实施中，光由所述一个或多个光源822发射，从用户25的眼睛反射，并且由相机824检测。在各种具体实施中，来自用户25的眼睛的光在到达相机824之前从热镜反射或通过目镜。

外壳801还容纳包括一个或多个音频源826的音频系统，控制器可按照本文描述的技术利用该一个或多个音频源经由声波14向用户耳朵60提供音频。例如，音频源826可提供声音以用于背景声音和可在3D坐标系中空间上呈现的听觉刺激两者。音频源826可包括扬声器、与外部扬声器系统(诸如头戴式耳机)的连接或经由无线连接连接的外部扬声器。

显示器810发射第一波长范围内的光，并且所述一个或多个光源822发射第二波长范围内的光。类似地，相机824检测第二波长范围内的光。在各种具体实施中，第一波长范围是可见波长范围(例如，可见光谱内大约为400nm-700nm的波长范围)，并且第二波长范围是近红外波长范围(例如，近红外光谱内约为700nm-1400nm的波长范围)。

在各种具体实施中，眼睛跟踪(或者具体地，确定的注视方向)用于使用户能够进行交互(例如，用户25通过观看显示器810上的选项来选择它)，提供有孔的渲染(例如，在用户25正在观看的显示器810的区域中呈现更高的分辨率并且在显示器810上的其他地方呈现更低的分辨率)，或者校正失真(例如，对于要在显示器810上提供的图像)。

在各种具体实施中，该一个或多个光源822朝向用户25的眼睛发射光，该光以多个闪烁的形式反射。

在各种具体实施中，相机824是基于帧/快门的相机，其以帧速率在特定时间点或多个时间点生成用户25的眼睛的图像。每个图像包括对应于图像的像素的像素值的矩阵，所述像素对应于相机的光传感器矩阵的位置。在具体实施中，每个图像用于通过测量与用户瞳孔中的一者或两者相关联的像素强度的变化来测量或跟踪瞳孔扩张。

在各种具体实施中，相机824是包括在多个相应位置处的多个光传感器(例如，光传感器矩阵)的事件相机，该事件相机响应于特定光传感器检测到光强度变化而生成指示所述特定光传感器的特定位置的事件消息。

应当理解，上文所描述的具体实施以示例的方式引用，并且本公开不限于上文已特别示出和描述的内容。相反地，范围包括上文所描述的各种特征的组合和子组合两者，以及本领域的技术人员在阅读前述描述时将想到的并且在现有技术中未公开的所述各种特征的变型和修改。

如上所述，本发明技术的一个方面是收集和使用生理数据以改善用户在与电子内容进行交互方面的电子设备体验。在一些情况下，该所搜集的数据可包括个人信息。例如，此类信息可包括唯一地识别特定的人或可用于识别个体的兴趣、特性或行为的数据。此类信息数据可包括生理数据、人口数据、位置数据、个人设备的设备特性或任何其他个人信息。可为了用户的利益而使用此类信息。例如，个人信息数据用于改善电子设备的交互和控制能力。任何个人信息和/或生理数据都应当根据众所周知的隐私政策和/或隐私实践进行使用。此类策略和实践应当满足或超出行业或政府信息隐私和数据要求。此类信息的集合应当基于用户同意，并且应当仅用于合法和合理的用途。此外，所收集的个人信息不应当在那些合法的用途之外进行使用或共享，应采取合理措施以保护对信息的访问并确保该访问安全。

在一些具体实施中，用户可选择性地阻止对个人信息的访问和/或使用。可提供硬件或软件元件，以防止或阻止对此类信息的访问。例如，系统可被配置为使用户能够选择“加入”或“退出”个人信息的收集。在另一个示例中，用户可选择不提供用于特定目的诸如目标内容递送的个人信息。

虽然本公开广泛地涵盖个人信息的使用，但是也可实施各种具体实施而不需要访问此类个人信息。各种具体实施不会由于缺少此类个人信息的全部或一部分而无法正常进行。例如，可通过基于非个人信息数据或绝对最低量的个人信息诸如与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用的信息来推断偏好或设置，从而选择内容并将该内容递送至用户。

在一些具体实施中，以仅允许数据的所有者访问数据的方式存储数据。例如，可使用公钥/私钥系统对数据诸如个人信息进行加密。在一些其他具体实施中，数据可匿名存储(例如，无需识别关于用户的个人信息，诸如法定姓名、用户名、时间和位置数据等)。这使其他人无法确定与所存储的数据相关联的用户的身份。

本文阐述了许多具体细节以提供对要求保护的主题的全面理解。然而，本领域的技术人员将理解，可以在没有这些具体细节的情况下实践要求保护的主题。在其他实例中，没有详细地介绍普通技术人员已知的方法、装置或系统，以便不使要求保护的主题晦涩难懂。

除非另外特别说明，否则应当理解，在整个说明书中，利用诸如“处理”、“计算”、“计算出”、“确定”和“识别”等术语的论述是指计算设备的动作或过程，诸如一个或多个计算机或类似的电子计算设备，其操纵或转换表示为计算平台的存储器、寄存器或其他信息存储设备、传输设备或显示设备内的物理电子量或磁量的数据。

本文论述的一个或多个系统不限于任何特定的硬件架构或配置。计算设备可以包括部件的提供以一个或多个输入为条件的结果的任何合适的布置。合适的计算设备包括基于多用途微处理器的计算机系统，其访问存储的软件，该软件将计算系统从通用计算装置编程或配置为实现本发明主题的一种或多种具体实施的专用计算装置。可以使用任何合适的编程、脚本或其他类型的语言或语言的组合来在用于编程或配置计算设备的软件中实现本文包含的教导内容。

本文所公开的方法的具体实施可以在这样的计算设备的操作中执行。上述示例中呈现的框的顺序可以变化，例如，可以将框重新排序、组合或者分成子框。某些框或过程可以并行执行。

本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。另外，“基于”的使用意味着开放和包容性，因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。本文包括的标题、列表和编号仅是为了便于解释而并非旨在为限制性的。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种对象，但是这些对象不应当被这些术语限定。这些术语只是用于将一个对象与另一对象区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样，单数形式的“一个”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”或“包含”在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、对象或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、对象、部件或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

本发明的前述描述和概述应被理解为在每个方面都是例示性和示例性的，而非限制性的，并且本文所公开的本发明的范围不仅由例示性具体实施的详细描述来确定，而是根据专利法允许的全部广度。应当理解，本文所示和所述的具体实施仅是对本发明原理的说明，并且本领域的技术人员可以在不脱离本发明的范围和实质的情况下实现各种修改。

Claims

1.一种注意力状态评价的方法，所述方法包括：

在包括处理器的设备处：

基于环境的特性来选择听觉刺激；

向用户呈现所述听觉刺激；

使用传感器获得与所述用户对所述听觉刺激的生理响应相关联的第一生理数据；以及

基于所述用户对所述听觉刺激的所述生理响应来评价所述用户的注意力状态。

2.根据权利要求1所述的方法，其中选择所述听觉刺激包括：

将所述环境分类为某一环境类型；以及

基于所述环境类型来选择所述听觉刺激。

3.根据权利要求1所述的方法，其中选择所述听觉刺激包括：

对在所述环境中的一个或多个对象分类；以及

基于所分类的一个或多个对象来选择所述听觉刺激。

4.根据权利要求1所述的方法，其中选择所述听觉刺激包括：

从听觉刺激数据库确定引起用于评价用户的注意力的响应的一个或多个听觉刺激；以及

基于所述环境来从所述一个或多个听觉刺激选择所述听觉刺激。

5.根据权利要求1至4中任一项所述的方法，其中所述环境是在所述用户周围的物理环境。

6.根据权利要求1至5中任一项所述的方法，其中所述环境是向所述用户呈现的扩展现实(XR)体验。

7.根据权利要求1至6中任一项所述的方法，其中所述听觉刺激是离散声音、一连串声音或空间化声音。

8.根据权利要求1至10中任一项所述的方法，其中获得与所述用户对所述听觉刺激的生理响应相关联的所述第一生理数据包括监测在所述听觉刺激的所述呈现之后的预定时间内发生的响应或缺乏响应。

9.根据权利要求1至8中任一项所述的方法，其中所述第一生理数据包括与所述用户相关联的脑电图(EEG)振幅数据。

10.根据权利要求1至9中任一项所述的方法，其中所述第一生理数据包括与所述用户相关联的瞳孔移动。

11.根据权利要求1至7中任一项所述的方法，其中使用统计的或基于机器学习的分类技术来评价所述注意力状态。

12.根据权利要求1至11中任一项所述的方法，还包括基于所述注意力状态来向所述用户提供通知。

13.根据权利要求1至12中任一项所述的方法，还包括识别所述内容的与所述注意力状态相关联的部分。

14.根据权利要求1至13中任一项所述的方法，还包括基于所述用户的所述注意力状态来定制所述内容。

15.根据权利要求1至14中任一项所述的方法，还包括聚合针对查看所述内容的多个用户确定的注意力状态以提供关于所述内容的反馈。

16.根据权利要求1至15中任一项所述的方法，其中所述设备是头戴式设备(HMD)，并且所述环境包括扩展现实(XR)环境。

17.一种设备，所述设备包括：

非暂态计算机可读存储介质；和

一个或多个处理器，所述一个或多个处理器耦接到所述非暂态计算机可读存储介质，其中所述非暂态计算机可读存储介质包括程序指令，所述程序指令在所述一个或多个处理器上执行时，使所述系统执行包括以下操作的操作：

基于环境的特性来选择听觉刺激；

向用户呈现所述听觉刺激；

18.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储能够在设备上执行以执行操作的程序指令，所述操作包括：

基于环境的特性来选择听觉刺激；

向用户呈现所述听觉刺激；

19.一种注意力状态评价的方法，所述方法包括：

在包括处理器的设备处：

在扩展现实(XR)环境的呈现期间呈现听觉刺激，所述听觉刺激与在3D坐标系中的虚拟位置相关联；

20.根据权利要求19所述的方法，其中所述听觉刺激是通过操纵由声音设备产生的声音以将所述声音虚拟地放置在三维(3D)空间中来产生的。

21.根据权利要求19或20所述的方法，其中所述听觉刺激是在所述虚拟位置处的离散声音。

22.根据权利要求19所述的方法，其中所述听觉刺激在一时间段内发生，并且与所述虚拟位置相关联的3D坐标在所述时间段期间保持静止。

23.根据权利要求19所述的方法，其中所述听觉刺激在一时间段内发生，并且与所述虚拟位置相关联的3D坐标在所述时间段期间改变。

24.根据权利要求19至23中任一项所述的方法，其中所述第一生理数据包括与所述用户相关联的脑电图(EEG)振幅数据。

25.根据权利要求19至24中任一项所述的方法，其中所述第一生理数据包括与所述用户相关联的瞳孔移动。

26.根据权利要求19至25中任一项所述的方法，其中获得与所述用户对所述听觉刺激的生理响应相关联的所述第一生理数据包括监测在所述听觉刺激的所述呈现之后的预定时间内发生的响应或缺乏响应。

27.根据权利要求19至26中任一项所述的方法，其中获得与所述用户对所述听觉刺激的生理响应相关联的所述第一生理数据包括确定可能的响应对应于在所述XR环境中的所述虚拟位置。

28.根据权利要求19至27中任一项所述的方法，其中使用统计的或基于机器学习的分类技术来评价所述注意力状态。

29.根据权利要求19至28中任一项所述的方法，还包括基于所述注意力状态来向所述用户提供通知。

30.根据权利要求19至29中任一项所述的方法，还包括识别所述内容的与所述注意力状态相关联的部分。

31.根据权利要求19至30中任一项所述的方法，还包括基于所述用户的所述注意力状态来定制所述内容。

32.根据权利要求19至31中任一项所述的方法，还包括聚合针对查看所述内容的多个用户确定的注意力状态以提供关于所述内容的反馈。

33.根据权利要求19至32中任一项所述的方法，其中所述设备是头戴式设备(HMD)，并且所述环境包括扩展现实(XR)环境。

34.一种设备，所述设备包括：

非暂态计算机可读存储介质；和

使用传感器获得具有所述用户对所述听觉刺激的生理响应的第一生理数据；以及

35.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储能够在设备上执行以执行操作的程序指令，所述操作包括：