CN112634459A

CN112634459A - 解析关于模拟现实布景的自然语言歧义

Info

Publication number: CN112634459A
Application number: CN202010944764.1A
Authority: CN
Inventors: N·曼朱纳斯; S·M·安德勒斯; 黄欣媛; W·W·卢西乌; J·H·拉塞尔
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-09-24
Filing date: 2020-09-10
Publication date: 2021-04-09
Also published as: WO2021061370A1; EP4034984A1; US11507183B2; US20230042836A1; US20210089124A1; KR20220034243A

Abstract

本公开涉及解析关于模拟现实布景的自然语言歧义。在示例性实施方案中，显示了具有一个或多个虚拟对象的模拟现实布景。根据所述模拟现实布景和注视数据流来生成注视事件流。在时间段内接收语音输入，并且基于所述语音输入的文本表示来确定域。基于所述时间段和所述注视事件流的多个事件时间来从所述注视事件流中识别一个或多个注视事件。所识别的一个或多个注视事件用于确定所述域的未解析参数的参数值。基于所述参数值来确定表示所述语音输入的用户意图的一组任务并执行所述一组任务。

Description

解析关于模拟现实布景的自然语言歧义

技术领域

本公开整体涉及自然语言理解，并且更具体地涉及用于解析关于模拟现实布景的自然语言歧义的技术。

发明内容

本公开描述了用于解析关于模拟现实布景的自然语言歧义的技术。在示例性技术中，在电子系统的显示器上显示具有一个或多个虚拟对象的模拟现实布景。基于来自所述电子系统的一个或多个图像传感器的图像数据，来确定关于所述模拟现实布景的注视数据流。基于所显示的模拟现实布景和所确定的注视数据流来生成注视事件流。所述注视事件流对应于多个事件时间和多个注视对象。所述多个注视对象包括所述一个或多个虚拟对象。在时间段内接收语音输入，并且基于所述语音输入的文本表示来确定域。基于所述时间段和所述多个事件时间来从所述注视事件流中识别一个或多个注视事件。所识别的一个或多个注视事件对应于所述域的未解析参数。基于所识别的一个或多个注视事件来确定所述未解析参数的参数值。基于所确定的参数值来确定表示所述语音输入的用户意图的一组任务。执行所述一组任务的至少一部分，包括在所述显示器上显示第二模拟现实布景。

对于提高在所述电子系统上操作的语音助理的准确性和可靠性，可能期望基于所述时间段和所述多个事件时间来识别所述一个或多个注视事件以及基于根据所识别的一个或多个注视事件确定的所述参数值来确定所述一组任务。具体地讲，所识别的一个或多个注视事件可以是用于准确解析所述域的所述参数的上下文信息的相关来源。然后可使用所准确解析的参数来确定更可能对应于用于提供所述语音输入的所述用户意图的所述一组任务。因此，增强了用户体验，这对应于在电子系统上操作的语音助理的改善的可操作性。

附图说明

图1A至图1B示出了用于包括虚拟现实和混合现实的各种计算机模拟现实技术的示例性系统。

图2示出了用于解析关于模拟现实布景的自然语言歧义的示例性系统。

图3A至图3C示出了在电子系统上显示的示例性模拟现实布景。

图4示出了注视事件和手势事件相对于语音输入的示例性时间线。

图5示出了用于解析关于模拟现实布景的自然语言参数的示例性过程的流程图。

具体实施方式

描述了用于与各种模拟现实技术相关地使用此类系统的电子系统和技术的各种示例。

在电子系统上操作的语音助理可用于执行来自用户的口头请求。具体地讲，语音助理可使得用户能够与由电子系统提供的模拟现实布景进行交互。例如，用户可调用语音助理并提供与模拟现实布景相关的口头请求。语音助理然后可解译口头请求，以确定用户希望执行的关于模拟现实布景的一个或多个对应任务。然而，由于用户说出的自然语言的固有性质，语音助理可遇到口头请求中的歧义表达。例如，语音助理可能难以解析映射到歧义表达的自然语言域的参数。这可能给语音助理呈现出有效且准确地确定对应于所提供的口头请求的任务的挑战。

本公开描述了用于解析关于模拟现实布景的自然语言歧义的技术。根据一些实施方案，在电子系统的显示器上显示具有一个或多个虚拟对象的模拟现实布景。在时间段内接收语音输入。所述语音输入包括例如用于使在所述电子系统上操作的语音助理执行一个或多个任务的口头请求。使用自然语言理解技术分析所述语音输入的文本表示以确定自然语言域。由于所述语音输入中的歧义表达，所述语音助理可能无法解析所述域的参数。基于来自所述电子系统的一个或多个图像传感器的图像数据，来确定关于所述模拟现实布景的注视数据流。基于所显示的模拟现实布景和所确定的注视数据流来生成注视事件流。所述注视事件流对应于多个事件时间和多个注视对象。所述多个注视对象包括所述一个或多个虚拟对象。所述注视事件流可用作用于解译所述语音输入中的所述歧义表达的相关上下文信息的来源。基于所述时间段和所述多个事件时间来从所述注视事件流中识别一个或多个注视事件。具体地讲，根据所述时间段和所述多个事件时间来确定所识别的一个或多个注视事件与所述域的所述未解析参数相关。基于所识别的一个或多个注视事件来确定所述未解析参数的参数值。基于所确定的参数值来确定表示所述语音输入的用户意图的一组任务。执行所述一组任务的至少一部分，包括在所述显示器上显示第二模拟现实布景。应当理解，通过生成所述注视事件流作为上下文信息来源，可以识别与所述未解析参数相关的一个或多个注视事件。所识别的一个或多个注视事件可用于更准确地解析所述参数并确定更准确地对应于用于提供所述语音输入的所述用户意图的所述一组任务。因此，改善了用户在模拟现实布景中对语音助理的体验。

物理布景是指无需电子系统帮助个体就能够感知和/或个体能够交互的世界。物理布景(例如，物理森林)包括物理元素(例如，物理树、物理结构和物理动物)。个体可直接与物理布景相互作用和/或感知物理布景，诸如通过触摸、视觉、嗅觉、听觉和味觉。

相比之下，模拟现实(SR)布景是指经由电子系统个体能够感知和/或个体能够交互的完全或部分由计算机创建的布景。在SR中，监测个体移动的子集，并且响应于该子集，以符合一个或多个物理定律的方式更改SR布景中的一个或多个虚拟对象的一个或多个属性。例如，SR系统可检测到个体向前走几步，并且响应于此，以类似于此类情景和声音在物理布景中会如何改变的方式来调节呈现给个体的图形和音频。也可响应于移动的表示(例如，音频指令)而进行对SR布景中一个或多个虚拟对象的一个或多个属性的修改。

个体可使用他的任何感觉(包括触觉、嗅觉、视觉、味觉和声音)与SR对象进行交互和/或感觉SR对象。例如，个体可与创建多维(例如，三维)或空间听觉布景和/或实现听觉透明性的听觉对象进行交互和/或感知听觉对象。多维或空间听觉布景为个体提供了在多维空间中对离散听觉源的感知。在具有或不具有计算机创建的音频的情况下，听觉透明性选择性地结合来自物理布景的声音。在一些SR布景中，个体可仅与听觉对象进行交互和/或仅感知听觉对象。

SR的一个示例是虚拟现实(VR)。VR布景是指被设计为仅包括针对至少一种感觉的计算机创建的感官输入的模拟布景。VR布景包括个体可与之交互和/或对其进行感知的多个虚拟对象。个体可通过在计算机创建的布景内模拟个体动作的子集和/或通过对个体或其在计算机创建的布景内的存在的模拟，来与VR布景中的虚拟对象进行交互和/或感知VR布景中的虚拟对象。

SR的另一个示例是混合现实(MR)。MR布景是指被设计为将计算机创建的感官输入(例如，虚拟对象)与来自物理布景的感官输入或其表示集成的模拟布景。在现实谱系上，MR布景介于一端的VR布景和另一端的整个物理布景之间并且不包括这些布景。

在一些MR布景中，计算机创建的感官输入可以适应于来自物理布景的感官输入的变化。另外，用于呈现MR布景的一些电子系统可以监测相对于物理布景的取向和/或位置，以使虚拟对象能够与真实对象(即来自物理布景的物理元素或其表示)交互。例如，系统可监测移动，使得虚拟植物相对于物理建筑物看起来是静止的。

MR的一个示例是增强现实(AR)。AR布景是指至少一个虚拟对象叠加在物理布景或其表示之上的模拟布景。例如，电子系统可具有不透明显示器和至少一个成像传感器，成像传感器用于捕获物理布景的图像或视频，这些图像或视频是物理布景的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上显示该组合。个体使用系统经由物理布景的图像或视频间接地查看物理布景，并且观察叠加在物理布景之上的虚拟对象。当系统使用一个或多个图像传感器捕获物理布景的图像，并且使用那些图像在不透明显示器上呈现AR布景时，所显示的图像被称为视频透传。另选地，用于显示AR布景的电子系统可具有透明或半透明显示器，个体可通过该显示器直接查看物理布景。该系统可在透明或半透明显示器上显示虚拟对象，使得个体使用该系统观察叠加在物理布景之上的虚拟对象。又如，系统可包括将虚拟对象投影到物理布景中的投影系统。虚拟对象可例如在物理表面上或作为全息图被投影，使得个体使用该系统观察叠加在物理布景之上的虚拟对象。

AR布景也可指其中物理布景的表示被计算机创建的感官信息改变的模拟布景。例如，物理布景的表示的一部分可被以图形方式改变(例如，放大)，使得所改变的部分仍可代表一个或多个初始捕获的图像但不是忠实再现的版本。又如，在提供视频透传时，系统可改变传感器图像中的至少一者以施加不同于一个或多个图像传感器捕获的视点的特定视点。再如，物理布景的表示可通过以图形方式将其部分进行模糊处理或消除其部分而被改变。

MR的另一个示例是增强虚拟(AV)。AV布景是指计算机创建布景或虚拟布景并入来自物理布景的至少一个感官输入的模拟布景。来自物理布景的一个或多个感官输入可为物理布景的至少一个特征的表示。例如，虚拟对象可呈现由一个或多个成像传感器捕获的物理元素的颜色。又如，虚拟对象可呈现出与物理布景中的实际天气条件相一致的特征，如经由天气相关的成像传感器和/或在线天气数据所识别的。在另一个示例中，AR森林可具有虚拟树木和结构，但动物可具有根据对物理动物拍摄的图像精确再现的特征。

许多电子系统使得个体能够与各种SR布景进行交互和/或感知各种SR布景。一个示例包括头戴式系统。头戴式系统可具有不透明显示器和一个或多个扬声器。另选地，头戴式系统可以被设计为接收外部显示器(例如，智能电话)。头戴式系统可具有分别用于拍摄物理布景的图像/视频和/或捕获物理布景的音频的一个或多个成像传感器和/或麦克风。头戴式系统也可具有透明或半透明显示器。透明或半透明显示器可结合基板，表示图像的光通过该基板被引导到个体的眼睛。显示器可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶，或这些技术的任意组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个示例中，透明或半透明显示器可在不透明状态与透明或半透明状态之间选择性地转换。又如，电子系统可以是基于投影的系统。基于投影的系统可使用视网膜投影将图像投影到个体的视网膜上。另选地，投影系统还可将虚拟对象投影到物理布景中(例如，投影到物理表面上或作为全息图)。SR系统的其他示例包括平视显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的镜片、耳机或耳塞、扬声器布置、输入机构(例如，具有或不具有触觉反馈的控制器)、平板电脑、智能电话，以及台式计算机或膝上型计算机。

图1A和图1B示出了在各种模拟现实技术中使用的示例性系统100。

在一些示例中，如图1A所示，系统100包括设备100a。设备100a包括各种部件，诸如处理器102、RF电路104、存储器106、图像传感器108、取向传感器110、麦克风112、位置传感器116、扬声器118、显示器120和触敏表面122。这些部件任选地通过设备100a的通信总线150进行通信。

在一些示例中，系统100的元件在基站设备(例如，计算设备，诸如远程服务器、移动设备或膝上型电脑)中实现，并且系统100的其他元件在第二设备(例如，头戴式设备)中实现。在一些示例中，设备100a在基站设备或第二设备中实现。

如图1B所示，在一些示例中，系统100包括两个(或更多个)通信中的设备，诸如通过有线连接或无线连接。例如，第一设备100b经由通信连接124(例如，使用RF电路104)与第二设备100c进行通信。第一设备100b(例如，基站设备)包括处理器102、RF电路104和个存储器106。这些部件可选地通过设备100b的通信总线150进行通信。第二设备100c(例如，头戴式设备)包括各种部件，诸如处理器102、RF电路104、存储器106、图像传感器108、取向传感器110、麦克风112、位置传感器116、扬声器118、显示器120和触敏表面122。这些部件可选地通过设备100c的通信总线150进行通信。

系统100包括处理器102和存储器106。处理器102包括一个或多个通用处理器、一个或多个图形处理器、和/或一个或多个数字信号处理器。在一些示例中，存储器106是存储计算机可读指令的一个或多个非暂态计算机可读存储介质(例如，闪存存储器，随机存取存储器)，所述计算机可读指令被配置为由处理器102执行以执行下述技术。

系统100包括RF电路104。RF电路104可选地包括用于与电子设备、网络(诸如互联网、内联网)和/或无线网络(诸如蜂窝网络和无线局域网(LAN))通信的电路。RF电路104可选地包括用于使用近场通信和/或短程通信(诸如

)进行通信的电路。

系统100包括显示器120。一个或多个显示器120可具有不透明显示器。一个或多个显示器120可具有透明或半透明显示器，该显示器可结合基板，表示图像的光通过该基板被引导到个体的眼睛。一个或多个显示器120可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶，或这些技术的任何组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个示例中，透明或半透明显示器可在不透明状态与透明或半透明状态之间选择性地转换。一个或多个显示器120的其他示例包括平视显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的镜片、平板电脑、智能电话以及台式计算机或膝上型计算机。另选地，系统100可以被设计为接收外部显示器(例如，智能电话)。在一些示例中，系统100是基于投影的系统，该系统使用视网膜投影将图像投影到个体的视网膜上或将虚拟对象投影到物理布景中(例如，投影到物理表面上或作为全息图)。

在一些示例中，系统100包括用于接收用户输入的触敏表面122，诸如轻击输入和轻扫输入。在一些示例中，显示器120和触敏表面122形成触敏显示器。

系统100包括图像传感器108。一个或多个图像传感器108任选地包括可操作以从物理布景获取物理元素的图像的一个或多个可见光图像传感器，诸如电荷耦合设备(CCD)传感器和/或互补金属氧化物半导体(CMOS)传感器。一个或多个图像传感器还任选地包括一个或多个红外(IR)传感器，诸如无源IR传感器或有源IR传感器，用于检测来自物理布景的红外光。例如，有源IR传感器包括IR发射器，诸如IR点发射器，用于将红外光发射到物理布景中。一个或多个图像传感器108还任选地包括一个或多个事件相机，该事件相机被配置为捕获物理布景中物理元素的移动。一个或多个图像传感器108还任选地包括一个或多个深度传感器，这些深度传感器被配置为检测物理元素与系统100的距离。在一些示例中，系统100组合使用CCD传感器、事件相机和深度传感器来检测系统100周围的物理布景。在一些示例中，系统100使用图像传感器108来接收用户输入，诸如手势。在一些示例中，系统100使用一个或多个图像传感器108来检测系统100和/或一个或多个显示器120在物理布景中的位置和取向。例如，系统100使用一个或多个图像传感器108来跟踪一个或多个显示器120相对于物理布景中的一个或多个固定元件的位置和取向。

在一些示例中，系统100包括麦克风112。系统100使用一个或多个麦克风112来检测来自用户和/或用户的物理布景的声音。在一些示例中，一个或多个麦克风112包括麦克风阵列(包括多个麦克风)，麦克风任选地协同操作，以标识环境噪声或在物理布景的空间中定位声源。

系统100包括用于检测系统100和/或显示器120的取向和/或移动的取向传感器110。例如，系统100使用一个或多个取向传感器110来跟踪系统100和/或一个或多个显示器120的位置和/或取向的变化，诸如相对于物理布景中的物理元素。取向传感器110可选地包括一个或多个陀螺仪和/或一个或多个加速度计。

图2示出了根据一些实施方案的用于解析关于SR布景的自然语言歧义的系统200。如图所示，系统200包括第一设备202、第二设备204和服务器系统206。第一设备202和第二设备204(例如，分别与设备100b和100c类似或相同)形成被配置为向用户提供SR体验的SR系统(例如，与系统100类似或相同)。服务器系统206包括被配置为支持处理和执行由第一设备202经由第二设备204接收的语音命令的一个或多个计算机服务器。图2中所示的各种部件(和子部件)在硬件(例如，一个或多个处理器或存储器)、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路)，或它们的组合中实现。尽管为了简单起见，第二设备204被示出为仅包括图像传感器214a至214b和麦克风216(例如，分别与图像传感器108和麦克风112类似或相同)，但应当认识到，第二设备204可包括其他传感器，包括系统100(图1)的各种传感器。

第二设备204被配置为提供面向用户的前端SR功能。例如，第二设备204被配置为在显示器212上显示SR布景并且接收表示用户与SR布景的交互的输入(例如，经由图像传感器214a至214b和麦克风216)。第一设备202经由通信连接208(例如，与连接124类似或相同)通信地耦接到第二设备204，并且被配置为提供支持第二设备204的后端SR功能。例如，第一设备202被配置为生成(例如，呈现)用于在第二设备204上显示的SR布景，并且响应于经由第二设备204的各种传感器接收的用户输入而连续更新该SR布景。在一个实施方案中，第二设备204是头戴式显示器，并且第一设备202是通信地拴系到第二设备204的基站设备。虽然在本实施方案中，在第一设备202和第二设备204的部件之间划分各种SR功能，但是应当认识到，在其他实施方案中，第一设备202和第二设备204的各种SR功能和部件可组合到单个用户设备中(例如，与设备100a类似)。例如，系统200可另选地用与服务器系统206进行通信的单个用户设备来实现。

在操作期间，显示器212显示具有一个或多个虚拟对象的SR布景(例如，MR或VR布景)。SR布景由第一设备202的现实引擎218生成。例如，基于从第二设备204的传感器(例如，经由通信连接208)获得的各种传感器数据(例如，图像、位置和取向数据)，现实引擎218呈现用于在显示器212上显示的SR布景。图像传感器214a至214b包括指向用户(例如，用于注视追踪)的一个或多个第一图像传感器214a和背离用户的一个或多个第二图像传感器(例如，用于捕获物理布景的图像数据)。现实引擎218例如基于来源于经由第二设备204的一个或多个第一图像传感器214a接收的图像数据(例如，用户眼睛的图像数据)的注视数据来呈现SR布景。在SR布景是MR布景的实施方案中，现实引擎218从第二设备204的一个或多个第二图像传感器214b获得表示用户视场内的物理布景的图像数据。在这些实施方案中，现实引擎218呈现一个或多个虚拟对象，使得这些虚拟对象看起来叠加在物理布景或其表示上。在显示器212是不透明显示器的实施方案中，由现实引擎218生成的MR布景包括物理布景的表示。

图3A至图3C示出了根据一些实施方案的在显示器212上显示的示例性模拟现实布景。下文描述图3A至图3C以示出用于解析关于模拟现实布景的自然语言歧义的示例性系统和技术。参考图3A，根据一些实施方案，SR布景300是由现实引擎218生成并在显示器212上显示的示例性SR布景。在该示例中，SR布景300是具有叠加在物理布景306的视图上的虚拟对象302和304的AR布景。物理布景306包括具有若干物理对象308至318(包括与会人员、膝上型电脑、杯子和文档)的会议室。虚拟对象302和304是在第一设备202上运行的应用程序226的图形用户界面。具体地讲，虚拟对象302是用于天气应用程序的图形用户界面，并且虚拟对象304是用于电子邮件应用程序的图形用户界面。应当理解，在显示器212是不透明显示器的示例中，SR布景可以包括根据从一个或多个第二图像传感器214b获得的图像数据生成的物理布景306(例如，视频透传)的表示。此外，在SR布景是VR布景的示例中，SR布景中可不包括物理布景(或其表示)。

在一些实施方案中，现实引擎218被配置为追踪SR布景300中的对象(例如，虚拟对象和物理对象)。例如，现实引擎218在任何给定时间点保持用户视场中的虚拟对象和物理对象的日志。SR布景300中的每个对象例如被分配唯一的对象标识以记录和追踪用户视场中的对象。在一些实施方案中，现实引擎218确定SR布景300中的每个对象的属性标签。指定相应对象的各种属性的属性标签与相应对象标识相关联地存储。属性标签指定例如在语义上与相应对象相关的关键字、相应对象在SR布景300中显示的位置和/或可操纵相应对象的方式。

以举例的方式，现实引擎218可将对象标识“WeatherAppUI01”分配给虚拟对象302并存储与该对象标识相关联的对应属性标签。属性标签指定例如在语义上与虚拟对象302相关的关键字(例如，“图形用户界面”、“天气”和“应用程序”)、其在SR布景300中的位置的坐标，以及表示可如何操纵虚拟对象302的关键字(例如，“关闭”、“调整尺寸”、“位置”和“时间”)。在一些实施方案中，现实引擎218包括预定义虚拟对象的库。该库包括例如与每个预定义虚拟对象相关联的对象标识、属性和关键字。在这些实施方案中，通过从库中搜索和检索所显示的虚拟对象的相关联关键字和属性来确定这些虚拟对象的属性标签。

对于SR布景300中的物理对象，从一个或多个第二图像传感器214b获得物理布景306的图像数据，以识别物理对象并确定这些物理对象的对应属性标签。例如，计算机视觉模块220(经由连接208)从一个或多个第二图像传感器214b获得物理布景306的图像数据，并且执行图案识别以识别物理对象308至318。如上所述，对应属性标签与由现实引擎218分配给物理对象308至318中的每个物理对象的唯一物理对象标识相关联地存储。属性标签指定例如由计算机视觉模块220使用图案识别确定的相应物理对象的分类(例如，人、膝上型电脑、杯子、文档等)。此外，属性标签可包括相应物理对象的其他属性(例如，在语义上相关的关键字、相关联的动作等)。以举例的方式，现实引擎218为物理对象308分配对象标识“physicalobject01”，并存储指定由计算机视觉模块220确定的物理对象308(例如，“膝上型电脑”)的分类的属性标签、表示物理对象308在SR布景300中的位置的坐标、在语义上与物理对象308相关的关键字(例如，“计算机”、“设备”、“电子”等)，以及可相对于物理对象308执行的相关联的动作(例如，互联网搜索)。

注视追踪器222(经由连接208)从一个或多个第一图像传感器214a获得图像数据，并且根据这些图像数据确定关于SR布景的随时间推移而变化的注视数据流。图像数据包括例如随时间推移而变化的用户眼睛的图像。注视数据流包括各种信息，诸如注视方向和目光停留位置，表示用户在任何给定时间注视的关于SR布景的位置。例如，基于所获得的用户眼睛的图像，注视追踪器222确定用户的注视方向并确定表示SR布景300中用户在任何给定时间使其目光停留的点的坐标。

基于在显示器212上显示的SR布景300和所确定的注视数据流，注视事件生成器224生成对应于SR布景300中的相应事件时间和相应注视对象的注视事件流。注视对象包括SR布景300和/或物理布景306中的虚拟对象和/或物理对象。例如，注视事件生成器224分析关于SR布景300的注视数据流，并且确定在任何给定时间用户目光停留在SR布景300中的哪个对象(例如，虚拟对象或物理对象)上。因此，注视事件流中的每个注视事件在相应的事件时间发生，并且表示在对相应注视对象上的用户目光停留。

在一些实施方案中，注视事件流存储在第一设备202的存储器(例如，存储器106)中。例如，注视事件流存储在圆形缓冲器中。在该示例中，最早的注视事件被最近的注视事件覆盖。这可能是限制存储在第一设备202上的个人信息的量所期望的。在一些实施方案中，为每个注视事件分配唯一的注视事件标识，并且与注视事件相关联的信息与注视事件标识相关联地存储。注视事件的存储信息包括例如注视对象的标识、用户开始将其目光停留在注视对象上的时间、用户停止将其目光停留在注视对象上的时间、用户不断将其目光停留在注视对象上的持续时间或它们的任何组合。在一些示例中，对应于注视事件流的注视对象是SR布景300和物理布景306中的所有对象的子组。例如，注视事件流表示在SR布景300和物理布景306中的少于所有对象上的用户目光停留。

在一些实施方案中，注视事件生成器224仅识别并存储满足注视持续时间阈值条件的注视事件。例如，注视事件生成器224根据注视数据流确定用户的目光是不断停留在SR布景300还是物理布景306中的特定对象上，持续时间大于或等于阈值持续时间(例如，1秒、3秒或5秒)。如果在对象上的用户目光停留大于或等于阈值持续时间，则注视事件生成器224生成表示在注视对象上的用户目光停留的注视事件，并将该注视事件存储为注视事件流中的注视事件序列中的一个注视事件。

在一些实施方案中，当SR布景300正在显示器212上显示时，第二设备的麦克风216在时间段内接收语音输入。语音包括例如执行与SR布景300相关的一组任务的口头请求。在一些示例中，语音输入包括歧义表达，诸如指示表达。例如，语音输入是“关闭这个”，其中“这个”是歧义表达，因为可能不清楚用户所指的是SR布景或物理布景中的哪个对象。在另一个示例中，语音输入是“那个膝上型电脑是什么型号的”，其中“那个膝上型电脑”是歧义表达，因为可能不清楚用户所指的是SR布景或物理布景中的哪个膝上型电脑。

语音助理客户端模块230经由连接208从第二设备204接收语音输入(例如，以音频数据流的形式)，并且经由连接210将该语音输入提供到服务器系统206的语音助理服务器模块232以用于进一步处理。连接210是例如在第一设备202的RF电路(例如，RF电路104)和服务器系统206的网络通信接口之间建立的无线和/或有线通信连接(例如，网络连接)。语音助理客户端模块230被配置为提供语音助理的面向用户的前端功能，而语音助理服务器模块232被配置为提供语音助理的后端功能。虽然在本实施方案中，在第一设备202和服务器系统206的部件之间划分语音助理的功能，但应当认识到，在其他实施方案中，这些功能可在单个用户设备上实现。例如，语音助理服务器模块232的部件可替代地在第一设备202上本地实现。

在本实施方案中，语音助理服务器模块232经由连接210从语音助理客户端模块230接收语音输入。接收语音输入使得语音助理服务器模块232使用语音识别模块234执行语音到文本的转换。例如，语音识别模块234从语音输入中提取特征，并且使用声音模型和语言模型确定最可能对应于该语音输入的文本表示。文本表示是例如表示字词序列的符号序列。

自然语言理解模块236从语音识别模块234接收文本表示，并且对该文本表示执行自然语言处理以确定对应于该文本表示的域(例如，自然语言域或本体的域)。例如，自然语言理解模块236包括本体，并且使用该本体来确定域。

本体是例如具有节点分级结构的数据结构。本体中的每个节点表示多个域中的相应域。本体的每个域对应于一类概念并表示语音助理能够执行的在语义上相关的任务。以举例的方式，本体包括对应于与执行搜索(例如，互联网搜索)相关的概念并表示执行搜索查询的任务的“搜索”域。又如，本体包括对应于与在第一设备202上运行的应用程序相关的概念并表示与该应用程序相关联的各种任务的“应用程序”域。在一些示例中，“应用程序”域可包括对应于该“应用程序”域内的子概念的各种子域。例如，“应用程序”域可包括表示关闭在第一设备202上运行的应用程序的当前显示的图形用户界面的任务的“关闭应用程序”子域。

自然语言理解模块236解析文本表示中的字词和短语，并且确定多个域中的哪个域在语义上与该文本表示的字词和短语最相关。因此，在语义上最相关的域被选择为对应于该文本表示。在语音输入是“关闭它”的示例中，自然语言理解模块236可基于字词“关闭”来确定该语音输入的文本表示在语义上与“关闭应用程序”子域最相关。因此，在该示例中，选择“关闭应用程序”子域。在语音输入是“那个膝上型电脑是什么型号的”的示例中，自然语言理解模块236可基于字词(例如，“什么”)来确定该语音输入的文本表示在语义上与“搜索”域最相关。

每个域(或子域)包括表示相应概念的一个或多个属性的一个或多个相关联的参数。例如，“搜索”域包括表示形成搜索查询基础的一个或多个对象(例如，图像文件、文本串或音频文件)的“搜索对象”参数。类似地，“关闭应用程序”子域包括表示要关闭的图形用户界面对象的“对象”参数。

参数解析模块238被配置为解析由自然语言理解模块236选择的域的一个或多个参数。在一些实施方案中，参数解析模块238利用由自然语言理解模块236执行的文本表示的语义解析信息来尝试解析所选择域的一个或多个参数。例如，基于文本表示中的字词和短语的语义解译，参数解析模块238将文本表示中的一个或多个字词或短语映射到所选择域的一个或多个相应参数。

在一些实施方案中，参数解析模块238还使用第一设备202和/或第二设备204的上下文信息来解析所选择域的一个或多个参数。在一些实施方案中，由参数解析模块238获得的上下文信息包括SR布景300和/或物理布景306中的对象的上下文信息。例如，参数解析模块238从现实引擎218获得在SR布景300和物理布景306中识别的虚拟对象和物理对象的属性标签，并根据这些属性标签确定任何对象是在语义上与所确定的域相关(例如，语义匹配分数满足阈值条件)还是与所确定的域的一个或多个参数相关。如果SR布景300或物理布景306中的对象被确定为在语义上与所确定的域的一个或多个参数的所确定的域相关，则该对象可用于解析该一个或多个参数。在一些实施方案中，分析SR布景300中的对象的上下文信息以解析所选择域的一个或多个参数由语音助理客户端模块230在第一设备202处执行。例如，语音助理客户端模块230可实现参数解析模块238的一些功能，并且利用SR布景300和/或物理布景306中的对象的上下文信息来解析所选择域的一个或多个参数。这样，该对象的上下文信息保持在第一设备202上，这可能是保护用户隐私所期望的。

在语音输入是“关闭天气应用程序”的例示性示例中，自然语言理解模块236确定对应于该语音输入的文本表示的域是“关闭应用程序”子域。在该示例中，参数解析模块238根据语音输入的文本表示确定该语音输入中的短语“天气应用程序”对应于“关闭应用程序”子域的“对象”参数。此外，参数解析模块238分析SR布景300和/或物理布景306中的对象(例如，虚拟对象302至304和物理对象308至318)的属性标签，并确定任何对象是否在语义上与短语“天气应用程序”相关(例如，语义匹配分数满足阈值条件)。在该示例中，参数解析模块238确定仅SR布景300中的虚拟对象302在语义上与短语“天气应用程序”相关。该确定基于虚拟对象302的属性标签，该属性标签指定在语义上与短语“天气应用程序”相关的关键字(例如，“天气”和“应用程序”)。在该示例中，基于语音输入的文本表示和SR布景300的上下文信息，参数解析模块238能够将“关闭应用程序”子域的“对象”参数解析为对应于虚拟对象302。

在语音输入是“那个膝上型电脑是什么型号的”的另一个例示性示例中，自然语言理解模块236确定对应于该语音输入的文本表示的域是“搜索”域。在该示例中，参数解析模块238根据语音输入的文本表示确定字词“型号”、“膝上型电脑”和“那个”对应于“搜索对象”参数。在一些情况下，基于在显示器212上显示的SR布景300，参数解析模块238推断语音输入中的字词“那个”是参考SR布景300中的对象的歧义表达(例如，指示表达)。为了解决该歧义，参数解析模块238分析SR布景300和物理布景306中的对象(例如，虚拟对象302至304和物理对象308至318)的属性标签，并确定任何对象是否在语义上与字词“型号”或“膝上型电脑”相关。在该示例中，参数解析模块238确定仅SR布景300中的物理对象308在语义上与字词“型号”“膝上型电脑”相关。基于该确定，参数解析模块238能够完全解析“搜索”域的“搜索对象”参数。具体地讲，参数解析模块238确定语音输入中的字词“那个”是指物理对象308，因此“搜索对象”参数被解析为包括物理对象308的图像以及文本搜索字符串“模型”和“膝上型电脑”。

在一些情况下，参数解析模块238可能无法仅使用语音输入的文本表示和从现实引擎218获得的关于SR布景300和/或物理布景306中的对象(例如，对象的属性标签)的信息来解析所选择域的至少一个参数。例如，返回到语音输入“关闭它”并且对应域是“关闭应用程序”子域的示例，参数解析模块238可能无法基于该语音输入的文本表示和从现实引擎218获得的关于SR布景300中的对象的信息(例如，对象的属性标签)来解析“关闭应用程序”子域的“对象”参数。具体地讲，尽管参数解析模块238能够确定语音输入中的字词“它”在语义上与“对象”参数相关，但由于字词“它”的歧义性质，参数解析模块238无法确定用户正在参考哪个特定对象(例如，要关闭哪个图形用户界面对象)。此外，在分析SR布景300和物理布景306中的对象的属性标签时，参数解析模块238识别SR布景300中可对应于“关闭应用程序”子域的“对象”参数的多于一个对象。例如，基于在虚拟对象302和304的属性标签中指定的关键字“图形用户界面”、“应用程序”和“关闭”，参数解析模块238确定虚拟对象302和304两者在语义上与“关闭应用程序”子域相关，并且可各自潜在地对应于“关闭应用程序”子域的“对象”参数。因此，在该示例中，参数解析模块238无法仅使用语音输入的文本表示和SR布景300中的对象的属性标签将“关闭应用程序”子域的“对象”参数完全解析为SR布景300中的一个特定对象。

在一些实施方案中，参数解析模块238从第一设备202获取附加上下文信息，以解析仅使用语音输入的文本表示和SR布景300中的对象的属性标签不能解析的参数。例如，响应于确定“关闭应用程序”子域的“对象”参数最初不能被解析，参数解析模块238访问用户注视信息以尝试解析“对象”参数，并确定虚拟对象302和304中的哪一个虚拟对象对应于未解析的“对象”参数。在一些实施方案中，参数解析模块238被配置为搜索由注视事件生成器224生成的注视事件流(例如，存储在第一设备202的圆形缓冲器中的注视事件)，并识别对应于未解析的“对象”参数的一个或多个注视事件。注视事件流可由服务器系统206从第一设备202获得以执行搜索。另选地，搜索可由第一设备202上的语音助理客户端模块230发起。在一些实施方案中，参数解析模块238应用一个或多个标准来识别注视事件流中与解析“对象”参数相关的一个或多个注视事件。如下文参考图4更详细所述，一个或多个标准可基于注视事件与语音输入的时间相关性。

图4示出了根据一些实施方案的注视事件404和手势事件406相对于语音输入402的时间线400。如图所示，注视事件404的流包括在沿时间线400的相应时间发生的注视事件E1至E7的序列。跨时间段408接收语音输入403(“关闭这个”)。在该示例中，参数解析模块238识别注视事件404的流中与时间段408在时间上对齐的一个或多个注视事件。例如，参数解析模块238确定注视事件E4和E5在与时间段408重合的事件时间发生。基于该确定，注视事件E4和E5被识别为用于解析“对象”参数的相关上下文信息。

在一些实施方案中，识别一个或多个相关注视事件包括识别注视事件404的流中的内聚组注视事件，其中将内聚组注视事件中的连续注视事件分开的时间间隔各自满足阈值条件。例如，参数解析模块238确定将注视事件E3至E6中的连续注视事件分开的时间间隔410、412和414各自小于或等于预先确定的阈值时间间隔。基于该确定，参数解析模块238将注视事件E3至E6识别为与语音输入402的时间段408重合的内聚组注视事件。因此，在该示例中，注视事件E3至E6被识别为用于解析“对象”参数的相关上下文信息。

在一些实施方案中，基于一个或多个相关注视事件与语音输入402的时间段408的时间接近度来识别该一个或多个相关注视事件。例如，至少部分地与时间段408重叠以及/或者在时间段408之前或之后的阈值时间间隔内发生的注视事件可被识别为用于解析“对象”参数的相关上下文信息。

在一些实施方案中，基于说出对应于“对象”参数的歧义表达的参考时间来识别一个或多个相关注视事件。例如，如图4所示，语音输入402中的歧义字词“这个”是在时间T₀说出的。在一些示例中，时间T₀由语音识别模块234确定。在本示例中，参数解析模块236可将参考时间设置在时间T₀。应当认识到，在其他示例中，可通过将预定义偏移应用于时间T₀来将参考时间设置在不同于时间T₀的时间。参数解析模块236基于参考时间来限定时间段416(例如，使用一个或多个预定义规则)。例如，时间段416被限定为在参考时间之前的预定义时间间隔处开始并且在参考时间之后的预定义时间间隔处结束。在该示例中，参数解析模块238基于时间段416识别一个或多个相关注视事件。具体地讲，参数解析模块238确定注视事件E4、E5和E6在时间段416内发生，从而推断这些注视事件包含用于解析“对象”参数的相关上下文信息。

在一些实施方案中，基于与每个注视事件相关联的目光停留的持续时间来识别一个或多个相关注视事件。例如，只有在其中用户的目光在相应注视对象上停留大于阈值持续时间的注视事件被识别为用于解析“对象”参数的相关上下文信息。以举例的方式，如果注视事件E4具有小于阈值持续时间的目光停留持续时间，则注视事件E4不被识别为用于解析“对象”参数的相关上下文信息。

在一些实施方案中，使用机器学习模型来确定一个或多个相关注视事件。机器学习模型例如在注视事件生成器224或参数解析模块238中实现。机器学习模型被配置为接收语音输入402的文本表示和注视事件404的流(例如，包括相应事件时间和注视对象)作为输入，并且输出跨注视事件404的流的概率分布。例如，机器学习模型针对每个注视事件E1至E7确定注视事件与解析“对象”参数相关的可能性。基于该概率分布，从注视事件404的流中选择一个或多个相关的注视事件。例如，具有最高可能性得分的前N个注视事件可被选择作为用于解析“对象”参数的相关上下文信息，其中N是预定义的正整数。

应当认识到，可通过应用上述标准的任何组合来识别一个或多个相关注视事件。例如，被确定为满足所实现的标准组合的注视事件被识别为用于解析未解析参数的相关上下文信息，而被确定为不满足所实现的标准组合的注视事件不被识别为用于解析未解析参数的相关上下文信息。

使用所识别的一个或多个相关注视事件，参数解析模块238可以完全解析未解析的“对象”参数。如上所述，基于SR布景300中的对象的文本表示和属性标签，参数解析模块238仅能够将“对象”参数解析为两个可能的值：虚拟对象302或虚拟对象304。在本示例中，如果注视事件E4和E5从注视事件404的流中被识别为用于解析“对象”参数的相关上下文信息(例如，通过应用上述标准中的一个或多个)，则注视事件E4和E5用于在虚拟对象302和304之间进行选择以完全解析“对象”参数。以举例的方式，如果注视事件E4对应于在物理对象314上的用户目光停留，并且注视事件E5对应于在虚拟对象304上的用户目光停留，则通过将注视事件E4和E5与注视事件E4和E5的相应注视对象进行比较来选择虚拟对象302和304中的一者。具体地讲，参数解析模块238确定虚拟对象304对应于E5的注视对象，而虚拟对象302不对应于E4和E5的注视对象中的任一个注视对象。基于该确定，参数解析模块238将“对象”参数解析为对应于虚拟对象304。例如，参数解析模块238通过将虚拟对象304的对象标识包括为“对象”参数的参数值来解析“对象”参数。

在一些实施方案中，参数解析模块236利用手势事件作为上下文信息的附加来源来解析所选择域的未解析参数。如图2所示，第一设备202还包括手势处理模块227，该手势处理模块被配置为处理(例如，结合计算机视觉模块220)来自第二图像传感器214b的图像数据以检测对应于用户的手势输入的手势事件。以举例的方式，在图3B中，用户提供手势输入320以与SR布景300和/或物理布景306进行交互。手势输入320被第二图像传感器214b捕获为图像数据，并且该图像数据由计算机视觉模块220和手势处理模块227处理以识别对应手势事件。具体地讲，手势处理模块227被配置为基于该图像数据来确定手势输入320在SR布景300或物理布景306中指向哪个对象。在本示例中，手势处理模块227根据该图像数据来确定手势输入320指向虚拟对象304。基于该确定，该手势事件被指示为指向虚拟对象304。手势事件还指示检测到手势输入的时间。

手势处理模块227随时间推移检测并存储检测到的手势事件。例如，参考图4，时间线400包括手势处理模块227随时间推移检测到的手势事件406。每个手势事件发生在相应时间(例如，检测到对应手势输入的时间)并且指向相应对象。在该示例中，手势事件G1对应于手势输入320并且指向虚拟对象304。例如，手势事件G2对应于不同的手势输入，并且指向物理对象308。在一些实施方案中，参数解析模块236(结合语音助理客户端模块230)搜索存储在手势处理模块227中的手势事件，并识别用于解析未解析参数的一个或多个相关手势事件。例如，在本示例中，参数解析模块236可确定手势事件G1和/或G2是否与解析“对象”参数相关。

在一些实施方案中，使用如上所述的用于识别一个或多个相关注视事件的类似技术来识别一个或多个相关手势事件。例如，基于比较语音输入402的时间段408内每个手势事件发生的时间，识别一个或多个相关手势事件。在本示例中，基于在语音输入402中说出歧义表达“这个”的时间T₀来确定第二参考时间。具体地讲，通过将偏移C应用于T₀来确定第二参考时间。因此，第二参考时间为(T₀-C)。将第二参考时间偏移到比时间T₀更早可适用于手势事件，因为手势参考(例如，指向或选择对象)更可能在口头参考(例如，“这个”)之前发生。然后基于第二参考时间(例如，使用一个或多个预定义规则)来限定时间段418。例如，类似于时间段416，时间段418被限定为在第二参考时间之前的预定义第二时间间隔处开始并且在第二参考时间之后的预定义第二时间间隔处结束。在本示例中，手势事件G1(而不是手势事件G2)被确定为至少部分地在时间段418内发生。基于该确定，参数解析模块238将手势事件G1(而不是手势事件G2)识别为与解析“对象”参数相关。参数解析模块238然后使用手势事件G1来解析“对象”参数。例如，基于手势事件G1指向虚拟对象304，参数解析模块238确定“对象”参数对应于虚拟对象304。具体地讲，参数解析模块238确定“关闭应用程序”子域的“对象”参数的参数值(例如，虚拟对象304的对象标识)。

尽管在上述示例中，在最初尝试使用SR布景中的对象的属性标签解析参数之后，使用相关注视事件和手势事件来进一步解析所选择域的一个或多个参数，但是应当认识到，可以任何顺序应用上下文信息来解析该一个或多个参数。例如，在确定对应于语音输入“关闭这个”的域是“关闭应用程序”子域之后，参数解析模块238最初可利用相关注视事件来尝试解析“关闭应用程序”子域的“对象”参数。如果基于所识别的相关注视事件，SR布景300中的多于一个可能的对象被识别为对应于“对象”参数，则可使用其他上下文信息来进一步解析该“对象”参数。例如，SR布景300中的对象的属性标签和/或相关手势事件可用于将多于一个可能的对象进一步缩小到单个对象。

还应当理解，可使用其他上下文信息来解析域的一个或多个参数。例如，与先前显示的SR布景相关联的先前用户输入(例如，语音输入、手势输入等)可用于解析域的一个或多个参数。

此外，应当认识到，在一些实施方案中，上述上下文信息(例如，对象的属性标签、注视事件和/或手势事件)可用于(例如，通过自然语言理解模块236)确定对应于语音输入的文本表示的域。例如，上下文信息可用于识别关于SR布景的相关语义概念，并确定对应于那些所识别的相关语义概念的域。

在解析“关闭应用程序”域的“对象”参数时，自然语言理解模块236确定语音输入的用户意图是关闭电子邮件应用程序的图形用户界面(例如，虚拟对象304)。基于从自然语言理解模块236获得的所确定的用户意图的表示，任务处理模块确定表示关闭电子邮件应用程序的图形用户界面的用户意图的一组任务。该一组任务是例如用于系统200以执行关闭电子邮件应用程序的图形用户界面的动作的一组编程指令。该一组任务根据“对象”参数的参数值(例如，虚拟对象304的对象标识)确定。例如，该组编程指令将虚拟对象304的对象标识指定为要关闭的图形用户界面。

任务处理模块240使得系统200的一个或多个部件执行所确定的一组任务。在一些示例中，任务处理模块240使得服务器系统206执行该一组任务的一部分，并且使得第一设备202和/或第二设备204执行该一组任务的剩余部分。在本示例中，任务处理模块240将该一组任务的至少一部分发送到第一设备202以用于执行。由第一设备202执行该一组任务的至少一部分包括例如使得电子邮件应用程序226改变状态(例如，关闭电子邮件应用程序的图形用户界面)并使得现实引擎218更新SR布景。例如，参考图3C，现实引擎218生成省略虚拟对象304的更新的SR布景322，并使得更新的SR布景322在显示器212上显示。

现在转到图5，示出了根据一些实施方案的用于解析关于SR布景的自然语言参数的过程500的流程图。过程500由电子系统(例如，系统100或200)执行。在一些实施方案中，使用一个或多个用户设备来执行过程500。例如，使用独立用户设备(例如，设备100a)来执行过程。另选地，在两个或更多个用户设备(例如，设备100b和100c)之间以任何方式划分过程500的框。在一些实施方案中，使用一个或多个客户端设备(例如，设备202和204)和服务器系统(例如，206)来执行过程500。在这些实施方案中，在客户端设备和服务器之间以任何方式划分过程500的框。尽管在图5中以特定顺序示出了过程500的框，但是应当理解，可以任何顺序执行这些框。此外，过程500的一个或多个框可以是任选的和/或可以执行附加框。

在框502处，在显示器(例如，显示器212)上显示具有一个或多个虚拟对象(例如，虚拟对象302和304)的SR布景(例如，SR布景300)。在一些实施方案中，基于从各种传感器(例如，图像传感器214a至214b、位置传感器116和取向传感器110)获得的传感器数据来生成SR布景(例如，使用现实引擎218)。在一些实施方案中，一个或多个虚拟对象包括用于在电子系统上运行的应用程序(例如，应用程序226)的图形用户界面(例如，虚拟对象302或304)。

在框504处，识别用户视场中的多个对象(例如，使用现实引擎218和/或计算机视觉模块220)。例如，识别并追踪所显示的SR布景中的每个对象。该多个对象包括SR布景的一个或多个虚拟对象。在一些实施方案中，该多个对象包括用户视场内的物理布景(例如，物理布景306)中的一个或多个物理对象(例如，物理对象308至318)。在一些实施方案中，基于物理布景的图像数据来识别物理对象。例如，从指向物理布景的一个或多个第二图像传感器(例如，第二图像传感器214b)获得物理布景的图像数据。使用图案识别技术分析所获得的物理布景的图像数据以识别该一个或多个物理对象。

在框506处，确定多个对象的多个属性标签(例如，使用现实引擎218和/或计算机视觉模块220)。多个属性标签中的每个属性标签指定多个对象中相应对象的一个或多个属性。在多个对象包括一个或多个物理对象的实施方案中，多个属性标签包括基于来自一个或多个第二图像传感器的图像数据为一个或多个物理对象确定的属性标签。

在框508处，基于从一个或多个第一图像传感器(例如，第一图像传感器214a)获得的图像数据，确定(例如，使用注视追踪器222)关于SR布景的注视数据流。注视数据流包括各种信息，诸如注视方向和目光停留位置，表示用户在任何给定时间注视的关于SR布景的位置。

在框510处，基于所显示的SR布景和所确定的注视数据流，来生成(例如，使用注视事件生成器224)注视事件(例如，注视事件404)流。注视事件流对应于多个事件时间和多个注视的对象。例如，注视事件流中的每个注视事件在多个事件时间中的相应事件时间发生，并且表示在多个注视对象中的相应注视对象上的用户目光停留。在一些实施方案中，多个注视对象是在框504处识别的多个对象的子集。在一些实施方案中，多个注视对象包括SR布景中的一个或多个虚拟对象。在一些实施方案中，多个注视对象包括物理布景中的一个或多个物理对象。

在一些实施方案中，生成注视事件流包括确定多个注视对象上的目光停留的相应持续时间。每个注视事件包括例如用户的目光不断停留在相应注视对象上的所确定的持续时间。在一些实施方案中，基于确定在相应注视对象上的用户目光停留的持续时间满足阈值持续时间来从注视数据流中识别注视事件流中的每个注视事件。

在框512处，在时间段(例如，时间段408)内接收语音输入(例如，语音输入402)(例如，通过语音助理客户端模块230经由麦克风216和连接208)。在一些示例中，以音频数据的形式接收语音输入。语音输入表示例如使电子系统的语音助理执行一个或多个任务的口头请求。在一些示例中，语音输入包括歧义表达(例如，指示表达)。

在框514处，过程500使得基于语音输入的文本表示来确定域(例如，自然语言域或本体的域)。例如，确定语音输入的文本表示(例如，使用语音识别模块234)。在一些示例中，文本表示包括指示表达(例如，“这个”、“那个”、“这里”等)。基于文本表示，从多个预定义域中选择对应于该语音输入的域(例如，使用自然语言理解模块236)。

在框516处，基于语音输入的时间段和对应于注视事件流的多个事件时间，识别注视事件流中的一个或多个注视事件(例如，通过语音助理客户端模块230和/或参数解析模块238)。所识别的一个或多个注视事件对应于所述域的未解析参数。在一些实施方案中，框516包括搜索注视事件流以识别与解析域的未解析参数相关的一个或多个注视事件。在一些实施方案中，响应于确定域的参数不能被解析而执行框516。

在一些实施方案中，基于分析域与多个对象的多个属性标签中的每个属性标签之间的语义关系来识别一个或多个注视事件(框504和506)。例如，在框516处识别的每个注视事件对应于具有被确定为在语义上与域相关的属性标签的相应对象。

在一些实施方案中，基于多个注视对象上的目光停留的相应持续时间来识别一个或多个注视事件。例如，在框516处识别的每个注视事件具有满足阈值条件(例如，大于或等于阈值持续时间)的目光停留(例如，在相应注视的对象上)的持续时间。

在一些实施方案中，基于与语音输入的时间段的时间接近度来识别一个或多个注视事件。例如，基于注视事件流的多个时间事件来确定一个或多个注视事件相对于该注视事件流中的其他注视事件最靠近该时间段发生。因此，基于该确定来识别一个或多个注视事件。在一些实施方案中，基于至少部分地在语音输入的时间段内发生的一个或多个注视事件来识别一个或多个注视事件。

在一些实施方案中，基于说出语音输入中的歧义表达的参考时间来确定一个或多个注视事件。在这些实施方案中，框516包括确定歧义表达对应于未解析参数，并且确定说出歧义表达的参考时间。基于确定一个或多个注视事件各自在距参考时间的阈值时间间隔内发生来识别该一个或多个注视事件。

在一些实施方案中，基于注视事件流中连续注视事件之间的时间间隔来确定一个或多个注视事件。例如，该一个或多个注视事件包括第一注视事件和第二注视事件。第一注视事件和第二注视事件是注视事件流中的连续事件。在该示例中，基于确定将第一注视事件和第二注视分开的时间间隔满足阈值条件(例如，小于或等于阈值时间间隔)来识别一个或多个注视事件。

在一些实施方案中，使用机器学习模型来确定一个或多个注视事件。机器学习模型例如被配置为接收文本表示和注视事件流作为输入，并且输出跨注视事件流的概率分布。该概率分布表示注视事件流中的给定注视事件对应于未解析参数的可能性。在一些实施方案中，机器学习模型被进一步配置为接收注视事件流中的每个注视事件的时间信息作为输入。

在框518处，基于第二图像数据检测一个或多个手势事件(例如，手势事件406)(例如，使用手势处理模块227)。例如，从一个或多个第二图像传感器(例如，第二图像传感器214b)获得第二图像数据。第二图像数据包括由用户进行的一个或多个手势输入的表示。基于所获得的第二图像数据，检测对应于该一个或多个手势输入的一个或多个手势事件。检测一个或多个手势事件包括例如识别SR布景中一个或多个手势事件所指向的一个或多个对象。在一些实施方案中，框516包括存储一个或多个手势事件。每个手势事件存储有指示手势事件指向的一个或多个对象(例如，虚拟对象或物理对象)以及该手势事件发生的时间的信息。

在框520处，从一个或多个所检测的手势事件中识别对应于域的未解析参数的手势事件(例如，使用手势处理模块227、语音助理客户端模块230和/或参数解析模块238)。例如，手势事件被识别为与解析域的未解析参数相关。以与在框516中从注视事件流中识别一个或多个注视事件类似的方式从一个或多个所检测的手势事件中识别手势事件。例如，基于每个所检测的手势事件发生的时间和语音输入的时间段来识别手势事件。

在框522处，基于上下文信息来解析域的未解析参数(例如，使用语音助理客户端模块230和/或参数解析模块238)。上下文信息包括例如多个对象的多个属性标签(在框506处确定)、一个或多个注视事件(在框516处识别)、手势事件(在框520处识别)或它们的任何组合。

在一些实施方案中，基于多个属性标签和域，从多个对象中识别对应于该域的未解析参数的至少两个对象。具体地讲，该至少两个对象被确定为在语义上与该域相关。在这些示例中，使用所识别的至少两个对象的属性标签来至少部分地解析未解析参数。在一些示例中，基于所识别的至少两个对象来确定该域的未解析参数的参数值。

在一些实施方案中，使用框516的所识别的一个或多个注视事件来至少部分地解析未解析参数。在一些示例中，基于所识别的一个或多个注视事件来确定域的未解析参数的参数值。例如，所识别的一个或多个注视事件包括对应于应用程序的图形用户界面的第三注视事件。该图形用户界面是SR布景中的虚拟对象。在该示例中，确定未解析参数的参数值以包括图形用户界面的标识。

在一些实施方案中，所识别的一个或多个注视事件用于从使用多个属性标签识别的至少两个对象中选择对象。例如，通过将所识别的一个或多个注视事件与至少两个对象(例如，所选择的对象)中的一个对象相关联来从该至少两个对象中选择对象。在该示例中，进一步基于所选择的对象的一个或多个相应属性标签来确定参数值。

在一些实施方案中，使用框520的所识别的手势事件来至少部分地解析未解析参数。例如，手势事件指向的一个或多个对象用于解析未解析参数。在该示例中，基于手势事件指向的一个或多个对象来确定未解析参数的参数值。

在框524处，过程500使得确定(例如，使用语音助理客户端模块230和/或任务处理模块240)表示语音输入的用户意图的一组任务。例如，根据域和解析参数(例如，框522的解析参数的参数值)来确定语音输入的用户意图(例如，使用自然语言理解模块236)。根据所确定的用户意图来确定该一组任务。在一些实施方案中，基于解析参数的参数值来确定该一组任务。在一些实施方案中，该一组任务包括用于关闭应用程序的图形用户界面(例如，使用应用程序226)以及生成(例如，使用现实引擎218)不包括该应用程序的图形用户界面的第二SR布景的指令。

在框526处，执行该一组任务的至少一部分(例如，使用语音辅助客户端模块230、任务处理模块240和/或显示器212)。在一些实施方案中，执行该一组任务的至少一部分包括在显示器上生成并显示第二SR布景。第二SR布景不包括应用程序的图形用户界面。

上述技术的各方面设想了采集和使用个人信息以解析关于SR布景的自然语言歧义的可能性。此类信息应在用户知情同意的情况下收集。

处理此类个人信息的实体将遵守既定的隐私做法和/或隐私政策(例如，由第三方认证的政策)，这些政策(1)通常被认为符合或超过行业或政府要求，(2)用户可访问，(3)根据需要进行更新，并且(4)符合适用法律。处理此类个人信息的实体将把这些信息用于合理且合法的用途，而不在那些合法用途之外进行共享或销售。

然而，用户可选择性地限制个人信息的访问/使用。例如，用户可选择参与或不参与他们的个人信息的收集。此外，尽管上述技术的各方面设想了个人信息的使用，但是这些技术的各方面可在不需要或不使用个人信息的情况下实现。例如，如果采集了位置信息、用户名和/或地址，它们可被一般化和/或屏蔽，使得它们不唯一地识别个体。

Claims

1.一种由具有一个或多个处理器、存储器、显示器和一个或多个图像传感器的电子系统执行的方法，所述方法包括：

在所述显示器上显示具有一个或多个虚拟对象的模拟现实布景；

基于来自所述一个或多个图像传感器的图像数据，来确定关于所述模拟现实布景的注视数据流；

基于所显示的模拟现实布景和所确定的注视数据流来生成对应于多个事件时间和多个注视对象的注视事件流，其中所述多个注视对象包括所述一个或多个虚拟对象；

在时间段内接收语音输入；

使得基于所述语音输入的文本表示来确定域；

基于所述时间段和所述多个事件时间来识别所述注视事件流中对应于所述域的未解析参数的一个或多个注视事件；

使得确定表示所述语音输入的用户意图的一组任务，其中基于所识别的一个或多个注视事件来确定所述未解析参数的参数值，并且其中基于所述参数值来确定所述一组任务；以及

执行所述一组任务的至少一部分，包括在所述显示器上显示第二模拟现实布景。

2.根据权利要求1所述的方法，其中所述文本表示包括指示表达，并且其中所述未解析参数对应于所述指示表达。

3.根据权利要求1至2中任一项所述的方法，其中所述注视事件流中的每个注视事件在所述多个事件时间中的相应事件时间发生，并且表示在所述多个注视对象中的相应注视对象上的用户目光停留。

4.根据权利要求3所述的方法，其中基于确定在所述相应注视对象上的所述用户目光停留的持续时间满足阈值持续时间来从所述注视数据流中识别所述注视事件流中的每个注视事件。

5.根据权利要求1所述的方法，还包括：

识别用户视场中的多个对象，其中所述多个注视对象是所述多个对象的子集；

确定所述多个对象的多个属性标签，其中所述多个属性标签中的每个属性标签指定所述多个对象中相应对象的属性；以及

基于所述多个属性标签和所述域来从所述多个对象中识别对应于所述域的所述未解析参数的至少两个对象，其中通过将所识别的一个或多个注视事件与所选择的对象相关联来从所述至少两个对象中选择对象，并且其中进一步基于所选择的对象的一个或多个相应属性标签来确定所述参数值。

6.根据权利要求1所述的方法，其中生成所述注视事件流包括确定在所述多个注视对象上的相应目光停留持续时间，并且其中基于在所述多个注视对象上的所述相应目光停留持续时间来识别所述一个或多个注视事件。

7.根据权利要求1所述的方法，其中基于根据所述多个时间事件确定所述一个或多个注视事件相对于所述注视事件流中的其他注视事件最靠近所述时间段发生来识别所述一个或多个注视事件。

8.根据权利要求1所述的方法，其中所述语音输入包括对应于所述未解析参数的歧义表达，并且所述方法还包括：

确定说出所述歧义表达的参考时间，其中基于确定所述一个或多个注视事件各自在距所述参考时间的阈值时间间隔内发生来识别所述一个或多个注视事件。

9.根据权利要求1所述的方法，其中所述一个或多个注视事件包括第一注视事件和第二注视事件，并且其中基于确定将所述第一注视事件和所述第二注视事件分开的时间间隔满足阈值条件来识别所述一个或多个注视事件。

10.根据权利要求1所述的方法，还包括：

基于来自所述电子系统的一个或多个第二图像传感器的第二图像数据来检测手势事件；以及

识别所述手势事件所指向的一个或多个对象，其中在用户视场内识别所述一个或多个对象，并且其中基于所识别的一个或多个对象来进一步确定所述参数值。

11.根据权利要求10所述的方法，其中在第二时间检测所述手势事件，并且所述方法还包括：

基于所述第二时间和所述时间段来确定所述手势事件是否与所述未解析参数相关，其中根据确定所述手势事件与所述未解析参数相关，基于所识别的一个或多个对象来进一步确定所述参数值。

12.根据权利要求1所述的方法，其中所述一个或多个虚拟对象包括在所述电子系统上运行的应用程序的图形用户界面，其中所识别的一个或多个注视事件包括对应于所述图形用户界面的第三注视事件，并且其中所述参数值被确定为包括所述图形用户界面的标识。

13.根据权利要求12所述的方法，其中所述一组任务包括关闭所述应用程序的所述图形用户界面的指令，并且其中所述第二模拟现实布景不包括用于所述应用程序的所述图形用户界面。

14.根据权利要求1所述的方法，其中所述多个注视对象还包括物理布景中的一个或多个物理对象。

15.根据权利要求1所述的方法，还包括：

基于来自所述电子系统的一个或多个第二图像传感器的第二图像数据来确定所述一个或多个物理对象的多个属性标签，其中基于分析所述域和所述多个属性标签中的每个属性标签之间的语义关系来识别所述一个或多个注视事件。

16.根据权利要求1所述的方法，其中根据所述多个属性标签中的至少一个属性标签来确定所述参数值。

17.根据权利要求1所述的方法，其中使用机器学习模型来确定所述一个或多个注视事件，其中所述机器学习模型被配置为接收所述文本表示和所述注视事件流作为输入并输出跨所述注视事件流的概率分布，并且其中所述概率分布表示所述注视事件流中的给定注视事件对应于所述未解析参数的可能性。

18.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由具有显示器和一个或多个图像传感器的电子系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

在时间段内接收语音输入；

使得基于所述语音输入的文本表示来确定域；

19.根据权利要求18所述的非暂态计算机可读存储介质，其中所述文本表示包括指示表达，并且其中所述未解析参数对应于所述指示表达。

20.根据权利要求18所述的非暂态计算机可读存储介质，其中所述注视事件流中的每个注视事件在所述多个事件时间中的相应事件时间发生，并且表示在所述多个注视对象中的相应注视对象上的用户目光停留。

21.根据权利要求20所述的非暂态计算机可读存储介质，其中基于确定在所述相应注视对象上的所述用户目光停留的持续时间满足阈值持续时间来从所述注视数据流中识别所述注视事件流中的每个注视事件。

22.根据权利要求18所述的非暂态计算机可读存储介质，所述一个或多个程序还包括用于以下操作的指令：

23.根据权利要求18所述的非暂态计算机可读存储介质，其中生成所述注视事件流包括确定在所述多个注视对象上的相应目光停留持续时间，并且其中基于在所述多个注视对象上的所述相应目光停留持续时间来识别所述一个或多个注视事件。

24.根据权利要求18所述的非暂态计算机可读存储介质，其中基于根据所述多个时间事件确定所述一个或多个注视事件相对于所述注视事件流中的其他注视事件最靠近所述时间段发生来识别所述一个或多个注视事件。

25.根据权利要求18所述的非暂态计算机可读存储介质，其中所述语音输入包括对应于所述未解析参数的模糊表达，所述一个或多个程序还包括用于以下操作的指令：

26.根据权利要求18所述的非暂态计算机可读存储介质，其中所述一个或多个注视事件包括第一注视事件和第二注视事件，并且其中基于确定将所述第一注视事件和所述第二注视事件分开的时间间隔满足阈值条件来识别所述一个或多个注视事件。

27.根据权利要求18所述的非暂态计算机可读存储介质，所述一个或多个程序还包括用于以下操作的指令：

28.根据权利要求27所述的非暂态计算机可读存储介质，其中在第二时间检测所述手势事件，所述一个或多个程序还包括用于以下操作的指令：

29.根据权利要求18所述的非暂态计算机可读存储介质，其中所述一个或多个虚拟对象包括在所述电子系统上运行的应用程序的图形用户界面，其中所识别的一个或多个注视事件包括对应于所述图形用户界面的第三注视事件，并且其中所述参数值被确定为包括所述图形用户界面的标识。

30.根据权利要求29所述的非暂态计算机可读存储介质，其中所述一组任务包括关闭所述应用程序的所述图形用户界面的指令，并且其中所述第二模拟现实布景不包括用于所述应用程序的所述图形用户界面。

31.根据权利要求18所述的非暂态计算机可读存储介质，其中所述多个注视对象还包括物理布景中的一个或多个物理对象。

32.根据权利要求18所述的非暂态计算机可读存储介质，所述一个或多个程序还包括用于以下操作的指令：

33.根据权利要求32所述的非暂态计算机可读存储介质，其中根据所述多个属性标签中的至少一个属性标签来确定所述参数值。

34.根据权利要求18所述的非暂态计算机可读存储介质，其中使用机器学习模型来确定所述一个或多个注视事件，其中所述机器学习模型被配置为接收所述文本表示和所述注视事件流作为输入并输出跨所述注视事件流的概率分布，并且其中所述概率分布表示所述注视事件流中的给定注视事件对应于所述未解析参数的可能性。

35.一种电子系统，包括：

显示器；

一个或多个图像传感器；

一个或多个处理器；和

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

在时间段内接收语音输入；

使得基于所述语音输入的文本表示来确定域；

36.根据权利要求35所述的电子设备，其中所述文本表示包括指示表达，并且其中所述未解析参数对应于所述指示表达。

37.根据权利要求35所述的电子设备，其中所述注视事件流中的每个注视事件在所述多个事件时间中的相应事件时间发生，并且表示在所述多个注视对象中的相应注视对象上的用户目光停留。

38.根据权利要求37所述的电子设备，其中基于确定在所述相应注视对象上的所述用户目光停留的持续时间满足阈值持续时间来从所述注视数据流中识别所述注视事件流中的每个注视事件。

39.根据权利要求35所述的电子设备，所述一个或多个程序还包括用于以下操作的指令：

40.根据权利要求35所述的电子设备，其中生成所述注视事件流包括确定在所述多个注视对象上的相应目光停留持续时间，并且其中基于在所述多个注视对象上的所述相应目光停留持续时间来识别所述一个或多个注视事件。

41.根据权利要求35所述的电子设备，其中基于根据所述多个时间事件确定所述一个或多个注视事件相对于所述注视事件流中的其他注视事件最靠近所述时间段发生来识别所述一个或多个注视事件。

42.根据权利要求35所述的电子设备，其中所述语音输入包括对应于所述未解析参数的模糊表达，所述一个或多个程序还包括用于以下操作的指令：

43.根据权利要求35所述的电子设备，其中所述一个或多个注视事件包括第一注视事件和第二注视事件，并且其中基于确定将所述第一注视事件和所述第二注视事件分开的时间间隔满足阈值条件来识别所述一个或多个注视事件。

44.根据权利要求35所述的电子设备，所述一个或多个程序还包括用于以下操作的指令：

45.根据权利要求44所述的电子设备，其中在第二时间检测所述手势事件，所述一个或多个程序还包括用于以下操作的指令：

46.根据权利要求35所述的电子设备，其中所述一个或多个虚拟对象包括在所述电子系统上运行的应用程序的图形用户界面，其中所识别的一个或多个注视事件包括对应于所述图形用户界面的第三注视事件，并且其中所述参数值被确定为包括所述图形用户界面的标识。

47.根据权利要求46所述的电子设备，其中所述一组任务包括关闭所述应用程序的所述图形用户界面的指令，并且其中所述第二模拟现实布景不包括用于所述应用程序的所述图形用户界面。

48.根据权利要求35所述的电子设备，其中所述多个注视对象还包括物理布景中的一个或多个物理对象。

49.根据权利要求35所述的电子设备，所述一个或多个程序还包括用于以下操作的指令：

50.根据权利要求49所述的电子设备，其中根据所述多个属性标签中的至少一个属性标签来确定所述参数值。

51.根据权利要求35所述的电子设备，其中使用机器学习模型来确定所述一个或多个注视事件，其中所述机器学习模型被配置为接收所述文本表示和所述注视事件流作为输入并输出跨所述注视事件流的概率分布，并且其中所述概率分布表示所述注视事件流中的给定注视事件对应于所述未解析参数的可能性。

52.一种电子设备，包括：

显示器；

一个或多个图像传感器；和

用于执行根据权利要求1至3中任一项所述的方法的装置。