CN116888574A

CN116888574A - 共存会话中的数字助理交互

Info

Publication number: CN116888574A
Application number: CN202280016580.6A
Authority: CN
Inventors: J·配克; J·N·琼斯; 川岛家幸; L·I·斯特雷亚
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2021-02-23
Filing date: 2022-02-23
Publication date: 2023-10-13
Also published as: EP4281855A1; WO2022182744A1

Abstract

一种示例过程包括：在电子设备的显示器上显示对应于包括该电子设备和第二电子设备的共存会话的扩展现实(XR)环境；在显示该XR环境时：利用该电子设备的麦克风对第一音频输入进行采样；确定该第一音频输入是否旨在针对在外部电子设备上操作的第一数字助理；以及根据该第一音频输入旨在针对该第一数字助理的确定：使该第一数字助理提供对该第一音频输入的听觉响应，其中该听觉响应不通过用于该共存会话的共享通信信道传输到该第二电子设备。

Description

共存会话中的数字助理交互

相关申请的交叉引用

本专利申请要求于2021年2月23日提交的名称为“DIGITAL ASSISTANTINTERACTIONS IN COPRESENCE SESSIONS”的美国专利申请63/152,719号的优先权，该专利申请的内容据此全文以引用方式并入。

技术领域

本公开整体涉及数字助理，并且更具体地，涉及共存会话中的数字助理交互。

背景技术

数字助理可允许用户使用口头或文本形式的自然语言输入来与设备交互。例如，用户可向在电子设备上操作的数字助理提供包括用户请求的语音输入。数字助理可从语音输入确定用户的意图并且确定对应任务。数字助理可通过执行电子设备的一个或多个服务来执行任务以响应于用户请求提供输出。

发明内容

本文公开了示例性方法。一种示例性方法包括：在电子设备的显示器上显示对应于包括电子设备和第二电子设备的共存会话的扩展现实(XR)环境；在显示该XR环境时：利用该电子设备的麦克风对第一音频输入进行采样；确定第一音频输入是否旨在用于在外部电子设备上操作的第一数字助理；以及根据该第一音频输入旨在用于该第一数字助理的确定：使该第一数字助理提供对该第一音频输入的听觉响应，其中该听觉响应不通过用于该共存会话的共享通信信道传输到该第二电子设备。

本文公开了示例非暂态计算机可读介质。一种示例性非暂态计算机可读存储介质存储一个或多个程序。一个或多个程序包括指令，这些指令在由具有显示器和麦克风的电子设备的一个或多个处理器执行时使电子设备：在显示器上显示对应于包括电子设备和第二电子设备的共存会话的扩展现实(XR)环境；当显示XR环境时：利用麦克风对第一音频输入进行采样；确定所述第一音频输入是否旨在用于在外部电子设备上操作的第一数字助理；以及根据第一音频输入旨在用于第一数字助理的确定：使第一数字助理提供对第一音频输入的听觉响应，其中该听觉响应不通过用于共存会话的共享通信信道传输到第二电子设备。

本文公开了示例电子设备。一种示例性电子设备包括显示器、麦克风、一个或多个处理器；存储器；以及一个或多个程序，其中该一个或多个程序存储在存储器中并且被配置为由一个或多个处理器执行，该一个或多个程序包括用于以下的指令：在显示器上显示对应于包括电子设备和第二电子设备的共存会话的扩展现实(XR)环境；在显示XR环境时：利用麦克风对第一音频输入进行采样；确定第一音频输入是否旨在用于在外部电子设备上操作的第一数字助理；以及根据该第一音频输入旨在用于该第一数字助理的确定：使该第一数字助理提供对该第一音频输入的听觉响应，其中该听觉响应不通过用于该共存会话的共享通信信道传输到该第二电子设备。

一种示例性电子设备包括用于以下的装置：在电子设备的显示器上显示对应于包括电子设备和第二电子设备的共存会话的扩展现实(XR)环境；在显示该XR环境时：利用该电子设备的麦克风对第一音频输入进行采样；确定第一音频输入是否旨在用于在外部电子设备上操作的第一数字助理；以及根据该第一音频输入旨在用于该第一数字助理的确定：使该第一数字助理提供对该第一音频输入的听觉响应，其中该听觉响应不通过用于该共存会话的共享通信信道传输到该第二电子设备。

根据上述技术提供不传输到第二设备的听觉响应可允许设备在共存会话期间准确地发起私下数字助理交互。例如，音频输入旨在用于在外部设备上操作的第一数字助理的确定(例如，基于检测到在提供音频输入时用户在身体上面向外部设备)可准确地指示用户意图发起私下数字助理交互。提供共存会话的设备因此可执行动作以提供私下交互，例如，防止用户对数字助理的请求和/或数字助理对该请求的响应传输到其他用户。另外，设备可在显示XR环境时提供私下数字助理交互，从而减少数字助理对用户的XR体验的干扰。以此方式，(例如，通过允许设备准确地确定何时发起私下数字助理交互、通过减少发起私下交互所需的用户输入的数量、通过不向其他用户显露用户的个人信息、通过减少私下数字助理交互对用户的XR体验的干扰等)使设备更准确、高效且安全，这另外减少了电力使用并改善了设备的电池寿命。

附图说明

图1A至图1B示出了在各种扩展现实技术中使用的示例性系统。

图2A示出了根据各种示例的用于在共存会话内提供数字助理交互的系统的框图。

图2B示出了根据各种示例的由自然语言处理器使用(例如，在自然语言处理器内实现)来标识用户意图的本体。

图3A至图3D示出了根据各种示例的共存会话内的公共和私下数字交互。

图3E示出了根据各种示例的在共存会话期间使用外部设备来提供通知。

图4示出了根据各种示例的对各种区域中的外部设备的检测。

图5是示出了根据各种示例的用于数字助理交互的过程的流程图。

具体实施方式

人们可在不使用电子设备的情况下感测物理环境或世界或者与物理环境或世界交互。物理特征诸如物理对象或表面可包括在物理环境内。例如，物理环境可对应于具有物理建筑物、道路和车辆的物理城市。人们可通过各种手段诸如嗅觉、视觉、味觉、听觉和触觉直接感知物理环境或与物理环境交互。这可与扩展现实(XR)环境相反，该XR环境可以是指人们可使用电子设备感测或交互的部分或完全模拟的环境。XR环境可包括虚拟现实(VR)内容、混合现实(MR)内容、增强现实(AR)内容等。使用XR系统，可跟踪人的物理运动或其表示的一部分，并且作为响应，可以符合至少一个自然定律的方式改变XR环境中的虚拟对象的属性。例如，XR系统可检测用户的头部移动，并且以模拟声音和视图将如何在物理环境中改变的方式调整呈现给用户的听觉和图形内容。在其他示例中，XR系统可检测呈现XR环境的电子设备(例如，膝上型计算机、平板电脑、移动电话等)的移动。因此，XR系统可以模拟声音和视图将如何在物理环境中改变的方式来调整呈现给用户的听觉和图形内容。在一些实例中，其他输入诸如身体运动的表示(例如，语音命令)可使XR系统调整图形内容的属性。

众多类型的电子系统可允许用户感测XR环境或与XR环境交互。示例的非穷尽列表包括具有集成显示能力以放置在用户的眼睛上的镜片(例如，接触镜片)、平视显示器(HUD)、基于投影的系统、头戴式系统、具有集成显示技术的窗户或挡风玻璃、头戴式耳机/耳机、具有或不具有触觉反馈的输入系统(例如，手持式或可穿戴控制器)、智能电话、平板电脑、台式/膝上型计算机以及扬声器阵列。头戴式系统可包括不透明显示器和一个或多个扬声器。其他头戴式系统可被配置为接收不透明外部显示器，诸如，智能电话的不透明外部显示器。头戴式系统可使用一个或多个图像传感器来捕获物理环境的图像/视频，或者使用一个或多个麦克风来捕获物理环境的音频。一些头戴式系统可包括透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可通过介质诸如全息介质、光学波导、光学组合器、光学反射器、其他类似技术或它们的组合将表示图像的光引导到用户的眼睛。可使用各种显示技术，诸如硅上液晶、LED、uLED、OLED、激光扫描光源、数字光投影或它们的组合。在一些示例中，透明或半透明显示器可被选择性地控制而变得不透明。基于投影的系统可利用将图像投影到用户的视网膜上的视网膜投影技术，或者可将虚拟内容投影到物理环境中，诸如投影到物理表面上或者作为全息图。

图1A和图1B描绘了用于各种扩展现实技术的示例性系统100。

如图1A所示，系统100包括设备100a。设备100a包括RF电路104、处理器102、存储器106、图像传感器108、触敏表面122、扬声器118、位置传感器116、麦克风112、取向传感器110和显示器120。这些部件任选地使用设备100a的通信总线150进行通信。

在一些示例中，基站设备(例如，计算设备，诸如远程服务器、移动设备或膝上型电脑)实现系统100的一些部件，并且第二设备(例如，头戴式设备)实现系统100的其他部件。在一些示例中，设备100a在基站设备中或在第二设备中实现。

如图1B所示，在一些示例中，系统100包括例如经由有线连接或无线连接进行通信的两个或更多个设备。第一设备100b(例如，基站设备)包括存储器106、RF电路104和处理器102。此类部件任选地使用设备100b的通信总线150进行通信。第二设备100c(例如，头戴式设备)包括部件，诸如RF电路104、处理器102、存储器106、图像传感器108、触敏表面122、扬声器118、位置传感器116、麦克风112、取向传感器110和显示器120。这些部件任选地使用设备100c的通信总线150进行通信。

系统100包括RF电路104。RF电路104任选地包括用于与网络(例如，因特网、无线网络(例如，诸如蜂窝网络和无线局域网(LAN))和/或内联网)和/或电子设备通信的电路。RF电路104任选地包括用于使用近场通信和/或短程通信(例如，)进行通信的电路。

系统100包括处理器102和存储器106。处理器102包括一个或多个图形处理器、一个或多个通用处理器和/或一个或多个数字信号处理器。在一些示例中，存储器106是存储计算机可读指令的一个或多个非暂态计算机可读存储介质(例如，随机存取存储器、闪存存储器)，这些计算机可读指令被配置为由处理器102执行以执行下述技术。

系统100包括图像传感器108。图像传感器108任选地包括一个或多个红外(IR)传感器，例如，无源IR传感器或有源IR传感器，以检测来自物理环境的红外光。例如，有源IR传感器包括用于将红外光发射到物理环境中的IR发射器(例如，IR点发射器)。图像传感器108还任选地包括能够从物理环境获得物理元素的图像的一个或多个可见光图像传感器，诸如互补金属氧化物半导体(CMOS)传感器和/或电荷耦合设备(CCD)传感器。图像传感器108还任选地包括一个或多个事件相机，该一个或多个事件相机被配置为捕获物理环境中的物理元素的移动。图像传感器108还任选地包括一个或多个深度传感器，该一个或多个深度传感器能够检测物理元素与系统100的距离。在一些示例中，系统100使用IR传感器、CCD传感器、事件相机和深度传感器一起检测系统100周围的物理环境。在一些示例中，图像传感器108包括第一图像传感器和第二图像传感器。第一图像传感器和第二图像传感器任选地能够从两个相应不同的视角捕获物理环境中的物理元素的图像。在一些示例中，系统100使用图像传感器108来检测系统100和/或显示器120在物理环境中的位置和取向。例如，系统100使用图像传感器108来跟踪显示器120相对于物理环境中的一个或多个固定元件的位置和取向。在一些示例中，图像传感器108能够接收用户输入，诸如手势。

在一些示例中，系统100包括用于接收用户输入诸如轻击或轻扫输入的触敏表面122。在一些示例中，触敏表面122和显示器120被组合成触敏显示器。

在一些示例中，系统100包括麦克风112。系统100使用麦克风112来检测来自用户的物理环境或来自用户的声音。在一些示例中，麦克风112包括麦克风阵列(例如，包括多个麦克风)，该麦克风阵列任选地一起操作以例如定位来自物理环境的空间声音源或标识环境噪声。

系统100包括用于检测系统100和/或显示器120的取向和/或移动的取向传感器110。例如，系统100使用取向传感器110来跟踪系统100和/或显示器120的位置和/或取向的改变，诸如相对于物理环境中的物理元素的改变。取向传感器110任选地包括陀螺仪和/或加速度计。

系统100包括显示器120。显示器120可与透明或半透明显示器(并且任选地与一个或多个成像传感器)一起操作。显示器120可包括不透明显示器。显示器120可允许人直接通过显示器查看物理环境，并且还可允许例如通过将虚拟内容叠加在物理环境上来将虚拟内容添加到人的视野。显示器120可实现显示技术，诸如，数字光投影仪、激光扫描光源、LED、OLED、硅上液晶或它们的组合。显示器120可包括光透射通过的基底，例如，光学反射器和组合器、光波导、全息基底或它们的组合。作为特定示例，透明或半透明显示器可选择性地在透明或半透明状态和不透明状态之间转变。显示器120的另外的示例性实施方案包括具有显示能力的镜片、平板电脑、智能电话、桌上型计算机、膝上型计算机、平视显示器、具有显示能力的汽车挡风玻璃或具有显示能力的窗户。在一些示例中，系统100是基于投影的系统。例如，系统100将虚拟对象投影到物理环境上(例如，将全息图投影到物理环境上或将影像投影到物理表面上)。又如，系统100使用视网膜投影将图像投影到人的眼睛(例如，视网膜)上。在一些示例中，系统100可被配置为与外部显示器(例如，智能电话显示器)介接。

图2A示出了根据各种示例的用于在共存会话内提供数字助理(DA)交互的系统200的框图。共存会话通常描述被配置为使得每个用户同时体验共享的物理或虚拟环境的多用户计算机辅助通信会话。例如，在共存会话中，每个参与者(例如，由他们的相应化身表示)可聚集在共享环境(例如，虚拟住宅)中。每个参与者可在计算机辅助下感知到(例如，看到和/或听到)共享环境和其他参与者。应当理解，系统100可为用户实现共存会话。

可在共存会话内使用DA以执行由参与者请求的任务。参与者和DA之间的一些交互可对其他参与者公开，例如，因此其他参与者可感知到参与者对DA的请求和DA对请求的响应。例如，参与者可请求DA改变共享虚拟环境的特性。DA可根据请求改变环境，其中该改变对于所有参与者可见。然而，有时，参与者期望与DA私下交互，例如，因此其他参与者无法感知到参与者的DA请求和/或DA的响应。例如，当参与者请求DA读取该参与者的电子邮件消息时，该参与者可能不希望其他参与者感知到该请求和/或DA的响应(例如，电子邮件消息的语音输出)。以下的图2A至图2B、图3A至图3E、图4和图5讨论了用于在共存会话内提供公共和私下DA交互的系统和技术。

系统200包括DA 202(a)。在一些示例中，如图所示，DA 202(a)至少部分地在系统100内，例如在设备100a、100b或100c内实现。例如，DA 202(a)被至少部分地实现为存储在存储器106中的计算机可执行指令。在一些示例中，DA 202(a)跨多个计算机和/或系统分布。在一些示例中，DA 202(a)的一些模块和功能被划分成服务器部分和客户端部分，其中客户端部分在一个或多个用户设备(例如，设备100a、100b、100c)或系统(例如，系统100)中实现并且任选地经由一个或多个网络与服务器部分通信。DA 202(a)的各种部件和功能在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路)，或它们的组合中实现。DA 202(a)仅是DA的一个示例，并且DA 202(a)可具有比所示更多或更少的部件，可组合两个或更多个部件，或可具有不同部件配置或布置。

在一些示例中，DA 202(a)执行以下中的至少一些：将语音输入转换为文本；从接收的自然语言输入标识用户的意图；引出(例如，从用户)并且获得完全满足用户的意图所需的信息(例如，通过消除短语、名称等的歧义)；确定用于满足所标识的意图的任务流；以及执行该任务流。

在一些示例中，DA 202(a)包括被配置为标识用户意图的自然语言处理器206。自然语言处理器206获取由语音到文本(STT)处理器204生成的候选文本表示，并且尝试将候选文本表示中的每个候选文本表示与DA识别的一个或多个“意图”进行映射。“意图”(或“用户意图”)表示DA可执行任务，并且可具有在任务流处理器208中实现的对应任务流。对应任务流是DA为了执行任务而采取的一系列编程动作。因此，在一些示例中，DA的能力取决于在任务流处理器208中实现的不同任务流的类型，例如，取决于DA识别的“意图”的不同类型。

图2B示出了根据各种示例的由自然语言处理器206使用(例如，在该自然语言处理器内实现)以标识用户意图的本体214。本体214是具有多个节点的分层结构，每个节点表示意图或者与意图或与另一属性相关的“属性”。“属性”表示与意图或另一属性的子特性相关联的参数。意图节点和属性节点之间的对应关系(例如，链接)限定由属性节点表示的参数如何与对应于意图节点的任务相关。

本体214包括例如意图节点和属性节点。在本体214内，每个意图节点直接地或经由中间属性节点链接到属性节点。类似地，每个属性节点直接地或经由中间属性节点链接到意图节点。例如，如图2B所示，本体214包括“航班预订”节点(即，意图节点)。属性节点“航空公司”和“时间”(对于航班)各自直接链接到意图节点(例如，“航班预订”节点)。

此外，属性节点“始发地”、“目的地”和“舱位等级”是属性节点“航空公司”的子节点，并且各自经由中间属性节点“航空公司”链接到“航班预订”节点。又如，本体214还包括“日历”节点(例如，另一意图节点)。属性节点“时间”(对于日历事件)、“事件名称”和“事件详细信息”各自链接到“日历”节点。由于属性“时间”与预订航班的任务和输入日历事件的任务两者相关，因此属性节点“时间”链接到“航班预订”节点和“日历”节点两者。

“域”描述意图节点及其链接的属性节点。因此，每个域表示相应意图，并且是指与相应意图相关联的节点组(以及这些节点之间的关系)。例如，本体214包括航班预订域218的示例和日历域216的示例。航班预订域218包括意图节点“航班预订”、属性节点“航空公司”和“时间”以及子属性节点“始发地”、“目的地”和“舱位等级”。日历域216包括意图节点“日历”和属性节点“事件名称”、“事件详细信息”和“时间”。在一些示例中，本体214包括许多域，例如，其中每个域与其他域共享属性节点。例如，除了日历域216和航班预订域218之外，“时间”属性节点在许多不同域(例如，天气域、餐厅预约域、电影票域等)之间共享。

虽然图2B示出了本体214内的两个示例性域，但是其他域包括例如“进行餐厅预约”、“播放音乐”、“提供导航指令”、“设定定时器”、“发送消息”、“回答问题”等。

在一些示例中，本体214包括DA可理解并对其起作用的所有域(以及因此的意图)。可例如通过添加或移除整个域或节点或者通过修改节点之间的关系来修改本体214。

在一些示例中，与多个相关意图相关联的节点被分组成本体214中的“超级域”。例如，“旅行”超级域包括与旅行相关的一组属性和意图节点。

在一些示例中，与节点所表示的属性或意图相关的一组字词和/或短语与该节点相关联。因此，与每个节点相关联的相应一组字词和/或短语可描述该节点的相关联“词汇”。与每个节点相关联的词汇与该节点所表示的属性或意图相关联地被存储在DA 202(a)的词汇索引中。例如，在图2B中，与属性“航空公司”的节点相关联的词汇包括字词和短语，诸如，“航班”、“度假”、“商务旅行”、“航空公司”、“旅行”、“登机牌”、“机场”、“机票”等。又如，与“发起电话呼叫”的意图的节点相关联的词汇包括字词和短语，诸如，“呼叫”、“打电话”、“拨打”、“与……通电话”、“呼叫这个号码”、“给……打电话给”等。

自然语言处理器206从STT处理器204接收候选文本表示，并且针对每个候选文本表示确定哪些节点对应于候选文本表示的字词。在一些示例中，如果候选文本表示中的字词或短语(例如，经由词汇索引)被确定为对应于本体214中的节点，则该字词或短语“激活”那些节点。基于已激活节点的数量和/或相对重要性，自然语言处理器206选择意图中的一个意图作为用户对DA的预期任务。在一些示例中，选择具有最高置信度值(例如，基于其已激活节点的相对重要性)的域。在一些示例中，选择具有最多“已激活”节点的域。在一些示例中，基于已激活节点的数量和重要性两者来选择域。在一些示例中，在选择域时考虑附加因素，例如，DA先前是否成功地解释了类似请求。

在一些示例中，一旦自然语言处理器206基于自然语言输入标识意图(或域)，自然语言处理器206就使任务流处理器208执行满足用户请求所需的动作。例如，任务流处理器208执行对应于所标识意图的任务流来执行任务以满足用户请求。在一些示例中，执行任务包括提供指示所执行任务的结果的听觉、触觉或显示输出。

DA 202(a)包括交互处理程序210。交互处理程序210被配置为确定用户(例如，共存会话中的参与者)是否意图发起与DA的公共或私下交互。例如，如以下关于图3A至图3E所讨论的，交互处理程序210确定用户意图使用由设备100a或100c的传感器捕获的数据来发起私下DA交互。在一些示例中，交互处理程序210根据该确定来调整DA交互的方式。例如，如果交互处理程序210确定用户意图发起私下DA交互，则交互处理程序210防止用户的请求(例如，语音输入)和/或DA的响应(例如，语音输出)传输到参与共存会话的其他用户。以下参考图3A至图3E进一步描述了交互处理程序210。

系统200包括设备212。设备212的架构与设备100b或100c的架构类似或相同。例如，设备212包括处理器、存储器、RF电路、通信总线、扬声器、麦克风、显示器或它们的组合或子组合。在一些示例中，设备212被实现为智能电话、膝上型或台式计算机、平板设备、可穿戴设备(例如，智能手表)、智能家庭设备(例如，智能扬声器、智能TV、智能电器)或它们的组合或子组合。

设备212不同于显示对应于共存会话的视图的设备(例如，在该设备外部)。例如，外部设备212被实现为设备100b或者是不同于设备100a、100b和100c的设备。在一些示例中，外部设备212通过有线或无线连接与其他设备(例如，系统100)进行通信。

外部设备212至少部分地实现DA 202(b)。DA 202(b)的架构与以上所讨论DA 202(a)的架构类似或相同。例如，虽然图2A显示了DA 202(b)在单个设备(例如，外部设备212)上实现，但是在其他示例中，DA 202(b)跨多个计算机和/或系统分布，例如作为服务器部分和客户端部分。应当理解，DA 202(b)能够执行以上关于DA 202(a)所描述的所有功能，例如，STT转换、自然语言处理和任务流执行。

在一些示例中，当设备(例如，100a或100c)为用户显示对应于共存会话的视图时，外部设备212使用DA 202(b)来响应于用户的DA请求。如以下关于图3A至图3D所讨论的，使用外部设备212来响应于用户请求可允许共存会话内的DA交互是(至少部分地)私下的。因此，在一些示例中，交互处理程序210通过确定用户音频输入是否旨在用于在外部设备212上操作的DA 202(b)(例如，与在显示视图的设备上操作的DA 202(a)相反)来确定用户是否意图发起私下DA交互。

图3A至图3D示出了根据各种示例的共存会话内的公共和私下DA交互。

图3A显示了用户302使用设备304例如由用户302佩戴的头戴式设备来参与共存会话。设备304被实现为设备100a或100c。图3A至图3E的右面板显示了设备304的显示器306，例如，用户302的当前视图。

在图3A中，用户302位于物理环境308例如包括物理窗户和外部设备212的物理房间中。尽管用户302在身体上面向物理环境308的正面，但用户302查看显示在显示器306上的XR环境。XR环境(例如，包括虚拟房间310)对应于包括设备304和第二设备(例如，属于其他相应用户)的共存会话。例如，XR环境包括分别表示两个其他用户的化身312和314。例如，用户302和其他用户已经聚集在虚拟房间310中进行会议。

在一些示例中，用于共存会话的共享通信信道允许用户之间的通信(例如，音频通信)。共享通信信道使用由设备304和其他用户的设备实现的任何类型的共享通信协议来实现。例如，被配置为实现其他频率范围中的通信的RF电路104和/或设备304的部件实现共享通信信道。共享通信信道使得能够在用户例如用户的设备之间进行数据(例如，音频数据、视频数据、化身位置/姿势数据)交换。例如，设备304的麦克风对音频输入进行采样，并且通过共享通信信道向其他用户的设备传输音频输入，因此使得用户302能够与其他用户进行对话。

图3B示出了共存会话内的示例性公共DA交互。在图3B中，用户302通过提供音频输入“你好助理，将石头添加到这个房间”来向DA发出请求。设备304的麦克风对音频输入进行采样，并且通过共享通信信道向其他用户例如向其他用户的设备传输音频输入。在设备304上操作的DA(例如，DA 202(a))提供对该请求的响应。例如，DA听觉地响应于“我放置了石头”，并且使虚拟石头316被显示并且变得对所有用户可见。设备304进一步通过共享通信信道向其他用户例如向其他用户的设备传输听觉响应“我放置了石头”。应当理解，本示例描述了公共DA交互，因为对DA的请求(例如，音频输入)和DA的响应(例如，听觉响应和所显示的石头)对于其他用户是可感知的。

用户302有时期望与DA私下交互，例如，使得用户对DA的请求和DA的响应中的至少一者对于其他用户是不可感知的。图3C至图3D示出了使用外部设备212来提供共存会话内的私下DA交互。如以下详细讨论的，用户302可面向(例如，调整他们的姿势以面向)外部设备212并且在面向外部设备212时向DA发出发起例如与在外部设备212上操作的DA 202(b)的私下DA交互的请求。

在图3B中，XR环境的所显示的视图318对应于与设备304相关联的第一姿势。在一些示例中，与设备304相关联的姿势包括佩戴设备304和/或被授权使用设备304的用户302的姿势(例如，头部姿势)。例如，图3B所示的姿势是用户302的正面朝向的姿势。视图318包括在共存会话中的其他用户的显示表示(例如，与其他用户的设备相关联的化身312和314)。然而，视图318不包括外部设备212的所显示的物理表示。设备304不显示物理表示，因为外部设备212从第一姿势不可见。例如，即使用户302未佩戴设备304，外部设备212(位于物理环境308的右侧)从第一姿势(面向物理环境308的正面)也不可见。

在图3C中，设备304检测到从与设备304相关联的第一姿势到第二姿势(例如，头部姿势)的改变。例如，如图所示，用户302已经物理地转向面向物理环境308的右侧，例如，面向外部设备212并且背向化身312和314。外部设备212因此从第二姿势可见。根据检测到改变的姿势，设备304用XR环境的视图320(图3C)的显示替换视图318(图3B)的显示，其中视图320对应于第二姿势。如图所示，视图320包括外部设备212的显示(例如，经由视频直通显示)在外部设备212的物理位置处的物理表示。

在一些示例中，设备304根据确定外部设备212从与设备304相关联的当前姿势(例如，用户302的当前姿势)可见而显示外部设备212(例如，外部设备212的物理表示)。在一些示例中，确定外部设备212从当前姿势可见包括确定外部设备212位于对应于当前姿势下的用户302的视野(例如，在用户302未佩戴设备304时用户302的当前视野)的区域中。例如，设备304的传感器检测到在表示(或接近)用户302的当前视野的区域内的外部设备212。关于设备304检测到(例如，定位)外部设备212的另外的细节在以下关于图4讨论。

在图3C的示例中，除了外部设备212之外，视图320还包括物理环境308的元素(例如，肖像和桌子)。因此，在一些示例中，如果用户302将他们的姿势改变为背向其他用户的所显示的表示，则设备304调整XR环境的所显示的视图以例如在物理环境308的元素的各自物理位置处显示他们。例如，如果设备304检测到化身312和314从用户302的当前姿势不可见，则设备304例如经由视频直通以与当前姿势一致的方式来显示物理环境308。在其他示例中，设备304将外部设备212显示为视图320中的唯一物理元素。例如，设备304例如通过显示图3C中的虚拟房间310的右侧来调整虚拟环境(例如，虚拟房间310)的所显示的视图以对应于用户302的改变姿势。当外部设备212从用户302的当前姿势可见时，设备304进一步将外部设备212显示为唯一显示的物理元素。

在图3C中，用户302在面向外部设备212时向DA发出请求。例如，用户302说“读取我的消息”。用户302意图发起私下DA交互，因为用户302可能不希望其他用户听到用户302的消息。设备304对音频输入“读取我的消息”进行采样。设备304使用交互处理程序210来进一步确定音频输入是否意图发起私下DA交互。例如，交互处理程序210确定音频输入是否旨在用于在外部设备212上操作的DA(外部DA)(例如，DA 202(b))。以此方式，用户302可通过提供被确定为旨在用于外部DA的音频输入来发起私下DA交互。

以下讨论了交互处理程序210用来确定音频输入是否旨在用于外部DA的技术。

在一些示例中，确定音频输入旨在用于外部DA包括确定在对音频输入进行采样时与设备304相关联的姿势(例如，用户302的姿势)对应于(例如，用户302面向)外部设备212的物理位置。例如，交互处理程序210确定在对音频输入进行采样时用户302的姿势的正面朝向的方向指向外部设备212的物理位置。以下讨论用于确定外部设备212的物理位置的技术。

在一些示例中，确定与设备304相关联的姿势对应于外部设备212的物理位置包括确定凝视(例如，用户302的凝视)指向外部设备212(例如，外部设备212的所显示的物理表示)。例如，设备304包括被配置为跟踪用户302的眼睛的图像传感器。交互处理程序210对所捕获的图像数据应用眼睛跟踪技术以确定用户302的凝视方向。交互处理程序210确定在对音频输入进行采样时例如在对音频输入的全部进行采样时或者在对音频输入的一部分(例如，开始部分、中间部分、结束部分)进行采样时凝视方向是否指向外部设备212。

在一些示例中，确定与设备304相关联的姿势对应于外部设备212的物理位置包括使用设备304的传感器检测外部设备212。在一些示例中，传感器包括相机和/或被配置为经由外部设备212和/或设备304所发射的信号检测外部设备212的传感器，例如，使用测距技术的传感器。例如，交互处理程序210分析由相机捕获的图像数据以使用对象识别技术来识别外部设备212。在一些示例中，交互处理程序210使用来自传感器的数据来确定外部设备212相对于设备304的位置和距离。

在一些示例中，检测外部设备212包括检测特定区域内的外部设备212。图4示出了根据各种示例的对各种区域中的外部设备212的检测。如图所示，交互处理程序210限定对应于用户302的姿势的特定区域。例如，区域402对应于用户302在当前姿势下的视野。比区域402窄的区域404对应于当前姿势的正面朝向的方向，例如，使得用户302被视为面向区域404中的元素。因此，交互处理程序210可通过检测对应于用户302的当前姿势(例如，与设备304相关联的当前姿势)的特定区域中的设备来确定用户302面向外部设备212。

在一些示例中，确定音频输入旨在用于外部DA包括确定音频输入的方向对应于(例如，指向)外部设备212的物理位置。例如，交互处理程序210将音频输入的方向确定为用户302的当前姿势的正面朝向的方向。又如，交互处理程序210使用设备304的多个麦克风来实现声音定位技术以确定音频输入的方向。

在一些示例中，确定音频输入旨在用于外部DA包括分析音频输入的内容。例如，DA(例如，DA 202(a)或202(b))对音频输入执行自然语言处理以确定音频输入是否包括需要个人数据才能满足的请求。例如，DA确定音频输入是否对应于个人域，例如，对应于需要检索/使用个人数据的意图的域。示例性个人数据包括用户的健康信息、金融信息、电子邮件消息、文本消息、日历信息、笔记、照片、视频、因特网搜索历史等。在一些示例中，如果音频输入对应于个人域，则交互处理程序210确定音频输入旨在用于外部DA。以此方式，如果用户302对DA的请求需要个人数据来满足，则设备304可发起私下DA交互以满足该请求。

在一些示例中，交互处理程序210考虑其他因素来确定音频输入旨在用于外部DA。例如，交互处理程序210确定用户302与操作DA的设备的交互的近因和/或频率。用户302最近与外部DA(例如，在设备212上操作的DA 202(b))交互和/或最频繁地与外部DA交互的确定指示音频输入旨在用于外部DA的可能性增加。又如，当设备304对音频输入进行采样时，交互处理程序210确定设备212和设备304之间的距离。距离小于阈值距离(例如，10英尺、20英尺)的确定指示音频输入旨在用于外部DA的可能性增加。作为又一示例，交互处理程序210确定用户302是否已经例如在与用户302相关联的设备列表中或者在用户302的家庭中的设备列表中注册了外部设备212。用户302已经注册了外部212设备的确定指示音频输入旨在用于外部DA的可能性增加。

在一些示例中，交互处理程序210确定音频输入是否旨在用于外部DA，而无需标识音频输入中的口头触发(例如，用于发起DA的预定短语)。例如，通过考虑上述因素，交互处理程序210可确定音频输入是否旨在用于DA，而无需标识音频旨在用于DA的明确指示(例如，口头触发、按钮按压)。

在一些示例中，根据确定音频输入旨在用于外部DA，交互处理程序210至少部分地禁用共享通信信道。例如，设备304放弃通过共享通信信道传输任何音频，诸如由设备304进行采样的音频输入和DA生成的音频。在一些示例中，禁用共享通信信道还包括放弃输出通过共享通信信道接收的传入音频，例如来自其他用户的相应设备的音频。

在一些示例中，根据音频输入旨在用于外部DA的确定，交互处理程序210使外部DA提供对音频输入的听觉响应。听觉响应不通过共享通信信道传输到其他用户的设备，从而保护DA交互的隐私。例如，当共享通信信道至少部分地被禁用时，外部DA提供听觉响应。

在一些示例中，使外部DA提供听觉响应包括使外部设备212利用外部设备212的扬声器提供听觉响应。例如，在图3C中，设备304向外部设备212传输所采样的音频输入“读取我的消息”并且指导外部DA响应于该请求。如图所示，外部设备212因此用其内部扬声器提供听觉响应“来自Lynn的第一条消息，说‘你好’”。

在一些示例中，使外部DA提供听觉响应包括由设备304从外部设备212接收听觉响应以及使用设备304的扬声器输出听觉响应。例如，设备304向外部设备212传输音频输入“读取我的消息”并且指导外部DA确定该请求的响应并将该响应传输到设备304。在接收到响应(例如，“来自Lynn的第一条消息，说‘你好’”)时，设备304听觉地输出该响应。

设备304可或可不通过共享通信信道向其他用户的设备传输音频输入(例如，“读取我的消息”)。作为不传输音频输入的示例，交互处理程序210确定每个采样的音频输入是否旨在用于外部DA，并且仅允许传输被确定为不旨在用于外部DA的音频输入。例如，如果交互处理程序210确定音频输入旨在用于外部DA，则交互处理程序210在设备304传输该音频输入之前禁用共享通信信道。以此方式，用户对DA的请求可不被显露给其他用户。

在其他示例中，即使交互处理程序210确定(例如，根据交互处理程序210确定)音频输入旨在用于外部DA，交互处理程序210也允许音频输入的传输。例如，如果交互处理程序210确定音频输入旨在用于外部DA，则交互处理程序210首先允许音频输入的传输，然后禁用共享通信信道。又如，在交互处理程序210禁用共享通信信道之前(例如，如果交互处理程序210不能足够快地禁用通信信道)，设备304可能已经传输了音频输入的至少一部分。因此，在一些实例中，其他用户可感知到用户302对DA的请求(例如，“读取我的消息”)，但感知不到DA对该请求的响应。

在一些示例中，交互处理程序210确定音频输入不旨在用于外部DA。例如，根据以上所讨论的技术，交互处理程序210不能确定音频输入旨在用于外部DA。在一些示例中，根据确定音频输入不旨在用于外部DA，交互处理程序210放弃使外部DA提供听觉响应。在一些示例中，根据这种确定，交互处理程序210不禁用共享通信信道，而是通过共享通信信道向其他用户的设备传输音频输入。

在一些示例中，在禁用共享通信信道之后，交互处理程序210(重新)激活共享通信信道。例如，交互处理程序210允许设备304通过共享通信信道向其他用户的设备传输音频输入，诸如由设备304采样的音频和听觉DA响应。在一些示例中，交互处理程序210进一步允许设备304输出从其他用户的相应设备接收的音频。

在一些示例中，交互处理程序210在提供听觉DA响应之后(例如，之后的预定持续时间)激活共享通信信道。在一些示例中，交互处理程序210根据设备304在提供听觉DA响应之后的预定持续时间内不对被确定为旨在用于外部DA的音频输入进行采样(例如，不对意图继续私下DA交互的音频输入进行采样)来激活共享通信信道。以此方式，在结束私下DA交互之后，用户302可恢复与共存会话中的其他用户的对话。

图3D显示了使用外部设备212来提供与共存会话的私下DA交互的另一示例。在图3D中，类似于图3C，用户302面向(例如，已经从图3B转向面向)外部设备212。设备304因此显示对应于用户302的当前姿势的视图322。

视图322显示了设备304在XR环境中与外部设备212同时显示DA指示符324。例如，设备304将DA指示符324显示在外部设备212正上方(例如，正上方的预定距离)，例如，在外部设备212上方的由外部设备212的竖直轴线限定的位置处。如以下所讨论的，与外部设备212同时显示DA指示符324可指示私下DA交互被发起。

在一些示例中，设备304根据例如根据以上所讨论的技术确定与设备304相关联的当前姿势(例如，用户302的当前姿势)对应于外部设备212的物理位置而与外部设备212同时显示DA指示符324。例如，如果设备304确定用户302面向外部设备212，则设备304与外部设备212同时显示DA指示符324。

在一些示例中，设备304对包括用于发起外部DA的口头触发的音频输入(例如，“你好助理”)进行采样。在一些示例中，设备304根据确定音频输入包括口头触发而与外部设备212同时显示DA指示符324。在一些示例中，设备304进一步根据确定在对包括口头触发的音频输入进行采样时与设备304相关联的当前姿势对应于外部设备212的物理位置而显示DA指示符324。例如，如果用户302在面向外部设备212时说“你好助理”，则设备304显示DA指示符324。

在一些示例中，交互处理程序210将在设备304与外部设备212同时显示DA指示符324时采样的任何音频输入视为旨在用于外部DA的音频输入，例如，用于发起私下DA交互的音频输入。

在一些示例中，当设备304与外部设备212同时显示DA指示符324时，交互处理程序210禁用共享通信信道。因此，DA指示符324的显示可通知用户302私下DA交互被发起(因为共享通信信道被禁用)。

例如，在图3D中，当设备304与外部设备212同时显示DA指示符324时，用户302发出DA请求。例如，用户302询问“我下一次会议是什么时候？”设备304对音频输入“我下一次会议是什么时候？”进行采样。交互处理程序210确定音频输入旨在用于外部DA，并且因此使外部DA提供对音频输入的听觉响应。例如，外部设备212输出“你下一次会议在下午1点”。音频输入和DA的听觉响应均不通过共享通信信道传输，例如因为共享通信信道被禁用。

在一些示例中，在禁用共享通信信道之后，交互处理程序210激活共享通信信道。在一些示例中，设备304根据停止显示DA指示符324来激活共享通信信道。因此，停止显示DA指示符324可通知用户302私下DA交互已经结束并且共享通信信道是活动的。

在一些示例中，停止显示DA指示符324和/或激活共享通信信道根据确定设备304在提供了听觉响应之后的预定持续时间(例如，3秒、5秒)内未对另一音频输入进行采样来执行。例如，如果用户302在外部设备212输出“你的下一次会议在下午1点”之后的预定持续时间内不提供另一音频输入(例如，后续DA请求)，则设备304停止显示DA指示符324并且激活共享通信信道。

在一些示例中，停止显示DA指示符324和/或激活共享通信信道根据设备304接收到表示激活共享通信信道的指令的输入(例如，语音输入、手势输入、按钮输入)来执行。例如，用户302提供输入(例如，说“我完成了”)以使设备304停止显示DA指示符324并且激活共享通信信道。

在一些示例中，停止显示DA指示符324和/或激活共享通信信道根据确定与设备304相关联的当前姿势(例如，用户302的当前姿势)不对应于(例如，不再对应于)外部设备212的物理位置来执行。例如，如果图3D中的用户302改变姿势以不面向外部设备212，则设备304停止显示DA指示符324并且激活共享通信信道。

因此，以上所讨论的技术可允许参与共存会话的用户面向(例如，转向面向)外部设备212以发起私下DA交互。然后，用户可背向外部设备212以结束私下DA交互，例如，以恢复与共存会话的其他用户的交互。

有时，外部DA不能响应于包括在音频输入中的请求，尽管音频输入被确定为旨在用于外部DA。例如，操作外部DA(例如，202(b))的外部设备212可能缺乏满足该请求的能力(例如，硬件或软件要求)，或者外部DA可能缺乏对满足该请求所需的信息的访问。例如，假设用户302提供音频输入“谁在这个虚拟房间里？”，并且交互处理程序210确定该音频输入旨在用于外部DA。外部DA不能响应于该请求。例如，由于外部设备212不会实现共存会话，因此外部DA可能无法访问满足关于共存会话的虚拟环境的请求所需的信息。以下讨论DA可借此响应于此类请求，例如同时维持DA的响应的隐私的技术。

在一些示例中，根据确定音频输入旨在用于外部DA，交互处理程序210从外部设备212接收外部DA不能响应于包括在音频输入中的请求的指示。在一些示例中，根据接收该指示，交互处理程序210例如基于设备304的硬件/软件配置和/或基于DA 202(a)可访问的信息来确定在设备304上操作的DA(例如，DA 202(a))是否能够响应于该请求。例如，交互处理程序210确定DA 202(a)能够响应于请求“谁在这个虚拟房间里？”，因为DA 202(a)可访问关于虚拟房间310的信息。

在一些示例中，根据确定DA 202(a)能够响应于该请求，交互处理程序210使使用DA 202(a)输出对该请求的听觉响应。例如，交互处理程序210使DA 202(a)确定该响应(例如，确定谁在虚拟房间310里)并且在设备304处或在外部设备212处听觉地输出该响应。例如，DA 202(a)确定响应“Jessica和Lynn在这个虚拟房间里”，交互处理程序210向外部设备212传输该响应，并且外部设备212讲出该响应。应当理解，可在共享通信信道被禁用时(例如，当交互处理程序210确定音频输入旨在用于外部DA并且因此禁用共享通信信道时)提供响应，从而维持DA响应的隐私。

在一些示例中，如果在相应设备304和212上操作的两个DA(例如，DA 202(a)和202(b))不能响应于该请求，则交互处理程序210尝试标识能够响应于该请求的(在设备304和212外部的设备上操作的)另一DA。例如，交互处理程序210基于正确的设备的硬件/软件配置和/或基于正确的DA可访问的信息来标识正确的DA/设备。在一些示例中，根据标识正确的DA/设备，交互处理程序210使正确的DA例如在正确的设备处、在设备304处或在外部设备212处提供对请求的听觉响应。

图3E示出了根据各种示例的在共存会话期间使用外部设备212来提供通知。在图3E中，类似于图3A至图3D，用户302参与包括设备304和例如其他用户的第二设备的共存会话。例如，设备304例如在用于共存会话的共享通信信道是活动的时显示XR环境的视图326。

在一些示例中，当设备304显示XR环境时，设备304接收通知，例如，来自外部电子设备的通知或由设备304生成的通知。示例性通知包括消息通知(例如，文本消息、电子邮件消息)、语音通知(例如，语音消息)、系统生成的通知(例如，指示电池状态或软件更新)以及应用通知(例如，来自航班预订应用、叫车服务应用等的通知)。用户302可能期望将此类通知保持为私下的(例如，不允许其他用户感知到该通知)，因为此类通知可能显露用户的个人信息。因此，以下讨论用于在共存会话内私下提供通知的技术。

在一些示例中，根据接收到该通知，交互处理程序210确定设备304(例如，用户302)是否参与共存会话。例如，设备304确定显示器306是否显示用于共存会话的XR环境和/或用于共存会话的共享通信信道是否是活动的。在一些示例中，根据确定用户302未参与共存会话，设备304利用其内部扬声器提供表示通知的音频输出。在一些示例中，根据确定用户302参与了共存会话，交互处理程序210禁用用于共存会话的共享通信信道，并且使例如在共享通信信道被禁用时提供表示通知的音频输出。以此方式，设备304可通过不向其他用户例如不向其他用户的设备传输听觉输出通知而私下提供通知。

在一些示例中，使提供表示通知的音频输出包括使外部设备212提供音频输出或者在设备304处提供音频输出。

例如，在图3E中，当设备304参与共存会话时，设备304接收指示用户302的门铃正在响铃的通知。例如，被配置为监视用户302的家庭设备(例如，门铃、家用电器等)的设备304上的应用生成通知。根据接收到该通知，设备304确定其正在参与共存会话。交互处理程序210因此禁用共享通信信道，并且使外部设备212在共享通信信道被禁用时听觉地输出“门铃正在响铃”。

在一些示例中，根据确定设备304参与了共存会话，交互处理程序210使外部设备212提供表示通知的音频输出，而无需禁用共享通信信道并且无需在设备304处提供音频输出。这可减少通知对用户302与其他用户的对话的干扰，例如，因为设备304不同时说出通知并且输出来自其他用户的语音。

图5是示出了根据各种示例的用于数字助理交互的过程500的流程图。过程500例如在设备(例如，设备304)处并且使用系统200来执行。在过程500中，一些操作任选地被组合，一些操作的次序任选地被改变，并且一些操作任选地被省略。在一些示例中，附加操作结合过程500来执行。

在一些示例中，在框502处，在显示器(例如，显示器306)上显示对应于包括电子设备(例如，设备304)和第二电子设备(例如，设备304的另一实例)的共存会话的扩展现实(XR)环境。在一些示例中，在XR环境中显示外部电子设备(例如，外部设备212)的物理表示。在一些示例中，显示XR环境包括：显示XR环境的第一视图(例如，视图318)，该第一视图对应于与电子设备相关联的第一姿势，其中：第一视图包括与第二电子设备相关联的化身(例如，化身312和314)；并且第一视图不包括外部电子设备的物理表示。

在一些示例中，检测(例如，通过设备304)从与电子设备相关联的第一姿势到与电子设备相关联的第二姿势的改变，其中外部电子设备从第二姿势可见但从第一姿势不可见。在一些示例中，根据检测到该改变：用XR环境的第二视图(例如，视图320)的显示替换第一视图的显示，该第二视图对应于第二姿势，其中第二视图包括外部电子设备的显示在外部电子设备的物理位置处的物理表示。

在一些示例中，在框504处，当显示XR环境时，利用电子设备的麦克风对第一音频输入进行采样。

在一些示例中，在框506处，确定(例如，通过交互处理程序210)第一音频输入是否旨在用于在外部电子设备上操作的第一数字助理(例如，DA 202(b))。在一些示例中，外部电子设备的物理表示显示在外部电子设备的第二物理位置处，并且确定第一音频输入是否旨在用于在外部电子设备上操作的第一数字助理包括：确定在对第一音频输入进行采样时与电子设备相关联的姿势对应于(例如，用户面向)第二物理位置。

在一些示例中，确定在对第一音频输入进行采样时姿势对应于第二物理位置包括确定在对第一音频输入进行采样时(例如，用户的)凝视指向物理表示。

在一些示例中，确定在对第一音频输入进行采样时姿势对应于第二物理位置包括使用电子设备的一或多个传感器来检测外部电子设备。在一些示例中，一个或多个传感器包括相机，并且使用一个或多个传感器检测外部电子设备包括从由相机捕获的图像数据识别外部电子设备。

在一些示例中，确定第一音频输入是否旨在用于第一数字助理包括确定第一音频输入的方向是否对应于外部电子设备的第四物理位置。

在一些示例中，确定第一音频输入是否旨在用于第一数字助理包括分析第一音频输入的内容。在一些示例中，确定第一音频输入是否旨在用于第一数字助理包括确定第一音频输入是否对应于个人域。

在一些示例中，确定第一音频输入是否旨在用于第一数字助理在不标识第一音频输入中的第二口头触发的情况下执行。

在一些示例中，数字助理指示符(例如，DA指示符324)与外部电子设备的物理表示同时显示在XR环境中。在一些示例中，确定第一音频输入旨在用于第一数字助理包括确定在数字助理指示符与物理表示同时显示时对第一音频输入进行采样。在一些示例中，同时显示数字助理指示符与物理表示包括在物理表示上方的由物理表示的竖直轴线限定的位置处显示数字助理指示符。

在一些示例中，对第二音频输入进行采样，之后对第一音频输入进行采样。在一些示例中，同时显示数字助理指示符与物理表示包括根据第二音频输入包括用于第一数字助理的口头触发的确定来同时显示数字助理指示符与物理表示。

在一些示例中，物理表示显示在外部电子设备的第三物理位置处，并且同时显示数字助理指示符与物理表示包括根据与电子设备相关联的第三姿势对应于第三物理位置的确定来同时显示数字助理指示符与物理表示。

在一些示例中，在框508处，根据(例如，通过交互处理程序210)第一音频输入旨在用于第一数字助理的确定，(例如，通过交互处理程序210)禁用用于共存会话的共享通信信道。

在一些示例中，在框510处，根据第一音频输入旨在用于第一数字助理的确定，使(例如，通过交互处理程序210)第一数字助理提供对第一音频输入的听觉响应。听觉响应不通过用于共存会话的共享通信信道传输到第二设备。例如，当共享通信信道被禁用时，提供听觉响应。在一些示例中，根据第一音频输入对应于个人域的确定来执行使第一数字助理提供不通过共享通信信道传输的听觉响应。

在一些示例中，使第一数字助理提供听觉响应包括使外部电子设备(例如，外部设备212)利用外部电子设备的一个或多个扬声器来提供听觉响应。在一些示例中，使第一数字助理提供听觉响应包括(例如，通过设备304)从外部电子设备接收听觉响应，以及使用电子设备(例如，设备304)的一个或多个扬声器输出听觉响应。

在一些示例中，在同时显示数字助理指示符与物理表示时(例如，通过交互处理程序210)禁用共享通信信道。在一些示例中，禁用共享通信信道包括放弃通过共享通信信道向第二电子设备传输音频，其中第一数字助理在共享通信信道被禁用时提供听觉响应。在一些示例中，禁用共享通信信道还包括放弃在电子设备(例如，设备304)处输出在第二电子设备处接收的音频。

在一些示例中，在禁用共享通信信道之后，(例如，通过交互处理程序210)激活共享通信信道。在一些示例中，激活共享通信信道包括通过共享通信信道向第二电子设备传输由(例如，设备304的)麦克风进行采样的音频。在一些示例中，激活共享通信信道根据(例如，通过交互处理程序210)确定第三音频输入未在提供听觉响应之后的预定持续时间内被采样来执行。在一些示例中，数字助理指示符停止显示，并且激活共享通信信道根据停止显示数字助理指示符来执行。

在一些示例中，在框512处，根据第一音频输入不旨在用于在外部电子设备上操作的第一数字助理的确定，(例如，通过交互处理程序210)放弃使第一数字助理提供听觉响应。

在一些示例中，第一音频输入通过共享通信信道(例如，通过交互处理程序210)传输到第二电子设备。在一些示例中，传输第一音频输入根据第一音频输入旨在用于第一数字助理的确定来执行。

在一些示例中，根据第一音频输入旨在用于在外部电子设备上操作的第一数字助理的确定：(例如，通过交互处理程序210)接收第一数字助理(例如，DA 202(b))不能响应于包括在第一音频输入中的请求的指示。在一些示例中，根据接收到该指示：(例如，通过交互处理程序210)确定在电子设备(例如，设备304)上操作的第二数字助理(例如，DA 202(a))是否能够响应于该请求。在一些示例中，根据第二数字助理能够响应于该请求的确定，使用第二数字助理输出对该请求的第二听觉响应，其中使第一数字助理提供听觉响应根据未接收到指示来执行。

在一些示例中，当显示XR环境时，(例如，通过设备304)接收通知。在一些示例中，根据接收到该通知，(例如，通过交互处理程序210)确定电子设备(例如，设备304)是否参与了共存会话。在一些示例中，根据电子设备参与了共存会话的确定，(例如，通过交互处理程序210)使外部电子设备提供表示通知的音频输出。

以上关于图5讨论的操作任选地由图2A至图2B中描绘的部件例如通过系统100、DA202(a)、外部设备212和DA 202(b)来实现。

在一些示例中，提供一种计算机可读存储介质(例如，非暂态计算机可读存储介质)，该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于执行本文所述方法或过程中的任一个的指令。

在一些示例中，提供了一种电子设备，该电子设备包括用于执行本文所述的方法或过程中的任一者的装置。

在一些示例中，提供了一种电子设备，该电子设备包括处理单元，该处理单元被配置为执行本文所述的方法或过程中的任一者。

在一些示例中，提供了一种电子设备，该电子设备包括一个或多个处理器和存储用以由一个或多个处理器执行的一个或多个程序的存储器，该一个或多个程序包括用于执行本文所述的方法或过程中的任一者的指令。

本文所述的各种过程设想了获得和使用用户的个人信息的选项。例如，此类个人信息可用于提供私下DA交互。然而，如果获得此类个人信息，则应在用户知情同意的情况下获得此类信息。具体地，用户应了解和控制设备对他们的个人信息的使用。

适当的各方仅将个人信息用于合理和合法的目的。这些各方将遵守至少符合适当的法律和法规的隐私策略和惯例。此外，此类策略应当是用户可访问的、良好建立的并且被识别为符合(或超过)政府/行业标准。另外，这些各方将不会出于任何不合理或非法目的而出售、分发或以其他方式共享个人信息。

用户还可限制此类各方能访问或以其他方式获得个人信息的程度。例如，可改变用户设置或其他偏好以允许用户决定他们的个人信息是否可由各种实体访问。此外，虽然本文所述的一些特征被为描述包括个人信息的使用，但是可在不需要使用此类信息的情况下实现这些特征的各种方面。例如，如果收集到位置历史，则此信息可被模糊化或以其他方式一般化，使得该信息不标识对应用户。

Claims

1.一种方法，包括：

在具有一个或多个处理器、存储器、麦克风和显示器的电子设备处：

在所述显示器上显示对应于包括所述电子设备和第二电子设备的共存会话的扩展现实(XR)环境；

当显示所述XR环境时：

利用所述麦克风对第一音频输入进行采样；

确定所述第一音频输入是否旨在针对在外部电子设备上操作的第一数字助理；以及

根据所述第一音频输入旨在针对所述第一数字助理的确定：

使所述第一数字助理提供对所述第一音频输入的听觉响应，其中所述听觉响应不被通过用于所述共存会话的共享通信信道传输到所述第二电子设备。

2.根据权利要求1所述的方法，还包括：

根据所述第一音频输入不旨在针对在所述外部电子设备上操作的所述第一数字助理的确定：

放弃使所述第一数字助理提供所述听觉响应。

3.根据权利要求1至2中任一项所述的方法，还包括：

通过所述共享通信信道向所述第二电子设备传输所述第一音频输入。

4.根据权利要求3所述的方法，其中传输所述第一音频输入根据所述第一音频输入旨在针对所述第一数字助理的确定来执行。

5.根据权利要求1至4中任一项所述的方法，还包括：

确定所述第一音频输入是否对应于个人域，其中使所述第一数字助理提供不通过所述共享通信信道传输的所述听觉响应根据所述第一音频输入对应于所述个人域的确定来执行。

6.根据权利要求1至5中任一项所述的方法，还包括：

在所述XR环境中显示所述外部电子设备的物理表示。

7.根据权利要求6所述的方法，其中显示所述XR环境包括：

显示所述XR环境的第一视图，所述第一视图对应于与所述电子设备相关联的第一姿势，其中：

所述第一视图包括与所述第二电子设备相关联的化身；并且

所述第一视图不包括所述外部电子设备的所述物理表示。

8.根据权利要求7所述的方法，还包括：

检测从与所述电子设备相关联的所述第一姿势到与所述电子设备相关联的第二姿势的改变，其中所述外部电子设备从所述第二姿势可见但从所述第一姿势不可见；以及

根据检测到所述改变：

用所述XR环境的第二视图的显示替换所述第一视图的所述显示，所述第二视图对应于所述第二姿势，其中：

所述第二视图包括所述外部电子设备的显示在所述外部电子设备的物理位置处的所述物理表示。

9.根据权利要求6至8中任一项所述的方法，其中所述物理表示被显示在所述外部电子设备的第二物理位置处，并且其中确定所述第一音频输入是否旨在针对在所述外部电子设备上操作的所述第一数字助理包括：

确定在对所述第一音频输入进行采样时与所述电子设备相关联的姿势对应于所述第二物理位置。

10.根据权利要求9所述的方法，其中确定在对所述第一音频输入进行采样时所述姿势对应于所述第二物理位置包括：

确定在对所述第一音频输入进行采样时凝视指向所述物理表示。

11.根据权利要求9至10中任一项所述的方法，其中确定在对所述第一音频输入进行采样时所述姿势对应于所述第二物理位置包括：

使用所述电子设备的一个或多个传感器来检测所述外部电子设备。

12.根据权利要求11所述的方法，其中所述一个或多个传感器包括相机，并且使用所述一个或多个传感器检测所述外部电子设备包括：

从由所述相机捕获的图像数据识别所述外部电子设备。

13.根据权利要求6至12中任一项所述的方法，还包括：

在所述XR环境中同时显示数字助理指示符与所述物理表示，其中确定所述第一音频输入旨在针对所述第一数字助理包括确定在所述数字助理指示符与所述物理表示同时显示时对所述第一音频输入进行采样。

14.根据权利要求13所述的方法，其中同时显示所述数字助理指示符与所述物理表示包括在所述物理表示上方的由所述物理表示的所述竖直轴线限定的位置处显示所述数字助理指示符。

15.根据权利要求13至14中任一项所述的方法，还包括：

在对所述第一音频输入进行采样之前，对第二音频输入进行采样，并且其中同时显示所述数字助理指示符与所述物理表示包括：

根据所述第二音频输入包括针对所述第一数字助理的口头触发的确定来同时显示所述数字助理指示符与所述物理表示。

16.根据权利要求13至15中任一项所述的方法，其中所述物理表示被显示在所述外部电子设备的第三物理位置处，并且其中同时显示所述数字助理指示符与所述物理表示包括：

根据与所述电子设备相关联的第三姿势对应于所述第三物理位置的确定来同时显示所述数字助理指示符与所述物理表示。

17.根据权利要求13至16中任一项所述的方法，还包括：

当同时显示所述数字助理指示符与所述物理表示时，禁用所述共享通信信道，包括：

放弃通过所述共享通信信道向所述第二电子设备传输音频，其中所述第一数字助理在所述共享通信信道被禁用时提供所述听觉响应。

18.根据权利要求17所述的方法，其中禁用所述共享通信信道还包括：

在所述电子设备处放弃输出在所述第二电子设备处接收的音频。

19.根据权利要求17至18中任一项所述的方法，还包括：

在禁用所述共享通信信道之后，激活所述共享通信信道，包括：

通过所述共享通信信道向所述第二电子设备传输由所述麦克风采样的音频。

20.根据权利要求19所述的方法，其中激活所述共享通信信道根据确定第三音频输入在提供所述听觉响应之后的预定持续时间内未被采样来执行。

21.根据权利要求19至20中任一项所述的方法，还包括：

停止显示所述数字助理指示符，其中激活所述共享通信信道根据停止显示所述数字助理指示符来执行。

22.根据权利要求1至21中任一项所述的方法，其中使所述第一数字助理提供所述听觉响应包括：

使所述外部电子设备利用所述外部电子设备的一个或多个扬声器来提供所述听觉响应。

23.根据权利要求1至22中任一项所述的方法，其中使所述第一数字助理提供所述听觉响应包括：

从所述外部电子设备接收所述听觉响应；以及

使用所述电子设备的一个或多个扬声器来输出所述听觉响应。

24.根据权利要求1至23中任一项所述的方法，还包括：

在显示所述XR环境时，接收通知；

根据接收到所述通知，确定所述电子设备是否参与到所述共存会话中；以及

根据所述电子设备参与到所述共存会话中的确定，使所述外部电子设备提供表示所述通知的音频输出。

25.根据权利要求1至24中任一项所述的方法，还包括：

根据所述第一音频输入旨在针对在所述外部电子设备上操作的所述第一数字助理的确定：

从所述外部电子设备接收所述第一数字助理不能响应被包括在所述第一音频输入中的请求的指示；以及

根据接收到所述指示：

确定在所述电子设备上操作的第二数字助理是否能够响应于所述请求；以及

根据所述第二数字助理能够响应于所述请求的确定，

使用所述第二数字助理输出对所述请求的第二听觉响应，

其中使所述第一数字助理提供所述听觉响应根据未接收到所述指示来执行。

26.根据权利要求1至25中任一项所述的方法，其中确定所述第一音频输入是否旨在针对所述第一数字助理在不标识所述第一音频输入中的第二口头触发的情况下执行。

27.根据权利要求1至26中任一项所述的方法，其中确定所述第一音频输入是否旨在针对所述第一数字助理包括确定所述第一音频输入的方向是否对应于所述外部电子设备的第四物理位置。

28.根据权利要求1至27中任一项所述的方法，其中确定所述第一音频输入是否旨在针对所述第一数字助理包括分析所述第一音频输入的内容。

29.一种电子设备，包括：

显示器；

麦克风；

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行以下操作的指令：

当显示所述XR环境时：

利用所述麦克风对第一音频输入进行采样；

根据所述第一音频输入旨在针对所述第一数字助理的确定：

30.一种存储一个或多个程序的非暂态计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由具有显示器和麦克风的电子设备的一个或多个处理器执行时使所述电子设备：

当显示所述XR环境时：

利用所述麦克风对第一音频输入进行采样；

根据所述第一音频输入旨在针对所述第一数字助理的确定：

31.一种电子设备，包括用于执行以下操作的装置：

在显示器上显示对应于包括所述电子设备和第二电子设备的共存会话的扩展现实(XR)环境；

当显示所述XR环境时：

利用麦克风对第一音频输入进行采样；

根据所述第一音频输入旨在针对所述第一数字助理的确定：

32.一种电子设备，包括：

显示器；

麦克风；

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至28中任一项所述的方法的指令。

33.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，所述指令在由具有显示器和麦克风的电子设备的一个或多个处理器执行时使所述电子设备执行根据权利要求1至28中任一项所述的方法。

34.一种电子设备，包括：

用于执行根据权利要求1至28中任一项所述的方法的装置。