CN116210218A

CN116210218A - 用于在通信会话期间使用空间化音频的系统、方法和图形用户界面

Info

Publication number: CN116210218A
Application number: CN202180065322.2A
Authority: CN
Inventors: D·A·萨通加; P·H·L·佩尔森; S·B·凯利; M·E·约翰逊; T·S·维尔马; P·D·卡拉威; J·W·常; D·K·布特; S·A·拉姆普拉沙德; P·米阿登; A·W·徐; K·科马罗夫; C·M·加里多; M·R·勒纳; C·C·霍伊特
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-09-25
Filing date: 2021-09-24
Publication date: 2023-06-02
Also published as: EP4201084A2; WO2022067099A3; US11523243B2; WO2022067099A2; US20230020542A1; US20220103963A1; CN116886851A

Abstract

一种电子设备与显示器、输入设备和可穿戴音频输出设备通信。该设备显示具有通信会话中的参与者的动态视觉表示的用户界面。经由该可穿戴音频输出设备输出来自该通信会话中的该多个参与者的音频。该音频被调整以独立于该可穿戴音频输出设备相对于该通信会话的参照系的位置而维持参与者相对于该参照系的模拟空间位置。这些模拟空间位置对应于这些动态视觉表示的这些位置。接收选择这些动态视觉表示中的一个动态视觉表示的输入。作为响应，在与这些动态视觉表示的初始位置不同的位置处显示这些动态视觉表示，并且输出来自这些参与者的音频，以将这些参与者的音频定位在相对于该参照系的不同模拟空间位置处。

Description

用于在通信会话期间使用空间化音频的系统、方法和图形用户界面

相关专利申请

本专利申请是于2021年9月23日提交的美国专利申请第17/483,741号的继续申请，本专利申请要求于2020年9月25日提交的美国临时专利申请第63/083,807号、于2021年2月23日提交的美国临时专利申请第63/152,796号、于2021年6月6日提交的美国临时专利申请第63/197,483号的优先权，上述各专利申请的全部内容据此全文以引用方式并入本文。

技术领域

本发明整体涉及音频输出系统，包括但不限于用于对由音频输出设备输出的、在通信会话期间与参与者相关联的音频进行空间化，任选地，用于在一个或多个显示设备上显示视频会议用户界面，且具有一个或多个输入设备的系统。

背景技术

音频输出设备(包括可穿戴音频输出设备，诸如头戴式耳机、耳塞和耳机)被广泛用于在通信会话期间向用户提供音频输出。

但是用于在通信会话(例如，多参与者视频会议通话)期间在可穿戴音频输出设备上播放音频的常规方法在可穿戴音频输出设备可输出音频的音频输出模式的类型方面受到限制。例如，常规使用的音频输出模式(诸如，立体声和单声道音频输出模式)相对于与音频输出设备相关的参照系提供音频，这可导致收听体验在沉浸感和真实感方面不如当使用空间音频输出模式输出音频时所提供的收听体验(例如，多个参与者语音全部被感知为来自空间中的一个重叠点)，这种空间音频输出模式模拟更真实的收听体验，其中音频好像来自单独的参照系(诸如，用户周围的物理环境)中的声源。此外，支持空间音频输出的可穿戴音频输出设备(其中模拟声源的定位与音频输出设备的移动无关)使得公共收听体验的真实感和沉浸感方面能够得以提升，同时还提供了非侵扰性的私人收听体验。将空间音频输出模式进一步应用于通信会话允许用户以更真实的方式进行通信，因为每个参与者将听起来如同处于单独位置处。此外，用于包括视觉组成部分(例如，视频通话)的通信会话的常规方法可能使参与者被置于整个用户界面中，但使他们相应的语音来自空间中的单个感知位置，这可使用户混淆。此外，常规方法花费更长的时间并且需要超出必要范围的用户交互(例如，由于参与者说话时总是打断彼此造成的持续暂停)，这导致用户错误增加，更一般地，导致浪费能量。这些后面的考虑在电池驱动的设备中是特别重要的。

发明内容

因此，需要具有用于在通信会话和包括视觉组成部分的通信会话(例如，视频通话)期间对音频进行空间化的改进的方法和界面的音频输出设备和在一些实施方案中相关联的电子设备。此类方法和界面任选地补充或替换用于通信会话中的立体声和单声道音频输出模式的常规方法。此类方法和界面减少了来自用户的输入的数量、程度、和/或性质，并且产生更有效的人机界面。对于电池驱动的系统和设备，此类方法和界面节省了功率，并且增加了电池两次充电之间的间隔。

所公开的设备减少或消除了与用于与一组一个或多个可穿戴音频输出设备通信的电子设备的用户界面相关联的上述缺陷和其他问题。在一些实施方案中，电子设备是台式计算机。在一些实施方案中，电子设备是便携式的(例如，笔记本电脑、平板电脑或手持设备)。在一些实施方案中，电子设备是个人电子设备(例如，可穿戴电子设备，诸如手表)。在一些实施方案中，电子设备具有触控板。在一些实施方案中，电子设备具有触敏显示器(也称为“触摸屏”或“触摸屏显示器”)。在一些实施方案中，电子设备具有图形用户界面(GUI)、一个或多个处理器、存储器和一个或多个模块、被存储在所述存储器中以用于执行多个功能的程序或指令集。在一些实施方案中，用户主要通过触笔和/或手指接触以及触敏表面上的手势来与GUI进行交互。在一些实施方案中，这些功能任选地包括图像编辑、绘图、演示、文字处理、电子表格制作、玩游戏、接打电话、视频会议、收发电子邮件、即时消息通信、健身支持、数字摄影、数字视频录制、网页浏览、数字音乐/音频播放、记笔记和/或数字视频播放。用于执行这些功能的可执行指令任选地被包括在被配置用于由一个或多个处理器执行的非暂态计算机可读存储介质或其他计算机程序产品中。

根据一些实施方案，在与一个或多个显示设备、一个或多个输入设备和一组一个或多个可穿戴音频输出设备通信的电子设备处执行一种方法。该方法包括：经由该一个或多个显示设备显示包括通信会话中的多个参与者的相应动态视觉表示的用户界面，包括在用户界面中的第一位置处显示第一参与者的第一动态视觉表示，以及在用户界面中的第二位置处显示与第一参与者不同的第二参与者的第二动态视觉表示。该方法包括经由该组一个或多个可穿戴音频输出设备输出来自通信会话中的该多个参与者的音频。该方法包括输出来自第一参与者的第一音频。第一音频被调整以便独立于该组一个或多个可穿戴音频输出设备相对于通信会话的参照系的位置而将第一音频维持在相对于该参照系的第一模拟空间位置处。第一模拟空间位置对应于第一动态视觉表示在用户界面中的第一位置。该方法包括输出来自第二参与者的第二音频。第二音频被调整以便独立于该组一个或多个可穿戴音频输出设备相对于通信会话的参照系的位置而将第二音频维持在相对于该参照系的第二模拟空间位置处，其中第二模拟空间位置对应于第二动态视觉表示在用户界面中的第二位置。该方法包括经由该一个或多个输入设备接收选择第一参与者的第一动态视觉表示的输入。该方法包括：响应于接收到选择第一参与者的第一动态视觉表示的输入，在用户界面中与第一位置不同的第三位置处显示第一参与者的第一动态视觉表示，并且输出来自第一参与者的第一音频，以便将第一音频定位在相对于参照系的第三模拟空间位置处，该第三模拟空间位置对应于第一动态视觉表示在用户界面中的第三位置。第三模拟空间位置不同于第一模拟空间位置。该方法包括：响应于接收到选择第一参与者的第一动态视觉表示的输入，在用户界面中的第四位置处显示第二参与者的第二动态视觉表示，并且输出来自第二参与者的第二音频，以便将第二音频定位在相对于参照系的第四模拟空间位置处，该第四模拟空间位置对应于第二动态视觉表示在用户界面中的第四位置。

根据一些实施方案，在与和第二用户相关联的第二组一个或多个可穿戴音频输出设备通信的与第一用户相关联的第一组一个或多个可穿戴音频输出设备处执行一种方法。该方法包括：当第一组一个或多个可穿戴音频输出设备和第二组一个或多个可穿戴音频输出设备参与音频通信会话时，经由第一组一个或多个可穿戴音频输出设备输出来自第二组一个或多个可穿戴音频输出设备的相应音频，包括：当第一组一个或多个可穿戴音频输出设备相对于第二组一个或多个可穿戴音频输出设备移动时。该方法包括调整相应音频以便将相应音频定位在相对于第一组一个或多个可穿戴音频输出设备的模拟空间位置处，该模拟空间位置是基于第二组一个或多个可穿戴音频输出设备相对于第一组一个或多个可穿戴音频输出设备的相应位置来确定的。该方法包括基于第二组一个或多个可穿戴音频输出设备距第一组一个或多个可穿戴音频输出设备的距离来调整相应音频的除了模拟空间位置之外的输出属性。

根据一些实施方案，在与一个或多个显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信的电子设备处执行一种方法。该方法包括：经由该一个或多个显示生成部件显示包括通信会话中的多个参与者的相应视觉表示的用户界面，包括在用户界面中的第一位置处显示第一参与者的第一视觉表示，以及在用户界面中的第二位置处显示与第一参与者不同的第二参与者的第二视觉表示。该方法包括：经由该组一个或多个可穿戴音频输出设备输出来自通信会话中的该多个参与者的音频，包括：根据确定该多个参与者包括第一数量的参与者，使得该组一个或多个音频输出设备从多个不同模拟空间位置输出来自该多个参与者的音频，而不从该多个不同模拟空间位置中的单个模拟空间位置输出来自该多个参与者中的多于一个参与者的音频；以及根据确定该多个参与者包括第二数量的参与者，使得该组一个或多个音频输出设备从共享模拟空间位置输出来自该多个参与者中的两个或更多个参与者的音频。

根据一些实施方案，在与一个或多个输入设备和一组一个或多个音频输出设备通信的电子设备处执行一种方法。该方法包括：接收经由该一个或多个音频输出设备输出音频内容的请求；以及响应于接收到经由该一个或多个音频输出设备输出音频内容的请求，以及根据确定音频内容包括使得音频内容能够空间化的信息，经由该组一个或多个音频输出设备在模拟三维环境中输出该音频内容。输出音频内容包括：根据确定该音频内容对应于第一类别的内容，使得该一个或多个音频输出设备模拟在第一虚拟空间中产生该音频内容；以及根据确定该音频内容对应于第二类别的内容，使得该一个或多个音频输出设备模拟在第二虚拟空间中产生该音频内容，该第二虚拟空间具有与第一虚拟空间的模拟声学属性不同的模拟声学属性。

根据一些实施方案，一种电子设备包括以下部件或与以下部件通信：一个或多个显示设备、一个或多个音频输出设备、任选地用于检测与触敏表面接触的强度的一个或多个传感器、任选地一个或多个触觉输出发生器、一个或多个处理器和存储一个或多个程序的存储器；一个或多个程序被配置为由一个或多个处理器执行，并且一个或多个程序包括用于执行或引起执行本文所述方法中的任一种方法的操作的指令。根据一些实施方案，计算机可读存储介质具有存储在其中的指令，这些指令当由本文所述的电子设备执行时，使得该电子设备执行或导致执行本文所述的方法中的任一种方法的操作。根据一些实施方案，在本文所述的电子设备上的图形用户界面包括在本文所述方法中任一方法中显示的元素中的一个或多个元素，这些元素响应于输入而被更新，如在本文所述方法中任一方法中所述。根据一些实施方案，本文所述的电子设备包括用于执行或导致执行本文所述的方法中的任一方法的操作的装置。根据一些实施方案，一种用于在本文所述的电子设备中使用的信息处理装置包括用于执行或导致执行本文所述方法中的任一方法的操作的装置。

因此，包括一个或多个显示器、一个或多个输入设备、一个或多个音频输出设备、任选地用于检测与触敏表面接触的强度的一个或多个传感器、任选地一个或多个触觉输出发生器或与这些部件通信的电子设备具有用于在依赖于空间化音频的通信会话期间与参与者交互的改进的方法和界面，从而增加此类设备的有效性、效率和用户满意度。此类方法和界面可补充或替换用于在通信会话期间与参与者交互的常规方法。

附图说明

为了更好地理解各种所述实施方案，应结合以下附图参考下面的具体实施方式，其中类似的附图标号在所有附图中指示对应的部分。

图1A是示出根据一些实施方案的具有触敏显示器的便携式多功能设备的框图。

图1B是示出根据一些实施方案的用于事件处理的示例性部件的框图。

图2示出了根据一些实施方案的具有触摸屏的便携式多功能设备。

图3A是根据一些实施方案的具有显示器和触敏表面的示例性多功能设备的框图。

图3B是根据一些实施方案的示例性可穿戴音频输出设备的框图。

图3C示出了根据一些实施方案的由可穿戴音频输出设备进行的示例性音频控制。

图4A示出了根据一些实施方案的便携式多功能设备上的应用程序菜单的示例性用户界面。

图4B示出了根据一些实施方案的用于具有与显示器分开的触敏表面的多功能设备的示例性用户界面。

图5A至图5T示出了根据一些实施方案的用于有多个参与者的动态视觉通信会话的示例性用户界面(例如，通信会话期间的视频通话应用程序的用户界面)和参与者相对于设备的用户的模拟空间音频位置的表示。

图6A至图6G示出了根据一些实施方案的至少两个附近用户经由可穿戴音频输出设备发起并进行通信会话，其中该至少两个附近用户听到指示通信会话中的其他用户的方向和距离的模拟空间音频。

图7A至图7H是根据一些实施方案的用于显示有多个参与者的动态视觉通信会话(例如，用于显示通信会话期间的视频通话应用程序的用户界面)和参与者相对于设备的用户的模拟空间音频位置的表示的过程的流程图。

图8A至图8B是根据一些实施方案的至少两个附近用户经由可穿戴音频输出设备发起并进行通信会话的过程的流程图，其中该至少两个附近用户听到指示通信会话中的其他用户的方向和距离的模拟空间音频。

图9A至图9G示出了根据一些实施方案的用于有多个参与者的动态视觉通信会话的示例性用户界面(例如，通信会话期间的视频通话应用程序的用户界面)和参与者相对于设备的用户的模拟空间音频位置的表示。

图10A至图10O示出了根据一些实施方案的用于有多个参与者的动态视觉通信会话的示例性用户界面(例如，通信会话期间的视频通话应用程序的用户界面)、示出了参与者的活动水平的图表和参与者相对于设备的用户的模拟空间音频位置的表示。

图11A至图11V示出了根据一些实施方案的与模拟在各自具有不同模拟声学属性的虚拟空间中产生各种类别的音频内容相关联的用户界面、用于选择音频输出设置的用户界面，以及表示用于模拟产生音频内容的多个虚拟空间的音频特性的图解。

图12A至图12E是根据一些实施方案的用于显示有多个参与者的动态视觉通信会话(例如，通信会话期间的视频通话应用程序的用户界面)和用于基于参与者的活动水平来在相对于设备的用户的模拟空间音频位置处输出参与者的音频的过程的流程图。

图13A至图13E是根据一些实施方案的用于使音频输出设备模拟在多个虚拟空间中的一个虚拟空间中产生空间音频内容的过程的流程图。

具体实施方式

如上所述，音频输出设备诸如可穿戴音频输出设备被广泛用于在通信会话期间向用户提供音频输出。包括可穿戴输出设备或与可穿戴输出设备通信的许多电子设备无法提供在通信会话期间对参与者的音频进行空间化的能力并且/或者无法模拟每个参与者在他们自己的空间点说话。本文所述的方法、系统和用户界面/交互以多种方式改进了用户在通信会话期间可如何有效地与参与者进行通信。例如，本文所公开的实施方案描述了在通信会话期间对每个参与者音频进行空间化以允许用户和参与者更有效地通信的改进方式。

下文所述的过程通过各种技术增强了设备的可操作性并且使用户-设备界面更有效(例如，通过帮助用户提供适当的输入并减少操作设备/与设备交互时的用户错误)，包括通过向用户提供改进的视觉、听觉和/或触觉反馈、减少执行操作所需的输入的数量、提供附加控制选项而不使用户界面因为附加的显示的控件变得杂乱、在一组条件已经被满足时执行操作而无需进一步的用户输入和/或附加的技术。这些技术还通过使用户能够更快且更有效地使用设备而减少了电力使用并延长了设备的电池寿命。

下面，图1A至图1B、图2和图3A至图3C、图4A至图4B提供了对示例性设备的描述。图5A至图5T示出了用于有多个参与者的动态视觉通信会话(例如，视频通话应用程序)的示例性用户界面和参与者相对于设备的用户的模拟空间音频位置的表示。图6A至图6G示出了至少两个附近用户经由可穿戴音频输出设备发起并进行通信会话，其中该至少两个附近用户听到指示通信会话中的其他用户的方向和距离的模拟空间音频。图7A至图7H示出了显示有多个参与者的动态视觉通信会话(例如，视频通话应用程序)和参与者相对于设备的用户的模拟空间音频位置的表示的方法的流程图。图8A至图8B示出了至少两个附近用户经由可穿戴音频输出设备发起并进行通信会话的方法的流程图，其中该至少两个附近用户听到指示通信会话中的其他用户的方向和距离的模拟空间音频。图9A至图9G示出了用于有多个参与者的动态视觉通信会话的示例性用户界面(例如，通信会话期间的视频通话应用程序的用户界面)、示出了参与者的混响声与直达声的比率的图表，以及参与者相对于设备的用户的模拟空间音频位置的表示。图5A至图5T和图9A至图9G中的用户界面用于示出图7A至图7H中的过程，并且图6A至图6G中的用户界面用于示出图8A至图8B中的过程。图10A至图10O示出了用于有多个参与者的动态视觉通信会话的示例性用户界面(例如，通信会话期间的视频通话应用程序的用户界面)、示出了参与者的活动水平的图表和参与者相对于设备的用户的模拟空间音频位置的表示。图11A至图11V示出了根据一些实施方案的：与模拟在模拟虚拟环境中产生各种类别的音频内容相关联的用户界面，这些模拟虚拟环境在本文中也被称为虚拟空间或虚拟房间，每个模拟虚拟环境具有不同的模拟声学属性；用于选择音频输出设置的用户界面；以及表示用于模拟产生音频内容的多个虚拟空间的音频特性的图解。图10A至图10O和图11A至图11V中的用户界面用于分别示出图12A至图12E和图13A至图13E中的过程。

示例性设备

现在将详细地参考实施方案，这些实施方案的示例在附图中示出。下面的详细描述中示出许多具体细节，以便提供对各种所描述的实施方案的充分理解。但是，对本领域的普通技术人员将显而易见的是，各种所描述的实施方案可以在没有这些具体细节的情况下被实践。在其他情况下，没有详细地描述众所周知的方法、过程、部件、电路和网络，从而不会不必要地使实施方案的各个方面晦涩难懂。

还将理解的是，虽然在一些情况下，术语“第一”、“第二”等在本文中用于描述各种元件，但是这些元件不应受到这些术语限制。这些术语只是用于将一个元件与另一元件区分开。例如，第一接触可被命名为第二接触，并且类似地，第二接触可被命名为第一接触，而不脱离各种所描述的实施方案的范围。第一接触和第二接触均为接触，但它们不是同一个接触，除非上下文另外明确指示。

在本文中对各种所述实施方案的描述中所使用的术语只是为了描述特定实施方案的目的，而并非旨在进行限制。如在对各种所述实施方案中的描述和所附权利要求书中所使用的那样，单数形式“一个”和“该”旨在也包括复数形式，除非上下文另外明确地指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”(“includes”、“including”、“comprises”和/或“comprising”)在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其分组。

如本文中所使用，根据上下文，术语“如果”任选地被解释为意思是“当……时”后“在……时”或“响应于确定”或“响应于检测”。类似地，根据上下文，短语“如果确定……”或“如果检测到[所陈述的条件或事件]”任选地被解释为是指“在确定……时”或“响应于确定……”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

本文描述了电子设备、此类设备的用户界面和使用此类设备的相关过程的实施方案。在一些实施方案中，该设备为还包含其他功能诸如PDA和/或音乐播放器功能的便携式通信设备，诸如移动电话。便携式多功能设备的示例性实施方案包括但不限于来自AppleInc.,Cupertino,California的

iPod/>

和/>

设备。任选地使用其他便携式电子设备，诸如具有触敏表面(例如，触摸屏显示器和/或触控板)的膝上型计算机或平板电脑。还应当理解的是，在一些实施方案中，该设备并非便携式通信设备，而是具有触敏表面(例如，触摸屏显示器和/或触控板)的台式计算机。

在下面的讨论中，描述了一种包括显示器和触敏表面的电子设备。然而，应当理解，该电子设备任选地包括一个或多个其他物理用户界面设备(诸如物理键盘、鼠标和/或操纵杆)或与其通信。在一些实施方案中，触敏表面和/或其他前述物理用户界面设备由用于接收口头递送的用户输入的语音识别设备或子系统和/或确定用户正在注视或聚焦于的位置(例如，在用户界面中或在二维或三维环境中)或一系列位置的用户注视确定设备或子系统替换或补充。

所述设备通常支持各种应用程序，诸如以下应用程序中的一者或多者：笔记应用程序、绘图应用程序、呈现应用程序、文字处理应用程序、网站创建应用程序、盘编辑应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、邮件应用程序、即时消息应用程序、健身支持应用程序、照片管理应用程序、数字相机应用程序、数字视频摄像机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

在设备上执行的各种应用程序任选地使用至少一个通用的物理用户界面设备，诸如触敏表面。触敏表面的一种或多种功能以及被显示在设备上的对应信息任选地对于不同应用程序被调整和/或变化，和/或在相应应用程序内被调整和/或变化。这样，设备的共用物理架构(诸如触敏表面)任选地利用对于用户而言直观且清楚的用户界面来支持各种应用程序。

现在将注意力转到具有触敏显示器的便携式设备的实施方案。图1A是示出根据一些实施方案的具有触敏显示器系统112的便携式多功能设备100的框图。触敏显示器系统112有时为了方便而被叫做“触摸屏”，并且有时被简称为触敏显示器。设备100包括存储器102(其任选地包括一个或多个计算机可读存储介质)、存储器控制器122、一个或多个处理单元(CPU)120、外围设备接口118、RF电路108、音频电路110、扬声器111、麦克风113、输入/输出(I/O)子系统106、其他输入、或控制设备116吗、和外部端口124。设备100任选地包括一个或多个光学传感器164。设备100任选地包括用于检测设备100上的接触的强度的一个或多个强度传感器165(例如，触敏表面，诸如设备100的触敏显示系统112)。设备100任选地包括用于在设备100上生成触觉输出的一个或多个触觉输出发生器167(例如，在触敏表面(诸如设备100的触敏显示器系统112或设备300的触控板355)上生成触觉输出)。这些部件任选地通过一个或多个通信总线或信号线103进行通信。

如本说明书和权利要求书中所使用的，术语“触觉输出”是指将由用户利用用户的触感检测到的设备相对于设备的先前位置的物理位移、设备的部件(例如，触敏表面)相对于设备的另一个部件(例如，外壳)的物理位移、或部件相对于设备的质心的位移。例如，在设备或设备的部件与用户对触摸敏感的表面(例如，手指、手掌或用户手部的其他部分)接触的情况下，通过物理位移生成的触觉输出将由用户解释为触感，该触感对应于设备或设备的部件的物理特征的所感知的变化。例如，触敏表面(例如，触敏显示器或触控板)的移动任选地由用户解释为对物理致动按钮的“按下点击”或“松开点击”。在一些情况下，用户将感觉到触感，诸如“按下点击”或“松开点击”，即使在通过用户的移动而物理地被按压(例如，被移位)的与触敏表面相关联的物理致动按钮没有移动时。又如，即使在触敏表面的光滑度无变化时，触敏表面的移动也会任选地由用户解释或感测为触敏表面的“粗糙度”。虽然用户对触摸的此类解释将受到用户的个体化感官知觉的限制，但是对触摸的许多感官知觉是大多数用户共有的。因此，当触觉输出被描述为对应于用户的特定感官知觉(例如，“按下点击”、“松开点击”、“粗糙度”)时，除非另外陈述，否则所生成的触觉输出对应于设备或其部件的物理位移，该物理位移将会生成典型(或普通)用户的所述感官知觉。使用触觉输出向用户提供触觉反馈增强了设备的可操作性，并且使用户设备界面更高效(例如，通过帮助用户提供适当的输入并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，触觉输出模式指定触觉输出的特性，诸如触觉输出的幅值、触觉输出的运动波形的形状、触觉输出的频率、和/或触觉输出的持续时间。

当设备(例如经由移动可移动质块生成触觉输出的一个或多个触觉输出发生器)生成具有不同触觉输出模式的触觉输出时，触觉输出可在握持或触摸设备的用户中产生不同触感。虽然用户的感官基于用户对触觉输出的感知，但大多数用户将能够识别设备生成的触觉输出的波形、频率和幅值的变化。因此，波形、频率和幅值可被调节以向用户指示已执行了不同操作。因此，具有被设计、选择和/或安排用于模拟给定环境(例如，包括图形特征和对象的用户界面、具有虚拟边界和虚拟对象的模拟物理环境、具有物理边界和物理对象的真实物理环境、和/或以上任意者的组合)中对象的特性(例如大小、材料、重量、刚度、光滑度等)；行为(例如振荡、位移、加速、旋转、伸展等)；和/或交互(例如碰撞、粘附、排斥、吸引、摩擦等)的触觉输出模式的触觉输出在一些情况下将为用户提供有帮助的反馈，其减少输入错误并提高用户对设备的操作的效率。另外，触觉输出任选地被生成为对应于与所模拟物理特性(诸如输入阈值或对象选择)无关的反馈。此类触觉输出在一些情况下将为用户提供有帮助的反馈，其减少输入错误并提高用户对设备的操作的效率。

在一些实施方案中，具有合适触觉输出模式的触觉输出充当在用户界面中或在设备中屏幕后面发生感兴趣事件的提示。感兴趣事件的示例包括设备上或用户界面中提供的示能表示(例如真实或虚拟按钮、或拨动式开关)的激活、所请求操作的成功或失败、到达或穿过用户界面中的边界、进入新状态、在对象之间切换输入焦点、激活新模式、达到或穿过输入阈值、检测或识别一种类型的输入或手势等等。在一些实施方案中，提供触觉输出以充当关于除非改变方向或中断输入被及时检测到、否则会发生的即将发生事件或结果的警告或提示。触觉输出在其他情境下也用于丰富用户体验、改善具有视觉或运动困难或者其他可达性需要的用户对设备的可达性、和/或改善用户界面和/或设备的效率和功能性。任选地将触觉输出与音频输入和/或视觉用户界面改变进行比较，这进一步增强用户与用户界面和/或设备交互时用户的体验，并有利于关于用户界面和/或设备的状态的信息的更好传输，并且这减少输入错误并提高用户对设备的操作的效率。

应当理解，设备100仅仅是便携式多功能设备的一个示例，并且设备100任选地具有比所示出的部件更多或更少的部件，任选地组合两个或更多个部件，或者任选地具有这些部件的不同配置或布置。图1A中所示的各种部件在硬件、软件、固件、或它们的任何组合(包括一个或多个信号处理电路和/或专用集成电路)中实施。

存储器102任选地包括高速随机存取存储器，并且还任选地包括非易失性存储器，诸如一个或多个磁盘存储设备、闪存存储器设备、或其他非易失性固态存储器设备。设备100的其他部件(诸如CPU 120和外围设备接口118)对存储器102的访问任选地由存储器控制器122来控制。

外围设备接口118可用于将设备的输入外围设备和输出外围设备耦接到CPU 120和存储器102。一个或多个处理器120运行或执行存储器102中所存储的各种软件程序和/或指令集以执行设备100的各种功能并处理数据。

在一些实施方案中，外围设备接口118、CPU 120和存储器控制器122任选地被实现在单个芯片诸如芯片104上。在一些其他实施方案中，它们任选地在独立的芯片上实现。

RF(射频)电路108接收和发送也被称作电磁信号的RF信号。RF电路108将电信号转换为电磁信号/将电磁信号转换为电信号，并且经由电磁信号与通信网络及其他通信设备进行通信。RF电路108任选地包括用于执行这些功能的熟知的电路，包括但不限于天线系统、RF收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码芯片组、用户身份模块(SIM)卡、存储器等等。RF电路108任选地通过无线通信来与网络和其他设备进行通信，这些网络为诸如互联网(也被称为万维网(WWW))、内联网和/或无线网络(诸如，蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN))。该无线通信任选地使用多种通信标准、协议和技术中的任一者，包括但不限于全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进纯数据(EV-DO)、HSPA、HSPA+、双单元HSPA(DC-HSPA)、长期演进(LTE)、近场通信(NFC)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、无线保真(Wi-Fi)(例如，IEEE802.11a、IEEE 802.11ac、IEEE 802.11ax、IEEE 802.11b、IEEE 802.11g和/或IEEE802.11n)、互联网协议语音技术(VoIP)、Wi-MAX、电子邮件协议(例如，互联网消息访问协议(IMAP)和/或邮局协议(POP))、即时消息(例如，可扩展消息处理和存在协议(XMPP)、用于即时消息和存在利用扩展的会话发起协议(SIMPLE)、即时消息和存在服务(IMPS))、和/或短消息服务(SMS)、或者包括在本文档提交日期还未开发出的通信协议的其他任何适当的通信协议。

音频电路110、扬声器111和麦克风113提供用户与设备100之间的音频接口。音频电路110从外围设备接口118接收音频数据，将音频数据转换为电信号，并将电信号传输到扬声器111。扬声器111将电信号转换为人类可听到的声波。音频电路110还接收由麦克风113从声波转换的电信号。音频电路110将电信号转换为音频数据，并且将音频数据传输到外围设备接口118以用于处理。音频数据任选地由外围设备接口118检索自和/或传输至存储器102和/或RF电路108。在一些实施方案中，音频电路110还包括耳麦插孔(例如，图2中的212)。耳麦插孔提供音频电路110与可移除音频输入/输出外围设备之间的接口，该外围设备为诸如仅输出的耳机或者具有输出(例如，单耳耳机或双耳耳机)和输入(例如，麦克风)两者的耳麦。在一些实施方案中，与RF电路108和任选的音频电路110结合的外围设备接口118与一个或多个外围音频输出设备(诸如可穿戴音频输出设备301(图3B))无线通信，以控制音频输出和外围音频输出设备的其他功能。

I/O子系统106将设备100上的输入/输出外围设备诸如触敏显示器系统112和其他输入或控制设备116与外围设备接口118耦接。I/O子系统106任选地包括显示控制器156、光学传感器控制器158、强度传感器控制器159、触觉反馈控制器161、和用于其他输入或控制设备的一个或多个输入控制器160。一个或多个输入控制器160从其他输入或控制设备116接收电信号/将电信号发送到该其他输入或控制设备。其他输入控制设备116任选地包括物理按钮(例如，下压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击轮等。在一些另选的实施方案中，一个或多个输入控制器160任选地耦接至以下各项中的任一者(或不耦接至以下各项中的任一者)：键盘、红外线端口、USB端口、触笔、和/或指针设备诸如鼠标。一个或多个按钮(例如，图2中的208)任选地包括用于扬声器111和/或麦克风113的音量控制的向上/向下按钮(例如，或向上按钮和单独的向下按钮)。一个或多个按钮任选地包括下压按钮(例如，图2中的206)。

触敏显示器系统112提供设备与用户之间的输入接口和输出接口。显示控制器156从触敏显示器系统112接收电信号和/或将电信号发送至该触敏显示器系统。触敏显示器系统112向用户显示视觉输出。视觉输出任选地包括图形、文本、图标、视频以及它们的任何组合(统称为“图形”)。在一些实施方案中，一些视觉输出或全部的视觉输出对应于用户界面对象。如本文所用，术语“示能表示”是指用户交互式图形用户界面对象(例如，被配置为对被引向图形用户界面对象的输入进行响应的图形用户界面对象)。用户交互式图形用户界面对象的示例包括但不限于按钮、滑块、图标、可选择菜单项、开关、超链接或其他用户界面控件。

触敏显示器系统112具有基于触觉和/或触感接触来接受来自用户的输入的触敏表面、传感器、或传感器组。触敏显示器系统112和显示控制器156(与存储器102中的任何相关联的模块和/或指令集一起)检测触敏显示器系统112上的接触(和该接触的任何移动或中断)，并且将检测到的接触转换为与被显示在触敏显示器系统112上的用户界面对象(例如，一个或多个软按键、图标、网页或图像)的交互。在一些实施方案中，在触敏显示器系统112和用户之间的接触点对应于用户的手指或触笔。

触敏显示器系统112任选地使用LCD(液晶显示器)技术、LPD(发光聚合物显示器)技术、或LED(发光二极管)技术，但是在其他实施方案中使用其他显示技术。触敏显示系统112和显示控制器156任选地使用现在已知的或以后将开发出的多种触摸感测技术中的任何技术以及其他接近传感器阵列或用于确定与触敏显示系统112接触的一个或多个点的其他元件来检测接触及其任何移动或中断，该多种触摸感测技术包括但不限于电容性的、电阻性的、红外线的、和表面声波技术。在一些实施方案中，使用投射式互电容感测技术，诸如从Apple Inc.(Cupertino,California)的

iPod />

和/>

中发现的技术。

触敏显示器系统112任选地具有超过100dpi的视频分辨率。在一些实施方案中，触摸屏视频分辨率超过400dpi(例如，500dpi、800dpi或更大)。用户任选地使用任何合适的物体或附加物诸如触笔、手指等来与触敏显示系统112接触。在一些实施方案中，将用户界面设计成与基于手指的接触和手势一起工作，由于手指在触摸屏上的接触区域较大，因此这可能不如基于触笔的输入精确。在一些实施方案中，设备将基于手指的粗略输入转化为精确的指针/光标位置或命令以用于执行用户所期望的动作。

在一些实施方案中，除触摸屏之外，设备100任选地还包括用于激活或去激活特定功能的触控板(例如，下文参考图3A所讨论的触控板355)。在一些实施方案中，触控板是设备的触敏区域，与触摸屏不同，该触敏区域不显示视觉输出。触控板任选地是与触敏显示器系统112分开的触敏表面，或者是由触摸屏形成的触敏表面的延伸部分。此外，在一些实施方案中，代替触摸屏或除触摸屏之外，设备100还包括显示生成部件(例如，显示驱动器，其用于使用外围设备(诸如具有全息图像生成部件的显示器或头戴式受话器)来显示图像)、具有触敏表面的设备(诸如触控板)和/或其他输入设备，诸如，用于接收口头递送的用户输入的语音识别设备或子系统和/或确定用户正在注视或聚焦于的位置(例如，在用户界面中或在二维或三维环境中)或一系列位置并因此接收或确定呈与用户注视一起执行的手势的形式的输入(例如，用户输入可包括注视或聚焦于相应的用户界面元素、沿着路径或轨迹移动用户的注视位置、用户眨眼和其他基于注视的输入)的用户注视确定设备或子系统。

设备100还包括用于为各种部件供电的电力系统162。电力系统162任选地包括电力管理系统、一个或多个电源(例如，电池、交流电(AC))、再充电系统、电力故障检测电路、功率转换器或逆变器、电源状态指示符(例如，发光二极管(LED))以及与便携式设备中的电力的生成、管理和分配相关联的任何其他部件。

设备100任选地还包括一个或多个光学传感器164。图1A示出与I/O子系统106中的光学传感器控制器158耦接的光学传感器。一个或多个光学传感器164任选地包括电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光电晶体管。一个或多个光学传感器164从环境接收通过一个或多个透镜而投射的光，并且将光转换为表示图像的数据。结合成像模块143(也被叫做相机模块)，一个或多个光学传感器164任选地捕获静态图像和/或视频。在一些实施方案中，光学传感器位于设备100的与设备前部上的触敏显示系统112相背对的后部上，使得触摸屏能够用作用于静态图像和/或视频图像采集的取景器。在一些实施方案中，另一光学传感器位于设备的前部上，从而获取该用户的图像(例如，用于自拍、用于当用户在触摸屏上观看其他视频会议参与者时进行视频会议等等)。

设备100任选地还包括一个或多个接触强度传感器165。图1A示出了与I/O子系统106中的强度传感器控制器159耦接的接触强度传感器。一个或多个接触强度传感器165任选地包括一个或多个压阻应变仪、电容式力传感器、电气式力传感器、压电力传感器、光学力传感器、电容式触敏表面、或其他强度传感器(例如，用于测量触敏表面上的接触的力(或压力)的传感器)。一个或多个接触强度传感器165从环境接收接触强度信息(例如，压力信息或压力信息的代用物)。在一些实施方案中，至少一个接触强度传感器与触敏表面(例如，触敏显示器系统112)并置排列或邻近。在一些实施方案中，至少一个接触强度传感器位于设备100的与位于设备100的前部上的触敏显示系统112相背对的后部上。

设备100任选地还包括一个或多个接近传感器166。图1A示出了与外围设备接口118耦接的接近传感器166。另选地，接近传感器166与I/O子系统106中的输入控制器160耦接。在一些实施方案中，当多功能设备被置于用户耳朵附近时(例如，用户正在打电话时)，接近传感器关闭并禁用触敏显示器系统112。

设备100任选地还包括一个或多个触觉输出发生器167。图1A示出了与I/O子系统106中的触觉反馈控制器161耦接的触觉输出发生器。在一些实施方案中，触觉输出发生器167包括一个或多个电声设备诸如扬声器或其他音频部件；以及/或者用于将能量转换成线性运动的机电设备诸如马达、螺线管、电活性聚合器、压电致动器、静电致动器，或其他触觉输出生成部件(例如，用于将电信号转换成设备上的触觉输出的部件)。触觉输出发生器167从触觉反馈模块133接收触觉反馈生成指令，并且在设备100上生成能够由设备100的用户感觉到的触觉输出。在一些实施方案中，至少一个触觉输出发生器与触敏表面(例如，触敏显示器系统112)并置排列或邻近，并且任选地通过竖直地(例如，向设备100的表面内/外)或侧向地(例如，在与设备100的表面相同的平面中向后和向前)移动触敏表面来生成触觉输出。在一些实施方案中，至少一个触觉输出发生器传感器位于设备100的与位于设备100的前部上的触敏显示系统112相背对的后部上。

设备100任选地还包括一个或多个加速度计168。图1A示出与外围设备接口118耦接的加速度计168。另选地，加速度计168任选地与I/O子系统106中的输入控制器160耦接。在一些实施方案中，基于对从该一个或多个加速度计所接收的数据的分析来在触摸屏显示器上以纵向视图或横向视图来显示信息。设备100任选地除加速度计168之外还包括磁力仪和GPS(或GLONASS或其他全球导航系统)接收器，以用于获取关于设备100的位置和定向(例如，纵向或横向)的信息。

在一些实施方案中，存储于存储器102中的软件部件包括操作系统126、通信模块(或指令集)128、接触/运动模块(或指令集)130、图形模块(或指令集)132、触觉反馈模块(或指令集)133、文本输入模块(或指令集)134、全球定位系统(GPS)模块(或指令集)135、以及应用程序(或指令集)136。此外，在一些实施方案中，存储器102存储设备/全局内部状态157，如图在1A和图3中所示的。设备/全局内部状态157包括以下中的一者或多者：活动应用程序状态，其指示哪些应用程序(如果有的话)当前是活动的；显示状态，其指示什么应用程序、视图或其他信息占据触敏显示器系统112的各个区；传感器状态，其包括从设备的各个传感器和其他输入或控制设备116获得的信息；以及关于设备的位置和/或姿态的位置和/或位置信息。

操作系统126(例如，iOS、Darwin、RTXC、LINUX、UNIX、OS X、WINDOWS、或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般系统任务(例如，存储器管理、存储设备控制、电源管理等)的各种软件组件和/或驱动器，并且有利于各种硬件和软件部件之间的通信。

通信模块128有利于通过一个或多个外部端口124来与其他设备进行通信，并且还包括用于处理由RF电路108和/或外部端口124所接收的数据的各种软件组件。外部端口124(例如，通用串行总线(USB)、火线等)适于直接耦接到其他设备，或间接地通过网络(例如，互联网、无线LAN等)进行耦接。在一些实施方案中，外部端口是与Apple Inc.(Cupertino,California)的一些

iPod />

和/>

设备中所使用的30针连接器相同或类似和/或兼容的多针(例如，30针)连接器。在一些实施方案中，外部端口是与Apple Inc.(Cupertino,California)的一些/>

iPod/>

和/>

设备中所使用的Lightning连接器相同或类似和/或兼容的Lightning连接器。

接触/运动模块130任选地检测与触敏显示器系统112(结合显示控制器156)和其他触敏设备(例如，触控板或物理点击轮)的接触。接触/运动模块130包括各种软件部件以用于执行与(例如通过手指或触笔)接触检测相关的各种操作，诸如确定是否已发生接触(例如，检测手指按下事件)、确定接触的强度(例如，接触的力或压力，或者接触的力或压力的替代物)、确定是否存在接触的移动并跟踪跨触敏表面的移动(例如，检测一个或多个手指拖动事件)，以及确定接触是否已停止(例如，检测手指抬离事件或者接触断开)。接触/运动模块130从触敏表面接收接触数据。确定接触点的移动任选地包括确定接触点的速率(量值)、速度(量值和方向)和/或加速度(量值和/或方向的改变)，所述接触点的移动由一系列接触数据表示。这些操作任选地被应用于单点接触(例如，单指接触或触笔接触)或者多点同时接触(例如，“多点触摸”/多指接触)。在一些实施方案中，接触/运动模块130和显示控制器156检测触控板上的接触。

接触/运动模块130任选地检测由用户进行的手势输入。触敏表面上的不同手势具有不同的接触模式(例如，所检测到的接触的不同运动、计时和/或强度)。因此，任选地通过检测特定接触模式来检测手势。例如，检测单指轻击手势包括检测手指按下事件，然后在与手指按下事件相同的位置(或基本上相同的位置)处(例如，在图标位置处)检测手指抬起(抬离)事件。又如，检测触敏表面上的手指轻扫手势包括检测手指按下事件，然后检测一个或多个手指拖动事件，并且随后检测手指抬起(抬离)事件。类似地，通过检测触笔的特定接触图案来任选地检测触笔的轻击、轻扫、拖动和其他手势。

在一些实施方案中，检测手指轻击手势取决于检测手指按下事件与手指抬起事件之间的时间长度，但是与检测手指按下事件与手指抬起事件之间的手指接触强度无关。在一些实施方案中，根据确定手指按下事件与手指抬起事件之间的时间长度小于预先确定的值(例如，小于0.1秒、0.2秒、0.3秒、0.4秒或0.5秒)，检测轻击手势，而不管轻击期间手指接触的强度是否达到给定的强度阈值(大于标称接触检测强度阈值)，诸如轻按压或深按压强度阈值。因此，手指轻击手势可以满足特定输入标准，该特定输入标准不要求接触的特征强度满足给定强度阈值以满足特定输入标准。为清楚起见，轻击手势中的手指接触通常需要满足标称接触检测强度阈值以检测到手指按下事件，低于该标称接触检测强度阈值时，不会检测到接触。类似的分析适用于通过触笔或其他接触检测轻击手势。在设备能够检测在触敏表面上方悬停的手指或触笔接触的情况下，标称接触检测强度阈值任选地不与手指或触笔与触敏表面之间的物理接触对应。

同样的概念以类似方式适用于其他类型的手势。例如，可基于满足与手势中包括的接触的强度无关或者不要求执行手势的一个或多个接触达到强度阈值以便被识别的标准来任选地检测轻扫手势、捏合手势、展开手势和/或长按压手势。例如，轻扫手势基于一个或多个接触的移动的量来检测；捏合手势基于两个或更多个接触朝彼此的移动来检测；展开手势基于两个或更多个接触背离彼此的移动来检测；长按压手势基于触敏表面上具有少于阈值移动量的接触的持续时间来检测。因此，关于特定手势识别标准不要求接触强度满足相应的强度阈值以满足特定手势识别标准的陈述意味着特定手势识别标准能够在手势中的接触未达到相应的强度阈值时被满足，并且还能够在手势中的一个或多个接触达到或超过相应的强度阈值的情况下被满足。在一些实施方案中，基于确定在预定义时间段内检测到手指按下事件和手指抬起事件来检测轻击手势，而不考虑在预定义时间段期间接触是高于还是低于相应的强度阈值，并且基于确定接触移动大于预定义量值来检测轻扫手势，即使在接触移动结束时接触高于相应的强度阈值也是如此。即使在对手势的检测受到执行手势的接触的强度的影响的具体实施中(例如，当接触的强度高于强度阈值时，设备更快地检测到长按压，或者当接触的强度更高时，设备会延迟对轻击输入的检测)，只要在接触未达到特定强度阈值的情况下可以满足识别手势的标准，则对这些手势的检测也不会要求接触达到特定强度阈值(例如，即使识别手势所需的时间量发生变化)。

在某些情况下，接触强度阈值、持续时间阈值和移动阈值以各种不同组合进行组合，以便创建启发式算法来区分针对相同输入元素或区域的两个或更多个不同手势，使得与相同输入元素的多个不同交互能够提供更丰富的用户交互和响应的集合。关于一组特定手势识别标准不要求接触的强度满足相应的强度阈值以满足特定手势识别标准的陈述不排除对其他强度相关手势识别标准进行同时评估，以识别具有当手势包括具有高于相应强度阈值的强度的接触时被满足的标准的其他手势。例如，在某些情况下，第一手势的第一手势识别标准(其不要求接触的强度满足相应的强度阈值以满足第一手势识别标准)与第二手势的第二手势识别标准(其取决于达到相应强度阈值的接触)竞争。在此类竞争中，如果第二手势的第二手势识别标准首先得到满足，则手势任选地不被识别为满足第一手势的第一手势识别标准。例如，如果在接触移动预定义的移动量之前接触达到相应的强度阈值，则检测到深按压手势而不是轻扫手势。相反，如果在接触达到相应的强度阈值之前接触移动预定义的移动量，则检测到轻扫手势而不是深按压手势。即使在此类情况下，第一手势的第一手势识别标准仍然不要求接触的强度满足相应的强度阈值以满足第一手势识别标准，因为如果接触保持低于相应的强度阈值直到手势结束(例如，具有不会增大到高于相应强度阈值的强度的接触的轻扫手势)，手势将被第一手势识别标准识别为轻扫手势。因此，不要求接触的强度满足相应的强度阈值以满足特定手势识别标准的特定手势识别标准将会(A)在某些情况下，忽略相对于强度阈值的接触强度(例如，对于轻击手势而言)和/或(B)在某些情况下，如果在特定手势识别标准识别与输入对应的手势之前，一组竞争的强度相关手势识别标准(例如，对于深按压手势而言)将输入识别为与强度相关手势对应，则不能满足特定手势识别标准(例如，对于长按压手势而言)，从这个意义上来讲，仍然取决于相对于强度阈值的接触强度(例如，对于与深按压手势竞争识别的长按压手势而言)。

图形模块132包括用于在触敏显示器系统112或其他显示器上渲染和显示图形的各种已知软件组件，包括用于改变所显示的图形的视觉冲击(例如，亮度、透明度、饱和度、对比度或其他视觉属性)的组件。如本文所用，术语“图形”包括可被显示给用户的任何对象，非限制性地包括文本、网页、图标(诸如包括软键的用户界面对象)、数字图像、视频、动画等。

在一些实施方案中，图形模块132存储表示待使用的图形的数据。每个图形任选地被分配有对应的代码。图形模块132从应用程序等接收用于指定待显示的图形的一个或多个代码，在必要的情况下还一起接收坐标数据和其他图形属性数据，并且然后生成屏幕图像数据，以输出至显示控制器156。

触觉反馈模块133包括用于生成指令(例如，由触感反馈控制器161使用的指令)的各种软件部件，以响应于用户与设备100的交互而使用触觉输出发生器167在设备100上的一个或多个位置处生成触觉输出。

任选地为图形模块132的部件的文本输入模块134提供用于在各种应用程序(例如，联系人137、电子邮件140、IM 141、浏览器147和需要文本输入的任何其他应用程序)中输入文本的软键盘。

GPS模块135确定设备的位置并提供该信息以在各种应用程序中使用(例如，提供至电话138以用于基于位置的拨号；提供至相机143作为图片/视频元数据；以及提供至提供基于位置的服务的应用程序诸如天气桌面小程序、当地黄页桌面小程序和地图/导航桌面小程序)。

虚拟/増强现实模块145向实现増强现实特征，并且在一些实施方案中实现虚拟现实特征的应用程序136提供虚拟和/或増强现实逻辑部件。虚拟/增强现实模块145促进虚拟内容诸如虚拟用户界面对象在一个或多个相机的视场的至少一部分的表示上的叠加。例如，在虚拟/增强现实模块145的帮助下，一个或多个相机的视场的至少一部分的表示可以包括相应的物理对象，并且虚拟用户界面对象可以在显示的增强现实环境中显示在基于一个或多个相机的视场中的相应物理对象确定的位置处，或显示在基于计算机系统的至少一部分的姿势(例如，用于向计算机系统的用户显示用户界面的显示设备的姿势)确定的虚拟现实环境中。

应用程序136任选地包括以下模块(或指令集)或者其子集或超集：

·联系人模块137(有时称为通讯录或联系人列表)；

·电话模块138；

·视频会议模块139；

·电子邮件客户端模块140；

·即时消息(IM)模块141；

·健身支持模块142；

·用于静态图像和/或视频图像的相机模块143；

·图像管理模块144；

·浏览器模块147；

·日历模块148；

·桌面小程序模块149，其任选地包括以下各项中的一者或多者：天气桌面小程序149-1、股市桌面小程序149-2、计算器桌面小程序149-3、闹钟桌面小程序149-4、词典桌面小程序149-5、和由用户获取的其他桌面小程序、以及用户创建的桌面小程序149-6；

·用于形成用户创建的桌面小程序149-6的桌面小程序创建器模块150；

·搜索模块151；

·任选地由视频播放器模块和音乐播放器模块构成的视频和音乐播放器模块152；

·记事本模块153；

·地图模块154；和/或

·在线视频模块155。

任选地存储在存储器102中的其他应用程序136的示例包括其他文字处理应用程序、其他图像编辑应用程序、绘图应用程序、呈现应用程序、支持JAVA的应用程序、加密、数字权益管理、语音识别和语音复制。

结合触敏显示器系统112、显示控制器156、接触模块130、图形模块132、和文本输入模块134，联系人模块137包括可执行指令用于管理通讯录或联系人列表(例如，存储在存储器102或存储器370中的联系人模块137的应用程序内部状态192中)，包括：添加姓名到通讯录；从通讯录删除姓名；将电话号码、电子邮件地址、物理地址或其他信息与姓名关联；将图像与姓名关联；对姓名进行归类和分类；提供电话号码和/或电子邮件地址来发起和/或促进通过电话138、视频会议139、电子邮件140或IM 141的通信；等。

结合RF电路108、音频电路110、扬声器111、麦克风113、触敏显示器系统112、显示控制器156、接触模块130、图形模块132、和文本输入模块134，电话模块138包括用于进行以下操作的可执行指令：输入与电话号码对应的字符序列、访问通讯录137中的一个或多个电话号码、修改已输入的电话号码、拨打相应的电话号码、进行会话、以及当会话完成时断开或挂断。如上所述，无线通信任选地使用多种通信标准、协议和技术中的任一种。

结合RF电路108、音频电路110、扬声器111、麦克风113、触敏显示系统112、显示控制器156、一个或多个光学传感器164、光学传感器控制器158、接触模块130、图形模块132、文本输入模块134、联系人列表137和电话模块138，视频会议模块139包括根据用户指令来发起、进行和终止用户与一个或多个其他参与者之间的视频会议的可执行指令。

结合RF电路108、触敏显示器系统112、显示控制器156、接触模块130、图形模块132和文本输入模块134，电子邮件客户端模块140包括用于响应于用户指令来创建、发送、接收和管理电子邮件的可执行指令。结合图像管理模块144，电子邮件客户端模块140使得非常容易创建和发送具有由相机模块143拍摄的静态图像或视频图像的电子邮件。

结合RF电路108、触敏显示器系统112、显示控制器156、接触模块130、图形模块132和文本输入模块134，即时消息模块141包括用于进行以下操作的可执行指令：输入与即时消息对应的字符序列、修改先前输入的字符、传输相应即时消息(例如，使用针对基于电话的即时消息的短消息服务(SMS)或多媒体消息服务(MMS)协议或者使用针对基于互联网的即时消息的XMPP、SIMPLE、Apple推送通知服务(APNs)或IMPS)、接收即时消息，以及查看所接收的即时消息。在一些实施方案中，所传输和/或接收的即时消息任选地包括图形、相片、音频文件、视频文件、和/或MMS和/或增强消息服务(EMS)中所支持的其他附接件。如本文所用，“即时消息”是指基于电话的消息(例如，使用SMS或MMS发送的消息)和基于互联网的消息(例如，使用XMPP、SIMPLE、APNs或IMPS发送的消息)两者。

结合RF电路108、触敏显示器系统112、显示控制器156、接触模块130、图形模块132、文本输入模块134、GPS模块135、地图模块154以及视频和音乐播放器模块152，健身支持模块142包括可执行指令用于创建健身(例如，具有时间、距离和/或卡路里燃烧目标)；与(体育设备和智能手表中的)健身传感器通信；接收健身传感器数据；校准用于监视健身的传感器；为健身选择和播放音乐；以及显示、存储和传输健身数据。

结合触敏显示器系统112、显示控制器156、一个或多个光学传感器164、光学传感器控制器158、接触模块130、图形模块132和图像管理模块144，相机模块143包括用于进行以下操作的可执行指令：捕获静态图像或视频(包括视频流)并且将它们存储到存储器102中、修改静态图像或视频的特征、和/或从存储器102删除静态图像或视频。

结合触敏显示器系统112、显示控制器156、接触模块130、图形模块132、文本输入模块134、和相机模块143，图像管理模块144包括用于排列、修改(例如，编辑)、或以其他方式操纵、加标签、删除、展示(例如，在数字幻灯片或相册中)、以及存储静态图像和/或视频图像的可执行指令。

结合RF电路108、触敏显示器系统112、显示系统控制器156、接触模块130、图形模块132和文本输入模块134，浏览器模块147包括根据用户指令来浏览互联网(包括搜索、链接到、接收、和显示网页或其部分、以及链接到网页的附件和其他文件)的可执行指令。

结合RF电路108、触敏显示器系统112、显示系统控制器156、接触模块130、图形模块132、文本输入模块134、电子邮件客户端模块140和浏览器模块147，日历模块148包括用于根据用户指令来创建、显示、修改和存储日历以及与日历相关联的数据(例如，日历条目、待办事项等)的可执行指令。

结合RF电路108、触敏显示器系统112、显示系统控制器156、接触模块130、图形模块132、文本输入模块134和浏览器模块147，桌面小程序模块149是任选地由用户下载和使用的微型应用程序(例如，天气桌面小程序149-1、股市桌面小程序149-2、计算器桌面小程序149-3、闹钟桌面小程序149-4和词典桌面小程序149-5)、或由用户创建的微型应用程序(例如，用户创建的桌面小程序149-6)。在一些实施方案中，桌面小程序包括HTML(超文本标记语言)文件、CSS(层叠样式表)文件和JavaScript文件。在一些实施方案中，桌面小程序包括XML(可扩展标记语言)文件和JavaScript文件(例如，Yahoo！桌面小程序)。

结合RF电路108、触敏显示器系统112、显示系统控制器156、接触模块130、图形模块132、文本输入模块134、和浏览器模块147，桌面小程序创建器模块150包括用于创建桌面小程序(例如，将网页的用户指定部分转到桌面小程序中)的可执行指令。

结合触敏显示器系统112、显示系统控制器156、接触模块130、图形模块132和文本输入模块134，搜索模块151包括用于根据用户指令来搜索存储器102中的与一个或多个搜索条件(例如，一个或多个用户指定的搜索词)匹配的文本、音乐、声音、图像、视频和/或其他文件的可执行指令。

结合触敏显示系统112、显示系统控制器156、接触模块130、图形模块132、音频电路110、扬声器111、RF电路108和浏览器模块147，视频和音乐播放器模块152包括允许用户下载和回放以一种或多种文件格式(诸如MP3或AAC文件)存储的所记录的音乐和其他声音文件的可执行指令，以及用于显示、呈现或以其他方式回放视频(例如，在触敏显示系统112上或在经由外部端口124无线连接的外部显示器上)的可执行指令。在一些实施方案中，设备100任选地包括MP3播放器诸如iPod(Apple Inc.的商标)的功能。

结合触敏显示器系统112、显示控制器156、接触模块130、图形模块132和文本输入模块134，记事本模块153包括用于根据用户指令来创建和管理笔记、待办事项等的可执行指令。

结合RF电路108、触敏显示器系统112、显示系统控制器156、接触模块130、图形模块132、文本输入模块134、GPS模块135和浏览器模块147，地图模块154包括用于根据用户指令来接收、显示、修改和存储地图以及与地图相关联的数据(例如，驾车路线；特定位置处或附近的商店和其他兴趣点的数据；和其他基于位置的数据)的可执行指令。

结合触敏显示系统112、显示系统控制器156、接触模块130、图形模块132、音频电路110、扬声器111、RF电路108、文本输入模块134、电子邮件客户端模块140和浏览器模块147，在线视频模块155包括允许用户访问、浏览、接收(例如，通过流式传输和/或下载)、回放(例如在触摸屏112上或在无线连接的或经由外部端口124连接的外部显示器上)、发送具有至特定在线视频的链接的电子邮件、以及以其他方式管理一种或多种文件格式诸如H.264的在线视频的可执行指令。在一些实施方案中，使用即时消息模块141而不是电子邮件客户端模块140来发送特定在线视频的链接。

上述所识别的每个模块和应用程序对应于用于执行上述一种或多种功能以及在本申请中所描述的方法(例如，本文中所描述的计算机实现的方法和其他信息处理方法)的一组可执行指令。这些模块(即，指令集)不必以独立的软件程序、过程或模块实现，因此这些模块的各种子集任选地在各种实施方案中组合或以其他方式重新布置。在一些实施方案中，存储器102任选地存储上述模块和数据结构的子组。此外，存储器102任选地存储上文未描述的另外的模块和数据结构。

在一些实施方案中，设备100是该设备上的预定义的一组功能的操作唯一地通过触摸屏和/或触控板来执行的设备。通过使用触摸屏和/或触控板作为用于操作设备100的主要输入控制设备，任选地减少设备100上的物理输入控制设备(诸如，下压按钮、拨盘等等)的数量。

唯一地通过触摸屏和/或触控板来执行的预定义的一组功能任选地包括在用户界面之间的导航。在一些实施方案中，触控板在被用户触摸时将设备100从设备100上显示的任何用户界面导航到主菜单、home菜单或根菜单。在此类实施方案中，使用触控板来实现“菜单按钮”。在一些其他实施方案中，菜单按钮是物理下压按钮或者其他物理输入控制设备，而不是触控板。

图1B是示出根据一些实施方案的用于事件处理的示例性部件的框图。在一些实施方案中，存储器102(图1A中)或存储器370(图3)包括事件分类器170(例如，在操作系统126中)和相应的应用程序136-1(例如，前述应用程序136、137至155、380至390中的任一个应用程序)。

事件分类器170接收事件信息并确定要将事件信息递送到的应用程序136-1和应用程序136-1的应用程序视图191。事件分类器170包括事件监视器171和事件分配器模块174。在一些实施方案中，应用程序136-1包括应用程序内部状态192，该应用程序内部状态指示当应用程序是活动的或正在执行时在触敏显示器系统112上显示的一个或多个当前应用程序视图。在一些实施方案中，设备/全局内部状态157被事件分类器170用来确定哪个(哪些)应用程序当前是活动的，并且应用程序内部状态192被事件分类器170用来确定要将事件信息递送到的应用程序视图191。

在一些实施方案中，应用程序内部状态192包括附加信息，诸如以下各项中的一者或多者：当应用程序136-1恢复执行时将被使用的恢复信息、指示信息正被显示或准备好用于被应用程序136-1显示的用户界面状态信息、用于使得用户能够返回到应用程序136-1的前一状态或视图的状态队列，以及用户采取的先前动作的重复/撤销队列。

事件监视器171从外围设备接口118接收事件信息。事件信息包括关于子事件(例如，作为多点触摸手势的一部分的触敏显示器系统112上的用户触摸)的信息。外围设备接口118传输其从I/O子系统106或传感器诸如接近传感器166、一个或多个加速度计168和/或麦克风113(通过音频电路110)接收的信息。外围设备接口118从I/O子系统106所接收的信息包括来自触敏显示器系统112或触敏表面的信息。

在一些实施方案中，事件监视器171以预先确定的间隔将请求发送至外围设备接口118。作为响应，外围设备接口118传输事件信息。在其他实施方案中，外围设备接口118仅当存在显著事件(例如，接收到高于预先确定的噪声阈值和/或接收到超过预先确定的持续时间的输入)时才传输事件信息。

在一些实施方案中，事件分类器170还包括命中视图确定模块172和/或活动事件识别器确定模块173。

当触敏显示器系统112显示多于一个视图时，命中视图确定模块172提供用于确定子事件已在一个或多个视图内的什么地方发生的软件过程。视图由用户能够在显示器上看到的控件和其他元素构成。

与应用程序相关联的用户界面的另一方面是一组视图，本文中有时也称为应用程序视图或用户界面窗口，在其中显示信息并且发生基于触摸的手势。在其中检测到触摸的(相应应用程序的)应用程序视图任选地对应于在应用程序的程序化或视图分级结构内的程序化水平。例如，在其中检测到触摸的最低水平视图任选地被称为命中视图，并且被辨别为正确输入的事件集任选地至少部分地基于初始触摸的命中视图来确定，所述初始触摸开始基于触摸的手势。

命中视图确定模块172接收与基于触摸的手势的子事件相关的信息。当应用程序具有以分级结构组织的多个视图时，命中视图确定模块172将命中视图识别为应当对子事件进行处理的分级结构中的最低视图。在大多数情况下，命中视图是发起子事件(即，形成事件或潜在事件的子事件序列中的第一子事件)在其中发生的最低水平视图。一旦命中视图被命中视图确定模块所识别，命中视图便通常接收与其被识别为命中视图所针对的同一触摸或输入源相关的所有子事件。

活动事件识别器确定模块173确定视图分级结构内的哪个或哪些视图应接收特定子事件序列。在一些实施方案中，活动事件识别器确定模块173确定仅命中视图应接收特定子事件序列。在其他实施方案中，活动事件识别器确定模块173确定包括子事件的物理位置的所有视图是活跃参与的视图，并因此确定所有活跃参与的视图都应接收特定子事件序列。在其他实施方案中，即使触摸子事件完全被局限到与一个特定视图相关联的区域，分级结构中的较高视图将仍然保持为活跃参与的视图。

事件分配器模块174将事件信息分配到事件识别器(例如，事件识别器180)。在包括活动事件识别器确定模块173的实施方案中，事件分配器模块174将事件信息递送到由活动事件识别器确定模块173确定的事件识别器。在一些实施方案中，事件分配器模块174在事件队列中存储事件信息，该事件信息由相应事件接收器模块182进行检索。

在一些实施方案中，操作系统126包括事件分类器170。另选地，应用程序136-1包括事件分类器170。在又一个实施方案中，事件分类器170是独立模块，或者是存储在存储器102中的另一个模块(诸如，接触/运动模块130)的一部分。

在一些实施方案中，应用程序136-1包括多个事件处理程序190和一个或多个应用程序视图191，其中的每一个都包括用于处理发生在应用程序的用户界面的相应视图内的触摸事件的指令。应用程序136-1的每个应用程序视图191包括一个或多个事件识别器180。通常，相应应用程序视图191包括多个事件识别器180。在其他实施方案中，事件识别器180中的一个或多个事件识别器是独立模块的一部分，该独立模块为诸如用户界面工具包或应用程序136-1从中继承方法和其他属性的更高级别的对象。在一些实施方案中，相应事件处理程序190包括以下各项中的一者或多者：数据更新器176、对象更新器177、GUI更新器178、和/或从事件分类器170接收的事件数据179。事件处理程序190任选地利用或调用数据更新器176、对象更新器177或GUI更新器178来更新应用程序内部状态192。另选地，应用程序视图191中的一个或多个应用程序视图包括一个或多个相应事件处理程序190。另外，在一些实施方案中，数据更新器176、对象更新器177和GUI更新器178中的一者或多者被包括在相应应用程序视图191中。

相应的事件识别器180从事件分类器170接收事件信息(例如，事件数据179)，并且从事件信息识别事件。事件识别器180包括事件接收器182和事件比较器184。在一些实施方案中，事件识别器180还包括元数据183和事件传递指令188(其任选地包括子事件递送指令)的至少一个子集。

事件接收器182从事件分类器170接收事件信息。事件信息包括关于子事件例如触摸或触摸移动的信息。根据子事件，事件信息还包括附加信息，诸如子事件的位置。当子事件涉及触摸的运动时，事件信息任选地还包括子事件的速率和方向。在一些实施方案中，事件包括设备从一个取向旋转到另一取向(例如，从纵向取向旋转到横向取向，或反之亦然)，并且事件信息包括关于设备的当前取向(也被称为设备姿态)的对应信息。

事件比较器184将事件信息与预定义的事件或子事件定义进行比较，并且基于该比较来确定事件或子事件，或者确定或更新事件或子事件的状态。在一些实施方案中，事件比较器184包括事件定义186。事件定义186包含事件的定义(例如，预定义的子事件序列)，例如事件1(187-1)、事件2(187-2)以及其他。在一些实施方案中，事件187中的子事件包括例如触摸开始、触摸结束、触摸移动、触摸取消和多点触摸。在一个示例中，事件1(187-1)的定义是被显示对象上的双击。例如，双击包括被显示对象上的预先确定时长的第一次触摸(触摸开始)、预先确定时长的第一次抬起(触摸结束)、被显示对象上的预先确定时长的第二次触摸(触摸开始)以及预先确定时长的第二次抬起(触摸结束)。在另一个示例中，事件2(187-2)的定义是被显示对象上的拖动。例如，拖动包括被显示对象上的预先确定时长的触摸(或接触)、触摸在触敏显示器系统112上的移动、以及触摸的抬离(触摸结束)。在一些实施方案中，事件还包括用于一个或多个相关联的事件处理程序190的信息。

在一些实施方案中，事件定义187包括对用于相应用户界面对象的事件的定义。在一些实施方案中，事件比较器184执行命中测试以确定哪个用户界面对象与子事件相关联。例如，在触敏显示器系统112上显示三个用户界面对象的应用程序视图中，当在触敏显示器系统112上检测到触摸时，事件比较器184执行命中测试以确定这三个用户界面对象中的哪一个用户界面对象与该触摸(子事件)相关联。如果每个所显示对象与相应事件处理程序190相关联，则事件比较器使用该命中测试的结果来确定哪个事件处理程序190应当被激活。例如，事件比较器184选择与子事件和触发该命中测试的对象相关联的事件处理程序。

在一些实施方案中，相应事件187的定义还包括延迟动作，这些延迟动作延迟事件信息的递送，直到已确定子事件序列确实对应于或不对应于事件识别器的事件类型之后为止。

当相应事件识别器180确定子事件序列不与事件定义186中的任何事件匹配时，该相应事件识别器180进入事件不可能、事件失败或事件结束状态，在此之后忽略基于触摸的手势的后续子事件。在这种情况下，对于命中视图保持活动的其他事件识别器(如果有的话)继续跟踪并处理持续进行的基于触摸的手势的子事件。

在一些实施方案中，相应事件识别器180包括具有指示事件递送系统应当如何执行对活跃参与的事件识别器的子事件递送的可配置属性、标记和/或列表的元数据183。在一些实施方案中，元数据183包括指示事件识别器彼此如何交互或如何能够交互的可配置属性、标志和/或列表。在一些实施方案中，元数据183包括指示子事件是否递送到视图或程序化分级结构中的不同层级的可配置属性、标志和/或列表。

在一些实施方案中，当事件的一个或多个特定子事件被识别时，相应事件识别器180激活与事件相关联的事件处理程序190。在一些实施方案中，相应事件识别器180将与事件相关联的事件信息递送到事件处理程序190。激活事件处理程序190不同于将子事件发送(和延期发送)到相应命中视图。在一些实施方案中，事件识别器180抛出与所辨别出的事件相关联的标记，并且与该标记相关联的事件处理程序190获取该标记并执行预定义过程。

在一些实施方案中，事件递送指令188包括递送关于子事件的事件信息而不激活事件处理程序的子事件递送指令。相反，子事件递送指令将事件信息递送到与子事件序列相关联的事件处理程序或者递送到活跃参与的视图。与子事件序列或与活跃参与的视图相关联的事件处理程序接收事件信息并执行预先确定的过程。

在一些实施方案中，数据更新器176创建并更新在应用程序136-1中使用的数据。例如，数据更新器176对联系人模块137中所使用的电话号码进行更新，或者对视频或音乐播放器模块152中所使用的视频文件进行存储。在一些实施方案中，对象更新器177创建并更新在应用程序136-1中使用的对象。例如，对象更新器177创建新的用户界面对象或更新用户界面对象的位置。GUI更新器178更新GUI。例如，GUI更新器178准备显示信息，并且将显示信息发送到图形模块132用以显示在触敏显示器上。

在一些实施方案中，事件处理程序190包括数据更新器176、对象更新器177和GUI更新器178，或具有对该数据更新器、该对象更新器和该GUI更新器的访问权限。在一些实施方案中，数据更新器176、对象更新器177和GUI更新器178被包括在相应应用程序136-1或应用程序视图191的单个模块中。在其他实施方案中，它们被包括在两个或更多个软件模块中。

应当理解，关于触敏显示器上的用户触摸的事件处理的上述论述还适用于利用输入设备来操作多功能设备100的其他形式的用户输入，并不是所有用户输入都是在触摸屏上发起的。例如，任选地与单次或多次键盘按下或按住协作的鼠标移动和鼠标按钮按下；触控板上的接触移动，诸如轻击、拖动、滚动等；触控笔输入；设备的移动；口头指令；检测到的眼睛移动；生物特征输入；和/或它们的任何组合任选地被用作对应于限定要辨别的事件的子事件的输入。

图2示出了根据一些实施方案的具有触摸屏(例如，图1A的触敏显示器系统112)的便携式多功能设备100。触摸屏任选地在用户界面(UI)200内显示一个或多个图形。在这些实施方案中以及在下文中描述的其他实施方案中，用户能够通过例如利用一个或多个手指202(在图中未按比例绘制)或一个或多个触笔203(在图中未按比例绘制)在图形上作出手势来选择这些图形中的一个或多个图形。在一些实施方案中，当用户中断与一个或多个图形的接触时，将发生对一个或多个图形的选择。在一些实施方案中，手势任选地包括一次或多次轻击、一次或多次轻扫(从左向右、从右向左、向上和/或向下)和/或已与设备100发生接触的手指的滚动(从右向左、从左向右、向上和/或向下)。在一些具体实施中或在一些情况下，不经意地与图形接触不会选择图形。例如，当与选择对应的手势是轻击时，在应用程序图标上方扫动的轻扫手势任选地不会选择对应的应用程序。

设备100任选地还包括一个或多个物理按钮，诸如“主桌面”或菜单按钮204。如前所述，菜单按钮204任选地用于导航到任选地在设备100上被执行的一组应用程序中的任何应用程序136。作为另外一种选择，在一些实施方案中，菜单按钮被实现为被显示在触摸屏显示器上的GUI中的软键。

在一些实施方案中，设备100包括触摸屏显示器、菜单按钮204(有时称为主屏幕按钮204)、用于使设备通电/断电和用于锁定设备的下压按钮206、音量调节按钮208、用户身份模块(SIM)卡槽210、耳麦插孔212和对接/充电外部端口124。下压按钮206任选地用于通过压下该按钮并且将该按钮保持在压下状态持续预定义的时间间隔来对设备进行开/关机；通过压下该按钮并在该预定义的时间间隔过去之前释放该按钮来锁定设备；和/或对设备进行解锁或发起解锁过程。在一些实施方案中，设备100还通过麦克风113来接受用于激活或停用某些功能的语音输入。设备100还任选地包括用于检测触敏显示器系统112上的接触的强度的一个或多个接触强度传感器165，和/或用于为设备100的用户生成触觉输出的一个或多个触觉输出发生器167。

图3A是根据一些实施方案的具有显示器和触敏表面的示例性多功能设备的框图。设备300不必是便携式的。在一些实施方案中，设备300是膝上型计算机、台式计算机、平板电脑、多媒体播放器设备、导航设备、教育设备(诸如儿童学习玩具)、游戏系统或控制设备(例如，家用控制器或工业用控制器)。设备300通常包括一个或多个处理单元(CPU)310、一个或多个网络或其他通信接口360、存储器370和用于将这些部件互联的一根或多根通信总线320。通信总线320任选地包括使系统部件互连并且控制系统部件之间的通信的电路(有时称作芯片组)。设备300包括具有显示器340的输入/输出(I/O)接口330，该显示器通常是触摸屏显示器。I/O接口330还任选地包括键盘和/或鼠标(或其他指向设备)350和触控板355、用于在设备300上生成触觉输出的触觉输出发生器357(例如，类似于以上参考图1A所述的一个或多个触觉输出发生器167)、传感器359(例如，光学传感器、加速度传感器、接近传感器、触敏传感器、和/或类似于以上参考图1A所述的一个或多个接触强度传感器165的接触强度传感器)。在一些实施方案中，设备300包括用于与一个或多个可穿戴音频输出设备301通信的无线接口311。在一些实施方案中，设备300包括虚拟/增强现实逻辑部件321(例如，虚拟/增强现实模块145)和/或与其通信。

存储器370包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；并且任选地包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器370任选地包括远离CPU 310定位的一个或多个存储设备。在一些实施方案中，存储器370存储与便携式多功能设备100(图1A)的存储器102中所存储的程序、模块和数据结构类似的程序、模块、和数据结构，或它们的子集。此外，存储器370任选地存储在便携式多功能设备100的存储器102中不存在的附加程序、模块和数据结构。例如，设备300的存储器370任选地存储绘图模块380、呈现模块382、文字处理模块384、网站创建模块386、盘编辑模块388、和/或电子表格模块390，而便携式多功能设备100(图1A)的存储器102任选地不存储这些模块。

图3A中上述所识别的元件中的每个元件任选地存储在先前提到的存储器设备中的一个或多个存储器设备中。上述所识别的模块中的每个模块对应于用于执行上述功能的指令集。上述所识别的模块或程序(即，指令集)不必被实现为单独的软件程序、过程或模块，因此这些模块的各种子集任选地在各种实施方案中组合或以其他方式重新布置。在一些实施方案中，存储器370任选地存储上述模块和数据结构的子组。此外，存储器370任选地存储上文未描述的附加模块和数据结构。

图3B是根据一些实施方案的示例性可穿戴音频输出设备301的框图。在一些实施方案中，可穿戴音频输出设备301是一个或多个入耳式耳机、耳塞、包耳式耳机等。在一些示例中，可穿戴音频输出设备301包括一对耳机或耳塞(例如，用户耳朵中的每只耳朵用一个耳机或耳塞)。在一些示例中，可穿戴音频输出设备301包括包耳式耳机(例如，具有两个包耳式耳罩的头戴式耳机，以放置在用户的耳朵上方并且任选地通过头带连接)。在一些实施方案中，可穿戴音频输出设备301包括用于(例如，向用户耳朵)提供音频输出的一个或多个音频扬声器306。在一些实施方案中，可穿戴音频输出设备301包括一个或多个放置传感器304，以检测可穿戴音频输出设备301相对于用户耳朵的定位或放置，诸如检测可穿戴音频输出设备301在用户耳朵中的放置。在一些实施方案中，可穿戴音频输出设备301基于可穿戴音频输出设备301是在用户耳朵中还是在用户耳朵附近来有条件地输出音频(例如，当可穿戴音频输出设备301不在用户耳朵中时放弃输出音频，以减少电力使用)。在可穿戴音频输出设备301包括多个(例如，一对)可穿戴音频输出部件(例如，耳机、耳塞或耳罩)的一些实施方案中，每个部件包括一个或多个相应放置传感器，并且可穿戴音频输出设备301基于一个或两个部件是在用户的耳朵中还是在用户的耳朵附近而有条件地输出音频，如本文所述。

在一些实施方案中，可穿戴音频输出设备301包括音频I/O逻辑部件312，该音频I/O逻辑部件基于接收来自放置传感器304的信息来确定可穿戴音频输出设备301相对于用户耳朵的定位或放置，并且在一些实施方案中，音频I/O逻辑部件312控制所得的有条件的音频输出和扬声器306对音频输出的调整以实现在本文档其他地方公开的空间音频和其他音频特征。在一些实施方案中，音频I/O逻辑部件312包括一个或多个处理器332和存储被配置为由一个或多个处理器332执行的一个或多个程序336(例如，一个或多个音频I/O控制模块)的存储器334(例如，计算机可读存储介质或非暂态计算机可读存储介质)。在一些实施方案中，一个或多个程序336包括用于执行本文所述的方法700、方法800、方法1200和/或方法1300的各个方面的指令。例如，在一些实施方案中，一个或多个程序336包括指令，这些指令当由一个或多个处理器332执行时，使得可穿戴音频输出设备301或一组此类可穿戴音频输出设备执行方法700、方法800、方法1200和/或方法1300的许多音频处理和调整操作的指令。

在一些实施方案中，可穿戴音频输出设备301包括用于与一个或多个多功能设备诸如设备100(图1A)或设备300(图3A)通信的无线接口315。在一些实施方案中，接口315是用于与多功能设备诸如设备100(图1A)或设备300(图3A)连接(例如，经由头戴式耳机接口或其他音频端口)的有线接口。在一些实施方案中，用户可经由接口315与可穿戴音频输出设备301交互并向其提供输入(例如，远程地)。在一些实施方案中，可穿戴音频输出设备301与多个多功能设备通信，并且音频I/O逻辑部件312确定从多功能设备中的哪个多功能设备接受用于输出音频的指令。

在一些实施方案中，可穿戴音频输出设备301包括用于接收音频输入的一个或多个麦克风302。在一些实施方案中，麦克风302检测来自穿戴可穿戴音频输出设备301的用户的语音和/或可穿戴音频输出设备301周围的环境噪声。在一些实施方案中，如本文参考图3C更详细所述，麦克风302的多个麦克风定位在可穿戴音频输出设备301上的不同位置处，以测量可穿戴音频输出设备301周围的不同位置处的语音和/或环境噪声。在可穿戴音频输出设备301包括多个(例如，一对)可穿戴音频输出部件(例如，耳机或耳塞)的一些实施方案中，每个部件包括一个或多个相应麦克风。在一些实施方案中，音频I/O逻辑部件312基于接收自麦克风302的信息来检测或识别语音或环境噪声。

在一些实施方案中，可穿戴音频输出设备301包括一个或多个输入设备308。在可穿戴音频输出设备301包括多个(例如，一对)可穿戴音频输出部件(例如，耳机、耳塞或耳罩)的一些实施方案中，每个部件包括一个或多个相应输入设备。在一些实施方案中，输入设备308包括压敏(例如，强度敏感的)输入设备，在一些实施方案中，该压敏输入设备位于可穿戴音频输出设备301的一部分(有时称为“柄部”)内，该部分从可穿戴音频输出设备301的被配置为插入用户耳朵中的一部分物理地延伸(例如，如图3C所示的柄部305)。在一些实施方案中，压敏输入设备响应于用户挤压输入设备(例如，通过将可穿戴音频输出设备301的柄部捏在两个手指之间)而检测来自用户的输入。在一些实施方案中，输入设备308包括触敏表面(用于检测触摸输入)、加速度计和/或姿态传感器(用于确定可穿戴音频输出设备301相对于物理环境的姿态和/或设备姿态的改变)和/或用户可通过其与可穿戴音频输出设备301交互并向可穿戴音频输出设备提供输入的其他输入设备。在一些实施方案中，输入设备308包括用于可穿戴音频输出设备301的(例如，本地)音量控制的一个或多个音量控制硬件元件(例如，用于音量控制的增大/减小按钮，或者如本文参考图1A所述的增大按钮和单独的减小按钮)。在一些实施方案中，经由一个或多个输入设备308提供的输入由音频I/O逻辑部件312处理。在一些实施方案中，音频I/O逻辑部件312与独立设备(例如，图1A的设备100或图3A的设备300)通信，该独立设备提供用于音频输出的指令或内容，并且任选地接收和处理经由麦克风302、放置传感器304和/或输入设备308或经由单独设备的一个或多个输入设备提供的输入(或关于输入的信息)。在一些实施方案中，音频I/O逻辑部件312位于设备100(例如，作为图1A的外围设备接口118的一部分)或设备300(例如，作为图3A的I/O接口330的一部分)中，而不是位于设备301中，或者另选地部分位于设备100中并且部分位于设备301中，或者部分位于设备300中并且部分位于设备301中。

图3C示出了根据一些实施方案的由可穿戴音频输出设备进行的示例性音频控制。在一些实施方案中，当具有能够附接可更换耳插物的耳塞的可穿戴音频输出设备穿戴在用户的耳朵中时，耳塞和耳插物一起充当物理屏障，阻挡来自周围物理环境的至少一些环境声音到达用户的耳朵。例如，在图3C中，用户穿戴了可穿戴音频输出设备301，使得耳塞303和耳插物314在用户的左耳中。耳插物314至少部分地延伸到用户的耳道中。优选地，当耳塞303和耳插物314插入到用户的耳朵中时，在耳插物314和用户的耳朵之间形成密封，以便将用户的耳道与周围物理环境隔离。然而，在一些实施方案中，耳塞303和耳插物314一起阻挡周围物理环境中的一些但不一定所有的环境声音到达用户的耳朵。因此，在一些实施方案中，(例如，图3B的麦克风302的)第一麦克风(或者，在一些实施方案中，第一组一个或多个麦克风)302-1位于可穿戴音频输出设备301上，以便检测由波形322表示的在围绕耳塞303(例如，在耳塞外部)的物理环境的区域316中的环境声音。在一些实施方案中，(例如，图3B的麦克风302的)第二麦克风(或者，在一些实施方案中，第二组一个或多个麦克风)302-2位于可穿戴音频输出设备301上，以便检测由波形324表示的未被耳塞303和耳插物314完全阻挡并且可以在用户耳道内的区域318中听到的任何环境声音。因此，在可穿戴音频输出设备301不产生噪声消除(也称为“反相”)音频信号以消除(例如，衰减)来自周围物理环境的环境声音的一些情况下(如由波形326-1指示的)，环境声音波形324可被用户感知到(如波形328-1所指示)。在可穿戴音频输出设备301产生反相音频信号以消除环境声音的一些情况下(如由波形326-2指示的)，环境声音波形324不可被用户感知到(如波形328-2所示)。

在一些实施方案中，(例如，通过可穿戴音频输出设备301或可穿戴音频输出设备301的部件诸如音频I/O逻辑部件312，或者通过与可穿戴音频输出设备301通信的电子设备)将环境声音波形322与衰减的环境声音波形324进行比较，以确定由可穿戴音频输出设备301提供的无源衰减。在一些实施方案中，当提供反相音频信号以从周围物理环境中消除环境声音时，考虑由可穿戴音频输出设备301提供的无源衰减的量。例如，反相音频信号波形326-2被配置为消除衰减的环境声音波形324，而不是未衰减的环境声音波形322。

在一些实施方案中，可穿戴音频输出设备301被配置为以多种可用音频输出模式中的一种可用音频输出模式操作，诸如主动噪声控制音频输出模式、主动直通音频输出模式和旁路音频输出模式(有时也称为噪声控制关闭音频输出模式)。在主动噪声控制模式(也称为“ANC”)下，可穿戴音频输出设备301输出一个或多个音频消除音频分量(例如，一个或多个反相音频信号，也称为“音频消除音频分量”)，以至少部分地消除来自周围物理环境的环境声音，否则用户会感知到该环境声音。在主动直通音频输出模式中，可穿戴音频输出设备301输出一个或多个直通音频分量(例如，播放由例如麦克风302-1接收的来自用户耳朵外部的环境声音的至少一部分)，使得用户可听到来自周围物理环境的比原本可被用户感知到的更大量的环境声音(例如，比利用放置在用户耳朵中的可穿戴音频输出设备301的被动衰减所听到的更大量的环境声音)。在旁路模式中，关闭主动噪声管理，使得可穿戴音频输出设备301既不输出任何音频消除音频分量也不输出任何直通音频分量(例如，使得用户感知的任何量的环境声音都是由于可穿戴音频输出设备301的物理衰减造成的)。

在一些实施方案中，可穿戴音频输出设备301表示一组头戴式耳机(其中贴耳式耳罩佩戴在用户耳朵上或包耳式耳罩佩戴在用户耳朵上方)，而不是佩戴在用户耳朵中的一个或多个耳塞。在一些此类实施方案中，耳罩充当物理屏障，用于阻挡来自周围物理环境的至少一些环境声音到达用户的耳朵。耳罩中的至少一个耳罩包括麦克风302-1和302-2以分别检测物理环境中的环境声音(对应于区域316中的环境声音，由图3C中的波形322表示)和未被耳罩完全阻挡的环境声音(对应于区域318中可被听到的环境声音，由图3C中的波形324表示)。在一些实施方案中，两个耳罩都包括用于检测相对于每个耳罩的环境声音的相应麦克风对302。

现在将注意力转到任选地在便携式多功能设备100上实现的用户界面(“UI”)的实施方案。

图4A示出根据一些实施方案的便携式多功能设备100上的应用程序菜单的示例性用户界面。类似的用户界面任选地在设备300上实现。在一些实施方案中，用户界面400包括以下元件或者其子集或超集：

·一种或多种无线通信诸如蜂窝信号和Wi-Fi信号的一个或多个信号强度指示符；

·时间；

·蓝牙指示符；

·电池状态指示符；

·具有针对常用应用程序的图标的托盘408，该图标诸如：

ο电话模块138的被标记为“电话”的图标416，该图标416任选地包括未接来电或语音信箱的数量的指示符414；

ο电子邮件客户端模块140的被标记为“邮件”的图标418，该图标418任选地包括未读电子邮件的数量的指示符410；

ο浏览器模块147的标记为“浏览器”的图标420；和

ο视频和音乐播放器模块152的被标记为“音乐”的图标422；

和

·其他应用程序的图标，诸如：

οIM模块141的被标记为“消息”的图标424；

ο日历模块148的被标记为“日历”的图标426；

ο图像管理模块144的被标记为“照片”的图标428；

ο相机模块143的被标记为“相机”的图标430；

ο在线视频模块155的被标记为“在线视频”的图标432；

ο股市桌面小程序149-2的被标记为“股市”的图标434；

ο地图模块154的被标记为“地图”的图标436；

ο天气桌面小程序149-1的被标记为“天气”的图标438；

ο闹钟桌面小程序149-4的被标记为“时钟”的图标440；

ο健身支持模块142的被标记为“健身支持”的图标442；

ο记事本模块153的标记为“记事本”的图标444；和

ο用于设置应用程序或模块的图标446，该图标提供对设备100及其各种应用程序136的设置的访问。

应当注意，图4A中示出的图标标签仅仅是示例性的。例如，其他标签任选地用于各种应用程序图标。在一些实施方案中，相应应用程序图标的标签包括与该相应应用程序图标对应的应用程序的名称。在一些实施方案中，特定应用程序图标的标签不同于与该特定应用程序图标对应的应用程序的名称。

图4B示出了具有与显示器450分开的触敏表面451(例如，图3A中的平板电脑或触控板355)的设备(例如，图3A中的设备300)上的示例性用户界面。尽管将参考触摸屏显示器112(其中组合了触敏表面和显示器)上的输入给出随后的许多示例，但是在一些实施方案中，设备检测与显示器分开的触敏表面上的输入，如图4B中所示。在一些实施方案中，触敏表面(例如，图4B中的451)具有与显示器(例如，450)上的主轴线(例如，图4B中的453)对应的主轴线(例如，图4B中的452)。根据这些实施方案，设备检测与显示器上相应位置对应的位置处的与触敏表面451的接触(例如，图4B中的460和462)(例如，在图4B中，460对应于468并且462对应于470)。这样，在触敏表面(例如，图4B中的451)与多功能设备的显示器(例如，图4B中的450)是分开的时侯，由设备在触敏表面上所检测到的用户输入(例如，接触460和462以及它们的移动)被该设备用于操纵显示器上的用户界面。此外，如上所述，在一些实施方案中，使用其他输入设备和方法来接收用户输入。应当理解，类似的方法任选地用于本文所述的其他用户界面。

在一些实施方案中，设备对设备所检测到的输入的响应取决于基于输入的特征(诸如输入的持续时间或输入期间的接触强度)的标准。例如，对于一些“轻按压”输入，在输入期间超过第一强度阈值的接触的强度触发第一响应。在一些实施方案中，设备对由设备所检测到的输入的响应取决于包括输入期间的接触强度和基于时间的标准两者的标准。例如，对于一些“深按压”输入，只要在满足第一强度阈值与满足第二强度阈值之间经过延迟时间，在输入期间超过大于轻按压的第一强度阈值的第二强度阈值的接触的强度便触发第二响应。该延迟时间的持续时间通常小于200ms(毫秒)(例如，40ms、100ms、或120ms，这取决于第二强度阈值的量值，其中该延迟时间随着第二强度阈值增大而增大)。该延迟时间帮助避免意外地识别深按压输入。又如，对于一些“深按压”输入，在达到第一强度阈值之后将出现敏感度降低的时间段。在该敏感度降低的时间段期间，第二强度阈值增大。第二强度阈值的这种暂时增大还有助于避免意外深按压输入。对于其他深按压输入，对检测到深按压输入的响应不取决于基于时间的标准。另选地，在一些实施方案中，对于一些轻按压输入，输入的持续时间超过第一阈值时间量(例如，由于检测到该输入)触发第一响应；并且在一些实施方案中，对于一些深按压输入，输入的持续时间超过第二阈值时间量(例如，由于检测到该输入)触发与第一响应不同的第二响应，该第二阈值时间量大于第一阈值时间量。

在一些实施方案中，输入强度阈值和/或对应输出中的一者或多者基于一个或多个因素(诸如用户设置、接触运动、输入定时、应用运行、施加强度时的速率、同时输入的数量、用户历史、环境因素(例如，环境噪声)、焦点选择器位置等)而变化。示例因素在美国专利申请14/399,606和14/624,296中有所描述，这些美国专利申请全文以引用方式并入本文。

用户界面和相关联过程

现在将注意力转到可在电子设备(例如，便携式多功能设备100(图1A)或设备300(图3A))上实现的用户界面(“UI”)和相关联过程的实施方案，该电子设备与一个或多个显示设备(例如，触敏显示系统112(图1A)或显示器340(图3A))、一个或多个输入设备(例如，触敏显示系统112(图1A)或触控板355(图3A))和一个或多个可穿戴音频输出设备(例如，一组一个或多个可穿戴音频输出设备301(图3B)，诸如一组贴耳式耳机或包耳式耳机、一对耳塞或耳机等)通信。在一些实施方案中，用户界面和相关联过程可至少部分地在一个或多个可穿戴音频输出设备(例如，一个或多个可穿戴音频输出设备301(图3B))上实现，并且在一些实施方案中，至少部分地在一个或多个电子设备(诸如，便携式多功能设备100(图1A)或设备300(图3A))上实现。在一些实施方案中，用户界面和相关联过程可在包括一个或多个可穿戴音频输出设备(例如，一组一个或多个可穿戴音频输出设备301(图3B))或与其通信的并且包括一个或多个电子设备(例如，便携式多功能设备100(图1A)或设备300(图3A))或与其通信的系统(任选地，可穿戴系统)上实现。

图5A至图5T示出了根据一些实施方案的用于有多个参与者的动态视觉通信会话的示例性用户界面(例如，通信会话期间的视频通话应用程序的用户界面)和参与者相对于设备的用户的模拟空间音频位置的表示。图6A至图6G示出了根据一些实施方案的至少两个附近用户经由可穿戴音频输出设备发起并进行通信会话，其中该至少两个附近用户听到指示通信会话中的其他用户的方向和距离的模拟空间音频。图9A至图9G示出了根据一些实施方案的用于有多个参与者的动态视觉通信会话的示例性用户界面(例如，通信会话期间的视频通话应用程序的用户界面)和参与者相对于设备的用户的模拟空间音频位置的表示。这些图中的用户界面用于示出下文所述的过程，包括图7A至图7H和图8A至图8B中示出的过程。为了便于说明，将参考在具有触敏显示系统112并且与一组一个或多个可穿戴音频输出设备通信的电子设备100上执行的操作来讨论一些实施方案。然而，类似的操作任选地在具有其他类型的输入设备的其他类型的设备上执行。例如，响应于在显示器450上显示图中所示的用户界面界面时检测到触敏表面451上的输入，可使用具有显示器450和单独的触敏表面451(图4B)的设备来执行类似的操作。在其他示例中，触敏显示器和/或其他前述物理用户界面设备由其他形式的提供输入装置(诸如，用于接收口头递送的用户输入的语音识别设备或子系统、跟踪在一些情况下与用户分开(例如，由用户握持或佩戴)或在一些情况下是用户的特征(诸如，用户的手)的物理输入设备的位置的一个或多个相机或相机子系统，以及/或者确定用户正在注视或聚焦于的位置(例如，在用户界面中或在二维或三维环境中)或一系列位置的用户注视确定设备或子系统)替换或补充。此外，虽然将参考包括一对耳塞502的一组可穿戴音频输出设备来讨论一些实施方案，但是任选地可使用是包括一对耳罩的一对贴耳式耳机或包耳式耳机的可穿戴音频输出设备来执行类似的操作。在此类情况下，下文所述的相对于该对耳塞中的一个耳塞执行的操作类似地使用该对头戴式耳机的一个耳罩来执行(例如，将耳塞放置在用户耳朵中类似于将耳罩放置在用户耳朵上方，并且从用户耳朵中移除耳塞类似于从用户耳朵上移除耳罩)。

图5A至图5T示出了根据一些实施方案的用于有多个参与者的动态视觉通信会话的示例性用户界面(例如，视频通话应用程序内的用户界面)和参与者相对于设备的用户的模拟空间音频位置的表示。

图5A示出了便携式多功能设备100，该便携式多功能设备在触摸屏112上显示多个参与者与设备的用户之间正在进行的视频通话的示例性用户界面500(例如，视频通话用户界面、会议通话用户界面或通信应用程序用户界面)。用户界面区分设备的用户的动态视觉表示(例如，在用户界面500中被示出为用户504的视频表示)和视频通话中的其他参与者(P1-P4)的动态视觉表示(例如，在用户界面500中被示出为参与者1(P1)的视频表示、参与者2(P2)的视频表示508、参与者3(P3)的视频表示510和参与者4(P4)的视频表示512(也统称为参与者的表示506-512))。在图5A至图5T的整个以下讨论中，虽然为了便于说明，将用户的表示504和参与者的表示506-512描述为视频表示，但是应当理解，在一些实施方案中，那些表示是动态视觉表示，其可包括除了视频表示之外的表示，诸如动画头像。

在多个参与者与设备的用户之间的传统视频通话中(例如，在通信会话中)，来自所有参与者的音频被感知为源于相对于设备的用户的相同位置(例如，就好像这些参与者都从空间中的同一点与彼此直接说话)。这样的交互会导致许多中断，因为为了能被听到，一次只有一个参与者可以说话。为了示出这一点，包括参与者相对于设备的用户的模拟音频位置的表示的(通信会话的模拟空间或环境的)模拟音频位置图514被显示在用户界面500的右侧。具体地，模拟音频位置图514示出了参与者1的模拟音频位置516、参与者2的模拟音频位置518、参与者3的模拟音频位置520以及参与者4的模拟音频位置522(统称为参与者的模拟音频位置516-522)。这些参与者的模拟音频位置516-522被放置在通信会话的模拟空间中，以示出设备的用户(例如，由用户的位置的表示或模拟音频位置524表示)感知到的音频来自何处。为了说明这一点，如由设备的用户经由从耳塞502听到的音频所感知的，参与者的模拟音频位置516-522被放置在模拟空间中的重叠位置中。图5A还示出了未启用空间化音频(由“关闭”526表示)，这导致了这种不期望的重叠效果。关于图5B更详细地讨论了空间化音频。

最后，图5A还示出了俯视图528(例如，鸟瞰图)，该俯视图示出了设备的在物理空间中佩戴着音频输出设备(例如，耳塞502)的用户，并且示出了便携式多功能设备100相对于设备的用户501的位置。

图5B在视觉上示出了当启用空间化音频特征(由“打开”530表示)时音频如何被设备100的用户501感知。为了有助于解释图5B，下文关于空间音频如何工作进行了简要的讨论。当启用空间音频时，从耳塞502输出的音频听起来如同来自每个参与者的相应音频来自不同的模拟空间位置(该模拟空间位置可随时间而改变)(在参照系中，诸如在物理环境中(例如，环绕声效果))。参与者或其他音频源的“模拟空间位置”是由于使用空间化音频而被耳塞502的佩戴者感知到的空间位置。此外，声源(例如，来自每个参与者的音频)的定位(模拟空间位置)与耳塞502相对于参照系的移动无关。这避免了参考图5A所讨论的用户感知到所有参与者从相同位置说话的不期望情形。通常，该一个或多个声源的模拟空间位置在固定时相对于参照系固定，并且在移动时相对于参照系移动。例如，在参照系是物理环境的情况下，该一个或多个声源(例如，来自每个参与者的音频)在物理环境中具有相应模拟空间位置。当耳塞502由于用户的移动而在物理环境各处移动时，自动调整来自耳塞502的音频输出，使得该音频继续听起来如同来自物理环境中的相应空间位置处的一个或多个声源(例如，来自每个参与者的音频)(例如，如图5Q所示)。在该一个或多个声源是移动通过物理环境各处的一系列(真实或模拟)空间位置的移动源的情况下，调整来自耳塞502的音频输出，使得该音频继续听起来如同来自物理环境中的该一系列空间位置处的该一个或多个声源。对于移动声源的这种调整还考虑了耳塞502相对于物理环境的任何移动(例如，如果耳塞502相对于物理环境沿着与移动声源类似的路径移动，以便维持与声源的恒定空间关系，则音频将以使得声音不会表现为相对于耳塞502移动的形式输出)。

在一些实施方案中，空间音频效果的参照系被固定到经由耳塞502输出音频的电子设备(诸如设备100)(例如，声音跟随设备)，并且在本文中被称为“跟随设备”特征(对于“跟随设备”特征的示例，参见例如图5Q)。例如，如果设备100在物理环境中移动，例如，由于用户移动或改变用户501握持设备100的位置，则物理环境中的音频源的模拟空间位置对应于物理环境中的设备100的移动而移动。关于剩余的图(例如，图5B至图5T)，应当理解，空间音频效果的参照系被固定到设备100。另选地，当未启用跟随设备特征时，音频输出不跟随设备100的移动。例如，当未启用跟随设备特征时，空间音频相对于未固定到设备100的参照系来定位(例如，使得即使当设备100相对于参照系移动时，空间音频也不会基于设备100的移动来移动)。此外，非空间立体声或单声道音频相对于耳塞的位置来定位，并且不基于被移动的设备100来移动(参见例如图5A，该图示出了当在非空间音频模式下操作时音频如何被感知)。

返回到图5B的解释，图5B示出了模拟音频位置图514，该模拟音频位置图包括放置在模拟空间中的参与者相对于设备的用户(例如，由用户的位置的表示或模拟音频位置524表示)的模拟音频位置516-522。这些参与者的模拟音频位置516-522对应于(或模仿)在设备100的示例性用户界面500中显示的参与者的表示506-512。这允许设备100的用户501在听觉上将来自一组人的语音感知为来自不同位置，而不是将每个人的语音感知为是从空间中的单个点发出的。为了更好地模拟该体验，在示例性用户界面500上完全处于画面中的参与者(例如，参与者2的视频表示508、参与者3的视频表示510)或在显示器上处于焦点的参与者的语音由耳塞向用户501呈现为在物理上比其他参与者更靠近用户501(例如，通过改变一些或所有参与者的音频特性)。为了在视觉上说明这一点，模拟音频位置图514示出了参与者2的模拟音频位置518和参与者3的模拟音频位置520更靠近用户的位置的表示或模拟音频位置524。此外，参与者1的模拟音频位置516和参与者4的模拟音频位置522更远离用户的位置的表示或模拟音频位置524(例如，在通信会话的模拟空间的外围)。

图5C示出了图5A至图5B所示的同一用户界面500。然而，图5C示出了在参与者2的视频表示508上方(或该视频表示处)接收到输入532(例如，轻击输入)。在一些实施方案中，输入532是按压并保持输入。图5D示出了响应于在参与者2的视频表示508上方接收到输入532，(i)将参与者2的视频表示508定位到示例性用户界面500中的中心位置，并且(ii)将所有其他参与者移位到示例性用户界面500中的不同位置(例如，参与者1的视频表示506被使得更靠近示例性用户界面500的中心，参与者3的视频表示510被移动远离示例性用户界面500的中心，并且参与者4的视频表示512被移出视图)。换句话说，响应于单个输入，在用户界面上移位多个参与者。

图5D示出了模拟音频位置图514相对于图5C被更新以反映参与者P1-P4的表示506-512的位置的变化。由于参与者2的视频表示508在示例性用户界面500的中心，因此音频位置图514示出了参与者2的模拟音频位置518被移动得更靠近用户的位置或模拟音频524的表示(例如，参与者2的模拟音频位置518被设备的用户501在听觉上感知为是最靠近的)。另外，由于参与者1的视频表示506和参与者3的视频表示510不在示例性用户界面500的中心，因此它们在音频位置图514中的对应模拟音频位置被对应地移位。最后，由于参与者4的视频表示512已被移出视图，所以参与者4的模拟音频位置522被移动得更远离用户的位置的表示或模拟音频位置524。在一些实施方案中，当参与者(例如，参与者4的视频表示512)不再在示例性用户界面中示出时，他们的对应音频被设备的用户感知为从通信会话的模拟空间的外围(例如，背景)发出。

图5E示出了图5D所示的同一用户界面500。然而，图5E示出了在参与者2的视频表示508上方(或该视频表示处)接收到输入534(例如，拖动手势)。图5F示出了响应于在参与者2的视频表示508上方(或该视频表示处)接收到输入534(例如，滑动手势)，在用户界面500中显示的参与者在相同方向上(例如，在向左方向上)移位。

图5F还示出了模拟音频位置图514相对于图5E被更新以反映参与者的表示的位置在用户界面500中的变化。由于参与者3的视频表示510在示例性用户界面500的中心(例如，在焦点处)，因此音频位置图514示出了参与者3的模拟音频位置520最靠近用户的位置的表示或模拟音频位置524。另外，由于参与者2的视频表示508和参与者4的视频表示512不在示例性用户界面的中心，因此它们在音频位置图514中的相应模拟音频位置被对应地移位。最后，由于参与者1的视频表示506已被移出视图，所以参与者1的模拟音频位置516被移动得更远离用户的位置的表示或模拟音频位置524。

图5G至图5L示出了触摸屏112上的交互(例如，拖动输入)，该交互允许设备的用户501“在听觉上移动得更靠近”参加正在进行的视频通话的参与者中的特定参与者。在真实世界情形中，这将类似于在群组会话期间移动至特定人员或倾身于特定人员并与其进行一定程度上私人的会话。这种交互在下文中被称为“倾身(lean-in)”交互。图5G至图5I示出了如何调用倾身交互，并且图5H至图5L示出了响应于该调用而显示的所得倾身用户界面。

图5G示出了拖动输入536在便携式多功能设备100的用户的视频表示504处开始。图5H示出了拖动输入536继续朝向参与者2的视频表示508，以及用户的视频表示504随着拖动输入536移动。图5I示出了拖动输入536在与参与者2的视频表示508的位置对应的位置处停止。图5I还示出了用户504的视频表示放置在参与者2的视频表示508之上。在一些实施方案中，音频位置图514响应于用户的视频表示504的移动而连续地更新。虽然图5G至图5I示出了朝向另一个参与者的视频表示(例如，参与者510的视频表示)拖动用户的视频表示504以调用倾身交互的拖动输入，但是在一些实施方案中，倾身交互也通过朝向用户的视频表示504拖动其他参与者的视频表示(例如，参与者510的视频表示)的拖动手势来调用。

图5J示出了响应于用户504的视频表示被放置在参与者2的视频表示508之上从而调用倾身交互而对用户界面500进行的更新。在一些实施方案中，仅在检测到输入536的抬离时调用倾身交互。在一些实施方案中，只要输入536停留在参与者的表示之上之后保持与显示器接触达预定义的时间量(例如，预定义的时间量可以在0.5秒至2.0秒的范围内)，就调用并维持倾身交互。在一些实施方案中，通过在参与者的视频表示(例如，参与者3的视频表示510)上方的按压并保持来发起倾身交互，并且在一些实施方案中，只要从初始按压并保持输入开始在显示器上维持接触，就继续倾身交互。

为了在视觉上示出已经调用了倾身交互，示例性用户界面500现在包括新窗口538，该新窗口示出了用户的视频表示504和参与者3的视频表示510的扩展气泡视图。在该示例中，窗口538是倾身交互的视觉表示，并且具有用户和其他参与者的表示的窗口538的显示表示设备的用户(例如，由用户的视频表示504指示)和参与者3(例如，由参与者3的视频表示510指示)两者当前正在以倾身交互进行通信(例如，链接在一起)。在一些实施方案中，新窗口538也显示在参与者3所使用的设备上；因此，在此类实施方案中，在一个设备上调用倾身交互使得倾身交互用户界面显示在(i)发起设备和(ii)与受到请求的参与者对应的设备(例如，受到请求的参与者用来参与通信会话的设备)两者上。在一些实施方案中，受到请求的参与者的设备提示受到请求的参与者(例如，参与者3)接受或拒绝倾身通信会话。

图5J示出了已更新的模拟音频位置图514，该已更新的模拟音频位置图在视觉上示出了设备的用户(例如，由用户的位置或模拟音频位置524表示)在倾身通信会话活动时如何在听觉上感知来自其他参与者的音频。在倾身通信会话中，参与者3的模拟音频位置520最靠近用户的位置或模拟音频位置524，这模拟了彼此相邻的两个参与者在物理环境中进行一定程度上私人的会话。在一些实施方案中，如图5J中由参与者1的模拟音频位置516、参与者2的模拟音频位置518和参与者4的模拟音频位置522指示的，其他参与者的语音在听觉上被感知为来自通信会话的模拟空间的外围。在一些实施方案中，其他参与者的模拟音频位置可与在图5J的示例性用户界面500中显示的不同。

在一些实施方案中，倾身交互是暂时的并且仅发生短暂的时间段(例如，5秒、10秒、15秒等)。为了示出这一点，图5J示出了指示倾身交互发生的时长的实耗时间图表540。实耗时间图表540包括由T₀ 542指示的初始开始时间，该初始开始时间表示倾身交互开始的时间。实耗时间图表540还包括由T_Th 544指示的结束时间，该结束时间表示倾身交互的结束时间。在一些实施方案中，可通过用户或其他参与者使用预定义输入或手势(例如，表示倾身交互的在窗口538中的触摸输入或保持并按压输入)来将倾身交互延长另一设定时间段。

图5K示出了时间指示线546朝向实耗时间图表540上的结束时间(例如，如由T_Th544指示的)前进但未达到或超过结束时间。图5L示出了时间546在实耗时间图表540中达到或超过了由T_Th 544指示的结束时间。图5L还示出了当时间指示线546达到或超过如由T_Th544指示的结束时间时，用户界面500停止显示新窗口538，并且停止倾身交互。一旦倾身交互已经停止，用户界面500就恢复到先前在发起倾身交互之前显示的布置(例如，图5F中所示的布置)。因此，如由图5L的模拟音频位置图514所表示的，通信会话中的用户和其他参与者的模拟空间位置恢复到在发起倾身交互之前使用的模拟空间位置(例如，图5F的模拟音频位置图514中所示的布置)。

图5M至图5O示出了在相应参与者的表示(例如，参与者2的视频表示508)上方的展开输入，该展开输入导致用户的设备100从比紧接在展开手势之前的相应参与者的模拟位置更靠近设备的用户的模拟位置呈现来自相应参与者的音频。从听觉感知角度来看，展开手势使得用户501在听觉上感知到他们随着展开手势的进行而变得更靠近相应参与者。在一些实施方案中，在相应参与者的表示上方的捏合手势(与展开手势相反)还可使设备的用户在听觉上感知起来如同其正变得远离相应参与者。

图5M示出了展开手势548主要在参与者2的视频表示508处进行。图5N示出了展开手势548继续进行，并且响应于正在进行的展开手势548，使参与者2的视频表示508成为显示器上的焦点(例如，在用户界面500中被放大并被移动到触摸屏112的中心)。图5N还示出了当展开手势548正在进行时，音频位置图514基于展开手势548的状态来连续地更新。例如，随着参与者2的视频表示508被放大，参与者2的模拟音频位置518在听觉上被感知为比其他参与者移动得更靠近设备的用户(例如，通过将模拟音频位置518移动得更靠近用户的位置或模拟音频位置524)，或者至少比在展开手势548之前的参与者2的模拟音频位置518更靠近设备的用户。在一些实施方案中，其他参与者语音在听觉上被感知为来自通信会话的模拟空间的外围(例如，如由参与者1的模拟音频位置516、参与者3的模拟音频位置520和参与者4的模拟音频位置522所表示的)。图5O示出了响应于检测到展开手势停止而被更新的示例性用户界面500，并且示出了被对应地更新的音频位置图514。

图5P示出了示例性用户界面500和音频位置图514响应于便携式多功能设备100在空间中移动而更新(例如，如由示出便携式多功能设备100围绕设备100的用户501逆时针旋转的俯视图528所示)。响应于设备100围绕用户501逆时针旋转，示例性用户界面将参与者的视频表示516-520向右移位，并且设备的参照系被更改。因此，音频位置图514也被更新以反映参照系的更改。

图5Q示出了参考图5B所讨论的“跟随设备”特征。如先前所讨论的，该特征允许用户在佩戴着耳塞502时移动其头部，并且尽管耳塞移动，仍然能够在听觉上感知到声音是从空间中的同一位置发出的。俯视图528示出了便携式多功能设备100保持在与图5P中所示相同的位置，并且当从上方观看时，俯视图528还示出了设备100的用户501在佩戴着耳塞502时在顺时针方向上移动其头部。如图5Q中的音频位置图415所示，参与者的模拟音频位置在空间中保持固定，在与用户在顺时针方向上移动其头部之前相同的位置处(例如，如图5P的音频位置图514所示)。因此，“跟随设备”特征的使用避免了用户501将其头部与耳塞502一起旋转导致感知到的其他参与者的位置与用户的头部一起旋转的不期望结果。在真实世界场景中，设备的用户所体验到的效果类似于一个人转动其头部，而正在与之交谈的人保持在其相同位置中。由于参照系不因耳塞502的移动而更改，因此示例性用户界面500和音频位置图514与图5P中所示的相比没有改变。

在一些实施方案中，可能需要在视频通话的背景中播放除了参与者的语音之外的附加音频(例如，被通信会话中的所有参与者听到的背景音乐或来自现场节目或录播节目或媒体项目的音频)。为此，图5R示出了与参与者语音不同的背景音频可在视频通话期间播放，以变使其被所有参与者听到，而不干扰参与者之间的通信。被播放的背景音频的效果类似于在会话期间房间后面有扬声器在轻柔地播放无线电广播节目或背景音乐。为了可视化这一点，示例性用户界面500包括图标550以指示正在播放背景音频。在一些实施方案中，附加音频与便携式多功能设备100上的另一个应用程序(例如，图4A中的音乐应用程序422)相关联，并且在示例性用户界面500中显示的表示附加音频的图标550可与和该应用程序相关联的图标(例如，用于音乐应用程序422的音乐图标)相同。

图5R中的音频位置图514还示出了来自参与者P1-P4的模拟音频位置516-522的声音将在听觉上被感知为比由耳塞502输出以便被感知为来自模拟背景音频位置552的附加音频显著更靠近设备的用户(例如，在模拟音频位置524处)。在该示例中，与模拟背景音频位置552相关联的声音在听觉上被感知为来自通信会话的模拟空间的背景。为了进一步示出这一点，例示性边界线553指示被输出(使用空间音频)以便被感知为来自模拟音频位置552的附加音频是在通信会话的模拟空间的背景中而不是前景中。如图5R中所示，音频位置图514还指示正在进行的视频通话中的设备的用户和其他参与者全部听到与模拟背景音频位置552相关联的同一底层声音(例如，附加音频)(例如，他们全部可听到同一歌曲)。在一些实施方案中，基于每个参与者的模拟位置，与模拟音频背景音频位置552相关联的声音的距离、模拟位置和其他音频效果对于每个参与者是不同的。

图5R还示出了在图标550处开始以将模拟背景音频位置552移动到通信会话的模拟空间中的不同感知位置的滑动手势554。图5S示出了：响应于滑动手势，图标550在示例性用户界面500中移动到背景中的不同位置。为了示出这种感知到的音频位置的变化，音频位置图514已被更新以示出图标550已被移动到新位置，在该示例中，该新位置在用户的位置的表示524后方。因此，在该示例中，与模拟背景音频位置552相关联的声音在听觉上被感知为来自设备的用户后方而非参与者后方，如图5R中所示。

图5T示出了另选的示例性用户界面554，该示例性用户界面是增强现实用户界面，其中通信会话中的参与者的视觉描绘被添加到用户界面554，位于也被描绘在用户界面554中的物理环境内的位置处。该示例性用户界面554基于三维物理环境556来创建，该三维物理环境在便携式多功能设备100的一个或多个光学传感器164的视场中(例如，在一个或多个光学传感器164中的当前选定的光学传感器的视场中，或在一个或多个光学传感器164中的任何一个光学传感器中的视场中，或任选地，在两个或更多个光学传感器164的组合视场中)。示例性用户界面554将参与者1的视频表示506和参与者2的视频表示508放置在物理环境中以模拟与同一房间中的多个人进行对话的体验(例如，他们被放置在经由一个或多个光学传感器164捕获的三维物理环境556中的桌子558的另一侧)。可基于在三维物理环境556中检测到的内容以合乎逻辑的方式进行这些视频表示的放置。例如，便携式多功能设备100可检测对象诸如桌子、沙发或椅子，并且将参与者的视频表示放置在检测到的对象上的适当位置处(例如，相应参与者被放置在桌子的另一侧，或者被放置在椅子或沙发上的就坐位置处)。

另外，在示例性用户界面554中，参与者1的模拟音频位置516和参与者2的模拟音频位置518分别对应于参与者1的视频表示506的位置和参与者2的视频表示508的位置。

图6A至图6G示出了根据一些实施方案的至少两个附近用户经由可穿戴音频输出设备发起并进行“增强音频通信会话”，其中该至少两个附近用户听到指示通信会话中的其他用户的方向和距离的模拟空间音频。具体地，图6A至图6D示出了用于与至少一个人建立音频通信会话的初始配对过程的示例，并且图6E至图6G示出了从面对面对话到通过耳塞发生的对话的无缝转变。

图6A示出了用于在至少两个用户之间建立音频通信会话的实施方案。在该实施方案中，每组音频输出设备(例如，耳塞502和耳塞602)与其相应设备配对(例如，有线或无线地连接)(例如，耳塞502与便携式多功能设备100配对并且耳塞602与便携式多功能设备600配对(例如，有线或无线地连接))。图6A还示出了便携式多功能设备100与便携式多功能设备600通信，如由双向箭头604指示的。当便携式多功能设备与其相应耳塞配对时，可显示用于建立音频通信会话的示例性用户界面606。例如，示例性用户界面606可包括窗口608，该窗口包括陈述“请求与Yvette的耳塞共享音频”的提示。窗口608示出了两个按钮，即用于请求与Yvette的耳塞共享音频的第一按钮610和用于取消用于建立音频通信会话的配对过程的第二按钮612。最后，图6A示出了在第一按钮610处的用于向Yvette的便携式多功能设备发送建立音频通信会话的请求的输入614(例如，轻击输入)，该请求在图6A中被示出为与Yvette的耳塞共享音频的请求。

图6B示出了响应于检测到在第一按钮610处的用于发送与Yvette的便携式耳塞602建立音频通信会话的请求的输入614，在这两个设备之间发起用于建立音频通信会话的过程。在便携式多功能设备100上，示例性用户界面606不再包括第一按钮610和第二按钮612，而是显示陈述“请求中……”的提示616。当等待指示便携式多功能设备600的用户已经接受或拒绝进入与多功能设备100的用户的音频通信会话的信息时显示提示616。在便携式多功能设备600上，显示包括窗口620的用户界面618，该窗口包括陈述“Alec已请求与您共享他们的音频。是否接受？”的提示。在该窗口620内显示了两个按钮，即用于接受请求的第一按钮622和用于拒绝请求的第二按钮624。最后，图6B示出了在第一按钮622处的用于接受建立音频通信会话(或更通俗地说，共享音频)的请求的输入626(例如，轻击输入)。

图6C示出了响应于在第一按钮622处检测到用于接受共享音频的请求的输入626(例如，轻击输入)，建立音频通信会话。为了指示这两个设备都处于活动音频通信会话中，示例性用户界面606和示例性用户界面618被更新以警示便携式多功能设备的用户他们正在参与活动音频通信会话(例如，示例性用户界面606包括陈述“您现在正在与Yvette的耳塞共享音频”的对话框625，并且示例性用户界面618包括陈述“您现在正在与Alec的耳塞共享音频”的对话框627)。

图6D示出了其中两对耳塞连接到单个便携式多功能设备(例如，便携式多功能设备100)的另选实施方案。为了示出该另选实施方案，图6D示出了同时与耳塞502(由双向箭头628指示)和耳塞602(由双向箭头630指示)通信的便携式多功能设备100。在一些实施方案中，当耳塞502和耳塞602两者都与便携式多功能设备100成功建立通信时，可示出提示632以通知设备的用户耳塞被配对(例如，无线地连接)。虽然图6A至图6D示出了耳塞之间的连接方法的示例，但是多种其他连接方法也是可能的，如参考图8B中的操作818所解释的。

图6E至图6G示出了当耳塞502和耳塞602的用户彼此靠近但在他们的正常说话范围之外时这些用户如何在通信会话中在听觉上感知到音频。在没有任何耳塞存在的正常对话中，人的语音将根据平方反比定律降低音量，该平方反比定律认为声音的强度与距信号源的距离的平方成反比。这迫使人们彼此之间保持在一定距离内(有时被称为“在听觉范围内”)以维持会话。然而，可存在这样的情况，其中用户希望保持与另一个用户的会话，但也希望离开他们以完成另一项任务，即使他们不再在彼此的听觉范围内。因此，需要用户能够在当面通信(例如，面对面)与短距离通信(例如，人在附近，但在正常说话范围之外)之间无缝切换。图6E至图6G示出了允许用户从当面通信无缝切换到短距离通信会话的交互。

图6E示出了佩戴耳塞502的第一用户634和佩戴耳塞602的第二用户636，并且耳塞502和耳塞602与彼此通信(例如，彼此直接通信或通过一个或多个中间设备诸如便携式多功能设备100通信)。在图6E中，第一用户634和第二用户636彼此相邻，例如在商店的结账区域中，并且能够仅使用他们的无辅助语音与彼此通信。因此，尽管用户佩戴着其相应耳塞并且正在进行通信会话，但是耳塞可在允许用户听到无辅助音频(例如，正常语音)的模式(例如，直通或透明模式，或非噪声消除模式)下操作。第一用户的位置638和第二用户的位置640在图6E中所示的小地图642中指示。该小地图642还可指示感知到的发出声音的方向，但是在图6E中未示出，因为耳塞当前不提供附加音频来增强用户的语音。

图6E还示出了用于辅助解释用户(例如，第一用户634或第二用户636)如何在佩戴着其相应耳塞时感知音频的曲线图。曲线图644具有两个轴，水平轴646(标记为“X轴：距源的距离”)和竖直轴648(标记为“Y轴：音量(音频强度)”)。水平轴646表示用户之间的距离，该距离可与从耳塞602到耳塞502的距离(例如，从一个用户到提供声源(例如，说话)的另一个用户的距离)相同或对应。竖直轴648表示如由任一用户听到的来自另一个源的声音(包括两者的无辅助声音)的音量(例如，另一个用户听起来有多大声)。

在曲线图644内，存在表示用户在佩戴着耳塞502(或耳塞602)时在增强音频通信会话期间所体验的音频的音量的两个填充部分。第一部分在曲线650下方被示出(标记为“无增强的正常声音”)，该第一部分表示根据平方反比定律在正常环境中降低的声源(例如，语音)的无辅助音频音量。第二部分(标记为“增强添加音频”)在线性线652下方和曲线650上方被示出，该第二部分表示由耳塞输出的以减轻当两个用户之间的距离增加时自然声音通常在环境中发生的声音下降的声源的附加音频音量。所得组合的音频音量可被称为增强音量。因此，在增强音频通信会话中使用耳塞502和耳塞602允许耳塞502和耳塞602的用户仍然听到彼此(例如，听到彼此说话)，即使他们处于原本不在彼此的听觉范围内的距离处。在该示例中，增强添加音频音量仍然根据音频平方反比定律基于距离来降低，但随着距离以比将自然发生的速率更慢的速率降低，这有助于用户感知他们之间的距离变化。另外，在一些实施方案中，更改添加的增强音频的其他属性(例如，音频混响)以允许用户感知到用户与另个人之间的距离已经改变。这允许用户仍然能感知距离或距离变化，但不会仅因为他们在正常说话范围之外而结束通信。虽然图6E示出了增强添加音频以线性方式降低音量，但是总音量也可线性地、非线性地、分段线性地或以这些方式的组合降低，直到达到最小音量。在一些实施方案中，一旦总音频音量降低到特定最小音量，总音频音量就可停止降低(例如，保持恒定)，使得用户可继续听到另一个用户。该最小音量由水平线654指示(由“最小音量阈值”指示)。

曲线图644还示出了表示最小阈值距离的线656(标记为“启用增强音频阈值”)。在一些实施方案中，在通过增强添加音频来补充无辅助音频的音频音量之前，用户之间或其相应设备之间的距离必须达到或超过最小阈值距离。这允许用户在仍然处于音频源(例如，说话的人)的范围内时听到无辅助音频。在一些实施方案中，用户佩戴噪声消除耳塞，尽管用户彼此相邻，这也可能阻碍通信。在此类实施方案中，耳塞可在直通模式下操作，该直通模式允许用户在不必移除其噪声消除耳塞的情况下听到其周围的音频。在直通模式下，耳塞502或耳塞602复制使用耳塞的外部麦克风303(图3C)感测到的周围环境声音，从而将周围环境声音“直通”给用户。

最后，图6E中的曲线图644示出了指示用户之间或其相应设备(例如，耳塞602和耳塞502)之间的距离的当前距离线658。沿着水平轴线646的当前距离线658的位置指示用户之间或其设备之间的距离，并且还指示来自耳塞602的用户的、耳塞502的用户501听到的音频的组合音量。后续的图将示出基于用户之间或其相应设备之间的距离来移动的当前距离线658。返回到图6E中佩戴耳塞502的第一用户634与佩戴耳塞602的第二用户636之间发生的交互，因为(在图6E中所示的示例中)用户和他们的耳塞两者仍然在彼此的最小阈值距离内，所以不启用增强添加音频，如在表示最小阈值距离的线656的左侧的当前距离线658的位置指示的。

与图6E类似，图6F仍然示出了佩戴耳塞502的第一用户634和佩戴耳塞602的第二用户636。然而，佩戴耳塞602的第二用户636的位置已经改变(例如，用户636去拿冰激凌，而用户634留在商店的结账区域中)，并且该距离变化大得足以达到或超过用于启用增强音频的最小阈值距离。这种位置的变化在小地图642中指示，该小地图示出了第一用户的位置638和第二用户的位置640。小地图642现在示出了从用户位置(例如，第一用户位置638和第二用户位置640)中的每个用户位置周围的位置发出的音频波(例如，波660和波662)。音频波示出了每个用户感知到音频被发出的模拟空间位置(例如，用户在听觉上感知到增强音频所源于的位置)。该模拟空间位置与用户在物理空间中的位置相关联。换句话说，当每个用户在他们本地的物理环境周围移动时，他们传输的音频将被其他用户在听觉上感知为是正在移动的。这允许用户感觉到彼此在空间中的物理位置，即使他们不再能够看到彼此或听到彼此的无辅助音频(例如，他们的正常说话语音)。

图6F还示出了曲线图644已被更新以反映用户的位置的变化。曲线图644现在示出了定位在表示最小阈值距离的线656的右侧的当前距离线658，从而指示用户距彼此的距离大于最小阈值距离。一旦达到或超过最小阈值，就将增强音频与无辅助音频组合以允许用户在更远的延长距离听到彼此。曲线图644示出了当当前距离线658处于其在曲线图644中的标记位置时，用户将听到音频的直接来自用户的一部分(例如，从正常地说话的人发出的声波)和由耳塞补充的一部分(例如，由说话用户的耳塞获取，然后被传输到收听用户的耳塞以用于以高于直接、无辅助音频的音量的总音量水平进行回放的音频)。

图6G示出了当用户彼此相距较远距离(例如，而且通常是彼此没有视觉接触)时改变的音频属性，在该示例中，这是因为用户636已移动得比图6F中的情况更远离用户634。用户636的这种位置的变化由图6G中的小地图642指示，该小地图示出了比图6F中与第一用户的位置638分开更远的第二用户的位置640。图6G中的小地图642还示出了从每个用户的位置(例如，第一用户的位置638和第二用户的位置640)的模拟空间位置发出的音频波(例如，波660和波662)，并且音频波位置已被更新(相对于图6F中所示的音频波位置)以反映耳塞在物理空间中的位置的变化。

图6G还示出了曲线图644已被更新以反映用户之间的距离变化。曲线图644现在示出了放置在曲线图644的末端处或在该末端附近的当前距离线658，该当前距离线指示第二用户的位置640远离第一用户的位置638。当前距离线658还被示出在音量已经降低到最小阈值水平(例如，由水平线654(由“最小音量阈值”指示)指示的最小音量)的位置处。这种音量均衡的发生使得音量决不会变得过低以致于用户不再能听到另一个用户。最后，除基于距离来调整音量之外，一个或两个耳塞可基于用户之间的距离来向它们的相应用户呈现经调整的混响量，并且/或者应用高通滤波器或低通滤波器来降低高频或低频声音，其中截止频率基于用户之间的距离来改变，从而向用户提供用户之间的距离的音频线索。因此，即使当所提供的音频的音量已被降低到最小音量水平时，用户仍然可接收指示用户之间的距离变化的音频信息。

图7A至图7H是示出了提供用于在有多个参与者的动态视觉通信会话中与参与者交互的改进用户界面(例如，用于在通信会话期间显示视频通话应用程序的用户界面)的方法700的流程图。方法700在与一个多个显示设备(例如，触敏显示系统112(图1A)或显示器340(图3A))、一个或多个输入设备(例如，触敏显示系统112(图1A)或触控板355(图3A))和一组一个或多个可穿戴音频输出设备(例如，一个或多个可穿戴音频输出设备301(图3B))通信的电子设备(例如，设备300(图3A)或便携式多功能设备100(图1A))处执行。在一些实施方案中，显示设备是触摸屏显示器，并且输入设备位于显示设备上或与显示设备集成。在一些实施方案中，显示设备与输入设备分开。方法700中的一些操作任选地被组合，并且/或者一些操作的次序任选地被改变。

如下文所述，方法700提供了用于与通信会话诸如视频会议中的参与者交互的改进用户界面。来自不同参与者的音频(包括语音)在通信会话的参照系中的不同模拟空间位置处输出，这有助于用户对不同参与者进行识别和区分并且使音频更易理解。在与不同模拟空间位置对应的不同位置处显示不同参与者的动态视觉表示(例如，视频表示或动画头像)以进一步有助于用户可视化和区分不同参与者。此外，根据并响应于移动参与者的动态视觉表示的用户输入而将来自给定参与者的音频移动到不同模拟空间位置维持了音频与参与者的对应视觉表示之间的直观的关联，而不需要用户手动调整来维持关联。为用户提供改进的反馈并减少执行操作所需的输入的数量增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

电子设备经由该一个或多个显示设备显示(702)包括在通信会话(例如，实况视听通信会话，诸如视频会议)中的多个参与者的相应动态视觉表示的用户界面，包括：在用户界面中的第一位置处显示第一参与者的第一动态视觉表示(例如，视频表示或动画表示，诸如表示第一参与者的动画角色或头像，其任选地随着第一参与者的移动而移动，诸如通过动态视觉表示的一个或多个部分跟踪第一参与者的面部的一个或多个部分，包括动画表示的面部特征随着第一参与者的面部特征的移动而移动以及/或者动画表示的面部表情随着第一参与者的面部表情的改变而改变)，以及在用户界面中的第二位置处显示与第一参与者不同的第二参与者的第二动态视觉表示(例如，图5A至图5T中的示例性用户界面500显示参与者的表示506-512，这些表示表示为正在进行的通信会话的一部分的参与者)。

此外，电子设备经由该组一个或多个可穿戴音频输出设备输出(704)来自通信会话中的该多个参与者的音频(例如，图5A至图5T包括模拟音频位置图514，该模拟音频位置图表示在正在进行的通信会话期间由耳塞502输出的声源)。

输出(704)来自该多个参与者的音频包括输出(706)来自第一参与者的第一音频(例如，在图5A至图5T中，参与者1的模拟音频位置516表示来自通信会话中的第一参与者506的音频输出)。第一音频被调整(例如，当该组一个或多个可穿戴音频输出设备相对于通信会话的参照系移动时)以便独立于该组一个或多个可穿戴音频输出设备相对于通信会话的参照系的位置而将第一音频维持在相对于该参照系的第一模拟空间位置处。此外，第一模拟空间位置对应于第一动态视觉表示在用户界面中的位置(“第一位置”)(例如，图5Q中的俯视图示出了当用户501将其头部与耳塞502一起旋转时，设备100保持在同一位置)。如图5Q中的音频位置图415所示，参与者的模拟音频位置在空间中保持固定，在与用户在顺时针方向上移动其头部之前相同的位置处(例如，如图5P的音频位置图514所示)(例如，当第一动态视觉表示显示在用户界面中的第一位置处时，使用空间音频输出第一音频以便使其被感知为来自第一模拟空间位置)。

电子设备还输出(708)来自第二参与者的第二音频(例如，在图5A至图5T中，参与者2的模拟音频位置518表示来自通信会话中的第二参与者的音频输出)。第二音频被调整(例如，当该组一个或多个可穿戴音频输出设备相对于参照系移动时)以便独立于该组一个或多个可穿戴音频输出设备相对于通信会话的参照系的位置而将第二音频维持在相对于该参照系的第二模拟空间位置处(例如，第二模拟空间位置与第一模拟空间位置不同)。此外，第二模拟空间位置对应于第二动态视觉表示在用户界面中的第二位置(例如，当第二动态视觉表示显示在用户界面中的第二位置处时，使用空间音频输出第二音频以便使其被感知为来自第二模拟空间位置)(例如，图5Q中的俯视图示出了当用户501将其头部与耳塞502一起旋转时，设备100保持在同一位置)。如图5Q中的音频位置图415所示，参与者的模拟音频位置在空间中保持固定，在与用户转动其头部之前相同的位置处(例如，如图5P的音频位置图514所示)，从而导致可穿戴音频输出设备的移动。

根据方法700，电子设备经由该一个或多个输入设备接收(710)选择第一参与者的第一动态视觉表示的输入(例如，虽然图5C示出了在参与者2的视频表示508上方(或该视频表示处)接收到输入532(例如，轻击输入)，但是应当理解，该电子设备可在参与者1的视频表示506上方(或该视频表示处)接收到类似的输入)。

在一些实施方案中，响应于接收到选择第一参与者的第一动态视觉表示的输入(712)，电子设备在用户界面中与第一位置不同的第三位置处显示(714)第一参与者的第一动态视觉表示(例如，图5D示出了响应于接收到图5C中所示的输入，参与者1的视频表示506在触摸屏112上向右移位)，并且该电子设备输出来自第一参与者的第一音频(例如，使用空间音频)，以便将第一音频定位在相对于参照系的第三模拟空间位置处，该第三模拟空间位置对应于第一动态视觉表示在用户界面中的第三位置(例如，图5D示出了在模拟音频位置图514中，与图5C相比，参与者1的模拟音频位置516移动得更靠近用户的位置的表示524)。第三模拟空间位置不同于第一模拟空间位置。

在一些实施方案中，响应于接收到选择第一参与者的第一动态视觉表示的输入(712)，电子设备在用户界面中的第四位置处显示(716)第二参与者的第二动态视觉表示(例如，图5D示出了响应于接收到图5C中的输入，参与者2的视频表示510移位到触摸屏112的中心)，并且该电子设备输出来自第二参与者的第二音频(例如，使用空间音频)，以便将第二音频定位在相对于参照系的第四模拟空间位置处，该第四模拟空间位置对应于第二动态视觉表示在用户界面中的第四位置(例如，图5D示出了在模拟音频位置图514中，与图5C相比，参与者2的模拟音频位置518移动得更靠近用户的位置的表示524)。

在一些实施方案中，第四位置不同于用户界面中的第二位置，并且第四模拟空间位置不同于第二模拟空间位置(718)。例如，图5C示出了在参与者2的视频表示508上方(或该视频表示处)接收到输入532(例如，轻击输入)。图5D中的模拟音频位置图514示出了响应于接收到输入532，参与者P1-P4的模拟音频位置516-522全部相对于用户的位置的表示524移位。另外，图5D示出了响应于接收到图5C中的输入，参与者P1-P4的视频表示506-512全部在触敏显示器112上向右移位。

响应于重新定位选定参与者的输入而移动通信会话中的多个参与者的相应模拟空间位置和对应视觉表示减少了实现参与者在用户界面中的表示的定位和来自那些参与者的音频的对应模拟空间位置的多种协调式变化所需的用户输入的数量，并且使得能够更大程度地优化通信会话参与者的总体布置以有助于用户对不同参与者进行识别和区分并提升可理解性。在一组条件已经被满足时为用户提供改进的反馈并且(例如，自动地)执行操作而无需进一步的用户输入增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，用户界面中的第三位置在相对于用户界面中的第一位置的相应方向上，并且用户界面中的第四位置在相对于用户界面中的第二位置的(相同的)相应方向上(720)。例如，图5C示出了在参与者2的视频表示508上方(或该视频表示处)接收到输入532(例如，轻击输入)。图5D中的模拟音频位置图514示出了响应于接收到输入532，参与者P1-P4的模拟音频位置516-522全部相对于用户的位置的表示524在相同的向右方向上移位。另外，图5D示出了响应于接收到图5C中的输入，参与者P1-P4的视频表示506-512全部移位到触敏显示器112的右侧。在一些实施方案中，第一动态视觉表示和第二动态视觉表示在用户界面中在相同方向上移位。在一些实施方案中，第三模拟空间位置基本上在相对于第一模拟空间位置的(相同的)相应方向上，并且第四模拟空间位置基本上在相对于第二模拟空间位置的(相同的)相应方向上。在一些实施方案中，第一音频和第二音频的相应模拟空间位置在空间上在相同方向上移位，该方向对应于第一动态视觉表示和第二动态视觉表示在用户界面中移位的相应方向，并且基本在与该相应方向相同的方向上。

响应于重新定位选定参与者的输入而在相同方向上移动通信会话中的多个参与者的相应模拟空间位置和对应视觉表示使得能够更大程度地优化通信会话参与者的总体布置(例如，通过滚动或平移该布置)，以有助于用户对不同参与者进行识别和区分并提升可理解性。在一组条件已经被满足时为用户提供改进的反馈并且(例如，自动地)执行操作而无需进一步的用户输入增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，用户界面中的第一位置在用户界面的相应区域(例如，焦点区域或中心区域)之外，用户界面中的第二位置在该相应区域内，用户界面中的第三位置在该相应区域内，并且用户界面中的第四位置在相应区域之外(722)。例如，图5C示出了在参与者2的视频表示508上方(或该视频表示处)接收到输入532(例如，轻击输入)。图5D中的模拟音频位置图514示出了响应于接收到输入532，参与者2的模拟音频位置518移动到用户的位置的表示524的前方(例如，处于焦点)。如上文参考图5D所述，当参与者不再被示出在用户界面中(例如，参与者4的视频表示512未被示出在图5D中所示的用户界面500中)时，他们的对应音频被设备的用户感知为从通信会话的模拟空间的外围(例如，背景)发出。另外，图5D示出了响应于接收到图5C中的输入，参与者2的视频表示508移动到显示器的中心，并且其他参与者的表示从其先前位置移位。

响应于将选定参与者移动到用户界面中的相应区域(诸如焦点区域或中心区域)的用户输入而移动通信会话中的多个参与者的相应模拟空间位置和对应视觉表示，包括响应于该用户输入而将另一个参与者的视觉表示移出该相应区域，使得能够当用户表达出将选定参与者移动到焦点的意图时更大程度地优化通信会话的总体布置，从而有助于用户对不同参与者进行识别和区分并提升可理解性。在一组条件已经被满足时为用户提供改进的反馈并且(例如，自动地)执行操作而无需进一步的用户输入增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，第三模拟空间位置比第一模拟空间位置和第二模拟空间位置更靠近(例如，比除了第一参与者之外的参与者的相应位置更靠近)该组一个或多个可穿戴音频输出设备的空间位置，并且方法700包括：响应于接收到选择第一参与者的第一动态视觉表示的输入，电子设备相对于来自第二参与者的第二音频强调(724)来自第一参与者的第一音频(例如，通过增大来自第一参与者的第一音频的音量和/或降低来自第二参与者的第二音频的音量；模糊或减弱来自第二参与者的第二音频；将来自第二参与者的第二音频的模拟空间位置移动得更远；等等)。例如，图5C至图5D示出了触摸屏112上的用户输入532，该用户输入导致参与者2的模拟空间位置518移动得比在用户输入之前更靠近用户501和用户的耳塞502的模拟空间位置524。在一些实施方案中，由于第一参与者的模拟空间位置的变化，或者与第一参与者的模拟空间位置的变化相协调，第一电子设备相对于来自第二参与者的第二音频强调来自第一参与者的第一音频。在一些实施方案中，第三模拟空间位置是相对于参照系的空间位置，并且当第一音频与第三模拟空间位置相关联时，当该组一个或多个可穿戴音频输出设备相对于参照系移动时调整第一音频，以便独立于该组一个或多个可穿戴音频输出设备的位置而将第一音频定位在第三模拟空间位置处(例如，维持第一音频的位置)。在一些实施方案中，第三模拟空间位置是相对于该组一个或多个可穿戴音频输出设备具有相应空间关系的空间位置，并且当第一音频与第三模拟空间位置相关联时，当该组一个或多个可穿戴音频输出设备相对于参照系移动时不调整第一音频。

调整选定参与者的音频以模拟将选定参与者的音频在空间上移动得更靠近(例如，并且在空间上比其他参与者的音频更靠近)用户并且以相对于其他参与者的音频强调选定参与者的音频，使得用户能够将选定参与者移动到焦点，从而有助于用户对不同参与者进行识别和区分并提升可理解性。为用户提供改进的反馈并且提供附加控制选项而不使用户界面因为附加的显示的控件变得杂乱增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，响应于接收到选择第一参与者的第一动态视觉表示的输入，输出第一音频以便将第一音频定位在第三模拟空间位置处达第一预定义时间量，并且在输出第一音频以便将第一音频定位在第三模拟空间位置处达第一预定义时间量内之后，电子设备在比第三模拟空间位置更远离该组一个或多个可穿戴音频输出设备的空间位置的模拟空间位置(例如，相对于该组一个或多个可穿戴音频输出设备的空间位置与第三模拟空间位置在相同或基本相同的方向上并且距该组一个或多个可穿戴音频输出设备的空间位置的距离与第一模拟空间位置距该组一个或多个可穿戴音频输出设备的空间位置的距离相同或基本相同的空间位置)处输出(726)第一音频。在一些实施方案中，在第一预先确定的时间量之后，输出第一音频以便将第一音频返回到第一模拟空间位置并且/或者在用户界面中的第一位置处重新显示第一参与者的第一动态视觉表示，并且任选地，输出第二音频以便将第二音频返回到第二模拟空间位置并且/或者在用户界面中的第二位置处重新显示第二参与者的第二动态视觉表示。例如，图5J至图5L示出了实耗时间图表540，以指示倾身交互发生的时长，在该倾身交互之后，来自选定参与者(例如，该示例中的第三参与者510)的音频的模拟空间位置被(例如，从图5J中所示的模拟空间位置)返回到该音频的先前位置(例如，图5I和图5L中所示的模拟空间位置)。

调整选定参与者的音频以模拟将选定参与者的音频在空间上移动得更靠近并且以相对于其他参与者的音频强调选定参与者的音频达预定义时间量，以及在此之后将选定参与者的音频移动得更远以及任选地逆转对选定参与者的音频的强调，使得用户能够暂时地将选定参与者移动到焦点而不需要用户稍后手动地将选定参与者移出焦点。在一组条件已经被满足时为用户提供改进的反馈并且(例如，自动地)执行操作而无需进一步的用户输入增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，选择第一参与者的第一动态视觉表示的输入包括对显示在用户界面中的电子设备的用户的表示(例如，动态视觉表示，诸如视频表示或动画头像)的选择和将用户界面中的用户的表示移动到第一参与者的第一动态视觉表示的预定义距离内的拖动手势(例如，输入的移动)，并且该电子设备响应于接收到选择第一参与者的第一动态视觉表示的输入，显示(728)第一参与者的第一动态视觉表示与用户的表示相关联的指示(例如，在用户界面中以及/或者在轮廓内或者利用其他视觉关联或强调彼此相邻地显示第一动态视觉表示和用户的表示)。在一些实施方案中，电子设备在第一预定义时间量过去之后停止显示第一参与者的第一动态视觉表示与用户的表示相关联的指示(例如，结合在第三模拟空间位置处暂时地输出第一音频来暂时地显示第一动态视觉表示与用户的表示之间的关联)。上文参考图5G至图5L讨论了这种拖动手势以及由此产生的用户的表示与第一参与者的表示之间的关联的显示的示例。

显示用户的表示与选定参与者的视觉表示之间的关联，再加上调整选定参与者的音频以模拟将选定参与者的音频在空间上移动得更靠近用户并且以相对于其他参与者的音频强调选定参与者的音频，向用户提供了用户与选定参与者彼此之间比与通信会话中的其他参与者在视觉和听觉两者上关联得更紧密的视觉反馈。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，响应于接收到选择第一参与者的第一动态视觉表示的输入(例如，将用户的表示移动到第一参与者的第一动态视觉表示的预定义距离内的拖动手势)，电子设备向第一参与者(例如，向第一参与者正在使用的电子设备)传输(730)在用户与第一参与者之间建立部分通信会话(例如，较大通信会话内的子会议或分组会话)的请求。在一些实施方案中，响应于接收到第一参与者接受建立部分通信会话的请求的指示，电子设备显示(730)第一参与者的第一动态视觉表示与用户的表示相关联的指示(例如，如关于图5J所述，受到请求的参与者的设备提示受到请求的参与者(例如，参与者3)接受或拒绝倾身通信会话)(例如，如本文中参考操作728所述)。在一些实施方案中，本文所述的响应于电子设备接收到选择第一参与者的第一动态视觉表示的输入而执行的操作中的一个或多个操作是在(在电子设备处)接收到选择第一参与者的第一动态视觉表示的输入之后，响应于接收到第一参与者接受建立部分通信会话的请求的指示而执行的。因此，该一个或多个操作也是响应于接收到选择第一参与者的第一动态视觉表示的输入而间接地执行的。

响应于用户选择参与者而向选定参与者传输用于建立部分或子通信会话的请求提供了要求用户与选定参与者共同同意建立部分通信会话的选项，并且避免了建立不想要的子通信会话，而不需要用户与选定参与者之间的单独协调。在一组条件已经被满足时减少执行操作所需的输入的数量并且执行该操作(例如，自动地)增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，接收选择第一参与者的第一动态视觉表示的输入包括经由该一个或多个输入设备检测(732)在与第一动态视觉表示对应的初始位置处的输入以及继续检测在初始位置处达至少第二预定义时间量的输入(例如，图5C示出了在参与者2的视频表示508上方(或该视频表示处)接收到输入532(例如，按压并保持输入))(例如，在触敏表面上与第一动态视觉表示对应的相应位置处维持至少第二预定义时间量的长按压输入(例如，当第一动态视觉表示显示在用户界面中的第一位置处时))。

响应于在与选定参与者的动态视觉表示对应的位置处维持至少阈值时间量的输入，将来自选定参与者的音频移动到不同的模拟空间位置并且相应地移动选定参与者的动态视觉表示，使得用户能够使用直观手势(例如，触摸并保持手势)来提供输入。要求用户输入在与选定参与者的动态视觉表示对应的位置处维持至少阈值时间量还使得设备能够更准确地确定用户意图而不需要附加用户输入。提供附加控制选项而不使用户界面因为附加的显示的控件变得杂乱并且减少执行操作所需的输入的数量增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，接收(734)选择第一参与者的第一动态视觉表示的输入包括经由该一个或多个输入设备同时检测与第二输入点同时存在的第一输入点和第一输入点朝向或远离第二输入点的移动(例如，捏合或展开手势)(图5M至图5O示出了在相应参与者的表示(例如，参与者2的视频表示508)上方的展开输入，该展开输入导致用户的设备100从比紧接在展开手势之前的相应参与者的模拟位置更靠近设备的用户的模拟位置呈现来自相应参与者的音频)。在一些实施方案中，第一输入点和第二输入点是经由触敏表面检测到的用户的部位(诸如在一个或多个相机的视场中的用户的手或手指)的同时接触或其他形式的多个同时输入。

响应于包括输入的多个输入点朝向或远离彼此移动的输入，将来自选定参与者的音频移动到不同的模拟空间位置并且相应地移动选定参与者的动态视觉表示，使得用户能够使用直观手势(例如，捏合或展开手势)来提供输入。提供附加控制选项而不使用户界面因为附加的显示的控件变得杂乱增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，选择(736)第一参与者的第一动态视觉表示的输入包括当第一动态视觉表示显示在用户界面中的第一位置处时对第一动态视觉表示的选择以及将第一动态视觉表示移动到用户界面中的第三位置的拖动手势(例如，输入的移动)。例如，图5E示出了在选定参与者的视频表示上方(或该视频表示处)接收到输入534(例如，拖动手势)。

响应于包括移动选定参与者的对应动态视觉表示的拖动手势的输入，将来自选定参与者的音频移动到不同的模拟空间位置，使得用户能够使用直观手势(例如，拖动手势)来提供输入。提供附加控制选项而不使用户界面因为附加的显示的控件变得杂乱增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，电子设备响应于该电子设备检测到该电子设备相对于该电子设备所位于的物理环境的移动而滚动(738)用户界面(例如，竖直地和/或横向地)。在一些实施方案中，当第一动态视觉表示显示在用户界面中的第一位置处时，第一参与者的第一动态视觉表示在用户界面的焦点区域(例如，中心区域)之外，并且接收选择第一参与者的第一动态视觉表示的输入包括检测电子设备滚动用户界面，使得第一动态视觉表示在用户界面的焦点区域内(例如，被移动到用户界面的焦点区域内)而进行的移动。例如，图5P示出了示例性用户界面500和音频位置图514响应于便携式多功能设备100在空间中移动而更新(例如，如由示出便携式多功能设备100围绕设备100的用户501相对于其先前位置(如图5O所示)逆时针旋转的俯视图528所示)。在一些实施方案中，用户界面响应于检测到电子设备的移动而滚动，就好像用户界面是模拟的二维或三维环境并且电子设备在该模拟环境各处移动(例如，以查看模拟环境的不同部分)。例如，响应于检测到电子设备的向上移动，向下滚动用户界面(例如，就好像正在移动电子设备以查看用户界面的先前所显示内容上方的部分)。在另一个示例中，响应于检测到电子设备的向左移动，向右滚动用户界面(例如，就好像正在移动电子设备以查看用户界面的先前所显示内容更左侧的部分)。

根据响应于电子设备的移动而滚动用户界面，将来自选定参与者的音频移动到不同的模拟空间位置并且移动选定参与者的动态视觉表示，使得用户能够使用直观手势来提供输入(例如，移动电子设备，就好像以指向物理空间中的不同参与者)。提供附加控制选项而不使用户界面因为附加的显示的控件变得杂乱增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，在相对于参照系的多个模拟空间位置处输出(740)来自通信会话中的该多个参与者的音频(例如，使用空间音频来输出音频以便使其被该组一个或多个可穿戴音频输出设备的用户感知为在模拟空间位置处输出)(例如，在相对于参照系的与任何其他参与者不同的模拟空间位置处输出来自每个参与者的音频)。在一些实施方案中，电子设备接收在通信会话中输出来自电子设备的相应音频(例如，其不同于来自通信中的任何相应参与者的语音音频)的请求，并且响应于接收到输出相应音频的请求，电子设备经由该组一个或多个可穿戴音频输出设备输出该相应音频。在一些实施方案中，电子设备调整相应音频以便将该相应音频维持在相对于参照系的第一相应模拟空间位置处，该第一相应模拟空间位置不同于该多个模拟空间位置(例如，该多个模拟空间位置中的任一模拟空间位置)(例如，通信会话中的参与者的该多个模拟空间位置)(例如，图5R示出了可在视频通话期间播放与参与者语音不同的背景音频，而不干扰参与者之间的通信)。

在与任何参与者语音音频的模拟空间位置不同的模拟空间位置处输出与参与者语音音频不同的相应音频有助于用户对通信会话中的不同类型的音频进行识别和区分并提升可理解性。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，经由通信会话向(例如，每个)多个参与者(例如，多个参与者中的每个参与者)输出(742)相应音频。如上文参考图5R所述，正在进行的视频通话中的其他参与者全部听到与模拟背景音频位置552相关联的同一底层声音(例如，附加音频)(例如，他们全部可听到同一歌曲)，并且从该多个参与者中的每个参与者的角度来看，相应音频在通信会话中被输出和调整，如相应参与者所感知的，以便将相应音频维持在与任何其他参与者的模拟空间位置不同的相应模拟空间位置处。

与通信会话中的其他(例如，全部)参与者共享除参与者语音音频之外的相应音频提供了通信会话内的附加选项，而不需要用户与其他参与者之间的单独协调。减少执行操作所需的输入的数量增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，电子设备接收(744)重新定位相应音频的请求(例如，图5R示出了在图标550处开始以将模拟背景音频位置552移动到通信会话的模拟空间中的不同感知位置的滑动手势554)。在一些实施方案中，响应于电子设备接收到重新定位相应音频的请求，电子设备输出(744)相应音频，并且调整该相应音频以便将该相应音频维持在相对于参照系的第二相应模拟空间位置处，该第二相应模拟空间位置不同于该多个模拟空间位置(例如，该多个模拟空间位置中的任一个模拟空间位置)并且不同于第一相应模拟空间位置。例如，图5S示出了：响应于图5R中的滑动手势，图标550在示例性用户界面500中移动到背景中的不同位置。如果图5R已被更新以示出图标550已被移动到新位置(在该示例中，该新位置在用户的位置的表示524后方)，则感知到的音频位置的变化也由音频位置图514示出。

使得能够将与参与者语音音频不同的相应音频重新定位到也与任何参与者语音音频的模拟空间位置不同的不同模拟空间位置向用户提供了对相应音频的模拟空间位置的控制，同时继续有助于用户对通信会话中具有提升的可理解性的不同类型的音频进行识别和区分。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，通信会话中的该多个参与者中的任何两个参与者的相应模拟空间位置之间的距离小于相应音频的模拟空间位置与该多个参与者中的任何相应参与者的模拟空间位置之间的距离(746)。例如，图5R中的音频位置图514示出了来自参与者的模拟音频位置516-522的声音将在听觉上被感知为比由耳塞502输出以便被感知为来自模拟背景音频位置552的附加音频显著更靠近设备的用户。在一些实施方案中，来自不同参与者的音频的模拟空间位置之间的最大间距小于相应音频的模拟空间位置与任何参与者的模拟空间位置之间的最小间距。

在看起来比任何参与者距通信会话中的任何参与者都更远并且与通信会话中的任何其他参与者的模拟空间位置不同的模拟空间位置处输出与参与者语音音频不同的相应音频将该相应音频置于参与者语音音频的背景中，这有助于用户聚焦于参与者语音音频而非其他类型的音频(诸如，该相应音频)。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，电子设备检测(748)该组一个或多个可穿戴音频输出设备相对于参照系的移动，而不检测电子设备的移动并且不检测指向用户界面的输入(例如，图5Q中的俯视图示出了设备100保持在同一位置，并且用户501将其头部与耳塞502一起旋转)，并且响应于电子设备检测到该组一个或多个可穿戴音频输出设备相对于参照系的移动，电子设备在相应模拟空间位置处输出来自通信会话中的该多个参与者的相应音频(例如，在第一模拟空间位置处输出第一音频，在第二模拟空间位置处输出第二音频，等等)，并且当该组一个或多个可穿戴音频输出设备相对于参照系移动时，调整来自该多个参与者的相应音频，以便独立于该组一个或多个可穿戴音频输出设备相对于参照系的位置而将相应音频维持在相对于该参照系的相应模拟空间位置处。例如，如图5Q中的音频位置图415所示，参与者的模拟音频位置在空间中保持固定，在与用户在顺时针方向上移动其头部之前相同的位置处(例如，如图5P的音频位置图514所示)。这是通过调整第一音频以便即使当该组一个或多个可穿戴音频输出设备相对于参照系移动时也将第一音频维持在相对于参照系的第一模拟空间位置处，以及调整第二音频以便即使当该组一个或多个可穿戴音频输出设备相对于参照系移动时也将第二音频维持在相对于参照系的第二模拟空间位置处，等等来实现的。

响应于未接收到附加用户输入(例如，经由电子设备的移动，或者指向用户界面的其他输入)的该组一个或多个可穿戴音频输出设备的移动而维持来自通信会话中的参与者的音频的相应模拟空间位置向用户提供了通信会话中的不同音频源具有固定相应模拟空间位置(例如，在不存在操纵用户输入的情况下)并且正在空间音频输出模式下提供通信会话音频的反馈。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，电子设备与物理环境中的一个或多个相机(例如，在一些实施方案中，该一个或多个相机还用作一个或多个输入设备)通信(750)。在一些实施方案中，电子设备经由该一个或多个显示设备在用户界面中显示(750)在该一个或多个相机的视场中的物理环境的一部分的表示(例如，当该一个或多个相机移动并且该一个或多个相机的视场改变以包括物理环境的不同部分时更新该表示)，并且在与物理环境中的相应物理位置对应的该一个或多个相机的视场的表示中的相应位置处显示通信会话中的该多个参与者的相应动态视觉表示。例如，图5T示出了另选的示例性用户界面554，该示例性用户界面是增强现实用户界面，其中通信会话中的参与者的视觉描绘被添加到用户界面554，位于也被描绘在用户界面554中的物理环境内的位置处。例如，用户界面中显示第一参与者的第一动态视觉表示的第一位置是视场的表示中使得第一参与者的第一动态视觉表示看起来定位在该一个或多个相机的视场内的物理环境中的第一物理位置处(例如，在桌子处的第一座位位置处，如图5T中所示)的位置。在一些实施方案中，在输出期间调整来自第一参与者的第一音频以便将其维持在一个或多个空间位置(例如，诸如第一模拟空间位置)处，使得第一音频听起来如同其来自第一参与者的第一动态视觉表示的方向(例如，来自第一物理位置的方向)。在另一个示例中，用户界面中显示第二参与者的第二动态视觉表示的第二位置是视场的表示中使得第二参与者的第二动态视觉表示看起来定位在该一个或多个相机的视场内的物理环境中的不同的第二物理位置处(例如，在桌子处的第二座位位置处，如图5T中所示)的位置。在一些实施方案中，在输出期间调整来自第二参与者的第二音频以便将其维持在一个或多个空间位置(例如，诸如第二模拟空间位置)处，使得第二音频听起来如同其来自第二参与者的第二动态视觉表示的方向(例如，来自第二物理位置的方向)。在一些实施方案中，选择第一参与者的第一动态视觉表示的输入包括该一个或多个相机的视场的移动(例如，在电子设备包括该一个或多个相机的实施方案中，电子设备的移动)，使得该一个或多个相机的视场包括物理环境中与第一动态视觉表示对应的第一物理位置，并且在用户界面中显示的该一个或多个相机的视场的表示中的第一物理位置的表示在用户界面的焦点区域内。

在与电子设备通信的一个或多个相机的视场中的物理环境的表示(例如，基于一个或多个相机的视场中的物理环境的增强现实环境)中的不同位置处显示不同参与者的动态视觉表示(其中相应显示位置任选地对应于来自不同参与者的音频的相应模拟空间位置)，向用户提供了视觉反馈以帮助用户将参与者可视化为定位在物理空间中的不同位置中，从而有助于用户对不同参与者进行识别和区分并增加可理解性。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，电子设备以第一尺寸显示(752)第一参与者的第一动态视觉表示，其中第一尺寸是根据来自第一参与者的第一音频的当前模拟空间位置与该组一个或多个可穿戴音频输出设备的空间位置之间的距离来确定的，并且电子设备以第二尺寸显示第二参与者的第二动态视觉表示，其中第二尺寸是根据来自第二参与者的第二音频的当前模拟空间位置与该组一个或多个可穿戴音频输出设备的空间位置之间的距离来确定的。例如，图5O示出了示例性用户界面500，其中第一用户506的表示小于第二用户508的表示，其中第二用户的模拟空间位置比第一用户的模拟空间位置更靠近用户和用户的一组一个或多个可穿戴音频输出设备的空间位置，如图5O中的音频位置图514指示的。在一些实施方案中，以根据(例如，基于)来自相应参与者的相应音频的当前模拟空间位置与该组一个或多个可穿戴音频输出设备的空间位置之间的距离来确定的相应尺寸显示相应参与者的每个动态视觉表示。例如，以比其音频被输出以便听起来更远离该组一个或多个可穿戴音频输出设备的参与者的动态视觉表示更大的尺寸来显示其音频被输出以便听起来更靠近该组一个或多个可穿戴音频输出设备(例如，佩戴该组一个或多个可穿戴音频输出设备的用户)的参与者的动态视觉表示。

以具有基于不同参与者的模拟空间位置距用户的相应感知距离来确定的相应尺寸显示不同参与者的动态视觉表示，向用户提供了关于通信会话中的参与者的相对模拟空间位置的视觉反馈，并且将由相应参与者的动态视觉表示提供的视觉反馈与由来自相应参与者的音频的模拟空间位置提供的音频反馈相关，从而有助于用户对不同参与者进行识别和区分并增加可理解性。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，与一个或多个显示设备、一个或多个输入设备和一组一个或多个音频输出设备通信的电子设备经由该一个或多个显示设备显示包括通信会话中的多个参与者的相应动态视觉表示的用户界面。这包括在用户界面中的第一位置处显示第一参与者的第一动态视觉表示，以及在用户界面中的第二位置处显示与第一参与者不同的第二参与者的第二动态视觉表示。在一些实施方案中，设备经由该组一个或多个音频输出设备输出来自通信会话中的该多个参与者的音频，包括：输出来自第一参与者的第一音频，其中第一音频被调整以便独立于该组一个或多个音频输出设备相对于通信会话的参照系的位置而将第一音频维持在相对于该参照系的第一模拟空间位置处，其中第一模拟空间位置对应于第一动态视觉表示在用户界面中的第一位置。设备还输出来自第二参与者的第二音频，其中第二音频被调整以便独立于该组一个或多个音频输出设备相对于参照系的位置而将第二音频维持在相对于该参照系的第二模拟空间位置处，其中第二模拟空间位置对应于第二动态视觉表示在用户界面中的第二位置。

在一些实施方案中，设备在用户界面(例如，图9A中的用户界面500)中在与显示第一参与者的第一动态视觉表示和第二参与者的第二动态视觉表示的位置(例如，图9A中包括参与者1的视频表示506和参与者2的视频表示508的聚焦位置902)分开的用户界面的名单区域(例如，图9A中的名单区域904)中显示(754)通信会话中的第三参与者和第四参与者的动态视觉表示(例如，参与者3的视频表示510和参与者4的视频表示512)，并且设备经由该组一个或多个音频输出设备(例如，图9A至图9G中的耳塞502)输出来自第三参与者和第四参与者的音频。在一些实施方案中，来自其视频表示被显示在名单区域中的参与者(例如，为了便于解释，有时被称为名单参与者)的音频相对于其视频表示被显示在用户界面的聚焦区域中的参与者(例如，为了便于解释，有时被称为聚焦参与者)的音频输出被弱化(例如，被设备100自动弱化)(例如，来自第三参与者和第四参与者的音频相对于来自第一参与者和第二参与者的音频输出被弱化(例如，图9A示出了用于弱化音频的多种技术))。例如，如图9A的图表906所示，在一些实施方案中，通过以比聚焦参与者的混响音频(例如，P3混响920和P4混响924)与直达音频(例如，P3直达918和P4直达922)的比率更高的混响音频与直达音频的比率生成(例如，由设备100自动生成)来自名单参与者的音频输出，相对于来自聚焦参与者的音频输出弱化来自名单参与者的音频，这有助于弱化其表示被显示在名单区域中的参与者的音频。上述混响音频与直达音频的比率有时被称为混响声与直达声的比率，并且其倒数有时被称为直达音频与混响音频的比率或直达声与混响声的比率。

在一些实施方案中，用于弱化来自名单参与者(其表示被显示在名单区域中)的音频的另一种方法包括：在相对于电子设备的位置或模拟空间位置而言，比聚焦参与者(其表示被显示在用户界面中的聚焦位置处)的模拟空间位置更远的模拟空间位置处产生(例如，设备自动产生)那些参与者的音频(例如，与参与者1的模拟音频位置516和参与者2的模拟音频位置518相比，参与者3的模拟音频位置520和参与者4的模拟音频位置522距电子设备的位置或模拟音频位置更远)。

在一些实施方案中，设备100通过相对于来自聚焦参与者(例如，第一参与者和第二参与者，他们的表示被显示在一个或多个聚焦位置中，诸如聚焦位置902中)的音频输出降低名单参与者(其视频表示在名单区域中，诸如名单区域932中)的音量(例如，设备自动降低其音量)来相对于聚焦参与者弱化来自名单参与者的音频。

相对于名单区域外的参与者弱化其视觉表示位于名单区域中的参与者的音频(例如，降低音量、改变模拟音频物理位置和/或改变混响特性)，允许电子设备的用户更容易聚焦于正在说话或产生高于最小活动水平的音频的参与者，而不必浏览触摸屏上的多个视频表示来查看设备的用户应将其注意力集中于谁。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，通过以与其视频表示被示出在用户界面500的聚焦区域中的聚焦参与者(例如，第一参与者和第二参与者)的混响声与直达声的比率不同(例如，更高)的混响声与直达声的比率输出(756)来自其视频表示被示出在名单区域中的参与者的音频，相对于来自其视频表示被示出在用户界面500的聚焦区域中的聚焦参与者(例如，图9A中的第一参与者和第二参与者)的音频输出弱化(例如，由设备100自动弱化)来自其视频表示被示出在用户界面500的名单区域中的名单参与者(例如，图9A中的第三参与者和第四参与者)的音频。例如，图9A中的图表906示出了参与者1和参与者2(例如，处于未弱化的纵向聚焦位置902中的参与者(例如，由参与者1的视频表示506和参与者2的视频表示508表示))具有某个混响声与直达声的比率，而参与者3和参与者4(例如，处于已弱化的竖直名单区域904中的参与者(例如，由参与者3的视频表示510和参与者4的视频表示512表示)具有不同且更高的混响声与直达声的比率。

改变参与者的直达声与混响声的比率可增加或减少参与者距设备的用户的听觉感知距离。增加其视频表示驻留在名单区域中的参与者的混响声与直达声的比率(或者，等效地，减小直达声与混响声的比率)有助于将注意力从他们相应的音频转移开，并且有助于引导用户聚焦于来自不在名单区域中的参与者(例如，正在活跃地说话或产生高于最小活动水平的音频的参与者)的音频。非活动参与者的混响声与直达声的比率的这种变化(例如，增加)有助于电子设备的用户快速聚焦于活动参与者的视频表示和来自那些活动参与者的音频。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，通过在比输出来自第一参与者和第二参与者的音频的模拟空间位置更远离电子设备的第一空间位置的一个或多个模拟空间位置处输出(758)来自第三参与者和第四参与者的音频，相对于来自第一参与者和第二参加者的音频输出(例如，图9A至图9G示出了位于聚焦位置(例如，图9A至图9B中的纵向聚焦位置902和图9C至图9G中的横向聚焦位置934)内的参与者(例如，经由他们相应的视频表示))弱化来自第三参与者和第四参与者的音频(例如，图9A至图9G示出了位于名单区域(例如，图9A至图9B中的水平名单区域904和图9C至图9G中的竖直名单区域932)内的参与者(例如，经由他们相应的视频表示))。例如，图9A至图9G全部示出了模拟空间位置图514，该模拟空间位置图示出了其视频表示位于名单区域内的参与者的一个或多个模拟空间位置。其视频表示位于名单区域中的参与者被设备的用户501感知为比位于聚焦位置处的参与者更远离该用户。在一个示例中，图9A示出了从与聚焦参与者对应的参与者1的模拟音频位置516和与聚焦参与者对应的参与者2的模拟音频位置518发出的音频被设备100的用户501感知为在听觉上比从与名单区域参与者对应的参与者3的模拟音频位置520和与名单区域参与者对应的参与者4的模拟音频位置522发出的音频更靠近设备100的用户501。

改变参与者的模拟空间位置可增加或减少参与者距设备用户的听觉感知距离。在模拟物理环境中在较远距离处模拟参与者的音频有助于将注意力从他们相应的音频转移开，并且有助于电子设备的用户将其注意力聚焦于不在名单区域中的参与者(例如，正在说话或产生高于最小活动水平的音频的参与者)。这允许电子设备的用户快速聚焦于来自活动参与者的音频和活动参与者的视频表示，并且避免了参与者听起来如同他们都从模拟空间中的单个位置与彼此说话的不期望效果。为电子设备的用户提供改进的反馈增强了电子设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用电子设备进一步减少了电力使用并且延长了电子设备的电池寿命。

在一些实施方案中，通过相对于来自第一参与者和第二参与者的音频输出的音量改变(760)(例如，降低或增大)来自第三参与者和第四参与者的音频输出的音量，相对于来自第一参与者和第二参与者的音频(例如，由电子设备输出的音频)弱化来自第三参与者和第四参与者的音频(例如，由电子设备输出的音频)。例如，图9A在图表906中示出了与来自聚焦位置902中的参与者(例如，分别由参与者1的视频表示506和参与者2的视频表示508表示的参与者1和参与者2)的音频的音量相比，来自名单区域904中的参与者(例如，分别由参与者3的视频表示510和参与者4的视频表示512表示的参与者3和参与者4)的音频的音量被降低了。

改变通信会话中的一些参与者的音频的音量可增加或减少那些参与者距设备用户的听觉感知距离。相对于其他参与者降低参与者的音频的音量有助于将注意力从他们相应的音频转移开，并且有助于引导设备的用户聚焦于不在名单区域中的参与者(例如，正在说话或产生高于最小活动水平的音频的参与者)。这允许设备的用户快速聚焦于来自活动参与者的音频和活动参与者的视频表示。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，设备根据来自某些参与者(例如，图9A中所示的示例中的第三参与者和第四参与者)的音频的预定义特性(例如，如由图9A至图9G的图表906指示的语音活动水平)满足预定义名单标准，将这些参与者识别(762)为名单参与者，并且根据那些参与者(例如，图9A中的第三参与者和第四参与者)被识别为名单参与者，在用户界面的名单区域中显示所识别的名单参与者的动态视觉表示，并且相对于来自其他参与者(例如，第一参与者和第二参与者，或者更一般地，其音频具有不满足预定义名单标准的预定义特性的参与者)的音频输出弱化经由该组一个或多个音频输出设备输出的来自所识别的名单参与者的音频输出。例如，图9D至图9E示出了当来自参与者2的音频的特性满足预定义名单标准(例如，并且不再满足活动参与者的预定义特性)时，参与者2的视频表示508被移动到名单区域932。图9F至图9G示出了当来自参与者3的音频不再满足预定义名单标准(例如，满足或超过活动参与者的预定义音频特性)时，参与者3的视频表示510被移动到聚焦区域。

基于那些参与者的音频特性来自动识别名单参与者有助于设备的用户快速辨别他们的注意力应当集中于哪个视频表示和对应音频(例如，正在说话或正在产生高于最小活动水平的音频的参与者)。在一组条件已经被满足时(例如，自动地)执行操作而无需进一步的用户输入增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，设备确定(764)来自通信会话中的两个或更多个参与者的重叠音频的一个或多个度量(例如，人同时在说话)(例如，图9B中的图表906示出了参与者1和参与者2正在同时说话，如“P1直达910”和“P2直达914”的音频音量指示的)，并且根据确定该重叠音频的一个或多个度量满足预定义重叠标准，以比根据确定该重叠音频的一个或多个度量不满足预定义重叠标准而定位来自该多个参与者的音频的模拟空间位置的默认角度更宽的角度将来自该多个参与者的音频的模拟空间位置相对于彼此定位(例如，设备100自动定位来自该多个参与者的音频的模拟空间位置)。例如，图9B示出了在模拟空间位置图514中，与图9A中所示的参与者1和参与者2的模拟位置相比，参与者1的模拟音频位置516与参与者2的模拟音频位置518之间在水平x轴方向上的距离更大。这种定位的变化也由图9A中的角度926到图9B中的更大角度928的变化表示。

当参与者同时产生音频(例如，说话)时改变参与者的模拟音频角度(例如，位置)消除了使参与者音频重叠的效果(例如，消除了参与者听起来如同他们从空间中的同一点与彼此说话的不期望效果)。这继而改善了用户对活动参与者的理解，并且不必要求参与者暂停并重复他们所说的内容。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，当电子设备的该一个或多个显示设备具有相对于电子设备所位于的物理环境的第一取向时(例如，图9B示出了处于纵向取向的便携式电子设备100，并且具有纵向聚焦区域902和水平名单区域904)，在第一模拟空间位置处输出来自第一参与者的第一音频，并且在第二模拟空间位置处输出来自第二参与者的第二音频。在一些实施方案中，设备检测(766)电子设备的取向从第一取向到相对于电子设备所位于的物理环境的第二取向的变化(例如，图9C示出了便携式多功能设备100已被置于横向取向)。在一些实施方案中，响应于检测到电子设备的取向从第一取向到相对于电子设备所位于的物理环境的第二取向的变化，设备改变(例如，自动改变)输出来自第一参与者的第一音频的模拟空间位置和输出来自第二参与者的第二音频的模拟空间位置中的至少一者，以便改变输出来自第一参与者的第一音频的模拟空间位置与输出来自第二参与者的第二音频的模拟空间位置之间的距离。例如，图9C示出了在模拟空间位置图514中，与图9B中所示的参与者1和参与者2的模拟位置相比，参与者1的模拟音频位置516与参与者2的模拟音频位置518之间在水平x轴方向上的距离更大。这种定位的变化也由图9B的角度928到图9C的更大角度930的变化表示。

响应于电子设备的取向的变化(例如，旋转设备)而改变参与者的模拟空间位置有助于将所显示的用户界面与模拟空间位置相关，这允许用户更好地将所显示的用户界面中的视频表示与对应音频相关联。换句话说，当所显示的用户界面响应于电子设备的取向的变化而改变时，每个参与者的模拟空间位置将改变以更好地匹配所显示的用户界面。在一组条件已经被满足时(例如，自动地)执行操作而无需进一步的用户输入增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，响应于检测到电子设备的取向从第一取向到相对于电子设备所位于的物理环境的第二取向的变化，该设备改变(768)(例如，自动改变)第一参与者的第一动态视觉表示在用户界面中的位置和第二参与者的第二动态视觉表示在用户界面中的位置中的至少一者，以便改变第一参与者的第一动态视觉表示和第二参与者的第二动态视觉表示在用户界面中的位置之间的距离(例如，图9C示出了与图9B相比，响应于设备的取向的变化，参与者1的视频表示506和参与者2的视频表示508在所显示的用户界面中在视觉上分开程度更大)。在一些实施方案中，协调空间音频和所显示的用户界面的变化：输出来自第一参与者的第一音频和来自第二参与者的第二音频的模拟空间位置之间的距离变化对应于第一参与者的第一动态视觉表示和第二参与者的第二动态视觉表示在所显示的用户界面中的位置之间的距离变化。

响应于电子设备的取向的变化而改变(例如，自动改变)在用户界面中参与者的视频表示之间的距离有助于将所显示的用户界面与参与者的模拟空间位置相关，这允许用户更好地将用户界面中的参与者的视频表示与来自那些参与者的对应音频相关联。换句话说，当所显示的用户界面响应于电子设备的取向的变化而改变时，参与者的视频表示的位置被更新以更好地匹配来自那些参与者的音频输出的已改变的模拟空间位置。在一组条件已经被满足时(例如，自动地)执行操作而无需进一步的用户输入增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

应当理解，对图7A至图7H中的操作进行描述的具体次序仅仅是示例性的，并非旨在表明所述次序是可以执行这些操作的唯一次序。本领域的普通技术人员会想到多种方式来对本文所述的操作进行重新排序。另外，应当注意，本文相对于本文所述的其他方法(例如，方法800、1200和1300)所述的其他过程的细节同样以类似的方式适用于上文相对于图7A至图7H所述的方法700。例如，上文参考方法700所述的用户界面、交互和动画任选地具有本文参考本文所述的其他方法(例如，方法800、1200和1300)所述的用户界面、交互和动画的特征中的一个或多个特征。

图8A至图8B是示出根据一些实施方案的至少两个附近用户经由可穿戴音频输出设备发起并进行通信会话的方法800的流程图，其中这些用户听到指示通信会话中的其他用户的方向和距离的模拟空间音频。方法800在与第一用户相关联的第一组一个或多个可穿戴音频输出设备(例如，一组耳塞、耳机或头戴式耳机(例如，一个或多个可穿戴音频输出设备301，图3B(例如，图6A至图6G中的耳塞502)))处执行，该第一组一个或多个可穿戴音频输出设备与和第二用户相关联的第二组一个或多个可穿戴音频输出设备通信(例如，一个或多个可穿戴音频输出设备301，图3B(例如，图6A至图6G中的耳塞602))(任选地经由一个或多个中间电子设备，诸如经由与第一组一个或多个可穿戴音频输出设备和第二组一个或多个可穿戴音频输出设备两者通信的电子设备，或者经由与第一组一个或多个可穿戴音频输出设备通信并且还与第二电子设备通信的第一电子设备，该第二电子设备继而与第二组一个或多个可穿戴音频输出设备通信)。方法700中的一些操作任选地被组合，并且/或者一些操作的次序任选地被改变。

如下文所述，方法800提供了供用户使用可穿戴音频输出设备参与对话的改进的用户界面。音频(例如，语音)由一个用户佩戴的一组可穿戴音频输出设备捕获，并被传输到由另一个用户佩戴的一组可穿戴音频输出设备，反之亦然。使用空间音频输出由一组可穿戴音频输出设备接收到的音频，以便使其被感知为来自基于该组传输可穿戴音频输出设备相对于该组接收可穿戴音频输出设备的位置的位置的模拟空间位置。此外，任选地基于两组可穿戴音频输出设备之间的相对距离来调整由一组可穿戴音频输出设备接收到的音频的除了模拟空间位置之外的不同输出属性。这向佩戴一组可穿戴音频输出设备的用户提供了关于朝向佩戴另一组可穿戴音频输出设备的另一个用户的方向和距该另一个用户的距离两者的反馈，以及在一些情况下，指示通过使用可穿戴音频输出设备来增强或辅助对话而不是仅包括无辅助音频的反馈。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

当第一组一个或多个可穿戴音频输出设备和第二组一个或多个可穿戴音频输出设备参与音频通信会话时(例如，图6A至图6D示出了用于在耳塞之间建立通信会话的几种连接方法)，第一组一个或多个可穿戴音频输出设备输出(802)来自第二组一个或多个可穿戴音频输出设备的相应音频。例如，图6E示出了佩戴耳塞602的第一用户634，该耳塞正在输出来自佩戴耳塞502的第二用户636的音频。，包括：当第一组一个或多个可穿戴音频输出设备相对于第二组一个或多个可穿戴音频输出设备移动时。

此外，当第一组一个或多个可穿戴音频输出设备相对于第二组一个或多个可穿戴音频输出设备移动时，第一组一个或多个可穿戴音频输出设备调整(804)相应音频以便将相应音频定位在相对于第一组一个或多个可穿戴音频输出设备的模拟空间位置处，该模拟空间位置是基于第二组一个或多个可穿戴音频输出设备相对于第一组一个或多个可穿戴音频输出设备的相应位置来确定的。例如，图6E至图6G示出了佩戴耳塞602的第二用户636的位置改变，并且距离变化导致相应音频被调整。图6E至图6G中的曲线图644示出了相应音频的音量由于用户之间的距离变化(例如，由于任一用户的位置的变化)而如何改变的示例。这种位置的变化也在图6E至图6G中的小地图642中指示，该小地图示出了从用户位置(例如，第一用户位置638和第二用户位置640)中的每个用户位置周围的位置发出的音频波(例如，波660和波662)。例如，当第二组一个或多个可穿戴音频输出设备相对于第一组一个或多个可穿戴音频输出设备移动时，在不同的模拟空间位置处输出来自第二组一个或多个可穿戴音频输出设备的音频，以跟随第二组一个或多个可穿戴音频输出设备的移动，从而指示第二组一个或多个可穿戴音频输出设备相对于第一组一个或多个可穿戴音频输出设备的方向。在一些实施方案中，当第二组一个或多个可穿戴音频输出设备相对于第一组一个或多个可穿戴音频输出设备移动时，连续地调整相应音频的模拟空间位置。

第一组一个或多个可穿戴音频输出设备还基于第二组一个或多个可穿戴音频输出设备距第一组一个或多个可穿戴音频输出设备的距离来调整(806)相应音频的除了模拟空间位置之外的输出属性。例如，如上文相对于图6G所讨论的，除基于距离来调整音量之外，第一组一个或多个可穿戴音频输出设备还可基于用户之间的距离来向第一用户呈现经调整的混响量，并且/或者应用高通滤波器或低通滤波器来降低高频或低频声音，其中截止频率基于用户之间的距离来改变，从而向第一用户提供用户之间的距离的音频线索。在一些实施方案中，当第二组一个或多个可穿戴音频输出设备与第一组一个或多个可穿戴音频输出设备之间的距离改变，连续地调整相应音频的输出属性。在一些实施方案中，输出属性是混响的音量或量。在一些实施方案中，基于距离(例如，输出属性诸如混响的音量和/或量、频率响应(例如，经由频率滤波器的应用)等的任何组合)来调整相应音频的除了模拟空间位置之外的一个或多个输出属性。例如，可应用高通滤波器来降低较低频率的声音；在另一个示例中，应用低通滤波器来降低较高频率的声音。任选地，滤波器截止频率可基于第一组可穿戴音频输出设备与第二组可穿戴音频输出设备之间的距离来变化。

在一些实施方案中，基于距离来调整相应音频的输出属性包括(任选地除调整非音量音频输出属性之外)调整(808)相应音频的音量(例如，声级或响度)。例如，图6E至图6G中所示的曲线图644包括竖直轴648(标记为“Y轴：音量(音频强度”)，该竖直轴表示如何基于用户之间或其相应设备(例如，耳塞602和耳塞502)之间的距离来调整(来自第二用户的)相应音频的音量。

基于该组接收可穿戴音频输出设备与另一组(例如，传输)可穿戴音频输出设备之间的距离来调整接收到的对话音频的音量向佩戴该组接收可穿戴音频输出设备的用户提供了关于到另一个用户的距离的反馈(例如，通过根据到另一个用户的距离增加而降低音量，以及/或者通过根据到另一个用户的距离减小而增大音量)。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，当第一组一个或多个可穿戴音频输出设备相对于第二组一个或多个可穿戴音频输出设备移动时，第一组一个或多个可穿戴音频输出设备检测(810)第一组一个或多个可穿戴音频输出设备与第二组一个或多个可穿戴音频输出设备之间的距离变化。例如，图6E至图6G中所示的曲线图644示出了沿着水平轴646的当前距离线658的位置，其指示用户之间或其设备之间的距离，并且还指示来自耳塞602的用户的、耳塞502的用户501听到的音频的组合音量。在一些实施方案中，距离变化与在第一组一个或多个可穿戴音频输出设备的位置处可听到的来自第二组一个或多个可穿戴音频输出设备的位置的无辅助语音音频(例如，语音)的第一音量变化量(例如，以百分比、dB或其他音量变化度量计)相关联。例如，图6E至图6G中所示的曲线图644示出了在曲线650(标记为“无增强的正常声音”)下方示出的音频部分的第一音量，该第一音量表示根据平方反比定律在正常环境中降低的声源(例如，语音)的无辅助音频音量。例如相对于未使用电子的、机械的或其他手段主动放大到超过自然说话音量并且如在没有经由电子的、机械的或其他手段辅助的情况下由具有普通听力的用户所感知的语音，无辅助语音音频的音量的变化对应于来自第二组一个或多个可穿戴音频输出设备的位置的、可被在第一组一个或多个可穿戴音频输出设备的位置处的某人听到的音频量(诸如可从在第二组一个或多个可穿戴音频输出设备的位置处的人听到的语音量)的变化。

在一些实施方案中，基于距离来调整相应音频的输出属性包括：响应于检测到距离变化，将相应音频(例如，其经由第一组一个或多个可穿戴音频输出设备输出)的音量改变与第一量不同的第二量(例如，以百分比、dB或其他音量变化度量计)。例如，图6E至图6G中的曲线图644包括位于线性线652(标记为“增强添加音频”)下方和曲线650上方的第二部分，该第二部分表示由耳塞输出的以减轻当两个用户之间的距离增加时自然声音(例如，无辅助音频)通常发生的声音下降的声源的附加音频音量。因此，增强的音频音量以比无辅助音频音量更慢的速率降低。

例如，根据第一组可穿戴音频输出设备与第二组可穿戴音频输出设备之间的距离的增加，来自第二组一个或多个可穿戴音频输出设备的位置的无辅助音频如用户在第一组可穿戴音频输出设备的位置处所感知的在音量上降低第一量。更具体地，音量降低第一量是指由第一组可穿戴音频输出设备的佩戴者(的耳朵)所感知的音量，从而考虑到第一组可穿戴音频输出设备可能佩戴在距佩戴者的耳朵固定的非0距离处(例如，就贴耳式耳机或包耳式耳机而言)。在该示例中，根据第一组可穿戴音频输出设备与第二组可穿戴音频输出设备之间的距离的相同增加，经由第一组可穿戴音频输出设备进行的音频输出在音量上降低小于第一量的量(例如，相对于由第一组可穿戴音频输出设备的佩戴者(的耳朵)所感知的音量，使得与没有第一组可穿戴音频输出设备的情况相比，来自第二组可穿戴音频输出设备的位置的音频由第一组可穿戴音频输出设备的佩戴者经由第一组可穿戴音频输出设备听起来更大声)。

在另一个示例中，根据第一组可穿戴音频输出设备和第二组可穿戴音频输出设备之间的距离的减小(例如，从更长距离减小到更短距离)，来自第二组的位置的无辅助音频如在第一组的位置处所感知的在音量上增大第一量。在该示例中，根据第一组可穿戴音频输出设备与第二组可穿戴音频输出设备之间的距离的相同减小，经由第一组一个或多个可穿戴音频输出设备进行的音频输出在音量上增大小于第一量的量(例如，当第一组可穿戴音频输出设备和第二组可穿戴音频输出设备彼此相距较长距离时，与没有第一组可穿戴音频输出设备的情况相比，来自第二组可穿戴音频输出设备的位置的音频经由第一组可穿戴音频输出设备听起来更大声，因此经由第一组可穿戴音频输出设备进行的音频输出不需要当第一组可穿戴音频输出设备和第二组可穿戴音频输出设备移动得更靠近时增大相同量)。在一些实施方案中，在距用户耳朵固定的距离处佩戴(例如，或具有在相应固定距离处佩戴的部件)的一组可穿戴音频输出设备的输出音量的改变包括在调整音频输出属性诸如音量时考虑到距用户耳朵的距离的调整，使得相对于由用户耳朵听到的音频执行根据本文所述的方法的音频输出属性改变。

将接收到的对话音频的音量调整和与该组接收可穿戴音频输出设备与另一组可穿戴音频输出设备之间的距离的相应变化对应的无辅助语音音频的自然音量变化量不同的量，向佩戴该组接收可穿戴音频输出设备的用户提供了关于距另一个用户的距离的反馈(例如，通过根据距另一个用户的距离增加而降低音量，以及通过根据距另一个用户的距离减小而增大音量)，同时在一些情况下增强对话音频来提升可听性和可理解性。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，第一组一个或多个可穿戴音频输出设备调整(812)相应音频的音量而不将相应音频的音量降低到低于相应(例如，最小)音量阈值(例如，在图6E至图6G中，最小音量由水平线654指示(由“最小音量阈值”指示)，该水平线指示总音频音量可停止降低(例如，保持恒定)，使得用户可继续听到另一个用户)。例如，根据第一组可穿戴音频输出设备与第二组可穿戴音频输出设备之间的距离的增加，来自第二组的位置的无辅助音频如在第一组可穿戴音频输出设备的位置处所感知的在音量上降低第一量。在该示例中，根据第一组可穿戴音频输出设备与第二组可穿戴音频输出设备之间的距离的相同增加，经由第一组进行的音频输出在音量上降低与第一量对应的第二量(例如，根据相对于操作810所述的实施方案，第二量小于第一量)，除非将经由第一组可穿戴音频输出设备进行的音频输出降低第二量，否则将使音频音量降低到低于相应(例如，最小)音频阈值，在这种情况下，音频输出降低到相应音频阈值(并且任选地，不再降低)。

基于该组接收可穿戴音频输出设备与另一组可穿戴音频输出设备之间的距离来调整接收到的对话音频的音量而不将该音量降低到低于阈值音量(例如，即使用户之间的距离可能高于来自一个用户的无辅助语音音频(例如，使用自然说话音量)将不可被另一个用户听到的阈值距离)使得用户能够在不需要用户之间的单独协调来继续通信的情况下继续听到彼此并且通信，这与通过使用可穿戴音频输出设备来增强或辅助对话一致。在一组条件已经被满足时(例如，自动地)执行操作而无需进一步的用户输入增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，基于该组接收可穿戴音频输出设备与另一组可穿戴音频输出设备之间的距离来调整(814)相应音频的输出属性包括改变(例如，增加或减少)相应音频的混响量。例如，如上文相对于图6G所讨论的，除基于距离来调整音量之外，该组接收可穿戴音频输出设备中的一个或两个耳塞还可基于用户之间的距离来向接收用户呈现经调整的混响量，并且/或者应用高通滤波器或低通滤波器来降低高频或低频声音，其中截止频率基于用户之间的距离来改变，从而向接收用户提供用户之间的距离的音频线索。需注意，如果两组可穿戴音频输出设备具有类似能力，则两组可穿戴音频输出设备的用户在从另一个用户接收音频时将经历由其相应的一组可穿戴音频输出设备输出的接收到的音频的音量和其他输出属性的上述对应变化。

基于该组接收可穿戴音频输出设备与另一组可穿戴音频输出设备之间的距离来调整接收到的对话音频的混响向佩戴该组接收可穿戴音频输出设备的用户提供了关于距另一个用户的距离的反馈(例如，通过增加混响来指示距另一个用户的距离较大，以及/或者通过减少混响来指示距另一个用户的距离较小，或反之亦然)，以及指示通过使用可穿戴音频输出设备来增强或辅助对话而不是仅包括无辅助音频的反馈。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，根据确定第二组一个或多个可穿戴音频输出设备距第一组一个或多个可穿戴音频输出设备的距离在阈值距离内，第一组一个或多个可穿戴音频输出设备输出(816)被选择以便增加来自第一组一个或多个可穿戴音频输出设备周围的物理环境的(例如，经由第一组一个或多个可穿戴音频输出设备捕获的，或者更具体地，经由第一组一个或多个可穿戴音频输出设备的一个或多个麦克风捕获的)环境声音的音频直通的直通音频分量。例如，图6E至图6G中的曲线图644包括表示最小阈值距离的线656(标记为“启用增强音频阈值”)。另外，如上文参考图6E所述，当两个用户之间或它们相应的两组可穿戴音频输出设备之间的距离小于最小阈值距离时，第一组一个或多个可穿戴音频输出设备可在直通模式下操作，这允许用户在不必移除其噪声消除可穿戴音频输出设备的情况下听到其周围音频。

在一些实施方案中，当第一组一个或多个可穿戴音频输出设备和第二组一个或多个可穿戴音频输出设备在彼此的阈值距离内时，作为音频通信会话的一部分，第一组一个或多个可穿戴音频输出设备输出被选择以便增加经由第一组一个或多个可穿戴音频输出设备从第一组一个或多个可穿戴音频输出设备周围的物理环境捕获的环境声音的音频直通的一个或多个直通音频分量，而不是基于从第二组一个或多个可穿戴音频输出设备接收到并且与经由第二组一个或多个可穿戴音频输出设备捕获的音频对应的音频信息来输出音频。在一些实施方案中，当第一组一个或多个可穿戴音频输出设备和第二组一个或多个可穿戴音频输出设备彼此相距的距离超过阈值距离时，第一组一个或多个可穿戴音频输出设备输出(例如，主要地或完全地)基于经由第二组一个或多个可穿戴音频输出设备捕获的声音的音频，任选地没有(例如，任何)基于经由第一组一个或多个可穿戴音频输出设备捕获的环境声音的直通音频分量。

在一些实施方案中，根据确定第一组一个或多个可穿戴音频输出设备与第二组一个或多个可穿戴音频输出设备之间的距离大于阈值距离而执行对相应音频的空间位置和/或输出属性(除了模拟空间位置之外)的调整。在一些实施方案中，阈值距离是当超过时来自佩戴第二组一个或多个可穿戴音频输出设备的第二用户的无辅助语音(例如，未使用电子的、机械的或其他手段主动放大到超过自然说话音量的语音)不可被佩戴第一组一个或多个可穿戴音频输出设备的第一用户(例如，具有普通听力的普通用户)听到(例如，第一用户和第二用户不在彼此的听觉范围内)的距离。在一些实施方案中，当第二组一个或多个可穿戴音频输出设备距第一组一个或多个可穿戴音频输出设备的距离超过阈值距离时，执行对相应音频的空间位置和/或输出属性的调整，而不考虑来自佩戴第二组一个或多个可穿戴音频输出设备的第二用户的无辅助语音(例如，未使用电子的、机械的或其他手段主动放大到超出自然说话音量的语音)是否可被佩戴第一组一个或多个可穿戴音频输出设备的第一用户(例如，具有普通听力的普通用户)听到。

当一组可穿戴音频输出设备在另一组可穿戴音频输出设备的阈值距离内时，在由该组可穿戴音频输出设备提供的对话音频中包括(例如，自动包括)直通音频分量，向用户提供了指示对话中的其他参与者在附近(例如，在听觉范围内)的反馈，并且为对话提供了更自然的音频体验，而不需要用户手动改变该组可穿戴音频输出设备的音频输出模式。在一组条件已经被满足时为用户提供改进的反馈并且(例如，自动地)执行操作而无需进一步的用户输入增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，当第一组一个或多个可穿戴音频输出设备和第二组一个或多个可穿戴音频输出设备参与音频通信会话之前，第一组一个或多个可穿戴音频输出设备：接收(818)在第一组一个或多个可穿戴音频输出设备与第二组一个或多个可穿戴音频输出设备之间建立通信(例如，将第一组一个或多个可穿戴音频输出设备和第二组一个或多个可穿戴音频输出设备配对)的请求。例如，图6A至图6D示出了用于在第一组可穿戴音频输出设备与第二组可穿戴音频输出设备之间建立音频通信会话的初始配对过程的示例。在一些实施方案中，将配对请求从一组可穿戴音频输出设备或者从与该组可穿戴音频输出设备相关联的外围设备(例如，用于该组可穿戴音频输出设备的壳体，任选地当该组可穿戴音频输出设备耦接到壳体时)传输到另一组，或者传输到与该另一组可穿戴音频输出设备相关联的外围设备(例如，用于该另一组可穿戴音频输出设备的壳体，任选地当该另一组可穿戴音频输出设备耦接到壳体时)。任选地，经由一个或多个中间电子设备(诸如，经由与第一组一个或多个可穿戴音频输出设备和第二组一个或多个可穿戴音频输出设备两者通信的电子设备，或者经由与第一组一个或多个可穿戴音频输出设备通信并且还与第二电子设备通信的第一电子设备，该第二电子设备继而与第二组一个或多个可穿戴音频输出设备通信)传输配对请求。在一些实施方案中，当第一组一个或多个可穿戴音频输出设备与第二组一个或多个可穿戴音频输出设备通信时，第一组一个或多个可穿戴音频输出设备发起音频通信会话。例如，图6C示出了响应于在第一按钮622处检测到用于接受共享图6B中的音频的请求的输入626(例如，轻击输入)，建立音频通信会话。在一些实施方案中，响应于在第一组一个或多个可穿戴音频输出设备与第二组一个或多个可穿戴音频输出设备之间建立通信的请求，发起音频通信会话。在一些实施方案中，响应于在第一组一个或多个可穿戴音频输出设备与第二组一个或多个可穿戴音频输出设备之间建立通信的请求之后的单独的输入，发起音频通信会话。

响应于接收到建立音频通信会话的显式请求而发起音频通信会话提供了要求用户与选定参与者共同同意建立音频通信会话的选项，并且避免了建立不想要的通信会话，而不需要用户与选定参与者之间的单独协调。在一组条件已经被满足时减少执行操作所需的输入的数量并且执行该操作(例如，自动地)增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，第一组一个或多个可穿戴音频输出设备确定(820)第二组一个或多个可穿戴音频输出设备在相对于第一组一个或多个可穿戴音频输出设备的相应方向上，并且相应音频所位于的模拟空间位置在相对于第一组一个或多个可穿戴音频输出设备的相应方向上。换句话说，经由第一组可穿戴音频输出设备输出相应音频，以便从第一组可穿戴音频输出设备的佩戴者的角度来看，听起来如同相应音频来自第二组可穿戴音频输出设备的方向。例如，图6F至图6G中的小地图642示出了从用户位置(例如，第一用户位置638和第二用户位置640)中的每个用户位置周围的位置发出的音频波(例如，波660和波662)。音频波示出了每个用户感知到音频被发出的模拟空间位置(例如，用户在听觉上感知到增强音频所源于的位置)。例如，如果第二组可穿戴音频输出设备在第一组可穿戴音频输出设备的左侧，则在第一组可穿戴音频输出设备的左侧的模拟空间位置处输出相应音频。

此外，相应音频被输出以听起来如同该音频来自参照系(例如，第一组可穿戴音频输出设备的佩戴者所位于的物理环境)中的一个或多个模拟空间位置处的一个或多个模拟或感知声源，其中该一个或多个模拟或感知声源的定位与佩戴者相对于参照系的移动(或者更具体地，第一组可穿戴音频输出设备相对于参照系的移动)无关。当第一组可穿戴音频输出设备相对于参照系移动时，调整由第一组可穿戴音频输出设备输出的相应音频，以便独立于第一组可穿戴音频输出设备相对于参照系的位置而在参照系中定位该一个或多个模拟声源。例如，对于固定声源，当第一组可穿戴音频输出设备移动时，调整第一组可穿戴音频输出设备的音频输出，以便独立于第一组可穿戴音频输出设备相对于参照系的位置而将固定声源的模拟位置维持在相对于参照系基本上固定的位置中。在另一个示例中，对于移动声源，当第一组可穿戴音频输出设备移动时，调整第一组可穿戴音频输出设备的音频输出，以便根据移动声源的移动，但独立于第一组可穿戴音频输出设备相对于参照系的位置，而移动声源相对于参照系的模拟位置。

在相对于该组接收可穿戴音频输出设备的与佩戴该组传输可穿戴音频输出设备的其他用户相同的方向上的模拟空间位置处输出接收到的音频，向佩戴该组接收可穿戴音频输出设备的用户提供了关于其他用户的方向的反馈。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，第一组一个或多个可穿戴音频输出设备输出(822)相应音频，所述输出相应音频是在不考虑第一组一个或多个可穿戴音频输出设备与第二组一个或多个可穿戴音频输出设备之间的直接路径(例如，视线)是否被遮挡的情况下执行的(例如，在图6G中，用户由于他们之间的直接路径被遮挡而彼此无视觉接触)，包括调整该相应音频以便将该相应音频定位在模拟空间位置处以及调整相应音频的除了模拟空间位置之外的输出属性。换句话说，即使当第一组一个或多个可穿戴音频输出设备与第二组一个或多个可穿戴音频输出设备之间的直接路径(例如，佩戴第一组一个或多个可穿戴音频输出设备的第一用户与佩戴第二组一个或多个可穿戴音频输出设备的第二用户之间的视线)被部分或完全遮挡(例如，一个或多个物理对象被定位在第一用户与第二用户之间，以便至少部分地干扰电磁和/或声波在第一用户与第二用户之间的直接传播)时，也执行方法800。

在相对于佩戴该组接收可穿戴音频输出设备的用户的与佩戴该组传输可穿戴音频输出设备的其他用户相同的方向上的模拟空间位置处输出接收到的音频，而不考虑用户是否具有到彼此的直接视线，即使当直接视觉反馈不可用时也向用户提供了关于另一个用户的方向的反馈。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

应当理解，对图8A至图8B中的操作进行描述的具体次序仅仅是示例性的，并非旨在表明所述次序是可以执行这些操作的唯一次序。本领域的普通技术人员会想到多种方式来对本文所述的操作进行重新排序。另外，应当注意，本文相对于本文所述的其他方法(例如，方法700、1200和1300)所述的其他过程的细节同样以类似的方式适用于上文相对于图8A至图8B所述的方法800。例如，上文参考方法800所述的用户界面和可听交互任选地具有本文参考本文所述的其他方法(例如，方法700、1200和1300)所述的用户界面、交互和动画的特征中的一个或多个特征。

图9A至图9G示出了根据一些实施方案的用于有多个参与者的动态视觉通信会话的示例性用户界面(例如，视频通话应用程序内的用户界面)和参与者相对于设备的用户501的模拟空间音频位置的表示。

类似于图5A至图5T中所示的图的序列，图9A示出了便携式多功能设备100，该便携式多功能设备在触摸屏112上显示多个参与者与设备的用户501之间正在进行的视频通话的示例性用户界面500。用户界面区分设备的用户501的动态视觉表示(例如，在用户界面500中被示出为用户504的视频表示)和视频通话中的其他参与者的动态视觉表示(例如，在用户界面500中被示出为参与者1的视频表示506、参与者2的视频表示508、参与者3的视频表示510和参与者4的视频表示512(也统称为参与者的表示506-512))。在图9A至图9G的整个以下讨论中，虽然为了便于说明，将用户的表示504和参与者的表示506-512描述为视频表示，但是应当理解，在一些实施方案中，那些表示是动态视觉表示，其可包括除了视频表示之外的表示，诸如动画头像。此外，在图9A至图9G的整个以下讨论中，当视频表示或模拟音频位置被认为已移动或已改变，或者音频特性(例如，音量或混响声与直达声比率)被认为已改变时，应当理解，在一些实施方案中，此类移动或改变是由便携式电子设备100根据对应的前提条件或标准被满足而自动地进行或实现的。

具体地，图9A中所示的用户界面500示出了参与者1的视频表示506和参与者2的视频表示508在触摸屏112上的聚焦区域902(也被称为纵向聚焦区域902)中，并且示出了参与者3的视频表示510和参与者4的视频表示512在单独的不聚焦区域中，诸如名单区域904(也被称为水平名单区域904)中。在一些实施方案中，名单区域904通过示出谁当前正在视频会议通话中说话来在视觉上辅助设备100的用户501。在一些实施方案中，名单区域904中的参与者的视频表示(例如，参与者3的视频表示510和参与者4的视频表示512)在尺寸上小于在单独的聚焦区域902中的视频表示(例如，参与者1的视频表示506和参与者2的视频表示508)。

类似于图5A至图5T，图9A还示出了(通信会话的模拟空间或环境的)模拟音频位置图514，该模拟音频位置图包括参与者相对于设备的用户501的模拟音频位置的表示。在图9A中，模拟音频位置图被示出在用户界面500下方。需注意，通常，设备100不显示模拟音频位置图514，而是为了便于理解所描述的空间音频特征而在图9A至图9G中示出模拟音频位置图514。模拟音频位置部分地根据对应视频表示在用户界面500中的位置来放置。例如，其表示被显示在聚焦区域902中的参与者具有在听觉上被感知为比其表示被显示在聚焦区域902之外(例如，在名单区域904中)的参与者更靠近设备的用户501的模拟音频位置。这在模拟音频位置图514中示出，该模拟音频位置图示出了比参与者3的模拟音频位置520和参与者4的模拟音频位置522更靠近用户的位置的表示524的参与者1的模拟音频位置516和参与者2的模拟音频位置518。因此，参与者1和参与者2被设备的用户501经由从耳塞502听到的音频在听觉上感知为比参与者3和参与者4更靠近设备的用户501，这与参与者1和参与者2被示出在聚焦区域902中而参与者3和参与者4被示出在聚焦区域902之外、在名单区域904中一致。换句话说，其视频表示位于名单区域904内的参与者具有经由从耳塞502听到的音频在听觉上被感知为比其视频表示位于聚焦区域902内的参与者的模拟音频位置更远离设备的用户501的模拟音频位置。这在模拟音频位置图514中示出，具体地，通过参与者3的模拟音频位置520和参与者4的模拟音频位置522看起来更远离用户的位置的表示524。使用空间音频(有时被称为空间化音频)来实现参与者的感知位置，该空间音频通过图9A中的“打开”状态指示符530被指示为处于激活状态。空间音频的更详细解释参考图5B来讨论。

另外，图9A还示出了俯视图528(例如，鸟瞰图)，该俯视图示出了设备的在物理空间中佩戴着音频输出设备(例如，耳塞502)的用户501，并且示出了便携式多功能设备100相对于设备的用户501的位置。

为了进一步模拟设备100的用户501与通信会话中的其他参与者之间的听觉感知距离(如用户501所感知的)，还可针对视频会议通话中的一个或多个参与者来修改混响。减小特定参与者的直达声与混响声比(例如，直达声与混响声的比率)使得设备的用户501经由从耳塞502听到的音频将该特定参与者在听觉上感知为远离该用户。这种混响或直达声与混响声的比率的变化由图9A中的图表906指示，该图表具有被定义为每个用户940的音量的竖直y轴和被定义为时间942的水平x轴。因此，图表906指示在一段时间内每个参与者的直达音频的音量和混响音频的音量。

具体地，图表906示出了视频会议通话中的每个参与者的混响音频和直达音频的度量，诸如音量。首先，与参与者1的视频表示506相关联的音频包括直达音频(由“P1直达910”标识)和混响音频(由“P1混响912”标识)，直达音频和混响音频中的每一者具有在图表906中示出的相应音量。第二，与参与者2的视频表示508相关联的音频包括直达音频(由“P2直达914”标识)和混响音频(由“P2混响916”标识)，直达音频和混响音频中的每一者具有在图表906中示出的相应音量。第三，与参与者3的视频表示510相关联的音频包括直达音频(由“P3直达918”标识)和混响音频(由“P3混响920”标识)，直达音频和混响音频中的每一者具有在图表906中示出的相应音量。第四，与参与者4的视频表示512相关联的音频包括直达音频(由“P4直达922”标识)和混响音频(由“P3混响924”标识)，直达音频和混响音频中的每一者具有在图表906中示出的相应音量。如图表中所指出的，与名单区域904中的参与者(例如，参与者3和参与者4)相比，在显示器上的聚焦区域902中的参与者(例如，参与者1和参与者2)具有更高的直达声与混响声的比率。换句话说，与名单区域904中的参与者相比，聚焦区域中的参与者将具有比其混响音频更多的直达音频。实际上，设备的用户501将经由从耳塞502听到的音频将其视频表示位于名单区域904内的参与者在听觉上感知为比其视频表示位于聚焦区域902内的参与者更远离设备的用户501。

为了更进一步模拟由设备的用户501在听觉上感知到的距离，还可调整每个参与者的直达音频和/或混响音频的音量(例如，总音频音量)以进一步模拟由设备的用户501所感知的参与者的距离。如图9A所示，聚焦区域902中的参与者(例如，参与者1和参与者2)的音频音量高于名单区域904中的参与者(例如，参与者3和参与者4)的音量。

图9A至图9B示出了参与者的空间化位置(在本文中也被称为模拟空间位置)可如何在视频会议通话期间主动改变以便促进通信(例如，减少参与者听起来如同他们彼此正在说话的情况)。图9B示出了当确定重叠音频的度量满足预定义重叠标准(例如，多个参与者同时说话达至少设定时间段)时，设备可将模拟空间中的参与者彼此分开(例如，通过增加参与者的模拟音频位置之间的距离)。在使用空间音频来分开同时说话的参与者的模拟音频位置(例如，增加参与者之间模拟空间位置的间距)的示例中，图9A至图9B示出了参与者1的模拟音频位置516与参与者2的模拟音频位置518之间的相对于设备的用户501的角度的增加(例如，角度的顶点位于用户的位置的表示524处)。在确定重叠音频的度量满足预定义重叠标准之后，图9A中的角度926被扩大到图9B中所示的角度928。在一些实施方案中，当角度928增加时，水平x方向上的距离增加(例如，从参与者1的模拟音频位置516到用户的模拟音频位置524的距离增加)，但竖直y方向上的距离保持恒定。另外，当角度改变时，用户的模拟音频位置524保持固定。例如，这将类似于就座的观众成员(例如，设备的用户501)收听站在舞台上的两个个体(例如，参与者1和参与者2)，此时这两个个体开始移动远离彼此，但仍然保持在舞台上。

在一些实施方案中，在通信会话中的第一参与者和第二参与者的模拟空间位置之间存在默认角度，并且仅在满足预定义重叠标准之后才改变(例如，增大或减小)角度。在一些实施方案中，角度根据有多少重叠音频正在发生而变动。例如，在检测到不再满足预定义重叠标准之后，角度可(并且任选地逐渐)返回到图9A中所示的默认角度。

图9C示出了响应于改变便携式多功能设备的取向(例如，电子设备100从纵向视图改变为横向视图)而进行的参与者的模拟位置的改变。响应于将便携式多功能设备100的取向从其图9B中所示的取向改变为图9C中所示的取向，参与者之间的角度930(例如，参与者1的模拟音频位置516与参与者2的模拟音频位置518之间的相对于用户的位置或模拟音频位置524的角度)与角度928相比增大。这种模拟音频位置的间距的增加响应于(例如，结合)附加水平屏幕不动区现在在横向聚焦区域934中示出而发生。

在一些实施方案中，其视频表示位于名单区域(例如，竖直名单区域932)中的参与者的模拟音频位置也响应于设备的取向改变而移动(例如，因为当由用户501查看时，名单区域932现在位于触摸屏112的右侧，而不是如图9A至图9B中所示位于触摸屏的底部)。在这种实施方案中，相对于用户的位置或模拟音频位置524的参与者3的模拟音频位置520和参与者4的模拟音频位置522现在在听觉上被感知为源于设备的用户501的右侧，这对应于竖直名单区域932相对于用户界面500中的设备的用户的视频表示的位置的位置。

图9D至图9G涉及基于预定义标准(例如，参与者是否正在说话)在用户界面500的聚焦区域(例如，图9A至图9B中的横向聚焦区域934或纵向聚焦区域902)与名单区域(例如，竖直名单区域932或名单区域904)之间来回移动参与者的视频表示。具体地，图9D中的图表906示出了参与者2已停止说话，这通过P2直达914和/或P2混响916的音量不再指示与图9A至图9C中所示一样多的音频音量来指示。

图9E示出了响应于参与者2的音频特性(例如，P2直达914和/或P2混响916)不再满足预定义特性(例如，降低的语音活动水平通过P2直达914与图9C中所示的P2直达相比音量更低来指示)，参与者2的视频表示508被从横向聚焦区域934移动到竖直名单区域932(例如，第二参与者P2的视频表示被便携式多功能设备100根据P2的音频特性不满足预定义特性自动移动到名单区域)。在一些实施方案中，在参与者的视频表示被移动(例如，被设备100自动移动)到名单区域之前，需要满足预定义特性达设定时间段(例如，1秒、2秒、5秒、10秒或15秒)。除参与者2的视频表示508移动到竖直名单区域932之外，参与者2的模拟音频位置518也改变了(例如，被设备100根据与将参与者的视频表示移动到名单区域的标准相同的标准自动改变)。参与者2的模拟音频位置518现在驻留在与使其视频表示显示在名单区域932中的其他参与者的位置类似的位置中。实际上，设备的用户501现在将来自参与者2P2的音频在听觉上感知为比在参与者2的视频表示508移动到竖直名单区域932之前更远。图9E还在图表906中示出了参与者2的混响声(例如，P2混响916)与直达声(例如，P2直达914)的比率与图9D的图表906中所示的比率相比已增加。在一些实施方案中，根据参与者2的视频表示被移动到名单区域，参与者1的视频表示508移位(例如，被设备100自动移位)到横向聚焦区域934的中心，并且参与者1的模拟音频位置516被移动(例如，被设备100自动移动)到模拟音频位置，该模拟音频位置使得设备的用户501将参与者1在听觉上感知为在用户501正前方说话。在一些实施方案中，当将参与者视频表示从聚焦区域(例如，图9A至图9B中的纵向聚焦区域902或图9C至图9G中的横向聚焦区域934)移动到名单区域(例如，图9A至图9B中的水平名单区域904或图9C至图9G中的竖直名单区域932)时，相应视频表示的尺寸在触摸屏显示器上改变(例如，由设备100自动改变尺寸，例如减小尺寸)。

图9F示出了其视频表示(例如，参与者3的视频表示510)当前驻留在竖直名单区域932中的参与者3P3开始说话(例如，如由图9F中的图表906中的P3直达918与图9E中的图表906中的P3直达918相比语音活动增加指示)。

图9G示出了响应于参与者3的语音活动水平增加并且达到和/或超过语音活动阈值，设备100将参与者3的视频表示510从竖直名单区域932移动(例如，自动移动)到横向聚焦区域934。结合将参与者3的视频表示510从竖直名单区域932移动到横向聚焦区域934，混响音频(例如，如由图9G中的P3混响920指示的)与直达音频(例如，如由图9G中的P3直达918指示的)的比率和先前的混响音频(例如，如由图9F中的P3混响920指示的)与直达音频(例如，如由图9F中的P3直达918指示的)的比率相比减小(例如，由设备100自动减小)。在一些实施方案中，结合将参与者3的视频表示510从竖直名单区域932移动到横向聚焦区域934，增加(例如，由设备100自动增加)参与者3的音频(例如，直达音频和/或混响音频)的音量。

在一些实施方案中，在参与者的视频表示被移动(例如，被设备100自动移动)到聚焦区域之前，来自名单区域中的参与者的音频需要大于或等于预定义活动水平特性达设定时间段(例如，2秒、5秒、10秒或15秒)。在一些实施方案中，当参与者的视频表示从名单区域(例如，图9A至图9B中的水平名单区域904或图9C至图9G中的竖直名单区域932)移动到聚焦区域(例如，图9A至图9B中的纵向聚焦区域902或图9C至图9G中的横向聚焦区域934)时，相应视频表示的尺寸在触摸屏显示器上改变(例如，增大)(例如，由设备100自动改变尺寸)。

图9G还示出了响应于(例如，结合)将参与者3的视频表示510从竖直名单区域932移动到横向聚焦区域934而对模拟空间位置图514的改变(例如，由设备100自动进行的改变)。具体地，模拟空间位置图514示出了参与者3的模拟音频位置520被移动到模拟空间中将被设备的用户501经由从耳塞502听到的音频在听觉上感知为在物理上更靠近的位置。图9G还示出了与图9F相比，参与者1的模拟音频位置516被移动到不同位置(例如，移动到右侧或左侧)，以适应参与者3的模拟音频位置520的放置，参与者3现在也在聚焦区域934中。

本文所述的示例中的一些示例是假想示例(例如，相对于图9A至图9G中的图表906、图5J至图5L中的实耗时间图表540以及图6E至图6G中的曲线图644所述的示例)，这些假想示例作为示出更一般概念的方式，用于示出特定场景中的预测或预期结果。

类似于图5A至图5T和图9A至图9G，图10A示出了便携式多功能设备100，该便携式多功能设备在触摸屏112上显示多个参与者与设备100的用户501之间正在进行的视频通话的示例性用户界面500。用户界面区分设备100的用户501的动态视觉表示(例如，在用户界面500中被示出为用户501的视频表示504)和视频通话中的其他参与者的动态视觉表示(例如，在用户界面500中被示出为参与者1的视频表示1001和参与者2的视频表示1003)。在图10A至图10O的整个以下讨论中，虽然为了便于说明，将用户501的表示504和参与者的表示(例如，1001、1003)描述为视频表示，但是应当理解，在一些实施方案中，那些表示是动态视觉表示，其可包括除了视频表示之外的表示，诸如动画头像。此外，在一些实施方案中，相应参与者的表示中的一者或多者可为静态视觉表示，诸如静态头像或文本(例如，与相应参与者的姓名或昵称对应的一个或多个首字母)；例如，一个或多个参与者可停用其正用于参与视频通话的设备上的相机，在这种情况下，显示用户的静态或动态视觉表示而非视频表示。此外，在图10A至图10O的整个以下讨论中，当视频表示或模拟音频位置被认为已移动或已改变，或者音频特性(例如，音量或混响声与直达声比率)被认为已改变时，应当理解，在一些实施方案中，此类移动或改变是由便携式电子设备100根据对应的前提条件或标准被满足而自动地进行或实现的。

具体地，图10A中所示的用户界面500示出了参与者1的视频表示1001和参与者2的视频表示1003处于触摸屏112上的聚焦区域1002中。两个参与者的视频表示被显示在聚焦区域1002中，因为视频通话中的参与者的数量不超过阈值数量(例如，在图10A至图10B中的示例中为四个；阈值数量可以是诸如适合于设备100的任何数量，如本文参考图10O进一步详细解释的)。

在一些实施方案中，图10A至图10O中所示的用户界面500包括以下附加特征中的一个或多个特征：用于调用应用程序或小型应用程序(例如，用于访问要在视频通话中共享的照片或其他图像或文档)的应用图标、控件和/或示能表示1011(例如，在图10A中标记为A、B、C、D、E和N)；用于离开或取消视频通话的控件或示能表示1013；用于将视觉效果(例如，增强现实效果)添加到视频通话的控件或示能表示1015；和/或用于访问可在视频通话应用程序内使用的附加特征的控件或示能表示1017。

类似于图5A至图5T和图9A至图9G，图10A还示出了(通信会话的模拟空间或环境的)模拟音频位置图514，该模拟音频位置图包括参与者相对于设备100的用户501的模拟音频位置的表示。在图10A中，模拟音频位置图被示出在用户界面500下方。需注意，通常，设备100不显示模拟音频位置图514，而是为了便于理解所描述的空间音频特征而在图10A至图10O中示出模拟音频位置图514。模拟音频位置部分地根据对应视频表示在用户界面500中的位置来放置。例如，根据参与者1的视频表示1001在用户界面500中在参与者2的视频表示1003的右侧，参与者1的模拟音频位置1005在参与者2的模拟音频位置1007的右侧。另外，图10A还示出了俯视图528(例如，鸟瞰图)，该俯视图示出了设备100的在物理空间中佩戴着音频输出设备(例如，耳塞502)的用户501，并且示出了便携式多功能设备100相对于设备的用户501的位置。

图10B至图10J示出了参与者的空间化位置(在本文中也被称为模拟空间位置或模拟音频位置)可如何在视频会议通话期间基于参与者的活动水平来主动改变。在图10B中，附加参与者已加入通信会话。四个参与者的视频表示被显示在聚焦区域1002中的网格中：参与者1的视频表示1001、参与者2的视频表示1003、参与者3的视频表示1014和参与者4的视频表示1018。图10B中的聚焦区域1002的配置有时被称为“网格视图”。通信会话中的剩余参与者中的至少一些参与者的视频表示(例如，参与者5的视频表示1038、参与者6的视频表示1040、参与者7的视频表示1042和参与者8的视频表示1044)被显示在被称为名单区域1004的单独的不聚焦区域中(例如，基于名单区域中的视频表示的预定义尺寸，设备100在触摸屏112上显示将适合名单区域的尽可能多的剩余参与者的视频表示)。

其视频表示被显示在聚焦区域1002中的参与者(参与者1、参与者2、参与者3和参与者4)具有高于剩余参与者的活动水平的活动水平，如活动图表1006中所示。换句话说，多达阈值数量(例如，图10B中的4个)的活动水平最高的参与者被表示在聚焦区域1002中，而剩余参与者被表示在名单区域1004中(例如，剩余参与者中的至少一些参与者具有显示在名单区域1004中的视频表示)。活动图表1006显示相对于时间1010(在水平x轴上)的每个参与者的活动水平1008(在竖直y轴上)。具体地，活动图表1006显示参与者1的活动水平1022、参与者2的活动水平1024、参与者3的活动水平1026、参与者4的活动水平1028、参与者5的活动水平1030、参与者6的活动水平1032、参与者7的活动水平1034和参与者8的活动水平1036。在活动图表1006中，相应参与者的活动水平可基于参与者的语音活动水平(例如，说话的量)、相应参与者的总音频音量水平、身体活动水平(例如，身体移动的量，包括手语或非语言手势，诸如抬手或挥手以引起其他人的注意)、活动的新近度和/或活动水平的其他度量。

在一些实施方案中，如在图10B中所示的示例中，名单区域1004中的参与者的视频表示在尺寸上小于单独的聚焦区域1002中的视频表示(例如，名单区域1004中的参与者的视频表示1038、1040、1042和1044小于参与者1的视频表示1001、参与者2的视频表示1003、参与者3的视频表示510和参与者4的视频表示512)。在一些实施方案中，名单区域1004中的参与者的视频表示彼此尺寸相同(例如，不考虑那些参与者的活动水平)。在一些实施方案中，在“网格视图”中，聚焦区域1002中的参与者的视频表示彼此尺寸相同(例如，不考虑那些参与者的活动水平)。如本文更详细描述的，对于除了“网格视图”之外的视图，诸如图10C至图10J中的浮动视图，聚焦区域1002中的参与者的视频表示任选地具有不同尺寸(例如，基于参与者的活动水平)。

此外，其视频表示被显示在聚焦区域1002中的参与者(参与者1、参与者2、参与者3和参与者4)中的每个参与者具有基于对应的相应视频表示的位置的不同模拟音频位置，如模拟音频位置图514中指示的。参与者1的视频表示1001被显示在聚焦区域1002的左下方，因此参与者1的模拟音频位置1005相对于聚焦区域1002中的其他参与者的模拟音频位置在左下方。参与者2的视频表示1003被显示在聚焦区域1002的左上方，因此参与者2的模拟音频位置1007相对于聚焦区域1002中的其他参与者的模拟音频位置在左上方。参与者3的视频表示1014被显示在聚焦区域1002的右上方，因此参与者3的模拟音频位置1016相对于聚焦区域1002中的其他参与者的模拟音频位置在右上方。参与者4的视频表示1018被显示在聚焦区域1002的右下方，因此参与者4的模拟音频位置1020相对于聚焦区域1002中的其他参与者的模拟音频位置在右下方。根据图10B中所示的“网格视图”，模拟音频位置1005、1007、1016和1020距用户501的空间位置524的距离都相同(或基本上相同，例如，具有音频位置1005、1007、1016和1020的中值距离的百分之十或百分之二十)。对于除了“网格视图”之外的视图，诸如在图10C至图10J中所示并在下文更详细描述的浮动视图，可将聚焦区域1002中的参与者的视频表示移动到用户界面500中的不同位置(例如，基于参与者的活动水平)，并且对应模拟音频位置可相应地改变。

与聚焦区域1002中表示的参与者相比，来自其视频表示未显示在聚焦区域1002中(例如，显示在名单区域1004中(例如，除了参与者1至参与者4以及用户501之外的所有剩余参与者))的其他参与者的音频在模拟音频位置图514中表示的相同共享模拟音频位置1012处输出。需注意，共享模拟音频位置1012在以下情形中使用：视频通话中除了用户501之外的参与者的数量超过聚焦区域1002中的阈值位置数量两个或更多个，使得至少两个参与者表示在名单区域1004中并且在共享模拟音频位置1012处输出其音频(例如，如果仅一个参与者表示在名单区域1004中，则该参与者的模拟音频位置(其任选地为与共享模拟音频位置1012相同的位置)不与任何其他参与者共享)。如在图10B中所示的示例中，相对于用户501的空间位置524，名单区域1004中的参与者的共享模拟音频位置1012(例如，在三维空间中)低于聚焦区域1002中的参与者的模拟音频位置。

在图10C中，聚焦区域1002中的参与者的视频表示基于那些参与者的活动水平来布置，而不是如图10B中所示按网格布置，并且来自那些参与者的音频基于对应的相应视频表示的位置和/或参与者的活动水平来在不同模拟音频位置处输出。如图10C中所示，聚焦区域1002中活动水平更高的参与者的视频表示比聚焦区域1002中活动水平更低的参与者的视频表示在视觉上更突出(例如，更大和/或在活动水平更低的参与者的视频表示前方)。例如，因为参与者2的活动水平是最高的，如活动图表1006中指示的，所以参与者2的视频表示1003通过被显示为大于其他参与者的视频表示(例如，参与者2的视频表示1003大于参与者1的视频表示1001和参与者4的视频表示1018)以及在用户界面500中的其他参与者的视频表示前方(例如，如由参与者2的视频表示1003重叠在参与者3的视频表示1014之上和参与者4的视频表示1018之上指示的)而在用户界面500中在视觉上是最突出的。

对应地，如图10C中所示，在一些实施方案中，聚焦区域1002中活动水平更高的参与者的模拟音频位置比活动水平更低的其他参与者的模拟音频位置更靠近用户501的空间位置524。任选地，活动水平更高的参与者的音频相对于其他活动水平更低的参与者的音频在听觉上被强调(例如，通过增加音频音量)。例如，参与者2的模拟音频位置1007比其他参与者的模拟音频位置更靠近用户501的空间位置524，如由在模拟音频位置图514中参与者2的模拟音频位置1007的表示在参与者3的模拟音频位置1016的表示前方指示的。

图10D示出了参与者的突出度可如何另选地或附加地由参与者的视频表示与用户界面500中的预定义位置(诸如中心位置)的接近度来指示。在图10D中，如活动图表1006指示的，参与者3是活动水平最高的参与者。因此，参与者3的视频表示1014被显示为最靠近聚焦区域1002的中心(例如，分别与参与者1、2和4的视频表示1001、1003和1018相比)并且分别重叠在用户界面500中的参与者1、2和4的视频表示1001、1003和1018之上。

图10E示出了参与者的突出度可如何另选地或附加地由参与者的视频表示的尺寸来指示。在图10E中，如活动图表1006指示的，参与者3是活动水平最高的参与者。因此，参与者3的视频表示1014是用户界面500中的最大视频表示(例如，任选地，这是因为相对于如图10D中所示的视频表示1014的尺寸增加了参与者3的视频表示1014的尺寸，以指示参与者3是活动水平最高的参与者)。

图10F至图10I示出了根据参与者的活动水平降低使得该参与者不再是阈值数量的活动水平最高的参与者中的一者(例如，在图10F至图10I的示例中，不再是四个活动水平最高的参与者中的一者)而将该参与者的视频表示移出聚焦区域1002并移入名单区域1004。图10F至图10I中的活动图表1006示出了参与者4的活动水平1028逐渐降低，直到在图10I中参与者4不再是视频通话中的四个活动水平最高的参与者中的一者。例如，在图10F中，参与者4的活动水平1028已降低到低于参与者1的活动水平1022。参与者4的活动水平1028在图10G中继续降低，而参与者5的活动水平1030已增加。在图10H中，参与者5的活动水平1030已增加到高于参与者4的活动水平1028。因此，在图10G中，参与者4的视频表示1018被移动得更靠近名单区域1004，并且参与者4的模拟音频位置1020被移动得更靠近名单区域1004中的参与者的共享模拟音频位置1012，如模拟音频位置图514中指示的。在图10H中，参与者4的视频表示1018被移出聚焦区域1002并且被插入名单区域1004中，并且来自参与者4的音频在名单区域1004中的参与者的共享模拟音频位置1012处输出(例如，模拟音频位置1020被合并到共享模拟音频位置1012中)，如由图10H中的模拟音频位置图514中不存在模拟音频位置1020指示的。在图10I中，参与者4的视频表示1020完全显示在名单区域1004中。

图10H至图10J示出了根据参与者的活动水平增加使得该参与者已成为阈值数量的活动水平最高的参与者中的一者(例如，在图10H至图10J中的示例中，成为四个活动水平最高参与者中的一者)而将参与者的视频表示从名单区域1004移动到聚焦区域1002中。图10H中的活动图表1006指示参与者5的活动水平1030已增加到高于参与者4的活动水平1028，使得参与者5现在是视频通话中的四个活动水平最高的参与者中的一者，而不是参与者4。因此，在图10H中，参与者5的视频表示1038被略微移出名单区域1004，并且来自参与者5的音频在模拟音频位置图514中的模拟音频位置1046处输出，该模拟音频位置不同于共享模拟音频位置1012并且也不同于其表示被显示在聚焦区域1002中的其他参与者的模拟音频位置1005、1007和1016。在图10I中，参与者4的视频表示1020完全显示在名单区域1004中，而参与者5的视频表示1038被进一步移出名单区域1004并移入聚焦区域1002中。此外，在图10I中，参与者5的模拟音频位置1046从模拟音频位置图514中的共享模拟音频位置1012进一步移动。在图10J中，参与者5的视频表示1038完全显示在聚焦区域1002中，并且参与者5的模拟音频位置1046从共享模拟音频位置1012进一步移动，以便更不同于模拟音频位置1012并不同于其表示显示在聚焦区域1002中的其他参与者的模拟音频位置1005、1007和1016。

在视频通话中的参与者的数量超过阈值数量(例如，聚焦区域1002和名单区域1004两者都包括参与者的视频表示)的一些实施方案中，聚焦区域1002总是显示阈值数量的活动水平最高的参与者。在一些此类实施方案中，将活动水平更低的第一参与者转变到聚焦区域1002之外并转变到名单区域1004中与将活动水平更高的第二参与者转变到名单区域1004之外并转变到聚焦区域1002中(例如，其中第一参与者和第二参与者的活动水平已交叉)结合地(例如，同时)发生。任选地，第一参与者的对应模拟音频位置和第二参与者的对应模拟音频位置也同时被移位。例如，在一些实施方案中，图10F至图10H中针对参与者4所示的转变与图10H至图10J中针对参与者5所示的转变结合地发生或者在更大程度上与其同时发生。在一些实施方案中，将聚焦参与者(例如，参与者4)朝向名单区域1004移动和/或移入名单区域是根据聚焦参与者的活动水平降低到低于名单参与者的活动水平(例如，响应于此以及在此之后)来执行的。

图10K示出了便携式多功能设备100，该便携式多功能设备显示在正好两个参与者(设备100的用户501和另一个参与者(参与者1))之间的正在进行的视频通话的示例性用户界面500。用户界面500包括用户501的视频表示504和参与者1的视频表示1048。针对该视频通话启用了空间音频，如图例1050中指示的。因为启用了空间音频，并且因为在这种两参与者视频通话中的参与者的视频表示(例如，视频表示504和视频表示1048)可用于在用户界面500中显示，所以来自参与者1的音频在与用户501的空间位置524不同的模拟空间位置处输出，具体地，在模拟音频位置1052处输出，如模拟音频位置图514中所示。

与图10K相比，图10L示出了在空间音频被停用(如图10L中的图例1050中指示的)的情况下用户501与参与者1之间的正在进行的视频通话。用户501的视频表示504和参与者1的视频表示1048显示在用户界面500中。然而，因为空间音频被停用，所以来自参与者1的音频不在与用户501的空间位置524不同的模拟空间位置处输出，如由模拟音频位置图514中不存在模拟音频位置1052指示的。相反，来自参与者1的音频作为非空间音频(例如，立体声音频或单声道音频，其通常将被用户501感知为就好像音频正在用户501的头部内播放)输出。

图10M示出了根据参与者2(除了用户501和参与者1之外的第三参与者)加入视频通话而从图10L进行的示例性转变。用户界面500现在还包括参与者2的视频表示1054(例如，在与参与者1的视频表示1048相同的区域中，诸如聚焦区域中)。因为视频通话现在包括除了用户501之外的两个或更多个参与者(例如，总共多于两个参与者)，所以来自(例如，除了用户501之外的)参与者的音频在两个或更多个不同模拟空间位置处输出(例如，尽管已停用空间音频，如图10L中的图例1050中指示的，但是响应于第三参与者加入而针对该视频通话自动启用了空间音频)。具体地，如模拟音频位置图514中所示，来自参与者1的音频在模拟音频位置1052处输出，并且来自参与者2的音频在模拟音频位置1056处输出，这些位置彼此不同并且与用户501的空间位置524不同。类似地，如果视频通话中的参与者的总数将减少到两个(例如，用户和一个其他参与者)，则来自参与者的音频将停止在两个或更多个不同模拟空间位置处输出并且将改为作为非空间音频输出，如上文参考图10L所述。

图10N示出了两种不同的两参与者通话：左侧的视频通话1058和右侧的音频通话1060。左侧所示的视频通话1058类似于图10K中所示的视频通话。具体地，对于视频通话1058，用户501的视频表示504和参与者1的视频表示1048显示在用户界面500中。针对该视频通话启用了空间音频，如图例1050中指示的。因为启用了空间音频，并且因为在这种两参与者视频通话中的参与者的视频表示(例如，视频表示504和视频表示1048)可用于在用户界面500中显示，所以来自参与者1的音频在与用户501的空间位置524不同的模拟空间位置处输出，具体地，在模拟音频位置1052处输出，如模拟音频位置图514中所示。

与视频通话1058相比，音频通话1060(例如，仅音频通话)中的其他参与者的视频表示不可用于在用户界面500中显示，如图10N的右侧所示。用于音频通话1060的用户界面500包括参与者1的标识符1062(例如，静态视觉表示)而不是视觉表示1048。因为参与者1的视频表示不可用，所以针对音频通话1060停用空间音频，如图例1050中指示的。此外，来自参与者1的音频不在与用户501的空间位置524不同的模拟空间位置处输出，如由模拟音频位置图514中不存在模拟音频位置1052指示的。相反，来自参与者1的音频作为非空间音频(例如，立体声音频或单声道音频，其通常将被用户501感知为就好像音频正在用户501的头部内播放)输出。

图10O通过示出两种不同的视频通话：在顶部的视频通话1064和在底部的视频通话1066，示出了可在视频通话用户界面的聚焦区域中显示的不同数量的参与者。图10O的顶部部分示出了用户501(由用户界面500a中的视频表示504表示)使用设备100a参与视频通话1064。图10O的底部部分示出了用户501(由用户界面500b中的视频表示504表示)使用设备100b参与视频通话1066。设备100a小于设备100b，并且设备100a的触摸屏112a具有比设备100b的触摸屏112b更小的显示区域。因此，与用户界面500a的聚焦区域1002a相比，用户界面500b的聚焦区域1002b中可显示更多参与者。在用户界面500a中，四个参与者的视频表示被显示在聚焦区域1002a中，视频通话1064中的剩余参与者中的至少一些的视频表示被显示在名单区域1004a中。在用户界面500b中，七个参与者的视频表示被显示在聚焦区域1002b中，而视频通话1066中的剩余参与者的视频表示被显示在名单区域1004b中。

引申开来，图10O还示出了在视频通话用户界面中显示名单区域所需的参与者的不同阈值数量。例如，除了用户501之外的五个或更多个参与者(例如，总共六个或更多个参与者)必须正在参与视频通话1064才显示名单区域1004a。如果除了用户501之外的四个或更少参与者正在参与视频通话1064(例如，总共五个或更少参与者)，则其他(四个或更少)参与者的视频表示将全部显示在视频通话1064的用户界面500a的聚焦区域1002a中。对于视频通话1066，除了用户501之外的八个或更多个参与者(例如，总共九个或更多个参与者)必须正在参与该视频通话才显示名单区域1004b。如果除了用户501之外的七个或更少参与者正在参与视频通话1066(例如，总共八个或更少参与者)，则其他(七个或更少)参与者的视频表示将全部显示在视频通话1066的用户界面500b的聚焦区域1002b中。

图11A至图11V示出了使用不同虚拟空间来模拟针对不同类别的内容的音频内容的产生。具体地，图11A使用能量图解示出了虚拟空间(在本文中也被称为虚拟房间或模拟音频环境)的音频特性的示例，并且图11B至图11V示出了在输出不同类别的音频内容时显示的用户界面，以及影响虚拟空间中音频内容的模拟产生的用户界面或观看和改变音频设置。

图11A示出了表示与相应虚拟空间对应的滤波器(有时被称为音频滤波器或音频频率滤波器)的音频响应的三个能量图解。这些图解中的每个图解表示使用与具有一组模拟音频特性的虚拟空间对应的滤波器、响应于短持续时间(诸如1至2毫秒)的音频输入而随时间产生的经平滑的能量水平(有时被称为能量包络)。模拟音频特性中的一种模拟音频特性是混响。图11A的左上图解1102表示响应于音频输入而产生的音频的直达能量分量。另选地，直达能量分量可被视为音频输入的能量。如左上图解中所示，在初始时间段期间(例如，具有小于5ms的持续时间的时间段；具有1ms至2ms或1ms至3ms或1ms至4ms持续时间的时间段)，直达能量分量超过图解的比例。

图11A的左下图解1104表示在使用与相应虚拟空间对应的音频滤波器时响应于音频输入而产生的音频的混响能量分量。由于混响对应于音频信号从相应虚拟空间的表面的模拟反射，因此混响能量分量的能量包络在直达能量分量之后达到其峰值，并且比直达能量分量更慢地衰减。混响能量分量的形状和持续时间根据虚拟空间而变化，类似于不同物理房间的混响特性的变化。

图11A的右侧的图解1106表示直达能量分量和混响能量分量的缩放组合。在该示例中，使用以下两个因子或参数来产生缩放组合：DRR，其为组合音频信号中的直达能量与混响能量的比率；和SF，即缩放因子，其对组合音频信号进行缩放。在一些实施方案中，缩放因子被确定为使得组合音频信号的音量或总能量保持在原始音频信号的音量或能量水平。在该上下文中，“保持在原始音频信号的音量或能量水平”意味着保持与原始音频信号的音量或能量水平大致相同或保持在其预定义范围内，诸如不大于原始音频信号的音量或能量水平的正负5％或不大于原始音频信号的音量或能量水平的正负10％的范围。

DRR(例如，直达能量与混响能量比率)是虚拟空间的特性，并且其水平对应于(或控制)响应于音频输入而发生的混响的能量。如图11A中所示，在一些实施方案中，缩放因子SF等于1/(1+(1/DRR))，其中1+1/DRR对应于根据DRR缩放之前的直达能量分量和混响能量分量的总能量。然而，在一些实施方案中，可使用其他缩放因子。

图11B示出了具有与一个或多个音频输出设备1108通信的显示器112(例如，触摸屏)的便携式多功能设备100(例如，图1A和图2的设备100)。在一些实施方案中，设备100与一对可穿戴音频输出设备1108-1和1108-2(诸如入耳式耳塞)无线通信，其示例在上文参考图3B进行了描述。然而，在其他具体实施中，设备100耦接到另一种类型的音频输出设备，诸如头戴式耳机或音频扬声器(例如，包括在设备100中的音频扬声器或在设备100外部的音频扬声器)，并且该耦接可以是无线的或有线的。为了减少杂乱，在该系列的剩余图中省略了音频输出设备1108，但是应当理解，设备100与一个或多个音频输出设备通信，以便输出与音频内容对应的音频。

在图11B所示的示例中，在触摸屏112上显示电影“Surf The Movie”。在该示例中，电影正由应用程序诸如视频应用程序或电影应用程序显示，并且在触摸屏112上显示的是该应用程序的用户界面1110，该用户界面包括正由该应用程序播放的电影。该示例中的电影包括为空间音频的音频内容，并且电影的回放包括使用耳塞1108或者更一般地使用与设备100通信的一个或多个音频输出设备来产生音频输出。图11B示出了使用模拟音频环境(在本文中也被称为虚拟空间1112A)来输出电影的空间音频。虽然图11B将虚拟空间1112A表示为模拟电影院，但是该电影院仅为例示性示例。在回放电影期间使用的虚拟空间1112A可能“听起来”不像电影院，但可具有适于产生适于回放电影的音频特性的模拟形状和尺寸，该模拟形状和尺寸可类似于或可不类似于物理电影院的形状和尺寸。例如，图11V在左侧示出了虚拟空间1112E的音频特性的示例，并且在右侧示出了与虚拟空间对应(例如，被用作虚拟空间的模型或起始点)的物理空间的音频特性的示例。

图11B还包括能量图解1114，该能量图解示出了与虚拟空间1112A对应的音频滤波器的能量包络，其中由电子设备100和/或由一个或多个音频输出设备1108模拟电影的音频内容的产生。需注意，图11B中所示和该系列的图中的所有剩余图中所示的混响能量分量未以与虚拟空间的音频滤波器的组合能量包络相同的比例绘制。在一些实施方案中，使用当前使用的虚拟空间的DRR参数和缩放因子(例如，基于DRR参数或基于DRR参数确定的缩放因子)来产生组合能量水平，如上文相对于图11A所讨论的。

图11C示出了便携式多功能设备100，此时该设备正在执行音乐应用程序。用于音乐应用程序的用户界面1116被显示在设备110的显示器112上，并且如图11C中所示，来自音乐应用程序的音频内容(例如，来自特定专辑或曲目的摇滚音乐)由设备100经由前述一个或多个音频输出设备使用第二虚拟空间1112B来输出。在该示例中，所显示的用于音乐应用程序的用户界面1116包括正被播放的媒体项目的表示(诸如，专辑封面或其他媒体标识信息)、多个控件(诸如，用于开始/恢复和停止回放的控件、随机回放控件)以及任选地可被选择用于回放的其他媒体的列表或曲目的列表。

虽然图11C将虚拟空间1112B表示为模拟音乐会舞台，但是该模拟音乐会舞台仅为例示性示例。在回放来自音乐应用程序的音频内容期间使用的虚拟空间1112B可能“看起来”不像音乐会舞台，但可具有适于产生适于回放音乐或者特定类型或流派的音乐的音频特性的模拟形状和尺寸，该模拟形状和尺寸可类似于或可不类似于物理音乐会舞台的形状和尺寸。

图11C还包括能量图解1118，该能量图解示出了与虚拟空间1112B对应的音频滤波器的能量包络，其中由设备100和/或由与设备100通信的该一个或多个音频输出设备模拟音乐应用程序的音频内容的产生。第二虚拟空间1112B具有与第一虚拟空间1112A不同的音频特性，如由第二虚拟空间1112B的能量包络的形状与第一虚拟空间1112A的能量包络的形状相比不同指示的。

图11D示出了便携式多功能设备100，此时音乐应用程序正在播放音乐视频。用于音乐应用程序的用户界面1116A被显示在设备110的显示器112上，并且来自音乐应用程序的音频内容(例如，来自音乐视频的摇滚音乐)由设备100经由前述一个或多个音频输出设备使用与用于输出图11C中所示的示例中的音乐专辑或曲目的音频内容的虚拟空间相同的第二虚拟空间1112B来输出。在该示例中，所显示的用于音乐应用程序的用户界面1116A包括正被播放的音乐视频的表示。此外，在图11C和图11D中呈现的示例中，相同的虚拟空间用于输出不同类型的音频内容，其中这些不同类型的音频内容是由同一应用程序(诸如，音乐应用程序)产生的。

图11E-1示出了便携式多功能设备100，此时音乐应用程序正在播放为古典音乐的媒体。用于音乐应用程序的用户界面1116B被显示在设备110的显示器112上，并且来自音乐应用程序的音频内容(例如，来自音乐视频的摇滚音乐)由设备100经由前述一个或多个音频输出设备使用第三虚拟空间1112C来输出。在该示例中，所显示的用于音乐应用程序的用户界面1116B包括正被播放的媒体项目的表示(诸如，专辑封面或其他媒体标识信息)、多个控件(诸如，用于开始/恢复和停止回放的控件、随机回放控件)以及任选地可被选择用于回放的其他媒体的列表或曲目的列表。

虽然图11E-1将虚拟空间1112C表示为模拟音乐厅，但是该模拟音乐厅仅为例示性示例。在回放来自音乐应用程序的特定类型或流派的音乐(诸如古典音乐)期间使用的虚拟空间1112C可能“看起来”不像音乐厅，但可具有适于产生适于回放音乐或特定类型或流派的音乐的音频特性的模拟形状和尺寸，该模拟形状和尺寸可类似于或可不类似于物理音乐厅的形状和尺寸。

图11E-1还包括能量图解1120，该能量图解示出了与第三虚拟空间1112C对应的音频滤波器的能量包络，其中由设备100和/或由与设备100通信的该一个或多个音频输出设备模拟音乐应用程序的音频内容的产生。第三虚拟空间1112C具有与第一虚拟空间1112A和第二虚拟空间1112B不同的音频特性，如由第三虚拟空间1112C的能量包络的形状与第一虚拟空间1112A和第二虚拟空间1112B的能量包络的形状相比不同指示的。

在图11C和图11E-1中呈现的示例中，不同的虚拟空间用于输出不同类型的音频内容(例如，摇滚音乐和古典音乐)，其中不同类型的音频内容是由同一应用程序诸如音乐应用程序产生的。

图11E-2至图11E-7示出了改变用于音乐应用程序的音频输出模式，并由此改变由设备100在执行音乐应用程序时经由该一个或多个音频输出设备输出的音频内容的空间音频特性。具体地，图11E-2至图11E-5示出了响应于一个或多个输入而调用应用程序用户界面上方的音频设置用户界面。图11E-2示出了设备100的触摸屏112上的用户界面1116B。在图11E-2中所示的示例中，用户界面1116B是音乐应用程序的用户界面。音乐应用程序正被用于向音频输出设备(例如，耳塞502、头戴式耳机、扬声器等)播放音乐，如由当前指示“暂停”的播放/暂停按钮1134指示的，该播放/暂停按钮指示在用户界面中表示的媒体项目正在播放。图11E-2还示出了在触摸屏112上检测到的输入1136(例如，从触摸屏112的右上角向下滑动的手势)。在图11E-3中，响应于输入1136(在图11E-2中)，在触摸屏112上显示设置用户界面1138。在一些实施方案中，设置用户界面1138覆盖在先前所显示的用户界面上并且至少部分地遮挡先前所显示的用户界面，在这种情况下是音乐应用程序用户界面1116B(图11E-1)。在一些实施方案中，设置用户界面1138替换先前所显示的用户界面。设置用户界面1138包括用于控制设备100的各种特征的多个控件，诸如标识正从音乐应用程序的播放的音乐并且包括播放/暂停以及后退和前进控件的媒体控件1139、数据连接控件、屏幕取向控件、亮度控件、音量控件1140以及到各种应用程序的快捷方式。

图11E-4示出了设置用户界面1138中的音量控件1140上的输入1142(例如，在音量控件1140上维持至少预先确定的时间量的轻击手势或长按手势)。在图11E-5中，响应于输入1142(在图11E-4中)而显示音频设置用户界面1144。在一些实施方案中，音频设置用户界面1144表示设置用户界面1138的子菜单。在图11E-5所示的示例中，音频设置用户界面1144包括用于调整音频输出音量的扩展音量控制滑块1146(例如，音频设置用户界面1144中的扩展音量控制滑块1146是设置用户界面1138中的音量控件1140的更大版本，并且具有与该音量控件类似的行为)、用于选择可用噪声控制音频输出模式作为当前噪声控制音频输出模式并且指示当前选择了主动噪声控制模式的噪声管理控件1148，以及用于启用(例如，激活)或停用(例如，去激活)空间音频输出模式的空间音频切换键1150。图11E-5中的空间音频切换键1150的示例性外观指示当前启用了空间音频。此外，在图11E-59所示的示例中，音频设置用户界面1144包括标识当前连接的一组音频输出设备的指示1152(例如，标识耳塞1162的标签“Larry的耳机”)、标识当前正在输出音频的应用程序的图标1154(例如，音乐应用程序图标)，以及标识当前正被输出的音频类型的指示1156(例如，指示当前正在播放空间音频的文本“空间音频正在播放”)。

图11E-6和图11E-7示出了改变空间音频输出模式设置。具体地，图11E-6示出了空间音频切换键1150上的输入1158(例如，轻击手势)。在图11E-7中，响应于空间音频切换键1150上的输入1168(在图11E-6中)，停用空间音频，如由空间音频切换键1160的外观和由指示1156(例如，指示立体声音频当前正被播放并且空间音频不再被播放的文本“立体声音频正在播放”)指示的。在该示例中，停用空间音频将空间音频输出模式从空间音频改变为空间化立体声。

空间音频输出模式是允许从该一个或多个音频输出设备(诸如，耳塞1108)输出的音频听起来如同该音频来自参照系(诸如，物理环境)中的一个或多个位置(例如，一个或多个声音源)(例如，环绕声效果)的模式，其中该一个或多个模拟或感知的声音源的定位与耳塞1108相对于参照系的移动无关。通常，该一个或多个感知声源在固定时相对于参照系固定，并且在移动时相对于参照系移动。例如，在参照系是物理环境的情况下，该一个或多个感知声源在物理环境中具有相应空间位置。当耳塞1108在物理环境各处移动时，调整来自耳塞1108的音频输出，使得该音频继续听起来如同来自物理环境中的相应空间位置处的该一个或多个感知声源。在该一个或多个声源是移动通过物理环境各处的一系列空间位置的移动源的情况下，调整来自耳塞1108的音频输出，使得该音频继续听起来如同来自物理环境中的该一系列空间位置处的该一个或多个感知声源。对于移动声源的这种调整还考虑了耳塞1108相对于物理环境的任何移动(例如，如果耳塞1108相对于物理环境沿着与移动声源类似的路径移动，以便维持与声源的恒定空间关系，则音频将以使得声音不会表现为相对于耳塞1108移动的形式输出)。

在一些实施方案中，空间音频效果的参照系被固定到经由耳塞1108或其他音频输出设备输出音频的电子设备(诸如设备100)(例如，声音跟随设备)，并且在本文中被称为“跟随设备”特征。例如，物理环境中的模拟音频源的位置对应于设备100在物理环境中的移动而移动。在以下情况下该特征可为有用的：当用户通过交通工具或以其他交通方式行进或步行等并且设备与用户一起移动，因此音频与设备以及用户一起在交通工具中移动时，或者在设备相对于音频输出设备移动并且与在设备上播放的视觉内容相关联，使得模拟声源位于与设备在物理环境周围移动时的位置对应的虚拟位置处的情形中。当未启用跟随设备特征时，音频输出不跟随设备100的移动。例如，空间音频相对于未固定到设备100的参照系来定位(例如，使得即使当设备100相对于参照系移动时，空间音频也不基于设备100的移动而移动)，并且非空间立体声或单声道音频相对于耳塞的位置来定位，并且不基于设备100被移动而移动。

如本文中所使用，“空间音频”是指包括被渲染以模拟放置在用户头部周围的虚拟扬声器的三个或更多个音频声道(例如，多于如在立体声音频中的仅左声道和右声道)的音频内容。如本文中所使用，“空间化立体声音频”是指经历向上放大算法并且即使底层立体声音频内容不具有多于两个声道也在空间上输出的双声道立体声音频内容。

在一些实施方案中，非空间音频输出模式是当该组一个或多个音频输出设备相对于参照系移动时不调整该组一个或多个音频输出设备的音频的音频输出模式(例如，导致不将该一个或多个声源维持在相对于参照系(例如，相对于三维环境或相对于与该一个或多个声源对应的显示的用户界面，诸如设备的显示器或投影的用户界面)的基本上固定的位置)。

返回到图11E-1，图11E-1还示出了用于从音乐应用程序切换到不同应用程序(例如，在设备100上的后台中执行的先前启动的应用程序)的输入1122。在图11L中，响应于输入1122(图11E)，在触摸屏112上显示用户界面1124A而不是音乐应用程序用户界面1116B。在图11G中所示的示例中，用户界面1124A是视频通话应用程序的用户界面。视频通话应用程序用户界面1124A包括视频通信会话中的多个参与者的表示，并且还任选地包括多个控件，诸如图11G中所示的控件A、B、C、D、E和N，这些表示任选地包括视频通信会话中的参与者中的一个或多个参与者或多个参与者的动态表示(例如，视频表示)。

图11F示出了便携式多功能设备100，此时设备100正在执行视频通话应用程序，其中用于视频通话应用程序的用户界面1124A被显示在设备110的显示器112上，并且来自视频通话应用程序的音频内容(例如，视频通信会话中的参与者的语音)由设备100经由前述一个或多个音频输出设备使用第四虚拟空间1112D来输出。

虽然图11F将虚拟空间1112D表示为模拟会议空间(诸如会议室)，但是模拟会议空间大厅仅为例示性示例。用于在视频通信会话期间呈现音频内容的虚拟空间1112D可能“看起来”不像会议空间或会议室，但可具有适于产生适于视频通信会话的音频特性或者适于具有与视频通信会话中的参与者的数量对应的数量的参与者的会议的模拟形状和尺寸。

图11F还包括能量图解1126，该能量图解示出了与第四虚拟空间1112D对应的音频滤波器的能量包络，其中由设备100和/或由与设备100通信的该一个或多个音频输出设备模拟视频通信会话的音频内容的产生。第四虚拟空间1112D具有分别与第一虚拟空间1112A、第二虚拟空间1112B和第三虚拟空间1112C不同的音频特性，如由第四虚拟空间1112D的能量包络的形状与第一虚拟空间1112A、第二虚拟空间1112B和第三虚拟空间1112C的能量包络的形状相比不同指示的。对于多个不同的虚拟空间的不同能量包络的示例，也参见图11U。

图11G至图11M示出了在一些实施方案中，当设备100执行视频通话应用程序并且输出来自正在进行的视频通信会话的音频时，设备100的用户不能改变该设备的空间音频输出模式。图11G还示出了在触摸屏112上检测到的输入1160(例如，从触摸屏112的右上角向下滑动的手势)。在图11H和图11I中，响应于输入1160(在图11G中)，在触摸屏112上显示设置用户界面1162。任选地，到显示设置用户界面1162的转变是动画转变，例如根据向下滑动手势的移动而进行并且在图11H和图11I中示出的动画转变。在一些实施方案中，设置用户界面1162覆盖在先前所显示的用户界面上并且至少部分地遮挡先前所显示的用户界面，在这种情况下是视频通话应用程序用户界面1124A(图11G)。在一些实施方案中，设置用户界面1162替换先前所显示的用户界面。设置用户界面1162包括用于控制设备100的各种特征的多个控件，诸如媒体控件、数据连接控件、屏幕取向控件、亮度控件、音量控件1164以及到各种应用程序的快捷方式。

图11J示出了设置用户界面1162中的音量控件1164上的输入1166(例如，在音量控件1164上维持至少预先确定的时间量的轻击手势或长按手势)。在图11K中，响应于输入1166(在图11J中)而显示音频设置用户界面1168。在一些实施方案中，音频设置用户界面1168表示设置用户界面1162的子菜单。在图11K所示的示例中，音频设置用户界面1168包括用于调整音频输出音量的扩展音量控制滑块1170(例如，音频设置用户界面1168中的扩展音量控制滑块1170是设置用户界面1162中的音量控件1164的更大版本，并且具有与该音量控件类似的行为)、用于选择可用噪声控制音频输出模式作为当前噪声控制音频输出模式并且指示当前选择了主动噪声控制模式的噪声管理控件1171，以及用于启用(例如，激活)或停用(例如，去激活)空间音频输出模式的空间音频切换键1172。图11K中的空间音频切换键1172的示例性外观指示空间音频当前被启用并且不能被用户停用。此外，如图11K所示，在一些实施方案中，音频设置用户界面1168包括标识当前连接的一组音频输出设备的指示(例如，标识耳塞1173的标签“Larry的耳机”)。在一些实施方案中，如图11E-5中所示但未在图11K中示出，音频设置用户界面1168包括标识当前正在输出音频的应用程序的图标(例如，在用户界面1168中，视频通话应用程序图标)，以及标识当前正被输出的音频类型的指示(例如，指示当前正在播放空间音频的文本“空间音频正在播放”)。

图11L和图11M示出了用户未成功试图改变空间音频输出模式设置。具体地，图11M示出了空间音频切换键1172上的输入1174(例如，轻击手势)。在图11M中，响应于空间音频切换键1172上的输入1174(在图11L中)，保持启用空间音频(例如，空间音频输出模式不响应于输入1174而改变)，如由空间音频切换切换键1172的外观和由指示1175(例如，指示当来自视频通话的音频内容正由该一个或多个音频输出设备输出时不能停用空间音频的文本“视频通话需要空间音频”)指示的。

图11N类似于上述图11F，不同之处在于由视频通话应用程序产生的音频内容包括由媒体项1176表示的共享媒体内容。与图11G至图11M类似，图11O至图11S示出了响应于用户输入1160A，用户当执行视频通话应用程序时访问设置用户界面1162。任选地，到显示设置用户界面1162的转变是动画转变，例如根据向下滑动手势的移动而进行并且在图11O和图11P中示出的动画转变。在一些实施方案中，设置用户界面1162覆盖在先前所显示的用户界面上并且至少部分地遮挡先前所显示的用户界面，在这种情况下是视频通话应用程序用户界面1124B(图11N)。在一些实施方案中，设置用户界面1162替换先前所显示的用户界面。如上所述，设置用户界面1162包括用于控制设备100的各种特征的多个控件，诸如媒体控件、数据连接控件、屏幕取向控件、亮度控件、音量控件1164以及到各种应用程序的快捷方式。

图11P示出了设置用户界面1162中的音量控件1164上的输入1166A(例如，在音量控件1164上维持至少预先确定的时间量的轻击手势或长按手势)。在图111Q中，响应于输入1166A(在图11P中)而显示音频设置用户界面1168。如上所述，在一些实施方案中，音频设置用户界面1168表示设置用户界面1162的子菜单。在图11Q所示的示例中，音频设置用户界面1168包括用于调整音频输出音量的扩展音量控制滑块1170(例如，音频设置用户界面1168中的扩展音量控制滑块1170是设置用户界面1162中的音量控件1164的更大版本，并且具有与该音量控件类似的行为)、用于选择可用噪声控制音频输出模式作为当前噪声控制音频输出模式并且指示当前选择了主动噪声控制模式的噪声管理控件1171，以及用于启用(例如，激活)或停用(例如，去激活)空间音频输出模式的空间音频切换键1172。图11Q中的空间音频切换键1172的示例性外观指示空间音频当前被启用并且不能被用户停用。此外，如图11Q所示，在一些实施方案中，音频设置用户界面1168包括标识当前连接的一组音频输出设备的指示(例如，标识耳塞1173的标签“Larry的耳机”)。在一些实施方案中，如图11E-5中所示但未在图11Q中示出，音频设置用户界面1168包括标识当前正在输出音频的应用程序的图标(例如，在用户界面1168中，视频通话应用程序图标)，以及标识当前正被输出的音频类型的指示(例如，指示当前正在播放空间音频的文本“空间音频正在播放”)。

图11R和图11S示出了用户未成功试图改变空间音频输出模式设置。具体地，图11R示出了空间音频切换键1172上的输入1174A(例如，轻击手势)。在图11S中，响应于空间音频切换键1172上的输入1174A(在图11R中)，保持启用空间音频(例如，空间音频输出模式不响应于输入1174A而改变)，如由空间音频切换切换键1172的外观和由指示1175(例如，指示当来自视频通话的音频内容正由该一个或多个音频输出设备输出时不能停用空间音频的文本“视频通话需要空间音频”)指示的。

图11T示出了在一些实施方案中，对于相同媒体项目或音频源(诸如相应电影)，当媒体项目或音频源由不同电子设备100和1190输出时，使用不同虚拟空间(例如，虚拟空间1112E和1112F)来模拟空间音频内容的产生。例如，基于正在经由该组一个或多个音频输出设备在模拟三维环境中输出音频内容的电子设备(例如，设备100或1190)的类型，相应电影的内容类别可被分配给不同类别的音频内容，每个音频内容与不同虚拟空间相关联。如图所示，与两个不同类别的音频内容对应的虚拟空间1112E和1112F具有不同的能量包络。

图11U示出了用于多个不同虚拟空间的混响能量包络和组合能量包络的几个示例，每个虚拟空间对应于基于正输出音频内容的电子设备的类型和提供音频内容的应用程序或正由电子设备输出的音频内容的内容类型两者确定的音频内容的类别。如图所示，不同虚拟空间的能量包络中可存在显著变化。

图12A至图12E是用于显示有多个参与者的动态视觉通信会话(例如，通信会话期间的视频通话应用程序的用户界面)和用于基于参与者的活动水平来在相对于设备的用户的模拟空间音频位置处输出参与者的音频的方法1200的流程图。方法1200在与一个多个显示生成部件(例如，触敏显示系统112(图1A)或显示器340(图3A))、一个或多个输入设备(例如，触敏显示系统112(图1A)或触控板355(图3A))和一组一个或多个音频输出设备(例如，一个或多个可穿戴音频输出设备301(图3B))通信的电子设备(例如，设备300(图3A)或便携式多功能设备100(图1A))处执行。方法1200中的一些操作任选地被组合，并且/或者一些操作的次序任选地被改变。

如下文所述，方法1200在不同模拟空间位置处输出来自通信会话中的不同参与者的音频，这有助于用户对不同参与者之间进行识别和区分，并且使得音频更易理解。当通信会话具有多于阈值数量的参与者时，在相同(例如，共享)模拟空间位置处输出这些参与者中的一些(例如，两个或更多个)参与者的音频(这在听觉上相对于其他参与者弱化了这些参与者)，向用户提供了指示具有共享模拟空间音频位置的参与者正在说话或产生低于阈值活动水平和/或低于其他参与者的音频的音频反馈，并且降低了原本将由于在过多模拟空间位置处输出音频而对用户造成的认知负担。为用户提供改进的反馈增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过帮助用户获得预期结果并减少操作设备/与设备交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备进一步减少了电力使用并且延长了设备的电池寿命。

设备经由该一个或多个显示生成部件显示(1202)包括通信会话中的多个参与者的相应视觉表示的用户界面，包括在用户界面中的第一位置处显示第一参与者的第一视觉表示(例如，参与者1的表示1001，图10A至图10J)以及在用户界面中的第二位置处显示与第一参与者不同的第二参与者的第二视觉表示(例如，参与者2的表示1003，图10A至图10J)。

设备经由该组一个或多个音频输出设备输出(1204)来自通信会话中的该多个参与者的音频，包括：根据确定该多个参与者包括第一数量的参与者(例如，N(例如，3、4或5)个或更少参与者)，使得(1206)该组一个或多个音频输出设备从多个不同模拟空间位置(例如，从N个不同模拟空间位置)输出来自该多个参与者的音频，而不从该多个不同模拟空间位置中的单个模拟空间位置输出来自该多个参与者中的多于一个参与者的音频(例如，不从该多个不同模拟空间位置中的任何单个模拟空间位置输出来自该多个参与者中的多于一个参与者的音频)；并且根据确定该多个参与者包括第二数量的参与者(例如，多于N个参与者)，使得(1208)该组一个或多个音频输出设备从共享模拟空间位置(例如，电子设备所位于的三维环境中的共享模拟位置)输出来自该多个参与者中的两个或更多个参与者(例如，来自每个名单参与者或来自该多个参与者中的两个或更多个参与者中的每个参与者)的音频(例如，从共享模拟空间位置输出来自名单参与者中的每个名单参与者的单独音频流)(例如，其中该多个参与者中的两个或更多个参与者包括该多个参与者的第一子集；并且电子设备从模拟空间位置输出来自该多个参与者中未被包括在该多个参与者的第一子集中的每个其他参与者的音频，该模拟空间位置不同于输出该多个参与者中的每个其他参与者的音频的模拟空间位置)。在一些实施方案中，即使第一参与者和第二参与者的视觉表示部分重叠，第一参与者的第一视觉表示的质心也不同于第二参与者的第二视觉表示的质心。例如，在图10A中，来自参与者1和参与者2的音频分别从两个不同的相应模拟空间位置1005和1007输出，而不从共享模拟空间位置输出音频；在图10B中，来自除了用户501之外以及除了参与者1、2、3和4之外的参与者的音频从共享模拟空间位置1012输出。

在一些实施方案中，该多个参与者中的两个或更多个参与者包括(1210)参与者的第一子集(例如，名单参与者)，并且除了第一子集之外，该多个参与者包括该多个参与者的第二子集(例如，非名单参与者)，并且根据确定该多个参与者包括第二数量的参与者，电子设备在用户界面中显示第二子集中的参与者的视觉表示和第一子集中的参与者的视觉表示。在一些此类实施方案中，第一子集中的参与者的视觉表示小于第二子集中的参与者的视觉表示(例如，其音频从共享模拟空间位置输出的该多个参与者中的每个参与者的视觉表示以比其音频从除了共享模拟空间位置之外的模拟空间位置输出的参与者中的每个参与者的视觉表示更小的尺寸显示在用户界面中)。例如，在图10B和图10C中，名单区域1004中的参与者的视觉表示小于聚焦区域1002中的参与者的视觉表示。将具有共享模拟空间音频位置的参与者(例如，名单参与者)的视觉表示显示为小于其他参与者(例如，非名单参与者)的视觉表示在视觉上弱化了名单参与者并且允许用户在视觉上聚焦于非名单参与者，向用户提供了名单参与者正在说话或产生低于阈值活动水平和/或低于不在名单中的那些参与者的音频的视觉反馈，并且有助于用户更好地将用户界面中的视觉表示与其对应音频相关联，这向用户提供了改进的反馈。

在一些实施方案中，该组一个或多个音频输出设备是(1212)一组一个或多个可穿戴音频输出设备(例如，一个或多个耳塞诸如耳塞502、包耳式头戴式受话器、或任何其他可穿戴收听设备)。关于当通信会话具有多于阈值数量的参与者时在同一(例如，共享)模拟空间位置处输出一些(例如，两个或更多个)参与者的音频，对于可穿戴音频输出设备而言，这样做有助于即使当用户在佩戴着音频输出设备时相对于音频通信会话的参照系移动时用户也可视化通信会话中的不同参与者以及他们相应的活动水平，这向用户提供了改进的反馈。

在一些实施方案中，第一参与者的第一视觉表示是(1214)第一参与者的动态视觉表示(例如，视频或动画图像)，并且第二参与者的第二视觉表示是第二参与者的动态视觉表示(例如，视频或动画图像)(例如，如本文参考图10A所述)。显示参与者的动态视觉表示有助于用户对不同参与者进行可视化和区分，这向用户提供了改进的反馈。

在一些实施方案中，根据该多个参与者中的相应参与者(例如，其音频在单独的(例如，非共享)模拟空间位置处输出的相应参与者)的活动状态的变化，电子设备改变(1216)用户界面中的相应参与者的视觉表示的视觉突出度或改变来自相应参与者的由该组一个或多个音频输出设备输出的音频的音频突出度(例如，如本文参考图10D至图10E中的参与者3、图10F至图10I中的参与者4和图10H至图10J中的参与者5所述)。例如，参与者的视觉表示的视觉突出度与所显示的参与者的视觉表示的尺寸和/或参与者的视觉表示被显示为与用户界面中的预定义(例如，中心)位置的靠近程度相关联；另选地，可使用视觉表示周围的轮廓或阴影来指示哪些参与者是活动水平最高的或者满足活动状态标准。在一些实施方案中，活动状态可以是语音活动水平、相应参与者的总音频音量水平或物理(身体移动，例如，举手或挥手来引起注意)活动水平等。随着参与者(例如，非名单参与者)的活动水平改变而改变该参与者的所显示的视觉表示的视觉突出度和/或来自该参与者的音频的音频突出度在视觉上强调或弱化了该参与者，向用户提供了该参与者的活动水平的变化的视觉反馈，并且有助于用户更好地将用户界面中的视觉表示与其对应音频相关联，这向用户提供了改进的反馈。

在一些实施方案中，改变相应参与者的视觉表示的视觉突出度包括(1218)以下项中的一项或多项：改变相应参与者的视觉表示的尺寸，以及改变显示层序列中显示相应参与者的视觉表示的层(例如，当前正在说话的参与者的视觉表示被放大并且可与当前没有说话的参与者的其他视觉表示部分重叠；并且在第一视觉表示与比第二视觉表示更高的层相关联的情况下，第一视觉表示将重叠在第二视觉表示之上达到第一视觉表示和第二视觉表示重叠的程度)(例如，如本文参考图10D至图10E中的参与者3的视觉表示1014的视觉突出度所述)。随着参与者的活动水平改变而改变参与者的所显示的视觉表示的尺寸和/或层在视觉上强调或弱化了该参与者，向用户提供了该参与者的活动水平的变化的视觉反馈，并且有助于用户更好地将用户界面中的视觉表示与其对应音频相关联，这向用户提供了改进的反馈。

在一些实施方案中，根据该多个参与者中的相应参与者的活动状态从不满足活动标准的活动状态(例如，音频活动状态)改变为满足活动标准的活动状态，电子设备执行(1220)转变操作，该转变操作包括使得该组一个或多个音频输出设备将来自相应参与者的音频的模拟空间位置从共享模拟空间位置改变为与共享模拟空间位置不同的相应模拟空间位置(例如，通过经由该组一个或多个音频输出设备在非共享模拟空间位置处输出该参与者的音频)(例如，另一个模拟位置也位于电子设备所位于的三维环境中)(例如，如本文参考图10H至图10J中的参与者5所述)。在一些实施方案中，可基于包括以下项的因素的组合来确定参与者的活动是否满足活动标准：总音频音量水平、视觉活动水平、语音检测等。当参与者的活动水平改变以满足活动标准时，将来自该参与者的音频的模拟空间位置移动到远离共享模拟空间位置的单独模拟空间位置在听觉上强调了该参与者并且向用户提供了该参与者的活动水平的变化(例如，增加)的音频反馈，这向用户提供了改进的反馈。

在一些实施方案中，根据该多个参与者中的相应参与者的活动状态从不满足活动标准的活动状态(例如，音频活动状态)改变为满足活动标准的活动状态，电子设备将相应参与者的视觉表示从用户界面的显示其活动状态不满足活动标准的参与者的视觉表示的第一区域逐渐移动(1222)到用户界面的显示其活动状态满足活动标准的参与者的视觉表示的第二区域(例如，除第一区域之外的任何地方)(例如，通过显示移动的动画转变)(例如，如本文参考图10H至图10J中的参与者5所述)(例如，视觉表示在为至少x(例如，0.05、0.1、0.2、0.5、1或2秒)且不大于y(例如，3、5、10或15秒)的时间段内在整个用户界面中从次要(例如，名单)位置逐渐移动到主要位置)(例如，任选地作为转变操作的一部分)。在一些实施方案中，逐渐移动的速率是预定义的固定速率；在一些实施方案中，逐渐移动的速率至少部分地基于相应参与者的活动水平。在一些实施方案中，相应参与者的视觉表示的尺寸在逐渐移动时改变(例如，放大)。当参与者的活动水平改变以满足活动标准时，将该参与者的视觉表示移出用户界面的用于不足够活动的参与者的视觉表示的区域并且移入用户界面的用于足够活动的参与者的视觉表示的区域在视觉上强调了该参与者，向用户提供了该参与者的活动水平的变化(例如，增加)的视觉反馈，并且有助于用户更好地将用户界面中的视觉表示与其对应音频(例如，其已被移动到远离共享模拟空间位置的单独模拟空间位置)相关联，这向用户提供了改进的反馈。

在一些实施方案中，转变操作包括(1224)将相应参与者的音频的模拟空间位置从共享模拟空间位置逐渐(例如，在与视觉转变相同的时间段内)改变为相应模拟空间位置(例如，如本文参考图10H至图10J中的参与者5所述)。逐渐移动来自其活动水平已改变以满足活动标准的参与者的音频的模拟空间位置(以及任选地该参与者的视觉表示)提供了更平滑的转变，这有助于用户持续跟踪参与者以及参与者的相关联的模拟空间音频位置，这向用户提供了改进的反馈。

在一些实施方案中，根据(例如，响应于检测到)该多个参与者中的相应参与者的活动状态从满足活动标准的活动状态改变为不满足活动标准的活动状态，电子设备执行(1226)第二转变操作，该第二转变操作包括使得该组一个或多个音频输出设备将来自相应参与者的音频的模拟空间位置从与共享模拟空间位置不同的非共享模拟空间位置改变为共享模拟空间位置(例如，将相应参与者的模拟空间位置改变为名单的共享模拟空间位置)(例如，如本文参考图10F至图10H中的参与者4所述)。如上文所讨论的，活动状态可为语音活动水平、相应参与者的总音频音量水平或物理(例如，身体移动)活动水平等。当参与者的活动水平停止满足活动标准时，将来自该参与者的音频的模拟空间位置从单独的非共享模拟空间位置移动到共享模拟空间位置在听觉上弱化了该参与者并且向用户提供了该参与者的活动水平的变化(例如，降低)的音频反馈，这向用户提供了改进的反馈。

在一些实施方案中，第二转变操作包括(1228)将相应参与者的视觉表示从用户界面的显示其活动状态满足活动标准的参与者的视觉表示的区域(例如，如本文参考操作1222所述的第二区域)逐渐(例如，与第一转变操作的视觉转变的至少一部分(或全部)同时)移动到用户界面的显示其活动状态不满足活动标准的参与者的视觉表示的区域(例如，如本文参考操作1222所述的第一区域)(例如，如本文参考图10F至图10I中的参与者4所述)(例如，视觉表示在整个用户界面中从第一位置逐渐移动到第二位置)。在一些实施方案中，结合操作1226的第二转变操作(例如，还根据该多个参与者中的相应参与者的活动状态从满足活动标准的活动状态改变为不满足活动标准的活动状态)来执行将相应参与者的视觉表示逐渐移动到用户界面的显示其活动状态不满足活动标准的参与者的视觉表示的区域。在一些实施方案中，相应参与者的视觉表示的尺寸在逐渐移动时改变(例如，减小)。当参与者的活动水平停止满足活动标准时，将该参与者的视觉表示移出用户界面的用于足够活动的参与者的视觉表示的区域并且移入用户界面的用于不足够活动的参与者的视觉表示的区域在视觉上弱化了该参与者，向用户提供了该参与者的活动水平的变化(例如，降低)的视觉反馈，并且有助于用户更好地将用户界面中的视觉表示与其对应音频(例如，其已被移动到共享模拟空间位置)相关联，这向用户提供了改进的反馈。

在一些实施方案中，第二转变操作包括(1230)将来自相应参与者的音频的模拟空间位置从非共享模拟空间位置逐渐(例如，在与视觉转变相同的时间段内)改变为共享模拟空间位置(例如，如本文参考图10F至图10H中的参与者4所述)。逐渐移动来自其活动水平已停止满足活动标准的参与者的音频的模拟空间位置(以及任选地该参与者的视觉表示)提供了更平滑的转变，这有助于用户持续跟踪参与者以及参与者的相关联的模拟空间音频位置，这向用户提供了改进的反馈。

在一些实施方案中，当电子设备处于第一虚拟显示模式时，电子设备使得(1232)该组一个或多个音频输出设备在单独的(非共享)模拟空间位置(例如，单独空间化的位置，这些单独空间化的位置中的每一者与共享模拟空间位置和所有其他单独的模拟空间位置不同)处输出来自该多个参与者中的至多但不超过第三数量的参与者的音频。在一些此类实施方案中，当电子设备处于第二虚拟显示模式时，电子设备使得该组一个或多个音频输出设备在单独的模拟空间位置处输出该多个参与者中的至多但不超过第四数量的参与者的音频，其中第四数量不同于第三数量(例如，根据电子设备的视觉显示模式(例如，平铺vs有机整体)来确定该多个参与者中的其音频在单独的(非共享)模拟空间位置处输出的参与者的数量)(例如，当从以第一(平铺)布局显示多个参与者的视觉表示的第一虚拟显示模式改变为以第二(例如，浮动)布局显示视觉表示的第二虚拟显示模式，其中平铺块基于活动水平来定位，或反之亦然，电子设备改变其音频从共享模拟空间位置(例如，名单模拟空间位置)输出的相应参与者的数量，其中来自所有其他参与者的音频从单独空间化的位置输出)(例如，如果不同数量的模拟空间位置用于图10B中所示的网格视图而非用于图10C中所示的浮动视图)。针对不同设备显示模式使用不同数量的模拟空间音频位置有助于用户以与如何在视觉上表示通信会话以及如何显示不同参与者的视觉表示一致的方式来对不同参与者进行可视化和区分，这向用户提供了改进的反馈。

在一些实施方案中，根据其中使用该一个或多个显示生成部件来显示用户界面的用户界面窗口的尺寸(以及任选地，取向)来确定(1234)该多个参与者中的其音频在单独的(非共享)模拟空间位置处输出的参与者的数量(例如，参与者的具体数量或者说有多少参与者)(例如，如本文参考图10O所述)。针对不同用户界面窗口尺寸使用不同数量的模拟空间音频位置有助于用户以与如何在视觉上表示通信会话以及如何显示不同参与者的视觉表示一致的方式来对不同参与者进行可视化和区分，这向用户提供了改进的反馈。

在一些实施方案中，根据确定通信会话中的参与者的数量从多于两个参与者改变为正好两个参与者，其中这两个参与者包括第一参与者(例如，除了电子设备的用户之外的参与者)，电子设备从从模拟空间位置输出来自第一参与者的音频改变(1236)为在没有空间化的情况下输出来自第一参与者的音频(例如，作为立体声或单声道音频输出)(例如，将来自第一参与者的音频的空间化特性从空间化改变为非空间化)(例如，如本文参考图10L至图10M所述)。当通信会话具有正好两个参与者(例如，用户和正好一个其他参与者)时，损失了空间化的至少一些益处(例如，有助于用户对其他参与者进行识别和区分)。在这种情形中，对于有正好两个参与者的通信会话，在没有空间化的情况下输出音频减少了原本由于空间化音频所需的计算而对设备造成的计算负担，并且使得能够自动地执行一个或多个操作。

在一些实施方案中，该多个参与者中的其音频在单独的(例如，非共享)模拟空间位置处输出的两个或更多个参与者包括(1238)该多个参与者的第三子集，并且该多个参与者中的其音频在共享模拟空间位置处输出的两个或更多个其他参与者包括该多个参与者的第四子集。在一些此类实施方案中，第三参与者子集的视觉表示以多种不同尺寸来显示(例如，在第三子集中的参与者的表示以彼此不同的尺寸显示在用户界面中)，并且第四参与者子集的视觉表示各自以相同尺寸显示在用户界面中(例如，如本文参考图10B和图10E所述)。在一些实施方案中，第三参与者子集的相应视觉表示各自响应于每个参与者的活动水平的改变而改变尺寸。以彼此相同的尺寸显示具有共享模拟空间音频位置的参与者(例如，名单参与者)的视觉表示，并且以彼此不同的尺寸显示其他参与者(例如，非名单参与者)的视觉表示，提供了与名单参与者具有共享模拟空间位置一致而与非名单参与者具有单独模拟空间位置相反的视觉反馈，并且增强了名单参与者与非名单参与者之间的区别，这向用户提供了改进的反馈。

在一些实施方案中，当在第二通信会话中时(1240)：根据确定该多个参与者包括单个外部参与者(和电子设备的用户)并且不存在与单个外部参与者相关联的视觉表示，电子设备经由该组一个或多个音频输出设备输出与单个外部参与者对应的非空间化音频(例如，非空间化音频包括在相对于生成非空间化音频的一个或多个音频输出设备的固定位置处生成的立体声或单声道音频，而不考虑电子设备和/或该组一个或多个音频输出设备的移动)；并且根据确定该多个参与者包括单个外部参与者(和电子设备的用户)并且与该单个外部参与者相关联的视觉表示可用于在电子设备处显示(例如，即使电子设备屏幕关闭，或者即使第二通信的用户界面当前未被显示)，电子设备经由该组一个或多个音频输出设备在与单个外部参与者对应的模拟空间位置处输出音频(例如，如本文参考图10N所述)。当通信会话具有正好两个参与者(例如，用户和正好一个其他参与者)时，损失了空间化的至少一些益处(例如，有助于用户对其他参与者进行识别和区分)。与在其他参与者的视觉表示可用的情况下，通信会话的空间化益处损失相比，在其他参与者的视觉表示都不可用的情况下，用户与其他参与者之间的仅音频通信会话的空间化益处损失更多。因此，针对两个参与者在没有空间化的情况下输出音频，仅音频通信会话减少了原本由于将对音频进行空间化所需的计算而对设备造成的计算负担，而针对具有所显示的或至少可用的其他参与者的视觉表示的通信会话在具有空间化的情况下输出音频使得通信会话感觉更直观并且有助于用户更好地将用户界面中的视觉表示与其对应音频相关联，这使得能够自动执行一个或多个操作并且向用户提供改进的反馈。

在一些实施方案中，当在第二通信会话中时，电子设备(1242)：确定附加参与者正在加入第二通信会话；并且响应于确定附加参与者正在加入第二通信会话：根据确定显示了第二通信会话中的参与者的视觉表示，继续在模拟空间位置处输出来自第二通信会话中的参与者的音频；并且根据确定未显示第二通信会话中的参与者的视觉表示，从在没有空间化的情况下输出来自第二通信会话中的参与者的音频转变为在模拟空间位置处输出来自第二通信会话中的参与者的音频(例如，如本文参考图10L至图10M所述)。根据附加参与者加入了通信会话(例如，导致三个或更多个参与者包括用户)，切换为针对仅音频通信会话输出空间化音频，以及继续针对具有可用的参与者的视觉表示的通信会话输出空间化音频，有助于用户对不同参与者进行识别和区分并且使得音频更易理解，这使得能够自动执行一个或多个操作并且向用户提供了改进的反馈。

在一些实施方案中，共享模拟空间位置(1244)在三维环境中比输出该多个参与者中的其音频在单独的模拟空间位置处输出的两个或更多个(例如，每个)参与者的音频的单独的模拟空间位置更低(例如，在y或z轴上更低；在其下方)(例如，如本文参考图10B所述)。将共享模拟空间音频位置(例如，用于来自名单参与者的音频)定位成在三维环境中在空间上比单独的模拟空间位置(例如，用于来自非名单参与者的音频)更低在听觉上弱化了名单参与者并且允许用户在听觉上聚焦于非名单参与者，并且向用户提供了名单参与者正在说话或产生低于阈值活动水平和/或低于不在名单中的那些参与者的音频的音频反馈，这向用户提供了改进的反馈。

在一些实施方案中，电子设备在用户界面中与单独的模拟空间位置对应的位置处显示(1246)该多个参与者中的其音频在单独的(例如，非共享)模拟空间位置处输出的两个或更多个参与者在用户界面中的视觉表示(例如，如果第一用户的视觉表示在第二用户的视觉表示的右侧，则第一用户的音频被空间化到在第二用户的音频的模拟空间位置的右侧的模拟空间位置；如果第一用户的视觉表示在第二用户的视觉表示的左侧，则第一用户的音频被空间化到在第二用户的音频的模拟空间位置的左侧的模拟空间位置；如果第一用户的视觉表示在第二用户的视觉表示的上方，则第一用户的音频被空间化到在第二用户的音频的模拟空间位置的上方的模拟空间位置；并且/或者如果第一用户的视觉表示在第二用户的视觉表示的下方，则第一用户的音频被空间化到在第二用户的音频的模拟空间位置的下方的模拟空间位置)。将其音频在单独的模拟空间位置处输出的参与者(例如，非名单参与者)的视觉表示定位在用户界面中与单独的模拟空间位置对应的位置处(例如，如本文参考图10A至图10C所述)有助于用户对不同参与者进行可视化和区分，并且更好地将用户界面中的视觉表示与其对应音频相关联，这向用户提供了改进的反馈。

在一些实施方案中，根据(例如，响应于检测到)与该多个参与者中的参与者相关联的相应视觉表示在用户界面内的位置的变化，电子设备改变(1248)参与者的相应模拟空间位置(例如，将其改变为与相应视觉表示在用户界面中的改变的位置对应的模拟空间位置)(例如，如本文参考图10B至图10C所述)。随着参与者的视觉表示在用户界面中移动而改变该参与者的模拟空间位置有助于用户更好地将用户界面中的视觉表示与其对应音频相关联，这向用户提供了改进的反馈。

应当理解，对图12A至图12E中的操作进行描述的具体次序仅仅是示例性的，并非旨在表明所述次序是可以执行这些操作的唯一次序。本领域的普通技术人员会想到多种方式来对本文所述的操作进行重新排序。另外，应当注意，本文相对于本文所述的其他方法(例如，方法700、800和1300)所述的其他过程的细节同样以类似的方式适用于上文相对于图12A至图12E所述的方法1200。例如，上文参考方法1200所述的用户界面、交互和动画任选地具有本文参考本文所述的其他方法(例如，方法700、800和1300)所述的用户界面、交互和动画的特征中的一个或多个特征。

图13A至图13E示出了根据一些实施方案的用于使音频输出设备模拟在多个虚拟空间中的一个虚拟空间中产生空间音频内容的过程的流程图。方法1300在与显示生成部件(例如，触敏显示系统112(图1A)或显示器340(图3A))、一个或多个输入设备(例如，触敏显示系统112(图1A)或触控板355(图3A))和一组一个或多个音频输出设备(例如，一个或多个可穿戴音频输出设备301(图3B))通信的计算系统(例如，设备300(图3A)或便携式多功能设备100(图1A))处执行。方法1300中的一些操作任选地被组合，并且/或者一些操作的次序任选地被改变。

如下文所述，方法1300通过使用不同虚拟空间模拟音频内容的产生来输出不同类别的音频内容。提供改善的空间音频改善了使用方法1300的设备的音频功能，并且更好地模拟或模仿在各种不同物理环境中听到不同类别的音频内容的音频体验。从计算机系统(例如，电子设备诸如智能电话、平板电脑、智能手表、膝上型计算机等)的用户的观点来看，方法1300使得用户在由计算机系统执行的应用程序播放包括音频内容的内容(例如，媒体项目)时能够听到在多个模拟音频环境(在本文中也被称为虚拟空间)中的任一个模拟音频环境中产生的空间音频内容，每个模拟音频环境具有不同音频特性，其中计算机系统的音频输出设备自动模拟在根据正在播放的内容的类别来选择的虚拟模拟音频环境中产生音频内容。在输出音频内容时，基于正在播放的内容的类别来自动选择要用于模拟产生音频内容的虚拟空间减少了产生具有适于正在播放的音频内容的音频特性的空间音频所需的用户输入，并且通过消除用户在回放音频内容时选择要使用的适当虚拟空间的需要而减少了用户错误。

在不需要附加用户输入的情况下基于预定义标准来自动执行操作减少了执行操作(诸如，切换用于模拟产生音频内容的虚拟空间)所需的输入的数量，并且还由于用户不需要确定使用哪个虚拟空间而减少了用户的认知负担。减少使用适当虚拟空间产生空间音频所需的输入的数量增强了设备的可操作性，并且使用户-设备界面更高效(例如，通过减少用户输入的数量并减少操作设备/与设备进行交互时的用户错误)，这还通过使用户能够更快速且高效地使用设备而减少了电力使用并且延长了设备的电池寿命。

电子设备经由该一个或多个音频输出设备接收(1302)输出音频内容的请求。例如，请求可为播放歌曲、播放电影、开始电话呼叫、开始视频通话、玩游戏等的请求，并且可在设备正经由一个或多个显示生成部件或显示设备显示用于相应应用程序的用户界面时接收该请求。响应于接收到经由该一个或多个音频输出设备输出音频内容的请求，以及根据确定音频内容包括使得音频内容能够空间化的信息(例如，空间音频信息)，电子设备经由该组一个或多个音频输出设备在模拟三维环境中输出(1304)音频内容。输出(1304)音频内容包括：根据确定(例如，第一确定)该音频内容对应于(例如，是或属于)第一类别的内容，使得(1306)该一个或多个音频输出设备模拟在第一虚拟空间中产生该音频内容。例如，使用表示第一虚拟空间的第一组音频空间化参数来对空间音频内容进行空间化。需注意，可存在许多不同类型的音频内容，诸如但不限于音乐(包括不同类型的音乐/歌曲/流派)、无线电广播节目和其他音频节目、播客、包括音频内容的视频(不同类型的视频)、视频/音频聊天流等。

输出(1304)音频内容还包括根据确定(例如，第二确定)音频内容对应于(例如，是或属于)第二类别的内容，使得(1308)该一个或多个音频输出设备模拟在具有不同模拟声学属性的第二虚拟空间中产生音频内容。例如，与第一虚拟空间的模拟声学属性不同的第二虚拟空间的模拟声学属性任选地包括不同程度的混响、不同程度或量的音频反射、不同的直达能量与混响能量的比率和/或这些参数随时间的变化。在一些实施方案中，当使用第二虚拟空间时，使用表示第二虚拟空间的第二组音频空间化参数来对空间音频进行空间化，该第二组音频空间化参数不同于表示第一虚拟空间的第一组音频空间化参数。上文参考图11B和图11C描述了与不同类别的内容一起使用的第一虚拟空间和第二虚拟空间(例如，虚拟空间1112A和1112B)的示例。

从音频输出设备的角度来看，音频输出设备响应于请求而被配置为输出音频内容以便模拟在第一虚拟空间或第二虚拟空间(如(例如，由电子设备)基于正被输出的音频内容的类别来确定)中产生音频内容。

在一些实施方案中，响应于接收到经由该一个或多个音频输出设备输出音频内容的请求，以及根据确定音频内容不包括使得音频内容能够空间化的信息，电子设备在不对音频内容进行空间化的情况下输出(1310)该音频内容。例如，立体声或单声道音频内容不包括使得音频内容能够空间化的信息，并且在不对音频内容进行空间化的情况下输出这种音频内容。当音频内容不包括使得音频内容能够空间化的信息时，在不对音频内容进行空间化的情况下自动输出该音频内容通过避免对音频内容的不必要空间化而改善了电子设备的操作，并且潜在地减少了电力使用并且延长了电子设备的电池寿命。

在一些实施方案中，输出(1304)音频内容还包括根据确定(例如，第三确定)音频内容对应于(例如，是或属于)与第一类别和第二类别不同的第三类别的内容，使得(1321)该一个或多个音频输出设备模拟在第三虚拟空间中产生音频内容，该第三虚拟空间具有与第一虚拟空间的模拟声学属性和第二虚拟空间的模拟声学属性不同的模拟声学属性。如上所述，当音频内容对应于第三类别的内容时，通过使用第三虚拟空间模拟产生音频内容来使用第三虚拟空间自动输出音频内容，通过在无需用户确定使用哪个虚拟空间的情况下改变用于模拟产生音频内容的虚拟空间而改善了电子设备的操作。上文参考图11E描述了具有与第一虚拟空间(例如，虚拟空间1112A)的模拟声学属性和第二虚拟空间(例如，虚拟空间1112B)的模拟声学属性不同的模拟声学属性的第三虚拟空间(例如，虚拟空间1112C)的示例。

在一些实施方案中，相应音频源是相应应用程序，并且方法1300包括(例如，自动)根据相应应用程序来确定(1314)音频内容的类别。例如，相应应用程序可以是音乐应用程序、视频聊天应用程序、移动应用程序、电视应用程序、电话应用程序等。上文相对于图11B(电影应用程序，虚拟空间1112A)、图11C(音乐应用程序，虚拟空间1112B)和图11F(视频通话应用程序，虚拟空间1112D)讨论了此类应用程序和用于模拟产生来自这些应用程序的音频内容的对应虚拟空间的示例。基于为音频内容的源的相应应用程序来自动确定音频内容的类别，通过在无需用户必须确定使用哪个虚拟空间的情况下自动选择用于模拟产生音频内容的虚拟空间而改善了电子设备的操作，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些实施方案中，相应音频源是相应应用程序，并且根据相应应用程序来确定(1316)与音频内容对应的类别，而不考虑在该组一个或多个音频输出设备输出音频内容时相应应用程序正在播放的媒体的内容类型。例如，在一些实施方案中，当相应应用程序(例如，音乐应用程序)正在播放第一类型的音频内容(例如，音乐，图11C)时，电子设备使得(1317)该一个或多个音频输出设备模拟在第一虚拟空间(例如，虚拟空间1112B，图11C)中产生第一类型的音频内容，并且当相应应用程序正在播放第二类型的音频内容(例如，音乐视频，图11D)时，电子设备使得该一个或多个音频输出设备模拟在第一虚拟空间(例如，虚拟空间1112B，图11D)中产生第二类型的音频内容。

类似地，在一些实施方案中，相应音频源是包括第一音频内容和第二音频内容的应用程序，并且当应用程序正在执行时，根据确定第一音频内容对应于(例如，是或属于)第一类别的内容，电子设备使得(1318)该一个或多个音频输出设备模拟在第一虚拟空间中产生音频内容；但是，根据确定第二音频内容对应于第二类别的内容，电子设备使得(1318)该一个或多个音频输出设备模拟在第一虚拟空间中产生音频内容。

与刚才描述的实施方案相反，在一些实施方案中，方法1300包括根据正在播放的相应媒体的内容类型来确定(1320)音频内容的类别，而不考虑提供音频内容的相应应用程序。例如，对于音乐，电子设备模拟在第一虚拟空间/房间中产生音频内容(例如，如上文相对于图11C所述)；对于视频或音频聊天，电子设备模拟在第二虚拟空间/房间中产生音频内容(例如，如上文相对于图11F所述)；对于电视内容，电子设备模拟在第三虚拟空间/房间中产生音频内容；并且对于电影，电子设备模拟在第四虚拟空间/房间中产生音频内容(例如，如上文相对于图11B所述)。

基于正在播放的媒体的内容类型来自动确定音频内容的类别，而不考虑提供音频内容的相应应用程序，通过在无需用户必须确定使用哪个虚拟空间的情况下自动选择用于模拟产生音频内容的虚拟空间而改善了电子设备的操作，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些此类实施方案中，其中根据正在播放的相应媒体的内容类型来确定(1320)音频内容的类别，而不考虑提供音频内容的相应应用程序，并且电子设备经由该组一个或多个音频输出设备输出来自包括与相应应用程序不同的第二应用程序的第二相应音频源的音频内容，方法1300包括(1322)根据确定来自第二相应音频源的音频内容对应于(例如，是或属于)第一类别的内容，使得该一个或多个音频输出设备模拟在第一虚拟空间中产生来自相应第二音频源的音频内容。在一些实施方案中，在确定由相应应用程序提供的音频内容对应于第一类别的内容之后，电子设备检测来自第二应用程序的新音频内容是否具有与由相应应用程序提供的音频内容相同的内容类型。如果是，则电子设备使得该一个或多个音频输出设备模拟在第一虚拟空间中产生来自第二应用程序的新音频内容。例如，使用与紧接在接收到输出新音频内容的请求之前用于输出音频内容的虚拟空间相同的虚拟空间来输出新音频内容，即使新音频内容来自与来自相应音频源的音频内容不同的应用程序。

在一些实施方案中，基于内容的类型(例如，音乐、视频、视频聊天等)以及哪个应用程序正在提供音频内容(例如，视频聊天应用程序、音乐应用程序、电视/电影应用程序；并且任选地基于提供音频内容的应用程序的类型，而不是哪个特定应用程序正在提供音频内容，或者任选地基于提供音频内容的特定应用程序))两者来对音频内容进行分类(1330)。例如，实现图11B、图11C和图11D全部三幅图中所示的内容分类和虚拟空间选择的设备或系统是对音频内容进行分类并且基于内容的类型和提供该内容的应用程序两者来确定要使用的虚拟空间的设备或系统的示例。基于正在播放的媒体的内容类型并且还基于提供音频内容的相应应用程序来自动确定音频内容的类别，通过在无需用户必须确定使用哪个虚拟空间的情况下自动选择用于模拟产生音频内容的虚拟空间而改善了电子设备的操作，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些实施方案中，例如先前所讨论的实施方案中的任一个实施方案中，第一虚拟空间的模拟声学属性对应于第一物理空间的检测到的声学属性，并且第二虚拟空间的模拟声学属性对应于与第一物理空间不同的第二物理空间的检测到的声学属性(1332)。因此，对于每个虚拟空间，多个声学响应特性中的相应(例如，至少一个)声学响应特性(例如，混响、频率阻尼等)基于对应物理空间的相同的相应声学响应特性。例如，图11V在左侧示出了虚拟空间1112E的音频特性的示例，并且在右侧示出了与虚拟空间1112E对应(例如，被用作虚拟空间的模型或起始点)的物理空间的音频特性的示例。自动提供具有与各种物理空间的检测到的声学属性对应(但不一定相同)的模拟声学属性的虚拟空间，通过模拟在具有与各种“真实”物理空间类似的声学属性的虚拟空间中产生音频内容而改善了电子设备的操作。此外，这避免了用户必须确定要分配给用于模拟产生音频内容的虚拟空间的声学属性，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些实施方案中，与对应的第一物理空间的声学响应特性相比，第一虚拟空间的声学响应特性具有对在一个或多个频率范围中的音频内容的经修改(例如，增加的或减少的)声学响应(例如，混响)(1333)。如上所述，自动提供具有与各种物理空间的检测到的声学属性对应但不相同的模拟声学属性的虚拟空间，通过模拟在具有与各种“真实”物理空间类似但不完全相同的声学属性的虚拟空间中产生音频内容而改善了电子设备的操作。

在一些实施方案中，模拟在第一虚拟空间中产生音频内容包括(例如，自动)模拟(1334)与模拟在第二虚拟空间中产生音频内容不同量的混响(例如，第一虚拟空间和第二虚拟空间具有不同混响特性)。例如，图11B的虚拟空间1112A和图11C的虚拟空间1112B模拟不同量的混响，如图11B和图11C中的能量包络图解所示。自动提供具有不同量的混响的虚拟空间通过模拟在具有与具有不同量的混响的各种“真实”物理空间的声学属性类似的声学属性的虚拟空间中产生音频内容而改善了电子设备的操作。此外，这避免了用户必须确定要分配给用于模拟产生音频内容的虚拟空间的声学属性，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些实施方案中，模拟在第一虚拟空间中产生音频内容包括(例如，自动)模拟(1336)与模拟在第二虚拟空间中产生音频内容不同方向的混响(例如，第一虚拟空间和第二虚拟空间具有不同声学响应特性，包括不同方向性混响特性)。如上所述，自动提供具有不同方向性混响特性的虚拟空间通过模拟在具有与具有不同量的混响的各种“真实”物理空间的声学属性类似的声学属性的虚拟空间中产生音频内容而改善了电子设备的操作。此外，这避免了用户必须确定要分配给用于模拟产生音频内容的虚拟空间的声学属性，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些实施方案中，模拟在第一虚拟空间中产生音频内容包括模拟(1338)与模拟在第二虚拟空间中产生音频内容不同频率范围的混响(例如，第一虚拟空间和第二虚拟空间具有不同声学响应特性，包括不同频率范围的混响)。

在一些实施方案中，第一虚拟空间具有第一模拟尺寸，并且第二虚拟空间具有与第一模拟尺寸不同的第二模拟尺寸(1340)。在一些实施方案中，第一虚拟空间和第二虚拟空间在模拟尺寸和模拟几何形状方面都不同，例如以提供针对对应内容类别定制或配置的声学特性。例如，图11B的虚拟空间1112A和图11C的虚拟空间1112B可具有不同的模拟尺寸。自动提供具有不同虚拟尺寸和对应地不同的音频特性的虚拟空间通过模拟在具有与具有不同尺寸的各种“真实”物理空间的声学属性类似的声学属性的虚拟空间中产生音频内容而改善了电子设备的操作。此外，这避免了用户必须确定要分配给用于模拟产生音频内容的虚拟空间的声学属性，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些实施方案中，方法1300包括：经由耦接到电子设备的一个或多个显示设备或显示生成部件显示(1342)用户界面，该用户界面包括用于改变经由该组一个或多个音频输出设备输出的音频的空间音频特性(例如，用于改变应用程序是否被配置为使用空间音频、空间化立体声或立体声来输出音频内容)的控件；以及检测(1344)用于改变空间音频特性的控件(例如，按钮)处(例如，上)的输入。响应于检测到输入，根据确定在与第一类别对应(例如，是或属于第一类别)的内容的音频内容正由该组一个或多个音频输出设备输出时选择用于改变空间音频特性的控件，电子设备改变(1346)正由该组一个或多个音频输出设备输出的音频内容的空间音频特性(例如，在两种或三种模式(诸如空间化、立体声(非空间化)和空间化立体声模式)之间切换或轮换)。例如，第一类别可对应于来自由相应应用程序提供(例如，播放)的媒体的音频，或者第一类别可代表特定类型的音频内容，诸如音乐或诸如特定类型或流派的音乐，在这种情况下，允许用户改变经由该组一个或多个音频输出设备输出的音频的空间音频特性。例如，图11E-5示出了音频设置用户界面1144，该音频设置用户界面是包括用于改变经由一组一个或多个音频输出设备输出的音频的空间音频特性的控件的用户界面的示例，并且图11E-6和图11E-7示出了用于改变经由该组一个或多个音频输出设备输出的音频的空间音频特性的输入和所造成的经由该组一个或多个音频输出设备输出的音频的空间音频特性的变化。

此外，响应于检测到输入，根据确定在与第二类别对应(例如，是或属于第二类别)的内容(例如，来自正在进行的通信会话的音频)的音频内容正由该组一个或多个音频输出设备输出时选择用于改变空间音频特性的控件，电子设备放弃(1347)改变空间音频特性。例如，在一些实施方案中，根据确定在包括媒体的正在进行的空间化通信会话正在发生时选择用于改变媒体的空间特性的控件，设备放弃改变(防止用户改变)包括媒体的正在进行的空间化通信会话的空间特性。例如，图11K至图11M示出了一个示例，其中响应于检测到用于改变空间音频特性的控件(例如，空间音频切换键1172)上的输入(例如，输入1174)，电子设备根据确定当前正由该一个或多个音频输出设备输出的音频内容是来自正在进行的视频通信会话的音频而放弃改变空间音频特性。

使得用户能够针对一些应用程序或针对一些类别的内容而非其他类别的内容改变空间音频设置，在这种控制与正被输出的内容类别兼容的上下文中向用户提供了对空间音频特性的控制，同时在这种控制与正被输出的内容类别不兼容的上下文中防止用户调整那些相同的空间音频特性。

在一些实施方案中，输出音频内容还包括：根据确定音频内容对应于多个参与者之间的视频通信会话，使得(1348)该一个或多个音频输出设备模拟在第三虚拟空间(例如，视频通信虚拟空间，诸如上文相对于图11F所讨论的虚拟空间1112D)中产生音频内容，该第三虚拟空间具有与第一虚拟空间和第二虚拟空间的模拟声学属性不同的模拟声学属性。此外，在此类实施方案中，该方法包括：当该多个参与者共享媒体内容并且音频内容包括来自所共享的媒体内容的音频时，继续使得(1350)该一个或多个音频输出设备模拟在第三虚拟空间中产生音频内容。例如，如果在正在进行的视频通信会话期间播放音乐，则第三虚拟空间将继续用于在模拟三维环境中输出音频内容，如上文相对于图11O至图11P所讨论的。此外，在一些实施方案中，防止用户改变用于模拟产生音频内容的虚拟空间，如上文参考图11P至图11S所讨论的。

在一些实施方案中，在视频通信会话期间使用特定预定义虚拟空间来模拟产生音频，以促进参与者将特定空间位置与特定参与者相关联的能力，并且即使当音乐或其他媒体内容由通信会话的参与者共享时仍继续使用相同的预定义虚拟空间确保了即使当通信会话的音频内容包括除了参与者的语音之外的音频时仍继续使用特定预定义虚拟空间的空间音频特性。

在一些实施方案中，与第一类别对应的音频内容是通信音频内容，与第二类别对应的音频内容是媒体音频内容，并且第一虚拟空间模拟(1352)比第二虚拟空间更小的空间(例如，通过使得该一个或多个音频输出设备在音频内容对应于第一类别的情况下模拟在与音频内容对应于第二类别的情况相比更小的虚拟空间中产生音频内容)。用于模拟产生通信音频内容的虚拟空间的示例是图11F至图11S的虚拟空间1112D。基于观察到大多数洽谈室或会议室小于进行音乐表演的空间，自动将比用于播放特定类别的媒体内容的虚拟空间更小的虚拟空间用于视频会议，通过自动选择具有与其中通常体验到相同类别的音频内容的物理空间一致的模拟尺寸的适当虚拟空间来模拟产生音频内容，而无需用户必须确定使用哪个虚拟空间，改善了电子设备的操作，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些实施方案中，与第一类别对应的音频内容是通信音频内容，与第二类别对应的音频内容是媒体音频内容，并且第一虚拟空间模拟(1354)比第二虚拟空间声学阻尼更大的空间(例如，通过使得该一个或多个音频输出设备在音频内容对应于第一类别的情况下模拟产生与音频内容对应于第二类别的情况相比声学阻尼更大的音频内容)。自动提供具有不同音频阻尼特性的虚拟空间通过模拟在具有与具有不同尺寸的各种“真实”物理空间的声学属性类似的声学属性的虚拟空间中产生音频内容而改善了电子设备的操作。此外，这避免了用户必须确定要分配给用于模拟产生音频内容的虚拟空间的声学属性，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些实施方案中，与第一类别对应的音频内容是音乐音频内容，与第二类别对应的音频内容是与视频(例如，电影、电视节目等)相关联的音频内容，并且第一虚拟空间模拟(1356)比第二虚拟空间更小的空间(例如，通过使得该一个或多个音频输出设备在音频内容对应于第一类别的情况下模拟在与音频内容对应于第二类别的情况相比更小的虚拟空间中产生音频内容)。自动提供具有不同音频特性(例如基于具有不同模拟尺寸的空间的音频特性)的虚拟空间通过模拟在具有与具有不同尺寸的各种“真实”物理空间的声学属性类似的声学属性的虚拟空间中产生音频内容而改善了电子设备的操作。此外，这避免了用户必须确定要分配给用于模拟产生音频内容的虚拟空间的声学属性，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些实施方案中，与第一类别对应的音频内容是音乐音频内容，与第二类别对应的音频内容是与视频(例如，电影、电视节目等)相关联的音频内容，并且第一虚拟空间比第二虚拟空间的声学阻尼更大(1358)(例如，通过使得该一个或多个音频输出设备在音频内容对应于第一类别的情况下模拟产生与音频内容对应于第二类别的情况相比声学阻尼更大的音频内容)。自动提供具有不同音频阻尼特性的虚拟空间通过模拟在具有与具有不同尺寸的各种“真实”物理空间的声学属性类似的声学属性的虚拟空间中产生音频内容而改善了电子设备的操作。此外，这避免了用户必须确定要分配给用于模拟产生音频内容的虚拟空间的声学属性，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些实施方案中，与第一类别对应的音频内容是第一类型的音乐音频内容(例如，第一流派的音乐)，并且与第二类别对应的音频内容是第二类型的音乐音频内容(例如，第二流派的音乐)(1360)。例如，在此类实施方案中，当(或根据确定)正在播放的音频内容从第一类型的音乐改变为第二类型的音乐时，用于在模拟三维环境中模拟产生音频内容的虚拟空间从第一虚拟房间改变为第二虚拟空间。当正在播放的音乐内容的类别从第一类型改变为第二类型时自动改变正用于模拟产生音频内容的虚拟空间通过自动模拟在具有与通常在其中产生不同类型的音乐的各种“真实”物理空间的声学属性类似的声学属性的虚拟空间中产生音频内容而改善了电子设备的操作。此外，这避免了当音频内容从第一类型的音乐改变为第二类型的音乐时用户必须确定要分配给用于模拟产生音频内容的虚拟空间的声学属性，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

在一些实施方案中，方法1300包括至少部分地基于电子设备的类型来确定(1362)音频内容的类别(例如，其中音频内容的类别所基于的电子设备的类型包括以下项中的两项或更多项：用于向电视提供内容的电子设备、电视、视频播放器、电话、平板电脑、台式计算机、膝上型计算机、AR/VR设备等)。在一些此类实施方案中，对于给定类型的音频内容，诸如音乐或特定类型的音乐，当电子设备是用于向电视提供内容的设备时以及当电子设备是电话或平板电脑时，确定不同内容的类别。例如，当该一个或多个音频输出设备(例如，头戴式耳机或其他可穿戴音频输出设备)的输入源从电子设备改变为第二电子设备时(例如，当用户在观看媒体项目(例如，视频)或收听媒体项目(例如，音乐)时将媒体项目的回放从智能电话切换到电视机，或反之亦然时)，用于模拟产生音频内容的虚拟空间从当前所使用的虚拟空间改变为不同虚拟空间。上文参考图11U和图11V讨论了基于正在输出音频内容的电子设备的类型进行的内容分类和虚拟空间的选择的示例。

至少部分地基于电子设备的类型来自动改变正用于模拟产生音频内容的虚拟空间通过自动模拟在与电子设备的类型对应的虚拟空间中产生音频内容而改善了电子设备的操作。此外，这避免了当音频内容的产生从由一种类型的电子设备进行改变为由另一种类型的电子设备进行时用户必须确定要分配给用于模拟产生音频内容的虚拟空间的声学属性，由此减少了所需的用户输入的数量并且减少了用户的错误，这增强了设备的可操作性并且使用户-设备界面更高效。

应当理解，对图13A-图13E中的操作进行描述的具体次序仅仅是示例性的，并非旨在表明所述次序是可以执行这些操作的唯一次序。本领域的普通技术人员会想到多种方式来对本文所述的操作进行重新排序。另外，应当注意，本文相对于本文所述的其他方法(例如，方法700、800和1200)所述的其他过程的细节同样以类似的方式适用于上文相对于图13A至图13E所述的方法1300。例如，上文参考方法1300所述的用户界面、用户界面元素、音频输出设备、音频输出模式、输入、交互和动画任选地具有本文参考本文所述的其他方法(例如，方法700、800和1200)所述的用户界面、用户界面元素、音频输出设备、音频输出模式、输入、交互和动画的特性中的一个或多个特性。为了简明起见，此处不再重复这些细节。

应当理解，对图13A-图13E中的操作进行描述的具体次序仅仅是示例性的，并非旨在表明所述次序是可以执行这些操作的唯一次序。本领域的普通技术人员会想到多种方式来对本文所述的操作进行重新排序。另外，应当注意，本文相对于本文所述的其他方法(例如，方法700、800和1200)所述的其他过程的细节同样以类似的方式适用于上文相对于图13A至图13E所述的方法1300。例如，上文参考方法1300所述的用户界面、交互和动画任选地具有本文参考本文所述的其他方法(例如，方法700、800和1200)所述的用户界面、交互和动画的特征中的一个或多个特征。

此外，在本文所述的其中一个或多个步骤取决于已满足一个或多个条件的方法中，应当理解，所述方法可在多次重复中重复，使得在重复的过程中，在方法的不同重复中已满足决定方法中的步骤的所有条件。例如，如果方法需要执行第一步骤(如果满足条件)，以及执行第二步骤(如果不满足条件)，则普通技术人员将会知道，重复所声明的步骤，直到满足条件和不满足条件两者(不分先后)。因此，可将被描述为具有取决于已满足一个或多个条件的一个或多个步骤的方法重写或描述为重复直到已满足该方法中所述的每个条件的方法。然而，这不需要系统或计算机可读介质声明该系统或计算机可读介质包含用于基于对应的一个或多个条件的满足来执行视情况而定的操作的指令，并且因此能够确定是否已满足可能的情况，而无需明确地重复方法的步骤直到已满足决定方法中的步骤的所有条件。本领域的普通技术人员还将理解，类似于具有视情况而定的步骤的方法，系统或计算机可读存储介质可根据需要多次重复方法的步骤，以确保已执行所有视情况而定的步骤。

出于解释的目的，前面的描述是通过参考具体实施方案来描述的。然而，上面的例示性论述并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容，很多修改形式和变型形式都是可能的。选择和描述实施方案是为了最佳地阐明本发明的原理及其实际应用，以便由此使得本领域的其他技术人员能够最佳地使用具有适合于所构想的特定用途的各种修改的本发明以及各种所描述的实施方案。

Claims

1.一种方法，包括：

在与一个或多个显示设备、一个或多个输入设备和一组一个或多个可穿戴音频输出设备通信的电子设备处：

经由所述一个或多个显示设备显示包括通信会话中的多个参与者的相应动态视觉表示的用户界面，包括在所述用户界面中的第一位置处显示第一参与者的第一动态视觉表示，以及在所述用户界面中的第二位置处显示与所述第一参与者不同的第二参与者的第二动态视觉表示；

经由所述一组一个或多个可穿戴音频输出设备输出来自所述通信会话中的所述多个参与者的音频，包括：

输出来自所述第一参与者的第一音频，其中所述第一音频被调整以便独立于所述一组一个或多个可穿戴音频输出设备相对于所述通信会话的参照系的位置而将所述第一音频维持在相对于所述参照系的第一模拟空间位置处，其中所述第一模拟空间位置与所述第一动态视觉表示在所述用户界面中的所述第一位置相对应；以及

输出来自所述第二参与者的第二音频，其中所述第二音频被调整以便独立于所述一组一个或多个可穿戴音频输出设备相对于所述参照系的位置而将所述第二音频维持在相对于所述参照系的第二模拟空间位置处，其中所述第二模拟空间位置与所述第二动态视觉表示在所述用户界面中的所述第二位置相对应；

经由所述一个或多个输入设备接收选择所述第一参与者的所述第一动态视觉表示的输入；

响应于接收到选择所述第一参与者的所述第一动态视觉表示的所述输入：

在所述用户界面中与所述第一位置不同的第三位置处显示所述第一参与者的所述第一动态视觉表示，并且输出来自所述第一参与者的所述第一音频，以便将所述第一音频定位在相对于所述参照系的第三模拟空间位置处，所述第三模拟空间位置与所述第一动态视觉表示在所述用户界面中的所述第三位置相对应，其中所述第三模拟空间位置不同于所述第一模拟空间位置；以及

在所述用户界面中的第四位置处显示所述第二参与者的所述第二动态视觉表示，并且输出来自所述第二参与者的所述第二音频，以便将所述第二音频定位在相对于所述参照系的第四模拟空间位置处，所述第四模拟空间位置与所述第二动态视觉表示在所述用户界面中的所述第四位置相对应。

2.根据权利要求1所述的方法，其中所述第四位置不同于所述用户界面中的所述第二位置，并且所述第四模拟空间位置不同于所述第二模拟空间位置。

3.根据权利要求2所述的方法，其中：

所述用户界面中的所述第三位置在相对于所述用户界面中的所述第一位置的相应方向上，并且所述用户界面中的所述第四位置在相对于所述用户界面中的所述第二位置的所述相应方向上；并且

所述第三模拟空间位置基本上在相对于所述第一模拟空间位置的所述相应方向上，并且所述第四模拟空间位置基本上在相对于所述第二模拟空间位置的所述相应方向上。

4.根据权利要求1至3中任一项所述的方法，其中：

所述用户界面中的所述第一位置在所述用户界面的相应区域之外；

所述用户界面中的所述第二位置在所述相应区域内；

所述用户界面中的所述第三位置在所述相应区域内；并且

所述用户界面中的所述第四位置在所述相应区域之外。

5.根据权利要求1所述的方法，其中所述第三模拟空间位置比所述第一模拟空间位置和所述第二模拟空间位置更靠近所述一组一个或多个可穿戴音频输出设备的空间位置，并且所述方法包括：响应于接收到选择所述第一参与者的所述第一动态视觉表示的所述输入，相对于来自所述第二参与者的所述第二音频强调来自所述第一参与者的所述第一音频。

6.根据权利要求5所述的方法，其中响应于接收到选择所述第一参与者的所述第一动态视觉表示的所述输入，输出所述第一音频以便将所述第一音频定位在所述第三模拟空间位置处达第一预定义时间量，并且所述方法包括：在输出所述第一音频以便将所述第一音频定位在所述第三模拟空间位置处达所述第一预定义时间量之后，在比所述第三模拟空间位置更远离所述一组一个或多个可穿戴音频输出设备的所述空间位置的模拟空间位置处输出所述第一音频。

7.根据权利要求5至6中任一项所述的方法，其中选择所述第一参与者的所述第一动态视觉表示的所述输入包括对显示在所述用户界面中的所述电子设备的用户的表示的选择和将所述用户界面中的所述用户的所述表示移动到所述第一参与者的所述第一动态视觉表示的预定义距离内的拖动手势，并且所述方法包括：响应于接收到选择所述第一参与者的所述第一动态视觉表示的所述输入，显示所述第一参与者的所述第一动态视觉表示与所述用户的所述表示相关联的指示。

8.根据权利要求5至6中任一项所述的方法，包括：

响应于接收到选择所述第一参与者的所述第一动态视觉表示的所述输入，向所述第一参与者传输在所述用户与所述第一参与者之间建立部分通信会话的请求；以及

响应于接收到所述第一参与者接受建立所述部分通信会话的所述请求的指示，显示所述第一参与者的所述第一动态视觉表示与所述用户的所述表示相关联的指示。

9.根据权利要求1至6中任一项所述的方法，其中接收选择所述第一参与者的所述第一动态视觉表示的所述输入包括经由所述一个或多个输入设备检测在与所述第一动态视觉表示相对应的初始位置处的所述输入以及继续检测在所述初始位置处达至少第二预定义时间量的所述输入。

10.根据权利要求1至6中任一项所述的方法，其中接收选择所述第一参与者的所述第一动态视觉表示的所述输入包括经由所述一个或多个输入设备同时检测与第二输入点同时存在的第一输入点和所述第一输入点朝向或远离所述第二输入点的移动。

11.根据权利要求1至6中任一项所述的方法，其中选择所述第一参与者的所述第一动态视觉表示的所述输入包括当所述第一动态视觉表示显示在所述用户界面中的所述第一位置处时对所述第一动态视觉表示的选择和将所述第一动态视觉表示移动到所述用户界面中的所述第三位置的拖动手势。

12.根据权利要求1至6中任一项所述的方法，包括响应于检测到所述电子设备相对于所述电子设备所位于的物理环境的移动而滚动所述用户界面，其中当所述第一动态视觉表示显示在所述用户界面中的所述第一位置处时，所述第一参与者的所述第一动态视觉表示在所述用户界面的焦点区域之外，并且接收选择所述第一参与者的所述第一动态视觉表示的所述输入包括检测所述电子设备滚动所述用户界面、使得所述第一动态视觉表示在所述用户界面的所述焦点区域内而进行的移动。

13.根据权利要求1至12中任一项所述的方法，其中在相对于所述参照系的多个模拟空间位置处输出来自所述通信会话中的所述多个参与者的所述音频，并且所述方法包括：

接收在所述通信会话中输出来自所述电子设备的相应音频的请求；以及

响应于接收到输出所述相应音频的所述请求，经由所述一组一个或多个可穿戴音频输出设备输出所述相应音频，包括调整所述相应音频以便将所述相应音频维持在相对于所述参照系的第一相应模拟空间位置处，所述第一相应模拟空间位置不同于所述多个模拟空间位置。

14.根据权利要求13所述的方法，其中经由所述通信会话向所述多个参与者输出所述相应音频。

15.根据权利要求13至14中任一项所述的方法，包括：

接收重新定位所述相应音频的请求；以及

响应于接收到重新定位所述相应音频的所述请求，输出所述相应音频，包括调整所述相应音频以便将所述相应音频维持在相对于所述参照系的第二相应模拟空间位置处，所述第二相应模拟空间位置不同于所述多个模拟空间位置并且不同于所述第一相应模拟空间位置。

16.根据权利要求13至15中任一项所述的方法，其中所述通信会话中的所述多个参与者中的任何两个参与者的相应模拟空间位置之间的距离小于所述相应音频的模拟空间位置与所述多个参与者中的任何相应参与者的模拟空间位置之间的距离。

17.根据权利要求1至16中任一项所述的方法，包括：

检测所述一组一个或多个可穿戴音频输出设备相对于所述参照系的移动，而不检测所述电子设备的移动并且不检测指向所述用户界面的输入；以及

响应于检测到所述一组一个或多个可穿戴音频输出设备相对于所述参照系的所述移动，在相应模拟空间位置处输出来自所述通信会话中的所述多个参与者的相应音频，包括当所述一组一个或多个可穿戴音频输出设备相对于所述参照系移动时，调整来自所述多个参与者的所述相应音频，以便独立于所述一组一个或多个可穿戴音频输出设备相对于所述参照系的位置而将所述相应音频维持在相对于所述参照系的所述相应模拟空间位置处。

18.根据权利要求1至17中任一项所述的方法，其中所述电子设备与物理环境中的一个或多个相机通信，并且所述方法包括经由所述一个或多个显示设备在所述用户界面中显示所述物理环境在所述一个或多个相机的视场中的一部分的表示，其中在与所述物理环境中的相应物理位置相对应的所述一个或多个相机的所述视场的所述表示中的相应位置处显示所述通信会话中的所述多个参与者的所述相应动态视觉表示。

19.根据权利要求1至18中任一项所述的方法，包括：

以第一尺寸显示所述第一参与者的所述第一动态视觉表示，其中所述第一尺寸根据来自所述第一参与者的所述第一音频的当前模拟空间位置与所述一组一个或多个可穿戴音频输出设备的空间位置之间的距离来确定；以及

以第二尺寸显示所述第二参与者的所述第二动态视觉表示，其中所述第二尺寸根据来自所述第二参与者的所述第二音频的当前模拟空间位置与所述一组一个或多个可穿戴音频输出设备的所述空间位置之间的距离来确定。

20.根据权利要求1所述的方法，包括在所述用户界面中在与显示所述第一参与者的所述第一动态视觉表示和所述第二参与者的所述第二动态视觉表示的位置分开的所述用户界面的名单区域中显示所述通信会话中的第三参与者和第四参与者的动态视觉表示，以及经由所述一组一个或多个音频输出设备输出来自所述第三参与者和所述第四参与者的音频，其中相对于来自所述第一参与者和所述第二参与者的音频输出弱化来自所述第三参与者和所述第四参与者的所述音频。

21.根据权利要求20所述的方法，其中通过以与所述第一参与者和所述第二参与者的直达声与混响声的比率不同的直达声与混响声的比率输出来自所述第三参与者和所述第四参与者的所述音频，相对于来自所述第一参与者和所述第二参与者的音频输出弱化来自所述第三参与者和所述第四参与者的所述音频。

22.根据权利要求20所述的方法，其中通过在比输出来自所述第一参与者和所述第二参与者的音频的模拟空间位置更远离所述电子设备的第一空间位置的一个或多个模拟空间位置处输出来自所述第三参与者和所述第四参与者的所述音频，相对于来自所述第一参与者和所述第二参与者的音频输出弱化来自所述第三参与者和所述第四参与者的所述音频。

23.根据权利要求20所述的方法，其中通过相对于来自所述第一参与者和所述第二参与者的音频输出的音量改变来自所述第三参与者和所述第四参与者的所述音频输出的音量，相对于来自所述第一参与者和所述第二参与者的所述音频输出弱化来自所述第三参与者和所述第四参与者的所述音频。

24.根据权利要求20所述的方法，还包括：将所述第三参与者和所述第四参与者识别为名单参与者，根据来自所述第三参与者和所述第四参与者的所述音频的预定义特性满足预定义名单标准以及根据将所述第三参与者和所述第四参与者识别为名单参与者，在所述用户界面的所述名单区域中显示所述第三参与者和所述第四参与者的所述动态视觉表示，以及相对于来自所述第一参与者和所述第二参与者的音频输出经由所述一组一个或多个音频输出设备弱化来自所述第三参与者和所述第四参与者的所述音频输出。

25.根据权利要求1至20中任一项所述的方法，还包括：确定来自所述通信会话中的两个或更多个参与者的重叠音频的一个或多个度量，以及根据确定所述重叠音频的一个或多个度量满足预定义重叠标准，以比根据确定所述重叠音频的一个或多个度量不满足所述预定义重叠标准而定位来自所述多个参与者的音频的模拟空间位置的默认角度更宽的角度将来自所述多个参与者的音频的所述模拟空间位置相对于彼此定位。

26.根据权利要求1至20中任一项所述的方法，其中

当所述电子设备的所述一个或多个显示设备相对于所述电子设备所位于的物理环境具有第一取向时，在所述第一模拟空间位置处输出来自所述第一参与者的所述第一音频，并且在所述第二模拟空间位置处输出来自所述第二参与者的所述第二音频；并且

所述方法还包括：

检测所述电子设备的所述取向相对于所述电子设备所位于的所述物理环境从所述第一取向到第二取向的变化，以及

响应于检测到所述电子设备的所述取向相对于所述电子设备所位于的所述物理环境从所述第一取向到所述第二取向的所述变化，改变输出来自所述第一参与者的所述第一音频的模拟空间位置和输出来自所述第二参与者的所述第二音频的模拟空间位置中的至少一者，以便改变输出来自所述第一参与者的所述第一音频的所述模拟空间位置与输出来自所述第二参与者的所述第二音频的所述模拟空间位置之间的距离。

27.根据权利要求26所述的方法，还包括：响应于检测到所述电子设备的所述取向相对于所述电子设备所位于的所述物理环境从所述第一取向到所述第二取向的所述变化，改变所述第一参与者的所述第一动态视觉表示在所述用户界面中的位置和所述第二参与者的所述第二动态视觉表示在所述用户界面中的位置中的至少一者，以便改变所述第一参与者的所述第一动态视觉表示和所述第二参与者的所述第二动态视觉表示在所述用户界面中的所述位置之间的距离。

28.一种电子设备，所述电子设备与一个或多个显示设备、一个或多个输入设备和一组一个或多个可穿戴音频输出设备通信，所述电子设备包括：

一个或多个处理器；和

存储器，所述存储器存储一个或多个程序，其中所述一个或多个程序被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于进行以下操作的指令：

29.根据权利要求28所述的电子设备，还包括用于执行根据权利要求2至27中任一项所述的方法的装置。

30.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由与一个或多个显示设备、一个或多个输入设备和一组一个或多个可穿戴音频输出设备通信的电子设备执行时，使得所述电子设备：

经由所述一组一个或多个可穿戴音频输出设备输出来自所述通信会话中的所述多个参与者的音频，其中输出来自所述音频通信会话中的所述多个参与者的音频包括：

经由所述一个或多个输入设备接收选择所述第一参与者的所述第一动态视觉表示的输入；以及

31.根据权利要求30所述的计算机可读存储介质，其中所述一个或多个程序包括指令，所述指令当由所述电子设备执行时，使得所述电子设备执行根据权利要求2至27中任一项所述的方法。

32.一种电子设备，所述电子设备与一个或多个显示设备、一个或多个输入设备和一组一个或多个可穿戴音频输出设备通信，所述电子设备包括：

用于执行以下操作的装置：经由所述一个或多个显示设备显示包括通信会话中的多个参与者的相应动态视觉表示的用户界面，包括在所述用户界面中的第一位置处显示第一参与者的第一动态视觉表示，以及在所述用户界面中的第二位置处显示与所述第一参与者不同的第二参与者的第二动态视觉表示；

用于执行以下操作的装置：经由所述一组一个或多个可穿戴音频输出设备输出来自所述通信会话中的所述多个参与者的音频，包括：

用于执行以下操作的装置：输出来自所述第一参与者的第一音频，其中所述第一音频被调整以便独立于所述一组一个或多个可穿戴音频输出设备相对于所述通信会话的参照系的位置而将所述第一音频维持在相对于所述参照系的第一模拟空间位置处，其中所述第一模拟空间位置对应于所述第一动态视觉表示在所述用户界面中的所述第一位置；和

用于执行以下操作的装置：输出来自所述第二参与者的第二音频，其中所述第二音频被调整以便独立于所述一组一个或多个可穿戴音频输出设备相对于所述参照系的位置而将所述第二音频维持在相对于所述参照系的第二模拟空间位置处，其中所述第二模拟空间位置对应于所述第二动态视觉表示在所述用户界面中的所述第二位置；

用于执行以下操作的装置：经由所述一个或多个输入设备接收选择所述第一参与者的所述第一动态视觉表示的输入；

响应于接收到选择所述第一参与者的所述第一动态视觉表示的所述输入而启用的用于执行以下操作的装置：

在所述用户界面中与所述第一位置不同的第三位置处显示所述第一参与者的所述第一动态视觉表示，并且输出来自所述第一参与者的所述第一音频，以便将所述第一音频定位在相对于所述参照系的第三模拟空间位置处，所述第三模拟空间位置对应于所述第一动态视觉表示在所述用户界面中的所述第三位置，其中所述第三模拟空间位置不同于所述第一模拟空间位置；以及

在所述用户界面中的第四位置处显示所述第二参与者的所述第二动态视觉表示，并且输出来自所述第二参与者的所述第二音频，以便将所述第二音频定位在相对于所述参照系的第四模拟空间位置处，所述第四模拟空间位置对应于所述第二动态视觉表示在所述用户界面中的所述第四位置。

33.根据权利要求32所述的电子设备，还包括用于执行根据权利要求2至27中任一项所述的方法的装置。

34.一种用于在电子设备中使用的信息处理装置，所述电子设备与一个或多个显示设备、一个或多个输入设备和一组一个或多个可穿戴音频输出设备通信，所述信息处理装置包括：

35.一种电子设备，所述电子设备与一个或多个显示设备、一个或多个输入设备和一组一个或多个可穿戴音频输出设备通信，所述电子设备包括：

一个或多个处理器；和

存储器，所述存储器存储一个或多个程序，其中所述一个或多个程序被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至27中任一项所述的方法的指令。

36.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由与一个或多个显示设备、一个或多个输入设备和一组一个或多个可穿戴音频输出设备通信的电子设备执行时，使得所述电子设备执行根据权利要求1至27中任一项所述的方法。

37.一种电子设备上的图形用户界面，所述电子设备与一个或多个显示设备、一个或多个输入设备、一组一个或多个可穿戴音频输出设备、存储器和用于执行存储在所述存储器中的一个或多个程序的一个或多个处理器通信，所述图形用户界面包括根据权利要求1至27中任一项所述的方法显示的用户界面。

38.一种电子设备，所述电子设备与一个或多个显示设备、一个或多个输入设备和一组一个或多个可穿戴音频输出设备通信，所述电子设备包括：

用于执行根据权利要求1至27中任一项所述的方法的装置。

39.一种用于在电子设备中使用的信息处理装置，所述电子设备与一个或多个显示设备、一个或多个输入设备和一组一个或多个可穿戴音频输出设备通信，所述信息处理装置包括：

用于执行根据权利要求1至27中任一项所述的方法的装置。

40.一种方法，包括：

在与和第二用户相关联的第二组一个或多个可穿戴音频输出设备通信的与第一用户相关联的第一组一个或多个可穿戴音频输出设备处：

当所述第一组一个或多个可穿戴音频输出设备和所述第二组一个或多个可穿戴音频输出设备参与音频通信会话时，经由所述第一组一个或多个可穿戴音频输出设备输出来自所述第二组一个或多个可穿戴音频输出设备的相应音频，包括：当所述第一组一个或多个可穿戴音频输出设备相对于所述第二组一个或多个可穿戴音频输出设备移动时：

调整所述相应音频以便将所述相应音频定位在相对于所述第一组一个或多个可穿戴音频输出设备的模拟空间位置处，所述模拟空间位置基于所述第二组一个或多个可穿戴音频输出设备相对于所述第一组一个或多个可穿戴音频输出设备的相应位置来确定；以及

基于所述第二组一个或多个可穿戴音频输出设备距所述第一组一个或多个可穿戴音频输出设备的距离来调整所述相应音频的除了模拟空间位置之外的输出属性。

41.根据权利要求40所述的方法，其中基于所述距离来调整所述相应音频的所述输出属性包括调整所述相应音频的音量。

42.根据权利要求41所述的方法，包括：

当所述第一组一个或多个可穿戴音频输出设备相对于所述第二组一个或多个可穿戴音频输出设备移动时，检测所述第一组一个或多个可穿戴音频输出设备与所述第二组一个或多个可穿戴音频输出设备之间的距离变化；

其中：

所述距离变化与在所述第一组一个或多个可穿戴音频输出设备的位置处可听到的来自所述第二组一个或多个可穿戴音频输出设备的位置的无辅助语音音频的第一音量变化量相关联，并且

基于所述距离来调整所述相应音频的所述输出属性包括：

响应于检测到所述距离变化，将所述相应音频的所述音量改变与所述第一量不同的第二量。

43.根据权利要求41至42中任一项所述的方法，包括调整所述相应音频的所述音量而不将所述相应音频的所述音量降低到低于相应音量阈值。

44.根据权利要求40至43中任一项所述的方法，其中基于所述距离来调整所述相应音频的所述输出属性包括改变所述相应音频的混响量。

45.根据权利要求40至44中任一项所述的方法，包括：根据确定所述第二组一个或多个可穿戴音频输出设备距所述第一组一个或多个可穿戴音频输出设备的阈值距离内，输出被选择一个或多个直通音频分量以便增加来自所述第一组一个或多个可穿戴音频输出设备周围的物理环境的环境声音的音频直通。

46.根据权利要求40至45中任一项所述的方法，包括：

在所述第一组一个或多个可穿戴音频输出设备和所述第二组一个或多个可穿戴音频输出设备参与所述音频通信会话之前：

接收在所述第一组一个或多个可穿戴音频输出设备与所述第二组一个或多个可穿戴音频输出设备之间建立通信的请求；以及

当所述第一组一个或多个可穿戴音频输出设备与所述第二组一个或多个可穿戴音频输出设备通信时，发起所述音频通信会话。

47.根据权利要求40至46中任一项所述的方法，包括确定所述第二组一个或多个可穿戴音频输出设备在相对于所述第一组一个或多个可穿戴音频输出设备的相应方向上，其中所述相应音频所定位的所述模拟空间位置在相对于所述第一组一个或多个可穿戴音频输出设备的所述相应方向上。

48.根据权利要求40至47中任一项所述的方法，其中输出所述相应音频在不考虑所述第一组一个或多个可穿戴音频输出设备与所述第二组一个或多个可穿戴音频输出设备之间的直接路径是否被遮挡的情况下来执行，输出所述相应音频包括调整所述相应音频以便将所述相应音频定位在所述模拟空间位置处以及调整所述相应音频的除了所述模拟空间位置之外的所述输出属性。

49.一种与和第二用户相关联的第二组一个或多个可穿戴音频输出设备通信的与第一用户相关联的第一组一个或多个可穿戴音频输出设备，所述第一组一个或多个可穿戴音频输出设备包括：

一个或多个处理器；和

50.根据权利要求49所述的第一组一个或多个可穿戴音频输出设备，其中所述一个或多个程序还包括用于执行根据权利要求41至48中任一项所述的方法的指令。

51.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由与和第二用户相关联的第二组一个或多个可穿戴音频输出设备通信的与第一用户相关联的第一组一个或多个可穿戴音频输出设备执行时，使得所述第一组一个或多个可穿戴音频输出设备：

52.根据权利要求51所述的计算机可读存储介质，其中所述一个或多个程序还包括用于执行根据权利要求41至48中任一项所述的方法的指令。

53.一种与和第二用户相关联的第二组一个或多个可穿戴音频输出设备通信的与第一用户相关联的第一组一个或多个可穿戴音频输出设备，所述第一组一个或多个可穿戴音频输出设备包括：

当所述第一组一个或多个可穿戴音频输出设备和所述第二组一个或多个可穿戴音频输出设备参与音频通信会话时启用的用于执行以下操作的装置：经由所述第一组一个或多个可穿戴音频输出设备输出来自所述第二组一个或多个可穿戴音频输出设备的相应音频，包括：当所述第一组一个或多个可穿戴音频输出设备相对于所述第二组一个或多个可穿戴音频输出设备移动时，输出所述相应音频；

用于输出所述相应音频的所述装置包括：

用于执行以下操作的装置：调整所述相应音频以便将所述相应音频定位在相对于所述第一组一个或多个可穿戴音频输出设备的模拟空间位置处，所述模拟空间位置基于所述第二组一个或多个可穿戴音频输出设备相对于所述第一组一个或多个可穿戴音频输出设备的相应位置来确定；和

用于执行以下操作的装置：基于所述第二组一个或多个可穿戴音频输出设备距所述第一组一个或多个可穿戴音频输出设备的距离来调整所述相应音频的除了模拟空间位置之外的输出属性。

54.根据权利要求53所述的第一组一个或多个可穿戴音频输出设备，还包括用于执行根据权利要求41至48中任一项所述的方法的装置。

55.一种用于在与和第二用户相关联的第二组一个或多个可穿戴音频输出设备通信的与第一用户相关联的第一组一个或多个可穿戴音频输出设备中使用的信息处理装置，所述第一组一个或多个可穿戴音频输出设备包括：

用于输出所述相应音频的所述装置包括：

56.一种与和第二用户相关联的第二组一个或多个可穿戴音频输出设备通信的与第一用户相关联的第一组一个或多个可穿戴音频输出设备，所述第一组一个或多个可穿戴音频输出设备包括：

一个或多个处理器；和

存储器，所述存储器存储一个或多个程序，其中所述一个或多个程序被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求40至48中任一项所述的方法的指令。

57.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由与和第二用户相关联的第二组一个或多个可穿戴音频输出设备通信的与第一用户相关联的第一组一个或多个可穿戴音频输出设备执行时，使得所述第一组一个或多个可穿戴音频输出设备执行根据权利要求40至48中任一项所述的方法。

58.一种与和第二用户相关联的第二组一个或多个可穿戴音频输出设备通信的与第一用户相关联的第一组一个或多个可穿戴音频输出设备，所述第一组一个或多个可穿戴音频输出设备包括：

用于执行根据权利要求40至48中任一项所述的方法的装置。

59.一种用于在与和第二用户相关联的第二组一个或多个可穿戴音频输出设备通信的与第一用户相关联的第一组一个或多个可穿戴音频输出设备中使用的信息处理装置，所述第一组一个或多个可穿戴音频输出设备包括：

用于执行根据权利要求40至48中任一项所述的方法的装置。

60.一种方法，包括：

在与一个或多个显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信的电子设备处：

经由所述一个或多个显示生成部件显示包括通信会话中的多个参与者的相应视觉表示的用户界面，包括在所述用户界面中的第一位置处显示第一参与者的第一视觉表示，以及在所述用户界面中的第二位置处显示与所述第一参与者不同的第二参与者的第二视觉表示；以及

经由所述一组一个或多个音频输出设备输出来自所述通信会话中的所述多个参与者的音频，包括：

根据确定所述多个参与者包括第一数量的参与者，使得所述一组一个或多个音频输出设备从多个不同模拟空间位置输出来自所述多个参与者的音频，而不从所述多个不同模拟空间位置中的单个模拟空间位置输出来自所述多个参与者中的多于一个参与者的音频；以及

根据确定所述多个参与者包括第二数量的参与者，使得所述一组一个或多个音频输出设备从共享模拟空间位置输出来自所述多个参与者中的两个或更多个参与者的音频。

61.根据权利要求60所述的方法，其中所述多个参与者中的两个或更多个参与者包括所述参与者的第一子集，并且除了所述第一子集之外，所述多个参与者包括所述多个参与者的第二子集，并且所述方法包括：根据所述确定所述多个参与者包括所述第二数量的参与者，在所述用户界面中显示所述第二子集中的所述参与者的视觉表示和所述第一子集中的所述参与者的视觉表示，其中所述第一子集中的所述参与者的所述视觉表示小于所述第二子集中的所述参与者的所述视觉表示。

62.根据权利要求60至61中任一项所述的方法，其中所述一组一个或多个音频输出设备是一组一个或多个可穿戴音频输出设备。

63.根据权利要求60至62中任一项所述的方法，其中所述第一参与者的所述第一视觉表示是所述第一参与者的动态视觉表示，并且所述第二参与者的所述第二视觉表示是所述第二参与者的动态视觉表示。

64.根据权利要求60至63中任一项所述的方法，包括：

根据所述多个参与者中的相应参与者的活动状态的变化，在所述用户界面中改变所述相应参与者的视觉表示的视觉突出度，或者改变由所述一组一个或多个音频输出设备输出的来自所述相应参与者的音频的音频突出度。

65.根据权利要求64所述的方法，其中改变所述相应参与者的视觉表示的视觉突出度包括以下项中的一项或多项：

改变所述相应参与者的视觉表示的尺寸，以及

改变显示层序列中显示所述相应参与者的视觉表示的层。

66.根据权利要求60至65中任一项所述的方法，包括：

根据所述多个参与者中的相应参与者的活动状态从不满足活动标准的活动状态改变为满足所述活动标准的活动状态，执行转变操作，所述转变操作包括使得所述一组一个或多个音频输出设备将来自所述相应参与者的音频的模拟空间位置从所述共享模拟空间位置改变为与所述共享模拟空间位置不同的相应模拟空间位置。

67.根据权利要求66所述的方法，包括：根据所述多个参与者中的所述相应参与者的所述活动状态从不满足活动标准的活动状态改变为满足所述活动标准的活动状态，将所述相应参与者的视觉表示从所述用户界面的第一区域逐渐移动到所述用户界面的第二区域，所述第一区域显示其活动状态不满足所述活动标准的参与者的视觉表示，所述第二区域显示其活动状态满足所述活动标准的参与者的视觉表示。

68.根据权利要求66至67中任一项所述的方法，其中所述转变操作包括将所述相应参与者的音频的所述模拟空间位置从所述共享模拟空间位置逐渐改变为所述相应模拟空间位置。

69.根据权利要求60至68中任一项所述的方法，包括：

根据所述多个参与者中的相应参与者的活动状态从满足活动标准的活动状态改变为不满足所述活动标准的活动状态，执行第二转变操作，所述第二转变操作包括使得所述一组一个或多个音频输出设备将来自所述相应参与者的音频的模拟空间位置从与所述共享模拟空间位置不同的非共享模拟空间位置改变为所述共享模拟空间位置。

70.根据权利要求69所述的方法，其中所述第二转变操作包括将所述相应参与者的视觉表示从所述用户界面的显示其活动状态满足所述活动标准的参与者的视觉表示的区域逐渐移动到所述用户界面的显示其活动状态不满足所述活动标准的参与者的视觉表示的区域。

71.根据权利要求69至70中任一项所述的方法，其中所述第二转变操作包括将来自所述相应参与者的音频的所述模拟空间位置从所述非共享模拟空间位置逐渐改变为所述共享模拟空间位置。

72.根据权利要求60至71中任一项所述的方法，包括：

当所述电子设备处于第一虚拟显示模式时，使得所述一组一个或多个音频输出设备在单独的模拟空间位置处输出来自所述多个参与者中的至多但不超过第三数量的参与者的音频，以及

当所述电子设备处于第二虚拟显示模式时，使得所述一组一个或多个音频输出设备在单独的模拟空间位置处输出来自所述多个参与者中的至多但不超过第四数量的参与者的音频，其中所述第四数量不同于所述第三数量。

73.根据权利要求60至72中任一项所述的方法，其中根据其中使用所述一个或多个显示生成部件来显示所述用户界面的用户界面窗口的尺寸来确定所述多个参与者中的其音频在单独的模拟空间位置处输出的参与者的数量。

74.根据权利要求60至73中任一项所述的方法，包括：

根据确定所述通信会话中的参与者的数量从多于两个参与者改变为正好两个参与者，所述两个参与者包括所述第一参与者，从自模拟空间位置输出来自所述第一参与者的音频改变为在没有空间化的情况下输出来自所述第一参与者的音频。

75.根据权利要求60至74中任一项所述的方法，其中所述多个参与者中的其音频在单独的模拟空间位置处输出的两个或更多个参与者包括所述多个参与者的第三子集，并且所述多个参与者中的其音频在所述共享模拟空间位置处输出的两个或更多个其他参与者包括所述多个参与者的第四子集，另外，其中所述第三参与者子集的所述视觉表示以多种不同尺寸来显示，并且所述第四参与者子集的所述视觉表示各自以相同尺寸显示在所述用户界面中。

76.根据权利要求60至75中任一项所述的方法，包括：当在第二通信会话中时：

根据确定所述多个参与者包括单个外部参与者并且不存在与所述单个外部参与者相关联的视觉表示，经由所述一组一个或多个音频输出设备输出与所述单个外部参与者相对应的非空间化音频；以及

根据确定所述多个参与者包括所述单个外部参与者并且与所述单个外部参与者相关联的视觉表示能够用于在所述电子设备处显示，经由所述一组一个或多个音频输出设备在与所述单个外部参与者相对应的模拟空间位置处输出音频。

77.根据权利要求60至76中任一项所述的方法，包括：当在第二通信会话中时：

确定附加参与者正在加入所述第二通信会话；以及

响应于确定所述附加参与者正在加入所述第二通信会话：

根据确定显示了所述第二通信会话中的参与者的视觉表示，继续在模拟空间位置处输出来自所述第二通信会话中的所述参与者的音频；以及

根据确定未显示所述第二通信会话中的参与者的视觉表示，从在没有空间化的情况下输出来自所述第二通信会话中的所述参与者的音频转变为在模拟空间位置处输出来自所述第二通信会话中的所述参与者的音频。

78.根据权利要求60至77中任一项所述的方法，其中所述共享模拟空间位置在三维环境中比单独的模拟空间位置更低，所述多个参与者中的其音频在所述单独的模拟空间位置处输出的两个或更多个参与者的音频在所述单独的模拟空间位置处输出。

79.根据权利要求60至78中任一项所述的方法，包括在所述用户界面中与单独的模拟空间位置相对应的位置处显示所述多个参与者中的两个或更多个参与者在所述用户界面中的视觉表示，所述两个或更多个参与者的音频在所述单独的模拟空间位置处输出。

80.根据权利要求60至79中任一项所述的方法，包括：根据与所述多个参与者中的参与者相关联的相应视觉表示在所述用户界面内的位置的变化，改变所述参与者的相应模拟空间位置。

81.一种电子设备，所述电子设备与一个或多个显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述电子设备包括：

一个或多个处理器；和

82.根据权利要求81所述的电子设备，所述一个或多个程序还包括用于执行根据权利要求61至80中任一项所述的方法的指令。

83.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由与一个或多个显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信的电子设备执行时，使得所述电子设备：

84.根据权利要求83所述的计算机可读存储介质，所述一个或多个程序还包括指令，所述指令当由所述电子设备执行时，使得所述电子设备执行根据权利要求61至80中任一项所述的方法。

85.一种电子设备，所述电子设备与一个或多个显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述电子设备包括：

用于执行以下操作的装置：经由所述一个或多个显示生成部件显示包括通信会话中的多个参与者的相应视觉表示的用户界面，所述装置包括用于在所述用户界面中的第一位置处显示第一参与者的第一视觉表示的装置、以及用于在所述用户界面中的第二位置处显示与所述第一参与者不同的第二参与者的第二视觉表示的装置；和

用于执行以下操作的装置：经由所述一组一个或多个音频输出设备输出来自所述通信会话中的所述多个参与者的音频，所述装置包括：

根据确定所述多个参与者包括第一数量的参与者而启用的用于执行以下操作的装置：使得所述一组一个或多个音频输出设备从多个不同模拟空间位置输出来自所述多个参与者的音频，而不从所述多个不同模拟空间位置中的单个模拟空间位置输出来自所述多个参与者中的多于一个参与者的音频；和

根据确定所述多个参与者包括第二数量的参与者而启用的用于执行以下操作的装置：使得所述一组一个或多个音频输出设备从共享模拟空间位置输出来自所述多个参与者中的两个或更多个参与者的音频。

86.根据权利要求85所述的电子设备，还包括用于执行根据权利要求61至80中任一项所述的方法的装置。

87.一种用于在电子设备中使用的信息处理装置，所述电子设备与一个或多个显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述信息处理装置包括：

88.一种电子设备，所述电子设备与一个或多个显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述电子设备包括：

一个或多个处理器；和

存储器，所述存储器存储一个或多个程序，其中所述一个或多个程序被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求60至80中任一项所述的方法的指令。

89.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由与一个或多个显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信的电子设备执行时，使得所述电子设备执行根据权利要求60至80中任一项所述的方法。

90.一种电子设备上的图形用户界面，所述电子设备与一个或多个显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述电子设备包括存储器和用于执行存储在所述存储器中的一个或多个程序的一个或多个处理器，所述图形用户界面包括根据权利要求60至80中任一项所述的方法显示的用户界面。

91.一种电子设备，所述电子设备与一个或多个显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述电子设备包括：

用于执行根据权利要求60至80中任一项所述的方法的装置。

92.一种用于在电子设备中使用的信息处理装置，所述电子设备与一个或多个显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述信息处理装置包括：

用于执行根据权利要求60至80中任一项所述的方法的装置。

93.一种方法，包括：

在与一个或多个输入设备和一组一个或多个音频输出设备通信的电子设备处：

经由所述一个或多个音频输出设备接收输出音频内容的请求；以及

响应于接收到经由所述一个或多个音频输出设备输出所述音频内容的所述请求，以及根据确定所述音频内容包括使得所述音频内容能够空间化的信息，经由所述一组一个或多个音频输出设备在模拟三维环境中输出所述音频内容，包括：

根据确定所述音频内容对应于第一类别的内容，使得所述一个或多个音频输出设备模拟在第一虚拟空间中产生所述音频内容；以及

根据确定所述音频内容对应于第二类别的内容，使得所述一个或多个音频输出设备模拟在第二虚拟空间中产生所述音频内容，所述第二虚拟空间具有与所述第一虚拟空间的模拟声学属性不同的模拟声学属性。

94.根据权利要求93所述的方法，包括：响应于接收到经由所述一个或多个音频输出设备输出所述音频内容的所述请求，以及根据确定所述音频内容不包括使得所述音频内容能够空间化的信息，在不对所述音频内容进行空间化的情况下输出所述音频内容。

95.根据权利要求93所述的方法，其中所述输出还包括：

根据确定所述音频内容与和所述第一类别和所述第二类别不同的第三类别的内容相对应，使得所述一个或多个音频输出设备模拟在第三虚拟空间中产生所述音频内容，所述第三虚拟空间具有与所述第一虚拟空间的模拟声学属性和所述第二虚拟空间的模拟声学属性不同的模拟声学属性。

96.根据权利要求93或95所述的方法，其中所述相应音频源是相应应用程序，并且所述方法包括根据所述相应应用程序来确定所述音频内容的类别。

97.根据权利要求93或95所述的方法，其中所述相应音频源是相应应用程序，并且根据所述相应应用程序来确定与所述音频内容相对应的类别，而不考虑在所述一组一个或多个音频输出设备输出所述音频内容时所述相应应用程序正在播放的媒体的内容类型。

98.根据权利要求97所述的方法，包括：当所述相应应用程序正在播放第一类型的音频内容时，使得所述一个或多个音频输出设备模拟在所述第一虚拟空间中产生所述第一类型的所述音频内容，并且当所述相应应用程序正在播放第二类型的音频内容时，使得所述一个或多个音频输出设备模拟在所述第一虚拟空间中产生所述第二类型的所述音频内容。

99.根据权利要求97所述的方法，其中所述相应音频源是包括第一音频内容和第二音频内容的应用程序，所述方法包括：

当所述应用程序正在执行时：

根据确定所述第一音频内容对应于所述第一类别的内容，使得所述一个或多个音频输出设备模拟在所述第一虚拟空间中产生所述音频内容；以及

根据确定所述第二音频内容对应于所述第二类别的内容，使得所述一个或多个音频输出设备模拟在所述第一虚拟空间中产生所述音频内容。

100.根据权利要求93或95所述的方法，其中所述相应音频源是相应应用程序，并且所述方法包括根据正在播放的相应媒体的内容类型来确定所述音频内容的类别，而不考虑提供所述音频内容的所述相应应用程序。

101.根据权利要求100所述的方法，包括：

经由所述一组一个或多个音频输出设备输出来自包括与所述相应应用程序不同的第二应用程序的第二相应音频源的音频内容，包括根据确定来自所述第二相应音频源的所述音频内容对应于所述第一类别的内容，使得所述一个或多个音频输出设备模拟在所述第一虚拟空间中产生来自所述第二相应音频源的所述音频内容。

102.根据权利要求93或95所述的方法，其中基于内容的类型以及哪个应用程序正在提供音频内容两者来对所述音频内容进行分类。

103.根据权利要求93至102中任一项所述的方法，其中所述第一虚拟空间的所述模拟声学属性与第一物理空间的检测到的声学属性相对应，并且所述第二虚拟空间的所述模拟声学属性和与所述第一物理空间不同的第二物理空间的检测到的声学属性相对应。

104.根据权利要求103所述的方法，其中与对应的第一物理空间的声学响应特性相比，所述第一虚拟空间的声学响应特性具有对在一个或多个频率范围中的音频内容的经修改声学响应(例如，混响)。

105.根据权利要求93至104中任一项所述的方法，其中模拟在所述第一虚拟空间中产生音频内容包括模拟与模拟在所述第二虚拟空间中产生音频内容相比的不同量的混响。

106.根据权利要求93至104中任一项所述的方法，其中模拟在所述第一虚拟空间中产生音频内容包括模拟与模拟在所述第二虚拟空间中产生音频内容相比的不同方向的混响。

107.根据权利要求93至104中任一项所述的方法，其中模拟在所述第一虚拟空间中产生音频内容包括模拟与模拟在所述第二虚拟空间中产生音频内容相比的不同频率范围的混响。

108.根据权利要求93至107中任一项所述的方法，其中所述第一虚拟空间具有第一模拟尺寸，并且所述第二虚拟空间具有与所述第一模拟尺寸不同的第二模拟尺寸。

109.根据权利要求93至108中任一项所述的方法，包括：

经由一个或多个显示设备显示用户界面，所述用户界面包括用于改变经由所述一组一个或多个音频输出设备输出的音频的空间音频特性的控件；

检测用于改变所述空间音频特性的所述控件处的输入；

响应于检测到所述输入：

根据确定在与所述第一类别的内容相对应的音频内容正由所述一组一个或多个音频输出设备输出时选择用于改变所述空间音频特性的所述控件，改变正由所述一组一个或多个音频输出设备输出的所述音频内容的所述空间音频特性；以及

根据确定在与所述第二类别的内容相对应的音频内容正由所述一组一个或多个音频输出设备输出时选择用于改变媒体的空间音频特性的所述控件，放弃改变所述空间音频特性。

110.根据权利要求93至108中任一项所述的方法，其中：

所述输出还包括：根据确定所述音频内容与多个参与者之间的视频通信会话相对应，使得所述一个或多个音频输出设备模拟在第三虚拟空间中产生所述音频内容，所述第三虚拟空间具有与所述第一虚拟空间和所述第二虚拟空间的所述模拟声学属性不同的模拟声学属性；并且

所述方法包括：当所述多个参与者共享媒体内容并且所述音频内容包括来自所共享的媒体内容的音频时，继续使得所述一个或多个音频输出设备模拟在所述第三虚拟空间中产生所述音频内容。

111.根据权利要求93至108中任一项所述的方法，其中与所述第一类别相对应的所述音频内容是通信音频内容，与所述第二类别相对应的所述音频内容是媒体音频内容，并且所述第一虚拟空间模拟比所述第二虚拟空间更小的空间。

112.根据权利要求93至108中任一项所述的方法，其中与所述第一类别相对应的所述音频内容是通信音频内容，与所述第二类别相对应的所述音频内容是媒体音频内容，并且所述第一虚拟空间模拟比所述第二虚拟空间声学阻尼更大的空间。

113.根据权利要求93至108中任一项所述的方法，其中与所述第一类别相对应的所述音频内容是音乐音频内容，与所述第二类别相对应的所述音频内容是与视频相关联的音频内容，并且所述第一虚拟空间模拟比所述第二虚拟空间更小的空间。

114.根据权利要求93至108中任一项所述的方法，其中与所述第一类别相对应的所述音频内容是音乐音频内容，与所述第二类别相对应的所述音频内容是与视频相关联的音频内容，并且所述第一虚拟空间是比所述第二虚拟空间声学阻尼更大的空间。

115.根据权利要求93至108中任一项所述的方法，其中与所述第一类别相对应的所述音频内容是第一类型的音乐音频内容，并且与所述第二类别相对应的所述音频内容是第二类型的音乐音频内容。

116.根据权利要求93至108中任一项所述的方法，包括至少部分地基于所述电子设备的类型来确定所述音频内容的类别。

117.一种计算机系统，所述计算机系统与显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述计算机系统包括：

一个或多个处理器；和

118.根据权利要求117所述的计算机系统，其中所述一个或多个程序包括用于执行根据权利要求94至116中任一项所述的方法的指令。

119.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由与显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信的计算机系统执行时，使得所述计算机系统：

120.根据权利要求119所述的计算机可读存储介质，其中所述一个或多个程序包括指令，所述指令当由所述计算机系统执行时，使得所述计算机系统执行根据权利要求94至116中任一项所述的方法。

121.一种计算机系统，所述计算机系统与显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述计算机系统包括：

用于执行以下操作的装置：经由所述一个或多个音频输出设备接收输出音频内容的请求；和

响应于接收到经由所述一个或多个音频输出设备输出所述音频内容的所述请求、以及根据确定所述音频内容包括使得所述音频内容能够空间化的信息，而用于执行以下操作的装置：经由所述一组一个或多个音频输出设备在模拟三维环境中输出所述音频内容，包括：

122.一种用于在计算机系统中使用的信息处理装置，所述计算机系统与显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述信息处理装置包括：

123.一种计算机系统，所述计算机系统与显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述计算机系统包括：

一个或多个处理器；和

存储器，所述存储器存储一个或多个程序，其中所述一个或多个程序被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求93至116中任一项所述的方法的指令。

124.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由与显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信的计算机系统执行时，使得所述计算机系统执行根据权利要求93至116中任一项所述的方法。

125.一种计算机系统上的图形用户界面，所述计算机系统与显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述计算机系统包括存储器和用于执行存储在所述存储器中的一个或多个程序的一个或多个处理器，所述图形用户界面包括根据权利要求93至116中任一项所述的方法显示的用户界面。

126.一种计算机系统，所述计算机系统与显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述计算机系统包括：

用于执行根据权利要求93至116中任一项所述的方法的装置。

127.一种用于在计算机系统中使用的信息处理装置，所述计算机系统与显示生成部件、一个或多个输入设备和一组一个或多个音频输出设备通信，所述信息处理装置包括：

用于执行根据权利要求93至116中任一项所述的方法的装置。