CN118265968A

CN118265968A - 用于管理字幕的系统和方法

Info

Publication number: CN118265968A
Application number: CN202280076825.4A
Authority: CN
Inventors: 张宰祐; C·巴特; 陈家豪; E·C·克兰菲尔; C·B·弗莱扎克; G·F·休斯; P·佩奇; C·J·罗姆尼; M·万欧斯; M·扎基洛娃
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2021-11-19
Filing date: 2022-11-18
Publication date: 2024-06-28
Also published as: CN118573968A

Abstract

本公开整体涉及针对用于管理字幕的实况通信界面的实施方案。

Description

用于管理字幕的系统和方法

相关申请的交叉引用

本申请要求2022年11月16日提交的名称为“用于管理字幕的系统和方法(SYSTEMSAND METHODS FOR MANAGING CAPTIONS)”的美国申请17/988,571号和2022年5月17日提交的名称为“用于管理字幕的系统和方法(SYSTEMS AND METHODS FOR MANAGING CAPTIONS)”的美国临时申请63/343,075号以及2021年11月19日提交的名称为“用于通信会话的字幕(CAPTIONS FOR A COMMUNICATION SESSION)”的美国临时申请63/281,373号的权益，这些申请的全部内容以引用方式并入本文。

技术领域

本公开整体涉及计算机用户界面，并且更具体地涉及用于在电子设备上管理字幕的技术。

背景技术

计算机系统可以包括用于在各种用户界面中显示字幕的硬件和/或软件。字幕(有时被称为翻译字幕(subtitle))提供对应于音频内容的视觉内容或与音频内容相关的元数据。

发明内容

字幕可以包括话音音频信息和非话音音频信息的文字版本，并且帮助用户理解音频信息。字幕的显示任选地与通信会话的音频(在时间上)同步。

然而，用于使用电子设备来管理字幕的一些技术通常很繁琐且效率低下。例如，一些现有技术使用复杂且耗时的用户界面，该用户界面可包括多次按键或击键。现有技术需要比所需更多的时间，这导致浪费用户的时间和设备能量。这后一考虑在电池驱动的设备中是特别重要的。

因此，本技术向电子设备提供用于管理字幕的更快、更高效的方法和界面。此类方法和界面任选地补充或替代用于管理字幕的其他方法。此类方法和界面减少了对用户所造成的认知负担，并且产生了更高效的人机界面。对于电池驱动的计算设备，此类方法和界面节省了功率，并且增大了电池充电之间的时间间隔。此类方法和界面减少了对依赖机器生成的转录的用户所造成的认知负担，并且产生了更高效的人机界面。

根据一些实施方案，描述了一种在与显示生成组件和一个或多个输入设备通信的计算机系统处执行的方法。该方法包括：经由该显示生成组件显示实况通信用户界面，该实况通信用户界面对应于实况通信会话，该实况通信用户界面包括：该实况通信会话的一个或多个参与者的一个或多个表示，其中在该实况通信用户界面中在某一位置处并且以某一大小显示该一个或多个参与者的该一个或多个表示中的第一表示；以及该实况通信用户界面的第一区域中的第一字幕，该第一字幕与该实况通信会话的音频数据的第一部分相对应；当显示具有该实况通信用户界面的该第一区域中的该第一字幕的该实况通信用户界面时，经由该一个或多个输入设备检测与对显示扩展字幕信息的请求相对应的输入；以及响应于检测到与对显示扩展字幕信息的请求相对应的该输入：经由该显示生成组件显示与该实况通信会话的音频数据的第二部分相对应的第二字幕，该第二部分不同于该实况通信会话的音频数据的该第一部分，该第二字幕显示在该实况通信用户界面的第二区域处；以及经由该显示生成组件修改该实况通信用户界面中的该第一表示的该位置和/或该第一表示的该大小。

根据一些实施方案，描述了一种非暂态计算机可读存储介质。该非暂态计算机可读存储介质存储被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：经由该显示生成组件显示实况通信用户界面，该实况通信用户界面对应于实况通信会话，该实况通信用户界面包括：该实况通信会话的一个或多个参与者的一个或多个表示，其中在该实况通信用户界面中在某一位置处并且以某一大小显示该一个或多个参与者的该一个或多个表示中的第一表示；以及该实况通信用户界面的第一区域中的第一字幕，该第一字幕与该实况通信会话的音频数据的第一部分相对应；当显示具有该实况通信用户界面的该第一区域中的该第一字幕的该实况通信用户界面时，经由该一个或多个输入设备检测与对显示扩展字幕信息的请求相对应的输入；以及响应于检测到与对显示扩展字幕信息的请求相对应的该输入：经由该显示生成组件显示与该实况通信会话的音频数据的第二部分相对应的第二字幕，该第二部分不同于该实况通信会话的音频数据的该第一部分，该第二字幕显示在该实况通信用户界面的第二区域处；以及经由该显示生成组件修改该实况通信用户界面中的该第一表示的该位置和/或该第一表示的该大小。

根据一些实施方案，描述了一种暂态计算机可读存储介质。该暂态计算机可读存储介质存储被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：经由该显示生成组件显示实况通信用户界面，该实况通信用户界面对应于实况通信会话，该实况通信用户界面包括：该实况通信会话的一个或多个参与者的一个或多个表示，其中在该实况通信用户界面中在某一位置处并且以某一大小显示该一个或多个参与者的该一个或多个表示中的第一表示；以及该实况通信用户界面的第一区域中的第一字幕，该第一字幕与该实况通信会话的音频数据的第一部分相对应；当显示具有该实况通信用户界面的该第一区域中的该第一字幕的该实况通信用户界面时，经由该一个或多个输入设备检测与对显示扩展字幕信息的请求相对应的输入；以及响应于检测到与对显示扩展字幕信息的请求相对应的该输入：经由该显示生成组件显示与该实况通信会话的音频数据的第二部分相对应的第二字幕，该第二部分不同于该实况通信会话的音频数据的该第一部分，该第二字幕显示在该实况通信用户界面的第二区域处；以及经由该显示生成组件修改该实况通信用户界面中的该第一表示的该位置和/或该第一表示的该大小。

根据一些实施方案，描述了一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统。该计算机系统包括：一个或多个处理器；以及存储器，该存储器存储被配置为由该一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：经由该显示生成组件显示实况通信用户界面，该实况通信用户界面对应于实况通信会话，该实况通信用户界面包括：该实况通信会话的一个或多个参与者的一个或多个表示，其中在该实况通信用户界面中在某一位置处并且以某一大小显示该一个或多个参与者的该一个或多个表示中的第一表示；以及该实况通信用户界面的第一区域中的第一字幕，该第一字幕与该实况通信会话的音频数据的第一部分相对应；当显示具有该实况通信用户界面的该第一区域中的该第一字幕的该实况通信用户界面时，经由该一个或多个输入设备检测与对显示扩展字幕信息的请求相对应的输入；以及响应于检测到与对显示扩展字幕信息的请求相对应的该输入：经由该显示生成组件显示与该实况通信会话的音频数据的第二部分相对应的第二字幕，该第二部分不同于该实况通信会话的音频数据的该第一部分，该第二字幕显示在该实况通信用户界面的第二区域处；以及经由该显示生成组件修改该实况通信用户界面中的该第一表示的该位置和/或该第一表示的该大小。

根据一些实施方案，描述了一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统。该计算机系统包括：用于经由该显示生成组件显示实况通信用户界面的构件，该实况通信用户界面对应于实况通信会话，该实况通信用户界面包括：该实况通信会话的一个或多个参与者的一个或多个表示，其中在该实况通信用户界面中在某一位置处并且以某一大小显示该一个或多个参与者的该一个或多个表示中的第一表示；以及该实况通信用户界面的第一区域中的第一字幕，该第一字幕与该实况通信会话的音频数据的第一部分相对应；当显示具有该实况通信用户界面的该第一区域中的该第一字幕的该实况通信用户界面时，用于经由该一个或多个输入设备检测与对显示扩展字幕信息的请求相对应的输入的构件；以及响应于检测到与对显示扩展字幕信息的请求相对应的该输入，用于以下操作的构件：经由该显示生成组件显示与该实况通信会话的音频数据的第二部分相对应的第二字幕，该第二部分不同于该实况通信会话的音频数据的该第一部分，该第二字幕显示在该实况通信用户界面的第二区域处；以及经由该显示生成组件修改该实况通信用户界面中的该第一表示的该位置和/或该第一表示的该大小。

根据一些实施方案，描述了一种计算机程序产品。该计算机程序产品包括被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序。该一个或多个程序包括用于以下操作的指令：经由该显示生成组件显示实况通信用户界面，该实况通信用户界面对应于实况通信会话，该实况通信用户界面包括：该实况通信会话的一个或多个参与者的一个或多个表示，其中在该实况通信用户界面中在某一位置处并且以某一大小显示该一个或多个参与者的该一个或多个表示中的第一表示；以及该实况通信用户界面的第一区域中的第一字幕，该第一字幕与该实况通信会话的音频数据的第一部分相对应；当显示具有该实况通信用户界面的该第一区域中的该第一字幕的该实况通信用户界面时，经由该一个或多个输入设备检测与对显示扩展字幕信息的请求相对应的输入；以及响应于检测到与对显示扩展字幕信息的请求相对应的该输入：经由该显示生成组件显示与该实况通信会话的音频数据的第二部分相对应的第二字幕，该第二部分不同于该实况通信会话的音频数据的该第一部分，该第二字幕显示在该实况通信用户界面的第二区域处；以及经由该显示生成组件修改该实况通信用户界面中的该第一表示的该位置和/或该第一表示的该大小。

根据一些实施方案，描述了一种在与显示生成组件和一个或多个输入设备通信的计算机系统处执行的方法。该方法包括：经由该显示生成组件显示实况通信应用的对应于实况通信会话的用户界面，该实况通信应用的该用户界面同时包括：在该实况通信应用中显示的该实况通信会话的第一参与者的表示；以及针对在该实况通信应用中显示的该第一参与者的音频数据的第一字幕；当显示该实况通信应用的该用户界面时，接收与对切换到显示不同于该实况通信应用的相应用户界面的请求相对应的一个或多个输入的序列；以及响应于接收到与对切换到显示该相应用户界面的该请求相对应的一个或多个输入的该序列：用不同于该实况通信应用的该相应用户界面替代该实况通信应用的至少一部分；显示覆盖在该相应用户界面的至少一部分上的该实况通信会话的该第一参与者的缩小比例表示；以及显示针对该第一参与者的音频数据的第二字幕，其中针对音频数据的该第二字幕与该实况通信会话的该第一参与者的该缩小比例表示分开显示，并且覆盖在该相应用户界面的至少一部分上。

根据一些实施方案，描述了一种非暂态计算机可读存储介质。该非暂态计算机可读存储介质存储被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：经由该显示生成组件显示实况通信应用的对应于实况通信会话的用户界面，该实况通信应用的该用户界面同时包括：在该实况通信应用中显示的该实况通信会话的第一参与者的表示；以及针对在该实况通信应用中显示的该第一参与者的音频数据的第一字幕；当显示该实况通信应用的该用户界面时，接收与对切换到显示不同于该实况通信应用的相应用户界面的请求相对应的一个或多个输入的序列；以及响应于接收到与对切换到显示该相应用户界面的该请求相对应的一个或多个输入的该序列：用不同于该实况通信应用的该相应用户界面替代该实况通信应用的至少一部分；显示覆盖在该相应用户界面的至少一部分上的该实况通信会话的该第一参与者的缩小比例表示；以及显示针对该第一参与者的音频数据的第二字幕，其中针对音频数据的该第二字幕与该实况通信会话的该第一参与者的该缩小比例表示分开显示，并且覆盖在该相应用户界面的至少一部分上。

根据一些实施方案，描述了一种暂态计算机可读存储介质。该暂态计算机可读存储介质存储被配置为由被配置为与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：经由该显示生成组件显示实况通信应用的对应于实况通信会话的用户界面，该实况通信应用的该用户界面同时包括：在该实况通信应用中显示的该实况通信会话的第一参与者的表示；以及针对在该实况通信应用中显示的该第一参与者的音频数据的第一字幕；当显示该实况通信应用的该用户界面时，接收与对切换到显示不同于该实况通信应用的相应用户界面的请求相对应的一个或多个输入的序列；以及响应于接收到与对切换到显示该相应用户界面的该请求相对应的一个或多个输入的该序列：用不同于该实况通信应用的该相应用户界面替代该实况通信应用的至少一部分；显示覆盖在该相应用户界面的至少一部分上的该实况通信会话的该第一参与者的缩小比例表示；以及显示针对该第一参与者的音频数据的第二字幕，其中针对音频数据的该第二字幕与该实况通信会话的该第一参与者的该缩小比例表示分开显示，并且覆盖在该相应用户界面的至少一部分上。

根据一些实施方案，描述了一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统。该计算机系统包括：一个或多个处理器；以及存储器，该存储器存储被配置为由该一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：经由该显示生成组件显示实况通信应用的对应于实况通信会话的用户界面，该实况通信应用的该用户界面同时包括：在该实况通信应用中显示的该实况通信会话的第一参与者的表示；以及针对在该实况通信应用中显示的该第一参与者的音频数据的第一字幕；当显示该实况通信应用的该用户界面时，接收与对切换到显示不同于该实况通信应用的相应用户界面的请求相对应的一个或多个输入的序列；以及响应于接收到与对切换到显示该相应用户界面的该请求相对应的一个或多个输入的该序列：用不同于该实况通信应用的该相应用户界面替代该实况通信应用的至少一部分；显示覆盖在该相应用户界面的至少一部分上的该实况通信会话的该第一参与者的缩小比例表示；以及显示针对该第一参与者的音频数据的第二字幕，其中针对音频数据的该第二字幕与该实况通信会话的该第一参与者的该缩小比例表示分开显示，并且覆盖在该相应用户界面的至少一部分上。

根据一些实施方案，描述了一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统。该计算机系统包括：用于经由该显示生成组件显示实况通信应用的对应于实况通信会话的用户界面的构件，该实况通信应用的该用户界面同时包括：在该实况通信应用中显示的该实况通信会话的第一参与者的表示；以及针对在该实况通信应用中显示的该第一参与者的音频数据的第一字幕；当显示该实况通信应用的该用户界面时，用于接收与对切换到显示不同于该实况通信应用的相应用户界面的请求相对应的一个或多个输入的序列的构件；以及响应于接收到与对切换到显示该相应用户界面的该请求相对应的一个或多个输入的该序列，用于以下操作的构件：用不同于该实况通信应用的该相应用户界面替代该实况通信应用的至少一部分；显示覆盖在该相应用户界面的至少一部分上的该实况通信会话的该第一参与者的缩小比例表示；以及显示针对该第一参与者的音频数据的第二字幕，其中针对音频数据的该第二字幕与该实况通信会话的该第一参与者的该缩小比例表示分开显示，并且覆盖在该相应用户界面的至少一部分上。

根据一些实施方案，描述了一种计算机程序产品。该计算机程序产品包括被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序。该一个或多个程序包括用于以下操作的指令：经由该显示生成组件显示实况通信应用的对应于实况通信会话的用户界面，该实况通信应用的该用户界面同时包括：在该实况通信应用中显示的该实况通信会话的第一参与者的表示；以及针对在该实况通信应用中显示的该第一参与者的音频数据的第一字幕；当显示该实况通信应用的该用户界面时，接收与对切换到显示不同于该实况通信应用的相应用户界面的请求相对应的一个或多个输入的序列；以及响应于接收到与对切换到显示该相应用户界面的该请求相对应的一个或多个输入的该序列：用不同于该实况通信应用的该相应用户界面替代该实况通信应用的至少一部分；显示覆盖在该相应用户界面的至少一部分上的该实况通信会话的该第一参与者的缩小比例表示；以及显示针对该第一参与者的音频数据的第二字幕，其中针对音频数据的该第二字幕与该实况通信会话的该第一参与者的该缩小比例表示分开显示，并且覆盖在该相应用户界面的至少一部分上。

根据一些实施方案，描述了一种在与显示生成组件通信的计算机系统处执行的方法。该方法包括：接收与不同于该第一应用的第二应用中的第二音频相对应的第二信息；以及经由该显示生成组件显示系统音频转录本(transcript)，其中显示该系统音频转录本包括显示：该系统音频转录本的第一转录本部分，该第一转录本部分包括基于该第一音频的第一字幕；以及基于该第二音频的不同于该第一字幕的第二字幕。

根据一些实施方案，描述了一种非暂态计算机可读存储介质。该非暂态计算机可读存储介质存储被配置为由与显示生成组件通信的计算机系统的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：接收与第一应用中的第一音频相对应的第一信息；接收与不同于该第一应用的第二应用中的第二音频相对应的第二信息；以及经由该显示生成组件显示系统音频转录本，其中显示该系统音频转录本包括显示：该系统音频转录本的第一转录本部分，该第一转录本部分包括基于该第一音频的第一字幕；以及该系统音频转录本的第二转录本部分，该第二转录本部分包括基于该第二音频的不同于该第一字幕的第二字幕。

根据一些实施方案，描述了一种暂态计算机可读存储介质。该暂态计算机可读存储介质存储被配置为由与显示生成组件通信的计算机系统的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：接收与第一应用中的第一音频相对应的第一信息；接收与不同于该第一应用的第二应用中的第二音频相对应的第二信息；以及经由该显示生成组件显示系统音频转录本，其中显示该系统音频转录本包括显示：该系统音频转录本的第一转录本部分，该第一转录本部分包括基于该第一音频的第一字幕；以及该系统音频转录本的第二转录本部分，该第二转录本部分包括基于该第二音频的不同于该第一字幕的第二字幕。

根据一些实施方案，描述了一种被配置为与显示生成组件通信的计算机系统。该计算机系统包括：一个或多个处理器；以及存储器，该存储器存储被配置为由该一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：接收与第一应用中的第一音频相对应的第一信息；接收与不同于该第一应用的第二应用中的第二音频相对应的第二信息；以及经由该显示生成组件显示系统音频转录本，其中显示该系统音频转录本包括显示：该系统音频转录本的第一转录本部分，该第一转录本部分包括基于该第一音频的第一字幕；以及该系统音频转录本的第二转录本部分，该第二转录本部分包括基于该第二音频的不同于该第一字幕的第二字幕。

根据一些实施方案，描述了一种被配置为与显示生成组件通信的计算机系统。该计算机系统包括：用于接收与第一应用中的第一音频相对应的第一信息的构件；用于接收与不同于该第一应用的第二应用中的第二音频相对应的第二信息的构件；以及用于经由该显示生成组件显示系统音频转录本的构件，其中显示该系统音频转录本包括显示：用于该系统音频转录本的第一转录本部分的构件，该第一转录本部分包括基于该第一音频的第一字幕；以及用于该系统音频转录本的第二转录本部分的构件，该第二转录本部分包括基于该第二音频的不同于该第一字幕的第二字幕。

根据一些实施方案，描述了一种计算机程序产品。该计算机程序产品包括被配置为由与显示生成组件通信的计算机系统的一个或多个处理器执行的一个或多个程序。该一个或多个程序包括用于以下操作的指令：接收与第一应用中的第一音频相对应的第一信息；接收与不同于该第一应用的第二应用中的第二音频相对应的第二信息；以及经由该显示生成组件显示系统音频转录本，其中显示该系统音频转录本包括显示：该系统音频转录本的第一转录本部分，该第一转录本部分包括基于该第一音频的第一字幕；以及该系统音频转录本的第二转录本部分，该第二转录本部分包括基于该第二音频的不同于该第一字幕的第二字幕。

根据一些实施方案，描述了一种在与显示生成组件通信的计算机系统处执行的方法。该方法包括：经由该显示生成组件在第一用户界面区中显示字幕集合；当显示该字幕集合时，检测用于将与该计算机系统处的相应活动相对应的键入的字幕添加到该字幕集合的键入的用户输入；以及响应于检测到用于将该键入的字幕添加到该字幕集合的该键入的用户输入，经由该显示生成组件在该第一用户界面区中显示该键入的字幕，其中提供基于该键入的字幕的模拟话音作为针对该相应活动的音频输出。

根据一些实施方案，描述了一种非暂态计算机可读存储介质。该非暂态计算机可读存储介质存储被配置为由与显示生成组件通信的计算机系统的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：经由该显示生成组件在第一用户界面区中显示字幕集合；当显示该字幕集合时，检测用于将与该计算机系统处的相应活动相对应的键入的字幕添加到该字幕集合的键入的用户输入；以及响应于检测到用于将该键入的字幕添加到该字幕集合的该键入的用户输入，经由该显示生成组件在该第一用户界面区中显示该键入的字幕，其中提供基于该键入的字幕的模拟话音作为针对该相应活动的音频输出。

根据一些实施方案，描述了一种暂态计算机可读存储介质。该暂态计算机可读存储介质存储被配置为由与显示生成组件通信的计算机系统的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：经由该显示生成组件在第一用户界面区中显示字幕集合；当显示该字幕集合时，检测用于将与该计算机系统处的相应活动相对应的键入的字幕添加到该字幕集合的键入的用户输入；以及响应于检测到用于将该键入的字幕添加到该字幕集合的该键入的用户输入，经由该显示生成组件在该第一用户界面区中显示该键入的字幕，其中提供基于该键入的字幕的模拟话音作为针对该相应活动的音频输出。

根据一些实施方案，描述了一种被配置为与显示生成组件通信的计算机系统。该计算机系统包括：一个或多个处理器；以及存储器，该存储器存储被配置为由该一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于以下操作的指令：经由该显示生成组件在第一用户界面区中显示字幕集合；当显示该字幕集合时，检测用于将与该计算机系统处的相应活动相对应的键入的字幕添加到该字幕集合的键入的用户输入；以及响应于检测到用于将该键入的字幕添加到该字幕集合的该键入的用户输入，经由该显示生成组件在该第一用户界面区中显示该键入的字幕，其中提供基于该键入的字幕的模拟话音作为针对该相应活动的音频输出。

根据一些实施方案，描述了一种被配置为与显示生成组件通信的计算机系统。该计算机系统包括：用于经由该显示生成组件在第一用户界面区中显示字幕集合的构件；用于当显示该字幕集合时，检测用于将与该计算机系统处的相应活动相对应的键入的字幕添加到该字幕集合的键入的用户输入的构件；以及用于响应于检测到用于将该键入的字幕添加到该字幕集合的该键入的用户输入，经由该显示生成组件在该第一用户界面区中显示该键入的字幕的构件，其中提供基于该键入的字幕的模拟话音作为针对该相应活动的音频输出。

根据一些实施方案，描述了一种计算机程序产品。该计算机程序产品包括被配置为由与显示生成组件通信的计算机系统的一个或多个处理器执行的一个或多个程序。该一个或多个程序包括用于以下操作的指令：经由该显示生成组件在第一用户界面区中显示字幕集合；当显示该字幕集合时，检测用于将与该计算机系统处的相应活动相对应的键入的字幕添加到该字幕集合的键入的用户输入；以及响应于检测到用于将该键入的字幕添加到该字幕集合的该键入的用户输入，经由该显示生成组件在该第一用户界面区中显示该键入的字幕，其中提供基于该键入的字幕的模拟话音作为针对该相应活动的音频输出。

用于执行这些功能的可执行指令任选地被包括在被配置用于由一个或多个处理器执行的非暂态计算机可读存储介质或其他计算机程序产品中。用于执行这些功能的可执行指令任选地被包括在被配置用于由一个或多个处理器执行的暂态计算机可读存储介质或其他计算机程序产品中。

因此，为设备提供了用于管理实况通信会话的字幕的更快、更高效的方法和界面，从而提高了此类设备的有效性、效率和用户满意度。此类方法和界面可以补充或替代用于管理实况通信会话的字幕的其他方法。

附图说明

为了更好地理解各种所描述的实施方案，应结合以下附图参考下文的具体实施方式，其中类似的附图标号在所有附图中指示对应的部分。

图1A是例示根据一些实施方案的具有触敏显示器的便携式多功能设备的框图。

图1B是例示根据一些实施方案的用于事件处理的示例性组件的框图。

图2例示了根据一些实施方案的具有触摸屏的便携式多功能设备。

图3是根据一些实施方案的具有显示器和触敏表面的示例性多功能设备的框图。

图4A例示了根据一些实施方案的针对便携式多功能设备上应用的菜单的示例性用户界面。

图4B例示了根据一些实施方案的针对具有与显示器分开的触敏表面的多功能设备的示例性用户界面。

图5A例示了根据一些实施方案的个人电子设备。

图5B是例示根据一些实施方案的个人电子设备的框图。

图5C例示了根据一些实施方案的电子设备之间的通信会话的示例性图。

图6A至图6AE例示了根据一些实施方案的用于管理实况通信会话的字幕的示例性用户界面。

图7描绘了例示根据一些实施方案的用于在实况通信会话中显示扩展字幕信息的方法的流程图。

图8描绘了例示根据一些实施方案的用于在实况通信会话期间切换用户界面的方法的流程图。

图9A至图9AI例示了根据一些实施方案的用于提供字幕的示例性用户界面。

图10描绘了例示根据一些实施方案的用于提供字幕的方法的流程图。

图11描绘了例示根据一些实施方案的用于提供字幕的方法的流程图。

具体实施方式

以下描述阐述了示例性方法、参数等。然而，应当认识到，此类描述并非意在限制本公开的范围，而是作为对示例性实施方案的描述来提供。

电子设备需要提供用于管理针对实况通信会话的字幕的高效方法和界面。例如，一种技术可以使得用户能够扩展针对实况通信会话的字幕。对于另一示例，一种技术可以使得用户能够在实况通信会话期间切换用户界面。此类技术可以减少对管理针对实况通信会话的字幕的用户所造成的认知负担，从而提高生产率。此外，此类技术可减少以其他方式浪费在冗余用户输入上的处理器功率和电池功率。

在下文，图1A至图1B、图2、图3、图4A至图4B以及图5A至图5C提供了根据一些实施方案的对用于执行用于管理(例如，针对实况通信会话的)字幕的技术的示例性设备的描述。图6A至图6AE例示了根据一些实施方案的用于管理针对实况通信会话的字幕(包括在实况通信会话中显示扩展字幕信息以及在实况通信会话期间切换用户界面)的示例性用户界面。图7是例示根据一些实施方案的在实况通信会话中显示扩展字幕信息的方法的流程图。图8是例示根据一些实施方案的在实况通信会话期间切换用户界面的方法的流程图。图9A至图9AI例示了根据一些实施方案的用于提供字幕的示例性用户界面。图10是例示根据一些实施方案的提供字幕的方法的流程图。图11是例示根据一些实施方案的提供字幕的方法的流程图。

下文所描述的过程通过各种技术(例如，通过帮助用户提供适当的输入并减少用户在操作设备/与设备交互时的错误)增强了设备的可操作性并且使用户-设备界面更高效，包括通过向用户提供改进的视觉反馈、减少执行操作所需的输入数量、提供附加控制选项而不因附加所显示控件而使用户界面杂乱、在已经满足一组条件时执行操作而无需进一步用户输入、提高安全性、管理机器生成的转录和/或附加技术。这些技术还通过使用户能够更快且更高效地使用设备而减少了电力使用并延长了设备的电池寿命。

此外，在本文所描述的其中一个或多个步骤取决于已满足一个或多个条件的方法中，应当理解，所描述的方法可在多次重复中重复，使得在重复的过程中，在方法的不同重复中已满足决定方法中的步骤的所有条件。例如，如果方法需要执行第一步骤(如果满足条件)，以及执行第二步骤(如果不满足条件)，则普通技术人员将会知道，重复所声明的步骤，直到满足条件和不满足条件两者(不分先后)。因此，可将被描述为具有取决于已满足一个或多个条件的一个或多个步骤的方法重写为重复直到已满足该方法中所述的每个条件的方法。然而，这不需要系统或计算机可读介质声明该系统或计算机可读介质包含用于基于对应的一个或多个条件的满足来执行视情况而定的操作的指令，并且因此能够确定是否已满足可能的情况，而无需明确地重复方法的步骤直到已满足决定方法中的步骤的所有条件。本领域的普通技术人员还将理解，类似于具有视情况而定的步骤的方法，系统或计算机可读存储介质可根据需要多次重复方法的步骤，以确保已执行所有视情况而定的步骤。

尽管以下描述使用术语“第一”、“第二”等来描述各种元件，但这些元件不应受术语的限制。在一些实施方案中，这些术语用于区分一个元件与另一元件。例如，第一触摸可被命名为第二触摸并且类似地第二触摸可被命名为第一触摸，而不脱离各种所描述的实施方案的范围。在一些实施方案中，第一触摸和第二触摸是对同一触摸的两个单独的引用。在一些实施方案中，第一触摸和第二触摸两者均为触摸，但是它们不是同一触摸。

在本文中对各种所描述的实施方案的描述中所使用的术语只是为了描述特定实施方案的目的，而并非旨在进行限制。如在对各种所描述的实施方案中的描述和所附权利要求书中所使用的那样，单数形式“一个”和“该”旨在也包括复数形式，除非上下文另外明确地指示。还将理解的是，本文所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”和/或“包含”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其分组。

根据上下文，术语“如果”任选地被解释为意指“当......时”、“在......时”或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定……”或“如果检测到[所陈述的条件或事件]”任选地被解释为是指“在确定……时”或“响应于确定……”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

本文描述了电子设备、此类设备的用户界面和使用此类设备的相关联的进程的实施方案。在一些实施方案中，该设备为还包含其他功能诸如PDA和/或音乐播放器功能的便携式通信设备，诸如移动电话。便携式多功能设备的示例性实施方案包括但不限于来自Apple Inc.(Cupertino,California)的设备、iPod设备和设备。任选地使用其他便携式电子设备，诸如具有触敏表面(例如，触摸屏显示器和/或触摸板)的膝上型电脑或平板电脑。还应当理解的是，在一些实施方案中，该设备并非便携式通信设备，而是具有触敏表面(例如，触摸屏显示器和/或触摸板)的台式计算机。在一些实施方案中，电子设备是(例如，经由无线通信、经由有线通信)与显示生成组件进行通信的计算机系统。显示生成组件被配置为提供视觉输出，诸如经由CRT显示器的显示、经由LED显示器的显示或者经由图像投影的显示。在一些实施方案中，显示生成组件与该计算机系统集成。在一些实施方案中，显示生成组件与该计算机系统分开。如本文所用，“显示”内容包括通过经由有线或无线连接向集成或外部显示生成组件传输数据(例如，图像数据或视频数据)以在视觉上产生内容来显示内容(例如，由显示控制器156渲染或解码的视频数据)。

在下面的讨论中，描述了一种包括显示器和触敏表面的电子设备。然而，应当理解，该电子设备任选地包括一个或多个其他物理用户界面设备，诸如物理键盘、鼠标和/或操纵杆。

该设备通常支持各种应用，诸如以下中的一者或多者：绘图应用、呈现应用、文字处理应用、网站创建应用、盘编辑应用、电子表格应用、游戏应用、电话应用、视频会议应用、电子邮件应用、即时消息应用、健身支持应用、照片管理应用、数字相机应用、数字视频摄像机应用、网页浏览应用、数字音乐播放器应用和/或数字视频播放器应用。

在设备上执行的各种应用任选地使用至少一个通用的物理用户界面设备，诸如触敏表面。触敏表面的一种或多种功能以及被显示在设备上的对应信息任选地对于不同应用被调整和/或变化，和/或在相应应用内被调整和/或变化。这样，设备的共用物理架构(诸如触敏表面)任选地利用对于用户而言直观且清楚的用户界面来支持各种应用。

现在将注意力转到具有触敏显示器的便携式设备的实施方案。图1A是例示了根据一些实施方案的具有触敏显示器系统112的便携式多功能设备100的框图。触敏显示器112有时为了方便被叫做“触摸屏”，并且有时被称为或被叫做“触敏显示器系统”。设备100包括存储器102(其任选地包括一个或多个计算机可读存储介质)、存储器控制器122、一个或多个处理单元(CPU)120、外围设备接口118、RF电路108、音频电路110、扬声器111、麦克风113、输入/输出(I/O)子系统106、其他输入控制设备116和外部端口124。设备100任选地包括一个或多个光学传感器164。设备100任选地包括用于检测设备100(例如，触敏表面，诸如设备100的触敏显示器系统112)上的接触的强度的一个或多个接触强度传感器165。设备100任选地包括用于在设备100上生成触觉输出的一个或多个触觉输出发生器167(例如，在触敏表面(诸如设备100的触敏显示器系统112或设备300的触摸板355)上生成触觉输出)。这些组件任选地通过一个或多个通信总线或信号线103进行通信。

如在本说明书和权利要求书中所使用的，术语触敏表面上的接触的“强度”是指触敏表面上的接触(例如，手指接触)的力或压力(每单位面积的力)，或是指触敏表面上的接触的力或压力的替代物(代用物)。接触的强度具有值范围，该值范围包括至少四个不同的值并且更典型地包括上百个不同的值(例如，至少256个)。接触的强度任选地使用各种方法和各种传感器或传感器的组合来确定(或测量)。例如，在触敏表面下方或相邻于触敏表面的一个或多个力传感器任选地用于测量触敏表面上的不同点处的力。在一些具体实施中，来自多个力传感器的力测量值被组合(例如，加权平均)以确定所估计的接触力。类似地，触控笔的压敏顶端任选地用于确定触控笔在触敏表面上的压力。另选地，在触敏表面上检测到的接触区域的尺寸和/或其变化、接触附近的触敏表面的电容和/或其变化以及/或者接触附近的触敏表面的电阻和/或其变化任选地被用作触敏表面上的接触的力或压力的替代物。在一些具体实施中，接触力或压力的替代物测量直接用于确定是否已经超过强度阈值(例如，强度阈值以对应于替代物测量的单位来描述)。在一些具体实施中，接触力或压力的替代物测量被转换成估计的力或压力，并且估计的力或压力用于确定是否已超过强度阈值(例如，强度阈值是以压力的单位进行测量的压力阈值)。使用接触的强度作为用户输入的属性，从而允许用户访问用户在实地面积有限的尺寸更小的设备上本来不可访问的附加设备功能，该尺寸更小的设备用于(例如，在触敏显示器上)显示示能表示和/或接收用户输入(例如，经由触敏显示器、触敏表面或物理控件/机械控件，诸如旋钮或按钮)。

如本说明书和权利要求书中所使用的，术语“触觉输出”是指将由用户利用用户的触感检测到的设备相对于设备的先前定位的物理位移、设备的组件(例如，触敏表面)相对于设备的另一组件(例如，外壳)的物理位移或组件相对于设备的质心的位移。例如，在设备或设备的组件与用户对触摸敏感的表面(例如，手指、手掌或用户手部的其他部分)接触的情况下，通过物理位移生成的触觉输出将由用户解释为触感，该触感对应于设备或设备的组件的物理特性的所感知的变化。例如，触敏表面(例如，触敏显示器或触控板)的移动任选地由用户解释为对物理致动按钮的“按下点击”或“松开点击”。在一些情况下，用户将感觉到触感，诸如“按下点击”或“松开点击”，即使在通过用户的移动而物理地被按压(例如，被移位)的与触敏表面相关联的物理致动按钮没有移动时。又如，即使在触敏表面的光滑度无变化时，触敏表面的移动也会任选地由用户解释或感测为触敏表面的“粗糙度”。虽然用户对触摸的此类解释将受到用户的个体化感官知觉的限制，但是对触摸的许多感官知觉是大多数用户共有的。因此，当触觉输出被描述为对应于用户的特定感官知觉(例如，“按下点击”、“松开点击”、“粗糙度”)时，除非另外陈述，否则所生成的触觉输出对应于设备或其组件的物理位移，该物理位移将会生成典型(或普通)用户的所述感官知觉。

应当理解，设备100仅仅是便携式多功能设备的一个示例，并且设备100任选地具有比所示出的组件更多或更少的组件，任选地组合两个或更多个组件，或者任选地具有这些组件的不同配置或布置。图1A所示的各种组件以硬件、软件或硬件与软件两者的组合来实现，包括一个或多个信号处理和/或专用集成电路。

存储器102任选地包括高速随机存取存储器，并且还任选地包括非易失性存储器，诸如一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备。存储器控制器122任选地控制设备100的其他组件访问存储器102。

外围设备接口118可用于将设备的输入外围设备和输出外围设备耦接到CPU 120和存储器102。该一个或多个处理器120运行或执行存储器102中所存储的各种软件程序(诸如计算机程序(例如，包括指令))和/或指令集以执行设备100的各种功能并处理数据。在一些实施方案中，外围设备接口118、CPU 120和存储器控制器122任选地被实现在单个芯片诸如芯片104上。在一些其他实施方案中，它们任选地在独立的芯片上实现。

RF(射频)电路108接收和发送也被称作电磁信号的RF信号。RF电路108将电信号转换为电磁信号/将电磁信号转换为电信号，并且经由电磁信号与通信网络及其他通信设备进行通信。RF电路108任选地包括用于执行这些功能的熟知的电路，包括但不限于天线系统、RF收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码芯片组、用户身份模块(SIM)卡、存储器等等。RF电路108任选地通过无线通信来与网络和其他设备进行通信，这些网络为诸如互联网(也被称为万维网(WWW))、内联网和/或无线网络(诸如，蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN))。RF电路108任选地包括用于诸如通过近程通信无线电部件来检测近场通信(NFC)场的熟知的电路。无线通信任选地使用多种通信标准、协议和技术中的任一者，包括但不限于全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进、纯数据(EV-DO)、HSPA、HSPA+、双单元HSPA(DC-HSPDA)、长期演进(LTE)、近场通信(NFC)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、蓝牙低功耗(BTLE)、无线保真(Wi-Fi)(例如，IEEE 802.11a、IEEE 802.11b、IEEE 802.11g、IEEE 802.11n和/或IEEE802.11ac)、互联网协议语音(VoIP)、Wi-MAX、电子邮件协议(例如，互联网消息访问协议(IMAP)和/或邮局协议(POP))、即时消息(例如，可扩展消息处理和存在协议(XMPP)、用于即时消息和存在利用扩展的会话发起协议(SIMPLE)、即时消息和存在服务(IMPS))和/或短消息服务(SMS)，或者包括在本文档提交日期时还未开发出的通信协议的任何其他适当的通信协议。

音频电路110、扬声器111和麦克风113提供用户与设备100之间的音频接口。音频电路110从外围设备接口118接收音频数据，将音频数据转换为电信号，并将电信号传输到扬声器111。扬声器111将电信号转换为人类可听到的声波。音频电路110还接收由麦克风113从声波转换的电信号。音频电路110将电信号转换为音频数据，并且将音频数据传输到外围设备接口118以用于处理。音频数据任选地由外围设备接口118检索自和/或传输至存储器102和/或RF电路108。在一些实施方案中，音频电路110还包括耳麦插孔(例如，图2中的212)。耳麦插孔提供音频电路110与可移除音频输入/输出外围设备之间的接口，该外围设备为诸如仅输出的耳机或者具有输出(例如，单耳耳机或双耳耳机)和输入(例如，麦克风)两者的耳麦。

I/O子系统106将设备100上的输入/输出外围设备诸如触摸屏112和其他输入控制设备116耦接到外围设备接口118。I/O子系统106任选地包括显示控制器156、光学传感器控制器158、深度相机控制器169、强度传感器控制器159、触觉反馈控制器161，以及用于其他输入或控制设备的一个或多个输入控制器160。该一个或多个输入控制器160从其他输入控制设备116接收电信号/将电信号发送到该其他输入控制设备。该其他输入控制设备116任选地包括物理按钮(例如，下压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击式转盘等。在一些实施方案中，输入控制器160任选地耦接到以下各项中的任一者(或不耦接到以下各项中的任一者)：键盘、红外线端口、USB端口，以及指向设备诸如鼠标。一个或多个按钮(例如，图2中的208)任选地包括用于扬声器111和/或麦克风113音量控制的增大/减小按钮。该一个或多个按钮任选地包括下压按钮(例如，图2中的206)。在一些实施方案中，电子设备是(例如，经由无线通信、经由有线通信)与一个或多个输入设备进行通信的计算机系统。在一些实施方案中，该一个或多个输入设备包括触敏表面(例如，触控板，作为触敏显示器的一部分)。在一些实施方案中，一个或多个输入设备包括一个或多个相机传感器(例如，一个或多个光学传感器164和/或一个或多个深度相机传感器175)，诸如用于跟踪用户的手势(例如，手部手势和/或空中手势)作为输入。在一些实施方案中，一个或多个输入设备与该计算机系统集成。在一些实施方案中，一个或多个输入设备与该计算机系统分开。在一些实施方案中，空中手势是在用户不触摸作为设备的一部分的输入元件(或独立于作为设备的一部分的输入元件)的情况下检测到的并且基于所检测到的用户身体的一部分穿过空中的运动(包括用户的身体相对于绝对参考的运动(例如，用户的手臂相对于地面的角度或用户的手部相对于地面的距离)、相对于用户身体的另一部分的运动(例如，用户的手部相对于用户的肩部的移动、用户的一只手相对于用户的另一只手的移动和/或用户的手指相对于用户的另一手指或手部的一部分的移动)和/或用户身体的一部分的绝对运动(例如，包括手以预定姿势将移动预定量和/或速度的轻击手势或包括用户身体的一部分的预定速度或旋转量的摇动手势))的手势。

快速按下下压按钮任选地脱离触摸屏112的锁定或者任选地开始使用触摸屏上的手势来对设备进行解锁的进程，如在2005年12月23日提交的名称为“Unlocking a Deviceby Performing Gestures on an Unlock Image”的美国专利申请11/322,549(即，美国专利第7,657,849号)中所述的，该美国专利申请据此全文以引用方式并入本文。长按下压按钮(例如206)任选地使设备100开机或关机。一个或多个按钮的功能任选地为用户可定制的。触摸屏112用于实现虚拟按钮或软按钮以及一个或多个软键盘。

触敏显示器112提供设备和用户之间的输入接口和输出接口。显示控制器156从触摸屏112接收电信号和/或将电信号发送到该触摸屏。触摸屏112向用户显示视觉输出。视觉输出任选地包括图形、文本、图标、视频以及它们的任何组合(统称为“图形”)。在一些实施方案中，一些视觉输出或全部的视觉输出任选地与用户界面对象对应。

触摸屏112具有基于触觉和/或触感接触来接受来自用户的输入的触敏表面、传感器或传感器组。触摸屏112和显示控制器156(与存储器102中的任何相关联的模块和/或指令集一起)检测触摸屏112上的接触(和该接触的任何移动或中断)，并且将所检测到的接触转换为与被显示在触摸屏112上的用户界面对象(例如，一个或多个软键、图标、网页或图像)的交互。在示例性实施方案中，触摸屏112与用户之间的接触点对应于用户的手指。

触摸屏112任选地使用LCD(液晶显示器)技术、LPD(发光聚合物显示器)技术或LED(发光二极管)技术，但是在其他实施方案中使用其他显示技术。触摸屏112和显示控制器156任选地使用现在已知的或以后将开发出的多种触摸感测技术中的任何技术以及其他接近传感器阵列或用于确定与触摸屏112接触的一个或多个点的其他元件来检测接触及其任何移动或中断，该多种触摸感测技术包括但不限于电容性的、电阻性的、红外线的和表面声波技术。在示例性实施方案中，使用投射式互电容感测技术，诸如在来自Apple Inc.(Cupertino,California)的和iPod中使用的技术。

触摸屏112的一些实施方案中的触敏显示器任选地类似于以下美国专利中描述的多点触敏触摸板：6,323,846(Westerman等人)、6,570,557(Westerman等人)和/或6,677,932(Westerman等人)和/或美国专利公开2002/0015024A1，这些专利中的每一者据此全文以引用方式并入。然而，触摸屏112显示来自设备100的视觉输出，而触敏触摸板不提供视觉输出。

触摸屏112的一些实施方案中的触敏显示器在以下申请中有所描述：(1)2006年5月2日提交的美国专利申请第11/381,313号，“Multipoint Touch Surface Controller”；(2)2004年5月6日提交的美国专利申请第10/840,862号，“Multipoint Touchscreen”；(3)2004年7月30日提交的美国专利申请第10/903,964号，“Gestures For Touch SensitiveInput Devices”；(4)2005年1月31日提交的美国专利申请第11/048,264号，“Gestures ForTouch Sensitive Input Devices”；(5)2005年1月18日提交的美国专利申请第11/038,590号，“Mode-Based Graphical User Interfaces For Touch Sensitive Input Devices”；(6)2005年9月16日提交的美国专利申请第11/228,758号，“Virtual Input DevicePlacement On A Touch Screen User Interface”；(7)2005年9月16日提交的美国专利申请第11/228,700号，“Operation Of A Computer With A Touch Screen Interface”；(8)2005年9月16日提交的美国专利申请第11/228,737号，“Activating Virtual Keys Of ATouch-Screen Virtual Keyboard”；以及(9)2006年3月3日提交的美国专利申请第11/367,749号，“Multi-Functional Hand-Held Device”。所有这些申请全文以引用方式并入本文。

触摸屏112任选地具有超过100dpi的视频分辨率。在一些实施方案中，触摸屏具有约160dpi的视频分辨率。用户任选地使用任何合适的物体或附加物诸如触控笔、手指等等来与触摸屏112接触。在一些实施方案中，将用户界面设计为主要通过基于手指的接触和手势来工作，由于手指在触摸屏上的接触区域较大，因此这可能不如基于触控笔的输入精确。在一些实施方案中，设备将基于手指的粗略输入转化为精确的指针/光标定位或命令以用于执行用户所期望的动作。

在一些实施方案中，除了触摸屏之外，设备100任选地还包括用于激活或停用特定功能的触摸板。在一些实施方案中，触摸板是设备的触敏区域，与触摸屏不同，该触敏区域不显示视觉输出。触摸板任选地是与触摸屏112分开的触敏表面，或者是由触摸屏形成的触敏表面的延伸部分。

设备100还包括用于为各种组件供电的电力系统162。电力系统162任选地包括电力管理系统、一个或多个电源(例如，电池、交流电(AC))、再充电系统、电力故障检测电路、功率转换器或逆变器、电源状态指示符(例如，发光二极管(LED))以及与便携式设备中的电力的生成、管理和分配相关联的任何其他组件。

设备100任选地还包括一个或多个光学传感器164。图1A示出了耦接到I/O子系统106中的光学传感器控制器158的光学传感器。光学传感器164任选地包括电荷耦合设备(CCD)或互补金属氧化物半导体(CMOS)光电晶体管。光学传感器164从环境接收通过一个或多个透镜而投射的光，并且将光转换为表示图像的数据。结合成像模块143(也叫做相机模块)，光学传感器164任选地捕获静态图像或视频。在一些实施方案中，光学传感器位于设备100的后部上，与设备前部上的触摸屏显示器112相背对，使得触摸屏显示器能够用作用于静态图像和/或视频图像采集的取景器。在一些实施方案中，光学传感器位于设备的前部上，使得在用户在触摸屏显示器上查看其他视频会议参与者时任选地获取该用户的图像以用于视频会议。在一些实施方案中，光学传感器164的定位可由用户改变(例如，通过旋转设备外壳中的透镜和传感器)，使得单个光学传感器164与触摸屏显示器一起使用，以用于视频会议和静态图像和/或视频图像采集两者。

设备100任选地还包括一个或多个深度相机传感器175。图1A示出了耦接到I/O子系统106中的深度相机控制器169的深度相机传感器。深度相机传感器175从环境接收数据以从视点(例如，深度相机传感器)创建场景内的对象(例如，面部)的三维模型。在一些实施方案中，结合成像模块143(也称为相机模块)，深度相机传感器175任选地用于确定由成像模块143捕获的图像的不同部分的深度图。在一些实施方案中，深度相机传感器位于设备100的前部，使得在用户在触摸屏显示器上查看其他视频会议参与者时任选地获取具有深度信息的用户图像以用于视频会议，并且捕获具有深度图数据的自拍。在一些实施方案中，深度相机传感器175位于设备的后部，或者设备100的后部和前部。在一些实施方案中，深度相机传感器175的定位可由用户改变(例如，通过旋转设备外壳中的透镜和传感器)，使得深度相机传感器175与触摸屏显示器一起使用以用于视频会议和静态图像和/或视频图像采集两者。

设备100任选地还包括一个或多个接触强度传感器165。图1A示出了耦接到I/O子系统106中的强度传感器控制器159的接触强度传感器。接触强度传感器165任选地包括一个或多个压阻应变仪、电容式力传感器、电气力传感器、压电力传感器、光学力传感器、电容式触敏表面或其他强度传感器(例如，用于测量触敏表面上的接触的力(或压力)的传感器)。接触强度传感器165从环境接收接触强度信息(例如，压力信息或压力信息的代用物)。在一些实施方案中，至少一个接触强度传感器与触敏表面(例如，触敏显示器系统112)并置排列或邻近。在一些实施方案中，至少一个接触强度传感器位于设备100的后部上，与位于设备100的前部上的触摸屏显示器112相背对。

设备100任选地还包括一个或多个接近传感器166。图1A示出了耦接到外围设备接口118的接近传感器166。另选地，接近传感器166任选地耦接到I/O子系统106中的输入控制器160。接近传感器166任选地如以下美国专利申请中所述的那样执行：第11/241,839号，名称为“Proximity Detector In Handheld Device”；第11/240,788号，名称为“ProximityDetector In Handheld Device”；第11/620,702号，名称为“Using Ambient Light SensorTo Augment Proximity Sensor Output”；第11/586,862号，名称为“Automated ResponseTo And Sensing Of User Activity In Portable Devices”；以及第11/638,251号，名称为“Methods And Systems For Automatic Configuration Of Peripherals”，这些美国专利申请据此全文以引用方式并入本文。在一些实施方案中，当多功能设备被置于用户的耳朵附近时(例如，当用户正在进行电话呼叫时)，接近传感器关闭并且禁用触摸屏112。

设备100任选地还包括一个或多个触觉输出发生器167。图1A示出了耦接到I/O子系统106中的触觉反馈控制器161的触觉输出发生器。触觉输出发生器167任选地包括一个或多个电声设备诸如扬声器或其他音频组件；和/或用于将能量转换成线性运动的机电设备诸如电机、螺线管、电活性聚合物、压电致动器、静电致动器或其他触觉输出生成组件(例如，用于将电信号转换成设备上的触觉输出的组件)。接触强度传感器165从触觉反馈模块133接收触觉反馈生成指令，并且在设备100上生成能够由设备100的用户感觉到的触觉输出。在一些实施方案中，至少一个触觉输出发生器与触敏表面(例如，触敏显示器系统112)并置排列或邻近，并且任选地通过竖直地(例如，向设备100的表面内/外)或侧向地(例如，在与设备100的表面相同的平面中向后和向前)移动触敏表面来生成触觉输出。在一些实施方案中，至少一个触觉输出发生器传感器位于设备100的后部上，与位于设备100的前部上的触摸屏显示器112相背对。

设备100任选地还包括一个或多个加速度计168。图1A示出了耦接到外围设备接口118的加速度计168。另选地，加速度计168任选地耦接到I/O子系统106中的输入控制器160。加速度计168任选地如以下美国专利公开中所述的那样执行：第20050190059号，名称为“Acceleration-based Theft Detection System for Portable Electronic Devices”和第20060017692号，名称为“Methods And Apparatuses For Operating A PortableDevice Based On An Accelerometer”，这两个美国专利公开均全文以引用方式并入本文。在一些实施方案中，基于对从一个或多个加速度计接收的数据的分析来在触摸屏显示器上以纵向视图或横向视图显示信息。设备100任选地除了加速度计168之外还包括磁力仪和GPS(或GLONASS或其他全球导航系统)接收器，以用于获取关于设备100的位置和取向(例如，纵向或横向)的信息。

在一些实施方案中，存储于存储器102中的软件组件包括操作系统126、通信模块(或指令集)128、接触/运动模块(或指令集)130、图形模块(或指令集)132、文本输入模块(或指令集)134、全球定位系统(GPS)模块(或指令集)135以及应用(或指令集)136。此外，在一些实施方案中，存储器102(图1A)或370(图3)存储设备/全局内部状态157，如图1A和图3中所示。设备/全局内部状态157包括以下中的一者或多者：活动应用状态，其指示哪些应用(如果有的话)当前是活动的；显示状态，指示什么应用、视图或其他信息占据了触摸屏显示器112的各种区；传感器状态，包括从设备的各种传感器和输入控制设备116获得的信息；以及涉及设备位置和/或姿态的位置信息。

操作系统126(例如，Darwin、RTXC、LINUX、UNIX、OS X、iOS、WINDOWS或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般系统任务(例如，存储器管理、存储设备控制、功率管理等)的各种软件组件和/或驱动器，并且促进各种硬件组件和软件组件之间的通信。

通信模块128有利于通过一个或多个外部端口124来与其他设备进行通信，并且还包括用于处理由RF电路108和/或外部端口124所接收的数据的各种软件组件。外部端口124(例如，通用串行总线(USB)、火线等)适于直接耦接到其他设备，或间接地通过网络(例如，互联网、无线LAN等)进行耦接。在一些实施方案中，外部端口是与(Apple Inc.的商标)设备上所使用的30针连接器相同的或类似的和/或与其兼容的多针(例如，30针)连接器。

接触/运动模块130任选地检测与触摸屏112(结合显示控制器156)和其他触敏设备(例如，触摸板或物理点击式转盘)的接触。接触/运动模块130包括各种软件组件以用于执行与接触检测相关的各种操作，诸如确定是否已经发生了接触(例如，检测手指按下事件)、确定接触强度(例如，接触的力或压力，或者接触的力或压力的替代物)、确定是否存在接触的移动并跟踪在触敏表面上的移动(例如，检测一个或多个手指拖动事件)，以及确定接触是否已经停止(例如，检测手指抬起事件或者接触断开)。接触/运动模块130从触敏表面接收接触数据。确定接触点的移动任选地包括确定接触点的速率(量值)、速度(量值和方向)和/或加速度(量值和/或方向的改变)，所述接触点的移动由一系列接触数据表示。这些操作任选地被应用于单点接触(例如，单指接触)或者多点同时接触(例如，“多点触摸”/多个手指接触)。在一些实施方案中，接触/运动模块130和显示控制器156检测触摸板上的接触。

在一些实施方案中，接触/运动模块130使用一组一个或多个强度阈值来确定操作是否已由用户执行(例如，确定用户是否已“点击”图标)。在一些实施方案中，根据软件参数来确定强度阈值的至少一个子集(例如，强度阈值不是由特定物理致动器的激活阈值来确定的，并且可在不改变设备100的物理硬件的情况下被调节)。例如，在不改变触控板或触摸屏显示器硬件的情况下，触控板或触摸屏的鼠标“点击”阈值可被设置成预定义的阈值的大范围中的任一个阈值。附加地，在一些具体实施中，向设备的用户提供用于调节一组强度阈值中的一个或多个强度阈值(例如，通过调节各个强度阈值和/或通过利用对“强度”参数的系统级点击来一次调节多个强度阈值)的软件设置。

接触/运动模块130任选地检测由用户进行的手势输入。触敏表面上的不同手势具有不同的接触模式(例如，所检测到的接触的不同运动、计时和/或强度)。因此，任选地通过检测特定接触模式来检测手势。例如，检测手指轻击手势包括检测手指按下事件，然后在与手指按下事件相同的定位(或基本上相同的定位)处(例如，在图标的定位处)检测手指抬起(抬离)事件。作为另一示例，在触敏表面上检测手指轻扫手势包括检测手指按下事件，然后检测一个或多个手指拖动事件，并且随后检测手指抬起(抬离)事件。

图形模块132包括用于在触摸屏112或其他显示器上呈现和显示图形的各种已知的软件组件，包括用于改变所显示的图形的视觉冲击(例如，亮度、透明度、饱和度、对比度或其他视觉属性)的组件。如本文所用，术语“图形”包括可被显示给用户的任何对象，包括但不限于文本、网页、图标(诸如，包括软键的用户界面对象)、数字图像、视频、动画等。

在一些实施方案中，图形模块132存储表示待使用的图形的数据。每个图形任选地被分配有对应的代码。图形模块132从应用等接收用于指定待显示的图形的一个或多个代码，在必要的情况下还一起接收坐标数据和其他图形属性数据，并且然后生成屏幕图像数据，以输出至显示控制器156。

触觉反馈模块133包括用于生成指令的各种软件组件，该指令由触觉输出发生器167用于响应于用户与设备100的交互而在设备100上的一个或多个位置处产生触觉输出。

任选地为图形模块132的组件的文本输入模块134提供用于在各种应用(例如，联系人137、电子邮件140、IM 141、浏览器147和需要文本输入的任何其他应用)中输入文本的软键盘。

GPS模块135确定设备的位置，并提供该信息以供在各种应用中使用(例如提供给电话模块138以供在基于位置的拨号中使用；提供给相机模块143作为图片/视频元数据；以及提供给提供基于位置的服务的应用，诸如天气小组件、本地黄页小组件和地图/导航小组件)。

应用136任选地包括以下模块(或指令集)或者其子集或超集：

·联系人模块137(有时称为通讯录或联系人列表)；

·电话模块138；

·视频会议模块139；

·电子邮件客户端模块140；

·即时消息(IM)模块141；

·健身支持模块142；

·用于静态图像和/或视频图像的相机模块143；

·图像管理模块144；

·视频播放器模块；

·音乐播放器模块；

·浏览器模块147；

·日历模块148；

·小组件模块149，其任选地包括以下各项中的一者或多者：天气小组件149-1、股市小组件149-2、计算器小组件149-3、闹钟小组件149-4、词典小组件149-5和由用户获取的其他小组件，以及用户创建的小组件149-6；

·用于形成用户创建的小组件149-6的小组件创建器模块150；

·搜索模块151；

·视频和音乐播放器模块152，其合并视频播放器模块和音乐播放器模块；

·笔记模块153；

·地图模块154；和/或

·在线视频模块155。

任选地存储在存储器102中的其他应用136的示例包括其他文字处理应用、其他图像编辑应用、绘图应用、呈现应用、支持JAVA的应用、加密、数字权益管理、语音识别和语音复制。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，联系人模块137任选地用于管理通讯录或联系人列表(例如，存储在存储器102或存储器370中的联系人模块137的应用内部状态192中)，包括：向通讯录添加一个或多个姓名；从通讯录删除姓名；将电话号码、电子邮件地址、物理地址或其他信息与姓名关联；将图像与姓名关联；对姓名进行归类和分类；提供电话号码或电子邮件地址来发起和/或促进通过电话模块138、视频会议模块139、电子邮件140或IM 141进行的通信；等等。

结合RF电路108、音频电路110、扬声器111、麦克风113、触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，电话模块138任选地用于输入与电话号码对应的字符序列、访问联系人模块137中的一个或多个电话号码、修改已输入的电话号码、拔打相应的电话号码、进行对话，以及当对话完成时断开或挂断。如上所述，无线通信任选地使用多种通信标准、协议和技术中的任一种。

结合RF电路108、音频电路110、扬声器111、麦克风113、触摸屏112、显示控制器156、光学传感器164、光学传感器控制器158、接触/运动模块130、图形模块132、文本输入模块134、联系人模块137和电话模块138，视频会议模块139包括根据用户指令来发起、进行和终止用户与一个或多个其他参与方之间的视频会议的可执行指令。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，电子邮件客户端模块140包括响应于用户指令来创建、发送、接收和管理电子邮件的可执行指令。结合图像管理模块144，电子邮件客户端模块140使得非常容易创建和发送具有由相机模块143拍摄的静态图像或视频图像的电子邮件。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，即时消息模块141包括用于以下操作的可执行指令：输入与即时消息对应的字符序列、修改先前输入的字符、传输相应即时消息(例如，使用短消息服务(SMS)或多媒体消息服务(MMS)协议以用于基于电话的即时消息或者使用XMPP、SIMPLE或IMPS以用于基于互联网的即时消息)、接收即时消息以及查看所接收的即时消息。在一些实施方案中，所传输和/或接收的即时消息任选地包括图形、照片、音频文件、视频文件和/或MMS和/或增强消息服务(EMS)中所支持的其他附件。如本文所用，“即时消息”是指基于电话的消息(例如，使用SMS或MMS发送的消息)和基于互联网的消息(例如，使用XMPP、SIMPLE或IMPS发送的消息)两者。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134、GPS模块135、地图模块154和音乐播放器模块，健身支持模块142包括用于创建健身(例如，具有时间、距离和/或卡路里燃烧目标)的可执行指令；与健身传感器(运动设备)进行通信；接收健身传感器数据；校准用于监视健身的传感器；为健身选择和播放音乐；以及显示、存储和传输健身数据。

结合触摸屏112、显示控制器156、光学传感器164、光学传感器控制器158、接触/运动模块130、图形模块132和图像管理模块144，相机模块143包括用于以下操作的可执行指令：捕获静态图像或视频(包括视频流)并且将它们存储到存储器102中、修改静态图像或视频的特性，或从存储器102删除静态图像或视频。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134和相机模块143，图像管理模块144包括用于排列、修改(例如，编辑)或以其他方式操控、加标签、删除、呈现(例如，在数字幻灯片或专辑中)，以及存储静态图像和/或视频图像的可执行指令。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，浏览器模块147包括用于根据用户指令来浏览互联网，包括搜索、链接至、接收和显示网页或其部分，以及链接至网页的附件和其他文件的可执行指令。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134、电子邮件客户端模块140和浏览器模块147，日历模块148包括根据用户指令来创建、显示、修改和存储日历以及与日历相关联的数据(例如，日历条目、待办事项等)的可执行指令。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134和浏览器模块147，小组件模块149是任选地由用户下载和使用的微型应用(例如，天气小组件149-1、股市小组件149-2、计算器小组件149-3、闹钟小组件149-4和词典小组件149-5)或由用户创建的微型应用(例如，用户创建的小组件149-6)。在一些实施方案中，小组件包括HTML(超文本标记语言)文件、CSS(层叠样式表)文件和JavaScript文件。在一些实施方案中，小组件包括XML(可扩展标记语言)文件和JavaScript文件(例如，Yahoo！小组件)。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134和浏览器模块147，小组件创建器模块150任选地被用户用于创建小组件(例如，将网页的用户指定部分转变为小组件)。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，搜索模块151包括用于根据用户指令来搜索存储器102中与一个或多个搜索条件(例如，一个或多个用户指定的搜索词)匹配的文本、音乐、声音、图像、视频和/或其他文件的可执行指令。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132、音频电路110、扬声器111、RF电路108和浏览器模块147，视频和音乐播放器模块152包括允许用户下载和回放以一种或多种文件格式诸如MP3或AAC文件存储的所录制的音乐和其他声音文件的可执行指令，以及用于显示、呈现或以其他方式回放视频(例如，在触摸屏112上或在经由外部端口124连接的外部显示器上)的可执行指令。在一些实施方案中，设备100任选地包括MP3播放器诸如iPod(Apple Inc.的商标)的功能。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，笔记模块153包括用于根据用户指令来创建和管理笔记、待办事项等的可执行指令。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134、GPS模块135和浏览器模块147，地图模块154任选地用于根据用户指令接收、显示、修改和存储地图以及与地图相关联的数据(例如，驾驶方向、与特定位置处或附近的商店及其他兴趣点有关的数据，以及其他基于位置的数据)。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132、音频电路110、扬声器111、RF电路108、文本输入模块134、电子邮件客户端模块140和浏览器模块147，在线视频模块155包括用于以下操作的指令：允许用户访问、浏览、接收(例如，通过流式传输和/或下载)、回放(例如在触摸屏上或在经由外部端口124所连接的外部显示器上)、发送具有至特定在线视频的链接的电子邮件，以及以其他方式管理一种或多种文件格式诸如H.264的在线视频。在一些实施方案中，使用即时消息模块141而不是电子邮件客户端模块140来发送特定在线视频的链接。在线视频应用的其他描述可见于2007年6月20日提交的名称为“Portable Multifunction Device,Method,and Graphical User Interface forPlaying Online Videos”的美国临时专利申请第60/936,562号和2007年12月31日提交的名称为“Portable Multifunction Device,Method,and Graphical User Interface forPlaying Online Videos”的美国专利申请第11/968,067号，这两个专利申请的内容据此全文以引用方式并入本文。

上述每个模块和应用对应于用于执行上文所描述的一种或多种功能以及在本专利申请所描述的方法(例如，本文所描述的计算机实现的方法和其他信息处理方法)的可执行指令集。这些模块(例如，指令集)不必以独立的软件程序(诸如计算机程序(例如，包括指令))、过程或模块实现，因此这些模块的各种子集任选地在各种实施方案中组合或以其他方式重新布置。例如，视频播放器模块任选地与音乐播放器模块组合成单个模块(例如，图1A中的视频和音乐播放器模块152)。在一些实施方案中，存储器102任选地存储上述模块和数据结构的子组。此外，存储器102任选地存储上文未描述的另外的模块和数据结构。

在一些实施方案中，设备100是该设备上的预定义的一组功能的操作唯一地通过触摸屏和/或触摸板来执行的设备。通过使用触摸屏和/或触摸板作为用于操作设备100的主要输入控制设备，任选地减少设备100上的物理输入控制设备(例如，下压按钮、拨盘等等)的数量。

唯一地通过触摸屏和/或触摸板来执行的预定义的一组功能任选地包括在用户界面之间的导航。在一些实施方案中，触摸板在被用户触摸时将设备100从设备100上显示的任何用户界面导航到主菜单、主桌面菜单或根菜单。在此类实施方案中，使用触摸板来实现“菜单按钮”。在一些其他实施方案中，菜单按钮是物理下压按钮或者其他物理输入控制设备，而不是触摸板。

图1B是例示根据一些实施方案的用于事件处理的示例性组件的框图。在一些实施方案中，存储器102(图1A)或存储器370(图3)包括事件分类器170(例如，在操作系统126中)以及相应的应用136-1(例如，前述应用137至151、155、380至390中的任一个应用)。

事件分类器170接收事件信息并确定要将事件信息递送到的应用136-1和应用136-1的应用视图191。事件分类器170包括事件监视器171和事件分配器模块174。在一些实施方案中，应用136-1包括应用内部状态192，该应用内部状态指示当应用是活动的或正在执行时被显示在触敏显示器112上的一个或多个当前应用视图。在一些实施方案中，设备/全局内部状态157被事件分类器170用来确定哪个(哪些)应用当前是活动的，并且应用内部状态192被事件分类器170用来确定要将事件信息递送到的应用视图191。

在一些实施方案中，应用内部状态192包括附加信息，诸如以下各项中的一者或多者：当应用136-1恢复执行时将被使用的恢复信息、指示信息正被显示或准备好用于被应用136-1显示的用户界面状态信息、用于使得用户能够返回到应用136-1的前一状态或视图的状态队列，以及用户采取的先前动作的重复/撤销队列。

事件监视器171从外围设备接口118接收事件信息。事件信息包括关于子事件(例如，触敏显示器112上的用户触摸，作为多点触摸手势的一部分)的信息。外围设备接口118传输其从I/O子系统106或传感器诸如接近传感器166、一个或多个加速度计168和/或麦克风113(通过音频电路110)接收的信息。外围设备接口118从I/O子系统106接收的信息包括来自触敏显示器112或触敏表面的信息。

在一些实施方案中，事件监视器171以预先确定的间隔将请求发送至外围设备接口118。作为响应，外围设备接口118传输事件信息。在其他实施方案中，外围设备接口118仅当存在显著事件(例如，接收到高于预先确定的噪声阈值和/或接收到超过预先确定的持续时间的输入)时才传输事件信息。

在一些实施方案中，事件分类器170还包括命中视图确定模块172和/或活动事件识别器确定模块173。

当触敏显示器112显示多于一个视图时，命中视图确定模块172提供用于确定子事件已在一个或多个视图内的什么地方发生的软件过程。视图由用户能够在显示器上看到的控件和其他元素构成。

与应用相关联的用户界面的另一方面是一组视图，本文中有时也称为应用视图或用户界面窗口，在其中显示信息并且发生基于触摸的手势。在其中检测到触摸的(相应应用的)应用视图任选地对应于在应用的程序化或视图分级结构内的程序化水平。例如，在其中检测到触摸的最低水平视图任选地被称为命中视图，并且被辨别为正确输入的事件集任选地至少部分地基于初始触摸的命中视图来确定，所述初始触摸开始基于触摸的手势。

命中视图确定模块172接收与基于触摸的手势的子事件相关的信息。当应用具有以分级结构组织的多个视图时，命中视图确定模块172将命中视图标识为应当对子事件进行处理的分级结构中的最低视图。在大多数情况下，命中视图是发起子事件(例如，形成事件或潜在事件的子事件序列中的第一子事件)在其中发生的最低水平视图。一旦命中视图被命中视图确定模块172标识，命中视图便通常接收与其被标识为命中视图所针对的同一触摸或输入源相关的所有子事件。

活动事件识别器确定模块173确定视图分级结构内的哪个或哪些视图应接收特定子事件序列。在一些实施方案中，活动事件识别器确定模块173确定仅命中视图应接收特定子事件序列。在其他实施方案中，活动事件识别器确定模块173确定包括子事件的物理位置的所有视图是活跃参与的视图，并因此确定所有活跃参与的视图都应接收特定子事件序列。在其他实施方案中，即使触摸子事件完全被局限到与一个特定视图相关联的区域，分级结构中的较高视图将仍然保持为活跃参与的视图。

事件分配器模块174将事件信息分配到事件识别器(例如，事件识别器180)。在包括活动事件识别器确定模块173的实施方案中，事件分配器模块174将事件信息递送到由活动事件识别器确定模块173确定的事件识别器。在一些实施方案中，事件分配器模块174在事件队列中存储事件信息，该事件信息由相应事件接收器182进行检索。

在一些实施方案中，操作系统126包括事件分类器170。另选地，应用136-1包括事件分类器170。在又一实施方案中，事件分类器170是独立模块，或者是存储在存储器102中的另一模块(诸如，接触/运动模块130)的一部分。

在一些实施方案中，应用136-1包括多个事件处理程序190和一个或多个应用视图191，其中的每一个都包括用于处理发生在应用的用户界面的相应视图内的触摸事件的指令。应用136-1的每个应用视图191包括一个或多个事件识别器180。通常，相应应用视图191包括多个事件识别器180。在其他实施方案中，事件识别器180中的一个或多个事件识别器是独立模块的一部分，该独立模块为诸如用户界面工具包或应用136-1从中继承方法和其他属性的更高级别的对象。在一些实施方案中，相应事件处理程序190包括以下各项中的一者或多者：数据更新器176、对象更新器177、GUI更新器178和/或从事件分类器170接收的事件数据179。事件处理程序190任选地利用或调用数据更新器176、对象更新器177或GUI更新器178来更新应用内部状态192。另选地，应用视图191中的一个或多个应用视图包括一个或多个相应事件处理程序190。另外，在一些实施方案中，数据更新器176、对象更新器177和GUI更新器178中的一者或多者被包括在相应应用视图191中。

相应的事件识别器180从事件分类器170接收事件信息(例如，事件数据179)，并且根据事件信息标识事件。事件识别器180包括事件接收器182和事件比较器184。在一些实施方案中，事件识别器180还包括元数据183和事件传递指令188(其任选地包括子事件递送指令)的至少一个子集。

事件接收器182从事件分类器170接收事件信息。事件信息包括关于子事件例如触摸或触摸移动的信息。根据子事件，事件信息还包括附加信息，诸如子事件的位置。当子事件涉及触摸的运动时，事件信息任选地还包括子事件的速率和方向。在一些实施方案中，事件包括设备从一个取向旋转到另一取向(例如，从纵向取向旋转到横向取向，或反之亦然)，并且事件信息包括关于设备的当前取向(也被称为设备姿态)的对应信息。

事件比较器184将事件信息与预定义的事件或子事件定义进行比较，并且基于该比较来确定事件或子事件，或者确定或更新事件或子事件的状态。在一些实施方案中，事件比较器184包括事件定义186。事件定义186包含事件的定义(例如，预定义的子事件序列)，例如事件1(187-1)、事件2(187-2)以及其他。在一些实施方案中，事件(187)中的子事件例如包括触摸开始、触摸结束、触摸移动、触摸取消和多点触摸。在一个示例中，事件1(187-1)的定义是被显示对象上的双击。例如，双击包括被显示对象上的预先确定时长的第一触摸(触摸开始)、预先确定时长的第一抬离(触摸结束)、被显示对象上的预先确定时长的第二触摸(触摸开始)以及预先确定时长的第二抬离(触摸结束)。在另一示例中，事件2(187-2)的定义是被显示对象上的拖动。例如，拖动包括被显示对象上的预先确定时长的触摸(或接触)、触摸在触敏显示器112上的移动，以及触摸的抬离(触摸结束)。在一些实施方案中，事件还包括用于一个或多个相关联的事件处理程序190的信息。

在一些实施方案中，事件定义187包括对用于相应用户界面对象的事件的定义。在一些实施方案中，事件比较器184执行命中测试以确定哪个用户界面对象与子事件相关联。例如，在触敏显示器112上显示三个用户界面对象的应用视图中，当在触敏显示器112上检测到触摸时，事件比较器184执行命中测试以确定这三个用户界面对象中的哪一个用户界面对象与该触摸(子事件)相关联。如果每个所显示对象与相应事件处理程序190相关联，则事件比较器使用该命中测试的结果来确定哪个事件处理程序190应当被激活。例如，事件比较器184选择与子事件和触发该命中测试的对象相关联的事件处理程序。

在一些实施方案中，相应事件(187)的定义还包括延迟动作，该延迟动作延迟事件信息的递送，直到已确定子事件序列确实对应于或不对应于事件识别器的事件类型。

当相应事件识别器180确定子事件序列不与事件定义186中的任何事件匹配时，该相应事件识别器180进入事件不可能、事件失败或事件结束状态，在此之后忽略基于触摸的手势的后续子事件。在这种情况下，对于命中视图保持活动的其他事件识别器(如果有的话)继续跟踪并处理持续进行的基于触摸的手势的子事件。

在一些实施方案中，相应事件识别器180包括具有指示事件递送系统应当如何执行对活跃参与的事件识别器的子事件递送的可配置属性、标记和/或列表的元数据183。在一些实施方案中，元数据183包括指示事件识别器彼此如何交互或如何能够交互的可配置属性、标志和/或列表。在一些实施方案中，元数据183包括指示子事件是否递送到视图或程序化分级结构中的不同层级的可配置属性、标志和/或列表。

在一些实施方案中，当事件的一个或多个特定子事件被识别时，相应事件识别器180激活与事件相关联的事件处理程序190。在一些实施方案中，相应事件识别器180将与事件相关联的事件信息递送到事件处理程序190。激活事件处理程序190不同于将子事件发送(和延期发送)到相应命中视图。在一些实施方案中，事件识别器180抛出与所辨别出的事件相关联的标记，并且与该标记相关联的事件处理程序190获取该标记并执行预定义进程。

在一些实施方案中，事件递送指令188包括递送关于子事件的事件信息而不激活事件处理程序的子事件递送指令。相反，子事件递送指令将事件信息递送到与子事件序列相关联的事件处理程序或者递送到活跃参与的视图。与子事件序列或与活跃参与的视图相关联的事件处理程序接收事件信息并执行预先确定的进程。

在一些实施方案中，数据更新器176创建并更新在应用136-1中使用的数据。例如，数据更新器176对联系人模块137中所使用的电话号码进行更新，或者对视频播放器模块中所使用的视频文件进行存储。在一些实施方案中，对象更新器177创建并更新在应用136-1中使用的对象。例如，对象更新器177创建新的用户界面对象或更新用户界面对象的定位。GUI更新器178更新GUI。例如，GUI更新器178准备显示信息，并且将显示信息发送到图形模块132用以显示在触敏显示器上。

在一些实施方案中，事件处理程序190包括数据更新器176、对象更新器177和GUI更新器178，或具有对该数据更新器、该对象更新器和该GUI更新器的访问权限。在一些实施方案中，数据更新器176、对象更新器177和GUI更新器178被包括在相应应用136-1或应用视图191的单个模块中。在其他实施方案中，它们被包括在两个或更多个软件模块中。

应当理解，关于触敏显示器上的用户触摸的事件处理的上述论述还适用于利用输入设备来操作多功能设备100的其他形式的用户输入，并不是所有用户输入都是在触摸屏上发起的。例如，任选地与单次或多次键盘按下或按住协作的鼠标移动和鼠标按钮按下；触摸板上的接触移动，诸如轻击、拖动、滚动等；触控笔输入；设备的移动；口头指令；检测到的眼睛移动；生物特征输入；和/或它们的任何组合任选地被用作对应于限定要辨别的事件的子事件的输入。

图2例示了根据一些实施方案的具有触摸屏112的便携式多功能设备100。触摸屏任选地在用户界面(UI)200内显示一个或多个图形。在本实施方案以及下文所描述的其他实施方案中，用户能够通过例如利用一根或多根手指202(在图中未按比例绘制)或一支或多支触控笔203(在图中未按比例绘制)在图形上作出手势来选择这些图形中的一个或多个图形。在一些实施方案中，当用户中断与一个或多个图形的接触时，将发生对一个或多个图形的选择。在一些实施方案中，手势任选地包括一次或多次轻击、一次或多次轻扫(从左向右、从右向左、向上和/或向下)和/或已与设备100发生接触的手指的滚动(从右向左、从左向右、向上和/或向下)。在一些具体实施中或在一些情况下，不经意地与图形接触不会选择图形。例如，当与选择对应的手势是轻击时，在应用图标上方扫动的轻扫手势任选地不会选择对应的应用。

设备100任选地还包括一个或多个物理按钮，诸如“主桌面”或菜单按钮204。如前所述，菜单按钮204任选地用于导航到任选地在设备100上被执行的一组应用中的任何应用136。另选地，在一些实施方案中，菜单按钮被实现为被显示在触摸屏112上的GUI中的软键。

在一些实施方案中，设备100包括触摸屏112、菜单按钮204、用于使设备开机/关机和用于锁定设备的下压按钮206、一个或多个音量调节按钮208、用户身份模块(SIM)卡槽210、耳麦插孔212和对接/充电外部端口124。下压按钮206任选地用于通过压下该按钮并且将该按钮保持在压下状态持续预定义的时间间隔来对设备进行开/关机；通过压下该按钮并在该预定义的时间间隔过去之前释放该按钮来锁定设备；和/或对设备进行解锁或发起解锁进程。在另选实施方案中，设备100还通过麦克风113接受用于激活或停用某些功能的言语输入。设备100还任选地包括用于检测触摸屏112上的接触的强度的一个或多个接触强度传感器165，和/或用于为设备100的用户生成触觉输出的一个或多个触觉输出发生器167。

图3是根据一些实施方案的具有显示器和触敏表面的示例性多功能设备的框图。设备300不必是便携式的。在一些实施方案中，设备300是膝上型电脑、台式计算机、平板电脑、多媒体播放器设备、导航设备、教育设备(诸如儿童学习玩具)、游戏系统或控制设备(例如，家用控制器或工业用控制器)。设备300通常包括一个或多个处理单元(CPU)310、一个或多个网络或其他通信接口360、存储器370和用于使这些组件互连的一条或多条通信总线320。通信总线320任选地包括使系统组件互连并且控制系统组件之间的通信的电路(有时称作芯片组)。设备300包括具有显示器340的输入/输出(I/O)接口330，该显示器通常是触摸屏显示器。I/O接口330还任选地包括键盘和/或鼠标(或其他指向设备)350和触摸板355、用于在设备300上生成触觉输出的触觉输出发生器357(例如，类似于上文参考图1A所描述的触觉输出发生器167)、传感器359(例如，光学传感器、加速度传感器、接近传感器、触敏传感器和/或接触强度传感器(类似于上文参考图1A所描述的接触强度传感器165))。存储器370包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM，或其他随机存取固态存储器设备；以及任选地包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器370任选地包括远离CPU 310定位的一个或多个存储设备。在一些实施方案中，存储器370存储与便携式多功能设备100(图1A)的存储器102中存储的程序、模块和数据结构类似的程序、模块和数据结构或其子集。此外，存储器370任选地存储在便携式多功能设备100的存储器102中不存在的附加程序、模块和数据结构。例如，设备300的存储器370任选地存储绘图模块380、呈现模块382、文字处理模块384、网站创建模块386、盘编辑模块388和/或电子表格模块390，而便携式多功能设备100(图1A)的存储器102任选地不存储这些模块。

图3中的上述元素中的每个元素任选地存储于先前提到的存储器设备的一个或多个存储器设备中。上述模块中的每个模块对应于用于执行上文所描述的功能的指令集。上述模块或计算机程序(例如，指令集或包括指令)不必以单独的软件程序(诸如计算机程序(例如，包括指令))、过程或模块实现，并且因此这些模块的各种子集任选地在各种实施方案中被组合或以其他方式重新布置。在一些实施方案中，存储器370任选地存储上述模块和数据结构的子组。此外，存储器370任选地存储上文未描述的附加模块和数据结构。

现在将注意力转到任选地在例如便携式多功能设备100上实现的用户界面的实施方案。

图4A例示了根据一些实施方案的便携式多功能设备100上的应用菜单的示例性用户界面。类似的用户界面任选地在设备300上实现。在一些实施方案中，用户界面400包括以下元件或者其子集或超集：

·无线通信诸如蜂窝信号和Wi-Fi信号的信号强度指示符402；

·时间404；

·蓝牙指示符405；

·电池状态指示符406；

·具有针对常用应用的图标的托盘408，该图标诸如：

ο电话模块138的被标记为“电话”的图标416，该图标任选地包括未接来电或语音信箱的数量的指示符414；

ο电子邮件客户端模块140的被标记为“邮件”的图标418，该图标任选地包括未读电子邮件的数量的指示符410；

ο浏览器模块147的标记为“浏览器”的图标420；以及

ο视频和音乐播放器模块152(也被称为iPod(Apple Inc.的商标)模块152)的被标记为“iPod”的图标422；以及

·其他应用的图标，诸如：

οIM模块141的被标记为“消息”的图标424；

ο日历模块148的被标记为“日历”的图标426；

ο图像管理模块144的被标记为“照片”的图标428；

ο相机模块143的被标记为“相机”的图标430；

ο在线视频模块155的被标记为“在线视频”的图标432；

ο股市小组件149-2的被标记为“股市”的图标434；

ο地图模块154的被标记为“地图”的图标436；

ο天气小组件149-1的被标记为“天气”的图标438；

ο闹钟小组件149-4的被标记为“时钟”的图标440；

ο健身支持模块142的被标记为“健身支持”的图标442；

ο笔记模块153的标记为“笔记”的图标444；以及

ο设置应用或模块的被标记为“设置”的图标446，该图标提供对设备100及其各种应用136的设置的访问。

应当指出的是，图4A所例示的图标标签仅仅是示例性的。例如，视频和音乐播放器模块152的图标422被标记“音乐”或“音乐播放器”。对于各种应用图标任选地使用其他标签。在一些实施方案中，相应应用图标的标签包括与该相应应用图标对应的应用的名称。在一些实施方案中，特定应用图标的标签不同于与该特定应用图标对应的应用的名称。

图4B例示了具有与显示器450(例如，触摸屏显示器112)分开的触敏表面451(例如，图3的平板电脑或触摸板355)的设备(例如，图3的设备300)上的示例性用户界面。设备300还任选地包括用于检测触敏表面451上的接触的强度的一个或多个接触强度传感器(例如，传感器359中的一个或多个传感器)和/或用于为设备300的用户生成触觉输出的一个或多个触觉输出发生器357。

尽管将参考触摸屏显示器112(其中组合了触敏表面和显示器)上的输入给出以下示例中的一些示例，但是在一些实施方案中，设备检测与显示器分开的触敏表面上的输入，如图4B中所示。在一些实施方案中，触敏表面(例如，图4B中的451)具有与显示器(例如，450)上的主轴(例如，图4B中的453)对应的主轴(例如，图4B中的452)。根据这些实施方案，设备检测在与显示器上的相应位置对应的位置(例如，在图4B中，460对应于468并且462对应于470)处与触敏表面451的接触(例如，图4B中的460和462)。这样，当触敏表面(例如，图4B中的451)与多功能设备的显示器(例如，图4B中的450)分开时，由设备在该触敏表面上检测到的用户输入(例如，接触460和462以及它们的移动)被该设备用于操纵该显示器上的用户界面。应当理解，类似的方法任选地用于本文所描述的其他用户界面。

附加地，虽然主要是参考手指输入(例如，手指接触、单指轻击手势、手指轻扫手势)来给出下面的示例，但是应当理解的是，在一些实施方案中，这些手指输入中的一个或多个手指输入由来自另一输入设备的输入(例如，基于鼠标的输入或触控笔输入)替代。例如，轻扫手势任选地由鼠标点击(例如，而不是接触)，之后是光标沿着轻扫的路径的移动(例如，而不是接触的移动)替代。又如，轻击手势任选地由在光标位于轻击手势的位置上方时的鼠标点击(例如，代替对接触的检测，之后是停止检测接触)替代。类似地，当同时检测到多个用户输入时，应当理解的是，多个计算机鼠标任选地被同时使用，或鼠标和手指接触任选地被同时使用。

图5A例示了示例性个人电子设备500。设备500包括主体502。在一些实施方案中，设备500可包括关于设备100和300(例如，图1A至图4B)所描述的特征中的一些或全部特征。在一些实施方案中，设备500具有在下文中称为触摸屏504的触敏显示屏504。另选地，或除了触摸屏504之外，设备500还具有显示器和触敏表面。与设备100和300的情况一样，在一些实施方案中，触摸屏504(或触敏表面)任选地包括用于检测所施加的接触(例如，触摸)强度的一个或多个强度传感器。触摸屏504(或触敏表面)的一个或多个强度传感器可提供表示触摸的强度的输出数据。设备500的用户界面可基于触摸的强度来对触摸作出响应，这意味着不同强度的触摸可调用设备500上的不同用户界面操作。

用于检测和处理触摸强度的示例性技术见于例如以下相关专利申请中：2013年5月8日提交的名称为“Device,Method,and Graphical User Interface for DisplayingUser Interface Objects Corresponding to an Application”的国际专利申请序列第PCT/US2013/040061号，发布为WIPO专利公开WO/2013/169849号；以及2013年11月11日提交的名称为“Device,Method,and Graphical User Interface for Transitioning BetweenTouch Input to Display Output Relationships”的国际专利申请序列号PCT/US2013/069483，发布为WIPO专利公开WO/2014/105276号，这些专利申请中的每一者据此全文以引用方式并入。

在一些实施方案中，设备500具有一个或多个输入机构506和508。输入机构506和508(如果包括的话)可以是物理形式的。物理输入机构的示例包括下压按钮和可旋转机构。在一些实施方案中，设备500具有一个或多个附接机构。此类附接机构(如果包括的话)可允许将设备500与例如帽子、眼镜、耳环、项链、衬衣、夹克、手镯、表带、手链、裤子、皮带、鞋子、钱包、背包等附接。这些附接机构允许用户穿戴设备500。

图5B描绘了示例性个人电子设备500。在一些实施方案中，设备500可包括关于图1A、图1B和图3所描述的组件中的一些或全部组件。设备500具有总线512，该总线将I/O部分514与一个或多个计算机处理器516和存储器518操作性地耦接。I/O部分514可连接到显示器504，该显示器可具有触敏组件522并且任选地具有强度传感器524(例如，接触强度传感器)。此外，I/O部分514可与通信单元530连接，用于使用Wi-Fi、蓝牙、近场通信(NFC)、蜂窝和/或其他无线通信技术来接收应用和操作系统数据。设备500可包括输入机构506和/或508。例如，输入机构506任选地是可旋转输入设备或者可按压输入设备以及可旋转输入设备。在一些示例中，输入机构508任选地是按钮。

在一些示例中，输入机构508任选地是麦克风。个人电子设备500任选地包括各种传感器，诸如GPS传感器532、加速度计534、定向传感器540(例如，罗盘)、陀螺仪536、运动传感器538和/或其组合，所有这些设备均可操作地连接到I/O部分514。

个人电子设备500的存储器518可以包括用于存储计算机可执行指令的一个或多个非暂态计算机可读存储介质，这些计算机可执行指令在由一个或多个计算机处理器516执行时例如可以使得计算机处理器执行下文所描述的技术，包括过程700、800、1000和1100(图7、图8、图10和图11)。计算机可读存储介质可以是可有形地包含或存储计算机可执行指令以供指令执行系统、装置和设备使用或与其结合的任何介质。在一些示例中，存储介质是暂态计算机可读存储介质。在一些示例中，存储介质是非暂态计算机可读存储介质。非暂态计算机可读存储介质可包括但不限于磁存储装置、光学存储装置和/或半导体存储装置。此类存储装置的示例包括磁盘、基于CD、DVD或蓝光技术的光盘，以及持久性固态存储器诸如闪存、固态驱动器等。个人电子设备500不限于图5B的组件和配置，而是可包括多种配置中的其他组件或附加组件。

如本文所用，术语“示能表示”是指任选地显示在设备100、300和/或500(图1A、图3和图5A至图5C)的显示屏上的用户交互式图形用户界面对象。例如，图像(例如，图标)、按钮和文本(例如，超链接)任选地各自构成示能表示。

如本文所用，术语“焦点选择器”是指用于指示用户正与之进行交互的用户界面的当前部分的输入元素。在包括光标或其他位置标记的一些具体实施中，光标充当“焦点选择器”，使得当光标在特定用户界面元素(例如，按钮、窗口、滑块或其他用户界面元素)上方时在触敏表面(例如，图3中的触摸板355或图4B中的触敏表面451)上检测到输入(例如，按压输入)的情况下，该特定用户界面元素根据所检测到的输入而被调节。在包括能够实现与触摸屏显示器上的用户界面元素的直接交互的触摸屏显示器(例如，图1A中的触敏显示器系统112或图4A中的触摸屏112)的一些具体实施中，在触摸屏上所检测到的接触充当“焦点选择器”，使得当在触摸屏显示器上在特定用户界面元素(例如，按钮、窗口、滑块或其他用户界面元素)的位置处检测到输入(例如，由接触进行的按压输入)时，该特定用户界面元素根据所检测到的输入而被调节。在一些具体实施中，焦点从用户界面的一个区移动到用户界面的另一区，而无需光标的对应移动或触摸屏显示器上的接触的移动(例如，通过使用制表键或箭头键将焦点从一个按钮移动到另一按钮)；在这些具体实施中，焦点选择器根据焦点在用户界面的不同区之间的移动来移动。不考虑焦点选择器所采取的具体形式，焦点选择器通常是由用户控制的以便递送与用户界面的用户预期的交互(例如，通过向设备指示用户界面的用户期望与其进行交互的元素)的用户界面元素(或触摸屏显示器上的接触)。例如，在触敏表面(例如，触摸板或触摸屏)上检测到按压输入时，焦点选择器(例如，光标、接触或选择框)在相应按钮上方的位置将指示用户期望激活相应按钮(而不是设备显示器上示出的其他用户界面元素)。

如说明书和权利要求中所使用的，接触的“特征强度”这一术语是指基于接触的一个或多个强度的接触的特征。在一些实施方案中，特征强度基于多个强度样本。特征强度任选地基于相对于预定义事件(例如，在检测到接触之后，在检测到接触抬离之前，在检测到接触开始移动之前或之后，在检测到接触结束之前，在检测到接触的强度增大之前或之后和/或在检测到接触的强度减小之前或之后)而言在预先确定的时间段(例如，0.05秒、0.1秒、0.2秒、0.5秒、1秒、2秒、5秒、10秒)期间采集的预定义数量的强度样本或一组强度样本。接触的特征强度任选地基于以下各项中的一者或多者：接触的强度的最大值、接触的强度的均值、接触的强度的平均值、接触的强度的前10％处的值、接触的强度的半最大值、接触的强度的90％最大值等。在一些实施方案中，在确定特征强度时使用接触的持续时间(例如，在特征强度是接触的强度在时间上的平均值时)。在一些实施方案中，将特征强度与一组一个或多个强度阈值进行比较，以确定用户是否已执行操作。例如，该组一个或多个强度阈值任选地包括第一强度阈值和第二强度阈值。在该示例中，特征强度未超过第一阈值的接触导致第一操作，特征强度超过第一强度阈值但未超过第二强度阈值的接触导致第二操作，而特征强度超过第二阈值的接触导致第三操作。在一些实施方案中，使用特征强度与一个或多个阈值之间的比较来确定是否要执行一个或多个操作(例如，是执行相应操作还是放弃执行相应操作)而不是用于确定执行第一操作还是第二操作。

图5C描绘了电子设备500A、500B和500C之间的通信会话的示例性图。设备500A、500B和500C类似于电子设备500，并且每个设备彼此共享一个或多个数据连接510(诸如互联网连接、Wi-Fi连接、蜂窝连接、短距离通信连接和/或任何其他此类数据连接或网络)以便促进相应设备之间的音频数据和/或视频数据的实时通信持续一段时间。在一些实施方案中，示例性通信会话可包括共享数据会话，由此数据从电子设备中的一个或多个电子设备传送到其他电子设备以使得能够在电子设备处同时输出相应内容。在一些实施方案中，示例性通信会话可包括视频会议会话，由此在设备500A、500B和500C之间传送音频数据和/或视频数据，使得相应设备的用户可使用电子设备进行实时通信。

在图5C中，设备500A表示与用户A相关联的电子设备。设备500A(经由数据连接510)与设备500B和500C通信，设备500B和500C分别与用户B和用户C相关联。设备500A包括用于捕获通信会话的视频数据的相机501A，以及用于显示与通信会话相关联的内容的显示器504A(例如，触摸屏)。设备500A还包括其他组件，诸如用于录制通信会话的音频的麦克风(例如，113)和用于输出通信会话的音频的扬声器(例如，111)。

设备500A经由显示器504A显示通信UI 520A，该通信UI是用于促进设备500B与设备500C之间的通信会话(例如，视频会议会话)的用户界面。通信UI 520A包括视频馈送525-1A和视频馈送525-2A。视频馈送525-1A是在设备500B处捕获(例如，使用相机501B)并且在通信会话期间从设备500B传送到设备500A和500C的视频数据的表示。视频馈送525-2A是在设备500C处捕获(例如，使用相机501C)并且在通信会话期间从设备500C传送到设备500A和500B的视频数据的表示。

通信UI 520A包括相机预览550A，该相机预览是在设备500A处经由相机501A捕获的视频数据的表示。相机预览550A向用户A表示在相应设备500B和500C处显示的用户A的预期视频馈送。

通信UI 520A包括用于控制通信会话的一个或多个方面的一个或多个控件555A。例如，控件555A可包括用于使通信会话的音频静音、改变通信会话的相机视图(例如，改变用于捕获通信会话视频的相机、调整缩放值)、终止通信会话、将视觉效果应用于通信会话的相机视图、激活与通信会话相关联的一个或多个模式的控件。在一些实施方案中，一个或多个控件555A任选地显示在通信UI 520A中。在一些实施方案中，一个或多个控件555A与相机预览550A分开显示。在一些实施方案中，一个或多个控件555A显示为覆盖相机预览550A的至少一部分。

在图5C中，设备500B表示与用户B相关联的电子设备，用户B(经由数据连接510)与设备500A和500C通信。设备500B包括用于捕获通信会话的视频数据的相机501B，以及用于显示与通信会话相关联的内容的显示器504B(例如，触摸屏)。设备500B还包括其他组件，诸如用于录制通信会话的音频的麦克风(例如，113)和用于输出通信会话的音频的扬声器(例如，111)。

设备500B经由触摸屏504B显示与设备500A的通信UI 520A类似的通信UI 520B。通信UI 520B包括视频馈送525-1B和视频馈送525-2B。视频馈送525-1B是在设备500A处捕获(例如，使用相机501A)并且在通信会话期间从设备500A传送到设备500B和500C的视频数据的表示。视频馈送525-2B是在设备500C处捕获(例如，使用相机501C)并且在通信会话期间从设备500C传送到设备500A和500B的视频数据的表示。通信UI 520B还包括：相机预览550B，该相机预览是经由相机501B在设备500B处捕获的视频数据的表示；和类似于控件555A的一个或多个控件555B，该一个或多个控件用于控制通信会话的一个或多个方面。相机预览550B向用户B表示在相应设备500A和500C处显示的用户B的预期视频馈送。

在图5C中，设备500C表示与用户C相关联的电子设备，用户C(经由数据连接510)与设备500A和500B通信。设备500C包括用于捕获通信会话的视频数据的相机501C，以及用于显示与通信会话相关联的内容的显示器504C(例如，触摸屏)。设备500C还包括其他组件，诸如用于录制通信会话的音频的麦克风(例如，113)和用于输出该通信会话的音频的扬声器(例如，111)。

设备500C经由触摸屏504C显示与设备500A的通信UI 520A和设备500B的通信UI520B类似的通信UI 520C。通信UI 520C包括视频馈送525-1C和视频馈送525-2C。视频馈送525-1C是在设备500B处捕获(例如，使用相机501B)并且在通信会话期间从设备500B传送到设备500A和500C的视频数据的表示。视频馈送525-2C是在设备500A处捕获(例如，使用相机501A)并且在通信会话期间从设备500A传送到设备500B和500C的视频数据的表示。通信UI520C还包括：相机预览550C，该相机预览是经由相机501C在设备500C处捕获的视频数据的表示；和类似于控件555A和555B的一个或多个控件555C，该一个或多个控件用于控制通信会话的一个或多个方面。相机预览550C向用户C表示在相应设备500A和500B处显示的用户C的预期视频馈送。

虽然图5C所描绘的图表示三个电子设备之间的通信会话，但该通信会话能够在两个或更多个电子设备之间建立，并且参与该通信会话的设备的数量可随着电子设备加入或离开该通信会话而改变。例如，如果电子设备中的一个电子设备离开通信会话，则来自停止参与通信会话的设备的音频数据和视频数据不再在参与设备上表示。例如，如果设备500B停止参与通信会话，则在设备500A与500C之间不存在数据连接510，并且在设备500C与500B之间不存在数据连接510。附加地，设备500A不包括视频馈送525-1A，并且设备500C不包括视频馈送525-1C。类似地，如果设备加入通信会话，则在加入设备与现有设备之间建立连接，并且在所有设备之间共享视频数据和音频数据，使得每个设备都能够输出从其他设备传送的数据。

图5C表示多个电子设备之间的通信会话(包括图6A至图6AE所描绘的示例通信会话)的图。在一些实施方案中，图6A至图6AE所描绘的通信会话包括两个或更多个电子设备，即使未在图中描绘参与该通信会话的其他电子设备也是如此。

现在将注意力转到在电子设备(诸如便携式多功能设备100、设备300或设备500)上实现的用户界面(“UI”)以及相关联的过程的实施方案。

图6A至图6AE例示了根据一些实施方案的用于管理实况通信会话的字幕的示例性用户界面。这些附图中的用户界面用于例示包括图7至图8中的过程的下文所描述的过程。

概括来说，图6A至图6AE例示了对应于本地用户620(例如，正由该本地用户使用并且/或者登录到该本地用户的用户账户中)的设备600，该本地用户是与使用通信应用的一个或多个参与者的实况通信会话(例如，音频通信会话和/或视频通信会话)的参与者。设备600包括显示器(例如，触敏显示器)601和具有例如本地用户620的视场的相机602(例如，前置相机)。设备600显示图形用户界面，该图形用户界面任选地包括本地用户620的本地用户表示621和/或一个或多个参与者的一个或多个远程用户表示。表示可以包括参与者的形状、文本、化身、图像和/或视频(例如，实况视频馈送)。

如下文将进一步详细描述，除了一个或多个表示之外，设备600还任选地显示一个或多个字幕。一个或多个字幕包括针对通信会话的音频数据的机器生成的转录。在一些示例中，(例如，当参与者依赖于音频数据的机器生成的转录本时)可以在实况通信会话期间修改一个或多个字幕和/或一个或多个表示的大小和/或位置以提供改善的通信会话体验。

图6A至图6B例示了用于两个参与者之间的通信会话的示例性图形用户界面。参考图6A，设备600显示用于本地用户620(”我“)与远程用户622(“Emily”)之间的实况通信会话的界面614。设备600显示远程用户622的远程用户表示623和本地用户620的本地用户表示621。远程用户表示623具有第一大小(例如，全屏)和第一位置。与远程用户表示623相比，本地用户表示621具有更小的大小和不同的位置。

在图6A处，界面614还包括字幕604。字幕604显示在字幕区域606中。字幕604包括由远程用户622说出的话语的转录。在一些实施方案中，字幕604可以包括其他声音的转录，这些声音诸如背景噪声(例如，“犬吠”、“音乐播放”和/或“掌声”)。如所描绘，设备600在背景(例如，图像、实色和/或图形对象)上显示字幕604。附加地或另选地，字幕604覆盖在表示623的一部分上。在一些实施方案中，字幕604与提供话语的上下文(例如，话语和/或环境音之间的暂停长度)的图形指示一起显示。

在图6A处，字幕604占据预定数量的行。如所例示，界面614包括不多于三个字幕行。在通信会话期间，如果字幕不能适合于现有的行，则在新的行上显示该字幕。为了容纳新的字幕行，设备600将停止显示现有字幕行，挪动现有字幕行(例如，向上或向下)，并且添加新的字幕行。

在图6A处，设备600显示一个或多个指示(例如，610)以指示字幕对应于相应参与者。如所例示，指示610(例如，远程用户622的姓名和/或图像)指示字幕604对应于远程用户622。指示610可以是相应参与者的任何表示(例如，姓名、首字母、化身和/或图像)。附加地，如所描绘，设备600(例如，在字幕区域606中)显示字幕604是机器生成的指示612。指示612可以将字幕604与另一文本(诸如由参与者撰写的文本(例如，作为实况通信会话的一部分的文本消息和/或聊天消息))区分开。

在一些实施方案中，对于由设备600的本地用户620说出的话语，不在设备600处显示字幕。附加地或另选地，当存在多于两个参与者时，不为本地用户620显示字幕。不生成和/或显示针对用户620的字幕通过减少显示和/或处理的字幕的量来节省处理功率并使界面整洁。

在图6A处，当显示界面614时，设备600检测输入616a(例如，轻击手势、拖动手势和/或捏合手势)。在一些实施方案中，输入616a的位置对应于字幕604。响应于检测到输入616a，设备600显示界面614，如图6B所描绘。

在图6B处，界面614包括扩展字幕。例如，设备600显示扩展字幕605。扩展字幕605任选地包括对话的不同部分(例如，较早部分)和/或对话的与字幕604相同的部分的转录。在不同于(例如，大于)图6A的字幕区域606的字幕区域606中显示扩展字幕605。

在图6B处，界面614包括远程用户表示623和本地用户表示621。远程用户表示623具有与图6A的远程用户表示623不同(例如，比该远程用户表示小)的大小。这是例如通过与图6A相比缩放和/或裁剪远程用户表示623的至少一部分来实现的。在一些实施方案中，在显示器的先前由远程用户表示623占据的一部分中显示扩展字幕605。附加地或另选地，扩展字幕605没有覆盖在远程用户表示623上。附加地或另选地，与图6A相比，图6B处的远程用户表示623已经改变了位置。例如，图6B的远程用户表示623的中心偏离(例如，低于)图6A的远程用户表示623的中心。图6B处的本地用户表示621被描绘为具有与图6A的本地用户表示621类似的大小和/或位置。在一些实施方案中，与图6A的本地用户表示621相比，图6B的本地用户表示621具有不同的大小和/或位置。在一些实施方案中，图6B的界面614不包括本地用户表示621。

在图6B处，当显示界面614时，设备600检测输入616b(例如，轻击手势、拖动手势和/或捏合手势)。例如，输入616b是在未扩展字幕示能表示618上的轻击手势。响应于接收到输入616b，设备600显示图6C的界面614。附加地或另选地，当在图6B处显示界面614时，设备600检测与扩展字幕605之外(例如，不对应于该扩展字幕)的位置(例如，字幕区域606之外的位置)相对应的输入616c。例如，如图6B所描绘，输入616c对应于远程用户表示623的位置。响应于接收到输入616c，设备600显示图6C的界面614。

如图6C所描绘，设备600停止显示扩展字幕605并显示字幕604。附加地，如所描绘，设备600以全屏大小显示表示623。

在图6D处，例示了在附加参与者加入实况通信会话之后的示例性图形用户界面。如所描绘，远程用户624(“Kim”)、远程用户626(“Alex”)、远程用户628(“John”)已经加入本地用户620与远程用户622之间的实况通信会话。远程用户628由表示629表示。远程用户626由远程用户表示627表示。远程用户624由远程用户表示625表示。如所描绘，图6D的界面614包括在字幕区域606中显示的字幕604。如所描绘，字幕604没有覆盖在表示上。

在图6D处，界面614包括针对更活跃参与者的一个或多个动态表示区域以及针对较不活跃参与者的名册(roster)。用比另一远程用户(例如，其表示被显示在名册632中的远程用户)活跃(例如，移动更多、讲话更多、讲话更响和/或讲话更快)的远程用户的表示来更新动态表示区域630-1和动态表示区域630-2。如图所示，动态表示区域630-1由远程用户表示623占据，并且动态表示区域630-2由远程用户表示629占据，因为远程用户628和远程用户622最近说了话。名册632包括远程用户表示627和远程用户表示625，因为远程用户626和远程用户624最近没有说话。

在图6E处，设备600响应于由远程用户626说出的最近话语(“Make sure to bringhiking boots！”)将动态表示区域630-1从包括远程用户表示623更新为包括远程用户表示627。如所描绘，设备600将动态表示区域630-2从包括远程用户表示629更新为包括远程用户表示623。附加地或另选地，响应于由远程用户626说出的最近话语，设备600显示字幕609-1。在一些示例中，设备600可以与动态表示区域630-1和/或动态表示区域630-2中的表示的更新同步地(例如，基本上同时地)或异步地(例如，在之后或之前)显示字幕609-1。如进一步所描绘，设备600响应于由远程用户626说出的最近话语而更新名册632。例如，将远程用户表示629从动态表示区域630-2移动到名册632。

在图6E处，当显示界面614时，设备600检测输入616d(例如，轻击手势、拖动手势和/或捏合手势)。在一些实施方案中，输入616d的位置对应于字幕604(例如，字幕区域606)。响应于检测到输入616d，设备600显示字幕扩展的动画，如图6F至图6G所示。

图6F例示了在显示扩展字幕的动画状态期间的示例性动画。例如，响应于输入616d，设备600显示包括增大字幕区域606的大小的动画。如图所示，设备600还显示修改远程用户表示623和远程用户表示627的大小和/或位置的动画。在一些实施方案中，动画是图6E和图6G的用户界面之间的平滑过渡。

在图6G处，设备600在字幕区域606中显示包括扩展字幕605的界面614。扩展字幕605包括在通信会话期间发生的较早对话的转录。如所描绘，界面614包括动态表示区域630-1，该动态表示区域包括远程用户表示627。

在图6G处，设备600显示字幕区域是可滚动的指示。如所描绘，扩展字幕605的一部分(例如，字幕605的诸如顶部部分的一部分)在视觉上与字幕的另一部分区分开(例如，变灰、变暗和/或具有增加的透明度)以指示扩展字幕605是可滚动的。当在图6G处显示界面614时，设备600检测输入616e(例如，轻扫手势和/或在扩展字幕605(例如，字幕区域606)上开始并在远程用户表示627和/或名册632的方向上移动的轻扫手势)。在一些实施方案中，输入616e的位置指向扩展字幕605(例如，字幕区域606)。响应于检测到输入616e，设备600显示字幕609-2和字幕609-3，如图6H所描绘。字幕609-2和字幕609-3是针对同一实况通信会话期间的较早对话的字幕。在一些示例中，扩展字幕605(例如，字幕区域606)对于特定用户是可滚动的，直到该特定用户加入通信会话的时刻为止(例如，用户不能访问针对通信会话的各部分的转录本，因为该用户不是实况通信会话的一部分)。

图6H例示了设备600显示对字幕的置信水平的指示的示例。如图所示，设备600显示空白空间和下划线636(例如，没有文本)以指示针对话语的字幕具有低置信水平并且因此没有被显示。在一些示例中，空白空间和下划线636的长度对应于具有低置信水平的话语的长度(和/或话语(例如，在时间上)持续多长时间)。附加地或另选地，设备600显示具有(例如，文本下方的)下划线的字幕638以指示该字幕具有中等置信水平。

暂时转到图6I，设备600可以以增大的大小显示字幕。例如，响应于(例如，经由设置界面)接收到与对增大字幕的大小的请求相对应的输入，设备600以比图6H的扩展字幕605大的大小显示扩展字幕605的至少一部分，如图6I所示。附加地或另选地，图6I的字幕区域606大于图6H的字幕区域606。附加地或另选地，与图6H相比，图6I中的一个或多个表示在大小上更小。例如，图6I的远程用户表示627小于图6H的远程用户表示627。附加地或另选地，在一些实施方案中，界面614不包括名册。在一些实施方案中，这些技术任选地适用于未扩展字幕(例如，字幕604)。

回到图6H，当显示界面614时，设备600检测输入616f。如图所示，输入616f是指向未扩展字幕示能表示639的轻击手势。响应于检测到输入616f，设备600显示图6J的界面614。

图6J至图6L例示了当两个参与者同时说话时设备显示字幕的示例。如图6J所描绘，字幕604不再扩展，并且设备600显示包括动态表示区域630-1中的远程用户表示623和动态表示区域630-2中的远程用户表示627的界面614。在通信会话期间，远程用户622正在说话，说出的话被转录为行640上的字幕。附加地或另选地，由用户622说出的文字被分组在一起并且与用户622相关联(例如，被分组在一起并且与用户622的指示610相关联)。如图6K所描绘，远程用户624(例如，通过中断或打断远程用户622)开始说话。因此，行640向上移动并且在新的行642上转录远程用户624的话语。附加地或另选地，由用户624说出的文字被分组在一起并且与用户624相关联(例如，被分组在一起并且与用户624的指示610相关联)。在图6L处，远程用户622继续说话，说出的话被转录为行640上的字幕(例如，而不是在行642下方添加新的行)。附加地或另选地，针对由远程用户622说出的话语(在一些实施方案中，被中断的话语)的文字被分组在一起并且与远程用户622的现有字幕相关联(例如，被分组在一起并且与用户624的指示610相关联)。在一些实施方案中，通过在参与者的多个转录本之间交替来将文字添加到对应于多个参与者的转录本(例如，而无需等待来自相应参与者的话音暂停以添加对应于该参与者的话语的文本)。在一些实施方案中，对应于一个用户的字幕被添加到现有行(例如，行640)，而针对另一用户的字幕被同时添加到另一行(例如，行642)。

图6M至图6N例示了当两个参与者同时说话时设备显示字幕的示例。如图6M所描绘，当远程用户622和远程用户624同时说话时，设备600将针对远程用户622的字幕609-4添加到字幕区域606。在添加字幕609-4之后并且在确定满足预定阈值(例如，远程用户622沉默达至少阈值量的时间并且/或者远程用户622已经完成一句)时，设备600显示针对远程用户622的话语的字幕609-5，如图6N所示(例如，即使远程用户624的话语已经中断或与远程用户624的话语重叠也是如此)。如果不满足预定阈值(例如，远程用户622在阈值量的时间内说话并且/或者远程用户622尚未完成一句)，则设备600放弃显示针对远程用户624的话语的字幕609-5，直到满足预定阈值为止。

在图6O处，设备600基于由远程用户628说出的最近话语在动态表示区域630-1中显示远程用户表示629。设备600还显示对应于最近话语的字幕609-6。在一些实施方案中，字幕604-6与动态表示区域630-1的更新同步地或异步地显示。在一些示例中，在与动态表示区域630-1更新的同时或基本上同时显示字幕609-6。在一些示例中，在动态表示区域630-1更新之后显示字幕609-6。

在图6P处，设备600将字幕区域606显示为小于图6O的字幕区域606。在一些实施方案中，响应于确定已经过去了参与者不说话(例如，没有参与者说话并且/或者没有文本或内容被添加到转录本)的第一时间段，设备600停止显示一个或多个字幕(例如，图6O的字幕609-7)并且自动缩小字幕区域606的大小(例如，与图6O相比)。在一些实施方案中，根据(和/或响应于)确定从最初显示一个或多个字幕起已经过去了第一预定时间，设备600停止显示一个或多个字幕(例如，图6O的字幕609-7)。在一些实施方案中，响应于确定已经过去了参与者不说话(例如，没有参与者说话并且/或者没有文本或内容被添加到转录本)的(例如，比第一时间段长的)第二时间段，设备600停止显示所有字幕(例如，停止显示字幕区域606)。在一些实施方案中，根据(和/或响应于)确定已经过去了参与者不说话(例如，没有参与者说话并且/或者没有文本或内容被添加到转录本)的第一时间段和/或第二时间段，设备600任选地增大表示625和/或629的大小(例如，结合减少和/或停止显示字幕区域606)。

在图6P处，当显示界面614时，设备600检测输入616g。如图所示，输入616g是轻扫手势。响应于检测到输入616g，设备600以画中画模式显示界面615，如图6Q所示。

在图6Q处，界面615包括比图6P的远程用户表示629小的远程用户表示629。远程用户表示629占据动态表示区域630-1。如图所示，动态表示区域630-1小于图6P的动态表示区域630-1。附加地或另选地，如所描绘，设备600响应于输入616g而停止显示一个或多个表示(例如，名册632、本地用户表示621和/或远程用户表示625)。界面615还包括字幕区域606中的字幕604。如图所示，字幕区域606不同于(例如，小于)图6P的字幕区域。界面615还包括主屏幕650的视图。如图所示，字幕604和远程用户表示629覆盖在主屏幕650的至少一部分上。当显示界面615时，设备600检测输入616h。如图所示，输入616h是在电影应用651上的轻击手势。响应于检测到输入616h，设备600显示图6R的界面615。

在图6Q处，字幕区域606是任选的，如图6Q所描绘的虚线所指示。在一些实施方案中，界面615不包括字幕604和/或字幕区域606。在一些实施方案中，界面615包括如图6Q所描绘的远程用户表示629，但是任选地不包括字幕604和/或字幕区域606。因此，在一些实施方案中，图6Q的设备600响应于输入616g而停止显示字幕604和/或字幕区域606。附加地或另选地，在一些实施方案中，设备600响应于用于返回到图6P的界面614的输入而显示(例如，重新显示)字幕604和/或字幕区域606。例如，设备600任选地在显示界面615时检测输入(例如，指向远程用户表示629的轻击手势、与对用实况通信应用的用户界面替代显示与实况通信应用不同的应用的用户界面的请求和/或对以全屏显示通信应用的用户界面的请求相对应的输入)。响应于检测到输入，设备600显示(例如，重新显示)图6P的字幕604和/或字幕区域606。附加地或另选地，响应于检测到输入，设备600重新显示一个或多个表示(例如，名册632、本地用户表示621和/或远程用户表示625)。附加地或另选地，响应于检测到输入，设备600修改一个或多个表示的大小和/或位置。例如，图6P的远程用户表示629比图6Q的远程用户表示629大并且/或者具有与图6Q的远程用户表示629不同的位置。

在图6R处，界面615与在通信会话中共享的(例如，由通信会话的多个参与者同时播放和/或观看的)电影652的视图一起显示。本领域的技术人员将理解，用户620可以响应于例如设置菜单中的共享内容控制选项而发起通信会话中的内容的共享。在一些实施方案中，字幕604覆盖在与通信应用不同的应用的用户界面上。在一些实施方案中，字幕604和远程用户表示629覆盖在电影652的至少一部分上。

在图6R处，设备600在显示界面615时检测一个或多个输入。在一些实施方案中，当以画中画模式显示界面615时，设备600检测与对折叠字幕604的请求相对应的输入616i。如所描绘，输入616i是在表示623上的轻扫手势。响应于检测到输入616i，设备600折叠字幕604(例如，如图6V所示)。在一些实施方案中，当以画中画模式显示界面615时，设备600检测与对移动字幕604的请求相对应的输入616j。如所描绘，输入616j是轻击并拖动手势。响应于检测到输入616j，设备600将字幕604-8在用户界面615中移动到不同位置，如图6S所示。在一些实施方案中，当显示界面615时，设备600检测与显示设备设置菜单的请求相对应的输入616k。如所描绘，输入616k是在显示器601的边缘处的轻击并拖动手势。响应于检测到输入616k，设备600显示设备设置菜单。在一些实施方案中，设备设置菜单包括一个或多个可激活选项，这些可激活选项在被激活时切换(例如，启用或禁用)无线通信模态(例如，蜂窝、WiFi和/或蓝牙)、改变显示器601的亮度、改变设备600的系统音量，并且提供其他(例如，系统级)功能。在一些实施方案中，当显示界面615时，设备600检测与滚动字幕的请求相对应的输入616l。如所描绘，输入616l是轻扫手势。响应于检测到输入616l，设备600滚动浏览字幕604。在一些实施方案中，当显示界面615时，设备600检测与对以全屏大小显示通信应用的界面(诸如图6P的界面614)的请求相对应的输入616m。如所描绘，输入616m是在字幕604上的轻击手势。响应于检测到输入616m，设备600显示图6P的界面614。在一些实施方案中，当显示界面615时，设备600检测与对快进电影652的请求相对应的输入616n。如所描绘，输入616n是在媒体应用中(例如，在媒体应用的搓擦条上)的轻击并拖动手势。响应于检测到输入616n，设备600快进电影652。输入616i、616j、616k、616l和/或616m任选地提供在图6Q的界面615上，并且将引起由设备600作出的相同(或类似)响应。

在图6S处，响应于检测到输入616j，设备600在界面615的与图6R的字幕604不同的位置处显示字幕604。当在图6S处显示界面615时，设备600检测引起设备600的取向改变的输入(例如，设备600的旋转移动)。如图6T所描绘，响应于检测到该输入，界面615从纵向模式转变为横向模式。

在图6T处，设备600显示包括字幕604的界面615。如图所示，字幕604被定位在显示器上，以便防止遮挡/覆盖/隐藏特定内容，诸如电影字幕654。在一些实施方案中，当显示界面615时，设备600检测输入616o(例如，捏合手势)。响应于检测到输入616o，设备600减小字幕604的大小，如图6U所示。在一些实施方案中，扩张(de-pinch)(例如，展开)手势增大字幕604的大小。在图6U处，当显示界面615时，设备600检测输入616p。如所描绘，输入616p是轻扫手势。响应于检测到输入616p，设备600折叠字幕604，如图6V所示。

在图6V处，设备600显示折叠的图形对象656，从而指示字幕604被折叠。如图所示，沿着显示器601的边缘显示折叠的图形对象656。当字幕区域606被折叠时，设备600检测到新字幕(例如，尚未显示的字幕或针对在字幕区域606被折叠时说出的话语的字幕)是可用的(例如，因为参与者中的一个参与者说了产生新字幕的事情)。响应于检测到新字幕是可用的，设备600显示对新字幕的指示。在一些示例中，对新字幕的指示包括修改折叠的图形对象656的外观(例如，修改颜色、形状、位置和/或大小)。

在图6W处，设备600显示动画658以指示新字幕是可用的。如图所示，动画658包括折叠的图形对象656的移动。在一些示例中，动画658包括改变停止的图形对象656的外观、显示附加图形对象和/或显示发光的折叠的图形对象656。

在图6X处，当显示折叠的图形对象656时，设备600检测输入616p。如所描绘，输入616p是指向折叠的图形对象656的轻击手势。响应于检测到输入616p，设备600重新显示包括新字幕609-8的字幕604，如图6Y所示。

在图6Y处，当显示界面615时，设备600检测设备600的移动(例如，旋转)。作为响应，设备600以纵向模式显示电影应用651。附加地，当显示界面615时，设备600检测输入616q。如所描绘，输入616q是指向退出电影应用651的全屏视图示能表示660的轻击手势。作为响应，设备600显示图6Z的界面615。

在图6Z处，界面615包括没有覆盖在电影652和/或用于电影应用651的用户界面上的字幕604。如所描绘，靠近电影652和/或用于电影应用651的用户界面显示字幕604。如所描绘，界面615与主屏幕650的视图和用于电影应用651的用户界面(该用户界面当前包括电影652的视图)一起显示。当显示界面615时，设备600检测输入616r。如图所示，输入616r是扩张手势。如图6AA所示，响应于检测到输入616r，设备600以与图6Z的电影652的大小相比放大的大小显示电影652和/或用于电影应用651的用户界面。附加地，如图6AA所示，响应于输入616r，设备600移动字幕604以便不遮挡大小放大的电影652和/或用于电影应用651的用户界面的一部分(例如，任何部分)。

在图6AA处，设备600在显示界面615时检测一个或多个输入。在一些实施方案中，当显示界面615时，设备600检测与对减小电影652和/或用于电影应用651的用户界面的大小的请求相对应的输入616s。如所描绘，输入616s是在电影652和/或用于电影应用651的用户界面上的捏合手势。响应于检测到输入616s，设备600减小电影652和/或用于电影应用651的用户界面的大小。在一些实施方案中，当显示界面615时，设备600检测与显示设备设置菜单的请求相对应的输入616t。如所描绘，输入616t是在显示器601的边缘处的轻击并拖动手势。响应于检测到输入616t，设备600显示设置菜单。在一些实施方案中，设备设置菜单包括一个或多个可激活选项，这些可激活选项在被激活时切换(例如，启用或禁用)无线通信模态(例如，蜂窝、WiFi和/或蓝牙)、改变显示器601的亮度、改变设备600的系统音量，并且提供其他(例如，系统级)功能。在一些实施方案中，当显示界面615时，设备600检测与对折叠电影652的请求相对应的输入616u。如所描绘，输入616u是在电影652上的轻扫手势。响应于检测到输入616u，设备600折叠电影652。在一些实施方案中，当显示界面615时，设备600检测与对移动字幕604的请求相对应的输入616v。如所描绘，输入616v是轻击并拖动手势。响应于检测到输入616v，设备600将字幕604移动到(例如，相对于电影652和/或用于电影应用651的用户界面的位置)不同的位置。在一些实施方案中，当显示界面615时，设备600检测与滚动字幕的请求相对应的输入616w。如图所示，输入616w是轻扫手势。响应于检测到输入616w，设备600滚动浏览字幕604。在一些实施方案中，当显示界面615时，设备600检测与显示主屏幕的新页面的请求相对应的输入616x。如所描绘，输入616x是在主屏幕上的轻扫手势。响应于检测到输入616x，设备600显示主屏幕650的新页面(例如，用不同的应用图标替代应用图标的显示)。在一些实施方案中，当显示界面615时，设备600检测与对折叠字幕604的请求相对应的输入616y。如所描绘，输入616y是在字幕604上的轻扫手势。响应于检测到输入616y，设备600(例如，基于输入616y的方向在显示器的左侧)折叠字幕604。

在图6AB处，例示了示例性设置菜单。如所描绘，设备600显示用于控制字幕的显示的设置菜单666。设置菜单666包括通用字幕选项662和通信应用字幕选项664。通用字幕选项662是针对多个应用(例如，包括电影应用651和通信应用)打开或关闭字幕的全系统设置。通信应用字幕选项664控制针对通信应用的字幕。如图所示，通用字幕选项662和通信应用字幕选项664当前是开启的。在一些实施方案中，根据确定通用字幕选项662和通信应用字幕选项664是开启的，设备600显示针对通信应用的字幕(例如，字幕604和/或扩展字幕605)和/或针对电影应用651的字幕(例如，电影字幕654)，如图6A至图6U以及图6Y至图6AA所示。当显示设置菜单666时，设备600检测输入616z。如所描绘，输入616z是指向通用字幕选项662的轻击手势。作为响应，设备600关闭通用字幕选项662。在一些实施方案中，响应于检测到输入616z，设备600自动关闭通信应用字幕选项664。在一些实施方案中，响应于检测到通用字幕选项662和通信应用字幕选项664是关闭的，设备600放弃显示针对通信应用的字幕(例如，字幕604和/或扩展字幕605)并且/或者放弃显示针对电影应用651的字幕(例如，电影字幕654)。例如，设备600将放弃显示图6A至图6U以及图6Y至图6AA中的字幕(例如，电影字幕654、字幕604和/或扩展字幕605)。在一些实施方案中，设备600随后检测指向通信应用字幕选项664的输入，并且作为响应，设备600针对通信应用重新开启字幕(例如，而不针对其他应用重新开启字幕)。在一些实施方案中，根据确定通用字幕选项662是关闭的并且通信应用字幕选项664是开启的，设备600放弃显示针对电影应用651的字幕(例如，电影字幕654)，同时显示针对通信应用的字幕(例如，字幕604和/或扩展字幕605)。例如，设备600将放弃显示图6T至图6AA中的电影字幕654，同时继续显示图6A至图6U以及图6Y至图6AA中的字幕604和/或扩展字幕605。

在图6AC处，例示了示例性设置菜单。如所描绘，设备600显示包括通信会话字幕选项668的设置菜单670。通信会话字幕选项668针对特定通信会话打开或关闭字幕。当显示设置菜单670时，设备600检测输入616aa。如所描绘，输入616aa是指向通信会话字幕选项668的轻击手势。作为响应，设备600关闭通信会话字幕选项668。因此，不再针对特定通信会话显示字幕。

在图6AD至图6AE处，基于相机的位置来修改示例性界面。在图6AD处，设备600显示界面676。界面676包括远程用户表示623、625和627。表示623、625和627分别占据动态表示区域630-1、630-2和630-3。界面676还包括名册632和本地用户表示621。如所描绘，设备600处于横向取向，相机602位于显示器601的右方(例如，从用户的视角)。如所例示，设备600靠近相机602显示扩展字幕605。虽然图6AD至图6AE将字幕例示为扩展的，但技术任选地同样适用于未扩展字幕。

当显示界面676时，设备600检测将设备600和/或界面676从如图6AD所示的一个横向取向改变为如图6AE所示的另一横向取向的移动688(例如，旋转移动)。如图6AE所描绘，设备600和/或界面676处于横向取向，相机602位于显示器601的左方(例如，从用户的视角)。响应于检测到移动688，设备600靠近相机602的位置显示扩展字幕605。在一些实施方案中，远程用户表示623、625和647的位置响应于检测到移动688而改变。在一些实施方案中，名册686的位置和/或大小不响应于检测到移动688而改变。

图7是例示根据一些实施方案的用于使用计算机系统在实况通信会话中显示扩展字幕信息的方法的流程图。方法700在与显示生成组件(例如，601)(例如，显示控制器、触敏显示器系统和/或监视器)和一个或多个输入设备(例如，601)(例如，触敏表面、键盘、控制器和/或鼠标)通信的计算机系统(例如，100、300、500、600)(例如，智能电话、平板计算机和/或膝上型计算机)处执行。方法700中的一些操作任选地被组合，一些操作的次序任选地被改变，并且一些操作任选地被省略。

如下文所描述，方法700提供了用于显示扩展字幕信息的直观方式。该方法减少了对用户管理实况通信会话的字幕所造成的认知负担，从而创建了更高效的人机界面。对于电池驱动的计算设备，使得用户能够更快并更高效地管理扩展字幕信息节省了功率，并且增大了电池充电之间的时间间隔。

计算机系统经由显示生成组件显示(702)实况通信用户界面(例如，614)(例如，用于传入和/或传出实况音频/视频通信会话的界面)，(例如，实况通信应用的)实况通信用户界面对应于实况通信会话(例如，图6A至图6AA所描绘的实况通信会话)(在一些实施方案中，实况通信会话是在计算机系统(例如，第一计算机系统)的第一用户与第二计算机系统的第二用户之间)。实况通信用户界面包括(704)实况通信会话的一个或多个参与者(例如，620、622、624、626和/或628)(例如，第一用户和/或第二用户)的一个或多个表示(例如，621、623、625、627和/或629)(例如，化身、静止图像和/或视频(例如，实况视频馈送))，其中在实况通信用户界面中在某一位置处并且以某一大小显示一个或多个参与者的一个或多个表示的第一表示(例如，621、623、625、627和/或629)。在一些实施方案中，第一表示具有质心(例如，所显示的表示的中心)。实况通信用户界面包括(706)实况通信用户界面的第一区域(例如，图6A中的606和/或图6D中的606)中的第一字幕(例如，604)(例如，用于一个或多个话语和/或一个或多个话语的转录的字幕信息)，第一字幕对应于(例如，转录和/或描述)实况通信会话(例如，作为其一部分被接收、处理和/或传输)的音频数据的第一部分(例如，如参考图6A所描述的一个或多个话语和/或背景声音)。在一些实施方案中，第一字幕是由在实况通信会话中显示的一个或多个参与者讲出或说出的文字(或声音)的转录本。在一些实施方案中，实况通信用户界面不显示针对一个或多个参与者中的在实况通信用户界面中显示的至少一个参与者(例如，第一计算机系统的第一用户)的字幕。在一些实施方案中，第一字幕与一个或多个参与者的一个或多个表示的一部分(例如，一些但不是全部)重叠(例如，遮挡和/或隐藏该部分)。

当显示具有实况通信用户界面的第一区域中的第一字幕的实况通信用户界面时，计算机系统经由一个或多个输入设备检测(708)与对显示扩展字幕信息的请求相对应的输入(例如，616a和/或616d)。

响应于(710)检测到与对显示扩展字幕信息的请求相对应的输入，计算机系统经由显示生成组件显示(712)与实况通信会话的音频数据的第二部分相对应的第二字幕(例如，605)(例如，如图6B所描绘并且/或者如图6G所描绘)，该第二部分不同于实况通信会话的音频数据的(例如，在不同的和/或非重叠的时间处的)第一部分，第二字幕显示在实况通信用户界面的第二区域(例如，图6B中的606和/或图6D中的606)处。在一些实施方案中，在第二区域中显示的第二字幕不与一个或多个参与者的一个或多个表示(包括第一表示)重叠(例如，不遮挡和/或隐藏该一个或多个表示)。在一些实施方案中，第二字幕的第二区域大于第一字幕的第一区域。在一些实施方案中，第一区域不同于第二区域。响应于(710)检测到与对显示扩展字幕信息的请求相对应的输入，计算机系统经由显示生成组件修改(714)实况通信用户界面中的第一表示的位置和/或第一表示的大小(例如，如参考图6A至图6B和/或图6E至图6G所描述)。在一些实施方案中，修改第一表示的位置包括移动第一表示的质心(例如，表示的中心)。在一些实施方案中，修改第一表示的大小包括将第一表示的大小从第一大小改变为不同于(例如，大于或小于)第一大小的经修改大小。在一些实施方案中，修改第一表示的位置和/或大小包括裁剪第一表示的第一部分(例如，而不是第二部分)。在一些实施方案中，实况通信用户界面的第二区域(例如，在其中显示第二字幕的区域)是显示器的在第一表示被修改之前由第一表示占据的区域(例如，第二字幕占据显示器的先前由第一表示的一部分占据的区域)。响应于对显示附加字幕信息的请求而自动修改表示的位置和/或大小通过以下方式增强了通信会话体验：在不需要来自用户的进一步输入的情况下允许用户保持至少一个参与者的视图，同时还查看对话的附加转录本(例如，对话中的较早时刻的转录本)，从而减少了执行操作所需的输入数量。

在一些实施方案中，修改第一表示的位置和/或第一表示的大小包括修改(例如，缩小或增大)实况通信用户界面中的第一表示的大小(例如，如参考图6A至图6B和/或图6E至图6G所描述)。在一些实施方案中，当显示具有实况通信用户界面的第一区域中的第一字幕的实况通信用户界面时，计算机系统显示一个或多个参与者的第二表示(例如，图6A至图6B中的623、图6E至图6G中的623、图6E至图6G中的627和/或在图6A至图6B、6E至图6G中任选地改变大小的621)，其中第一表示对应于第一参与者(例如，620、622、624、626和/或628)，并且第二表示对应于第二参与者(例如，620、622、624、626和/或628)。响应于检测到与对显示扩展字幕信息的请求相对应的输入，计算机系统经由显示生成组件修改实况通信用户界面中的第二表示(例如，621、623、625、627和/或629)的大小。在一些实施方案中，修改第二表示的大小包括增大或减小第二表示的大小。响应于对显示附加字幕信息的请求而自动修改第一表示和第二表示的大小通过以下方式增强了通信会话体验：在不需要来自用户的进一步输入的情况下允许用户保持至少两个参与者的视图，同时还查看对话的附加转录本，从而减少了执行操作所需的输入数量。

在一些实施方案中，第一表示是计算机系统的用户(例如，620)(例如，第一参与者)的表示(例如，第一表示包括计算机系统的用户的图像/化身，并且/或者第一表示基于由计算机系统的相机捕获的实况视频)。修改计算机系统的用户的表示的大小向用户提供了正在显示附加字幕信息的视觉反馈，从而提供改进的反馈。响应于对显示附加字幕信息的请求而自动修改计算机系统的用户的表示的大小通过以下方式增强了通信会话体验：在不需要来自用户的进一步输入的情况下改变用户的表示的大小，同时还显示对话的附加转录本，这减少了执行操作所需的输入数量。

在一些实施方案中，修改第一表示的大小包括减小第一表示(例如，图6A至图6B所描绘的623和/或图6E至图6G所描绘的623)的大小(例如，减小计算机系统的用户的表示的大小)。附加地或另选地，修改第二表示的大小包括增大第二表示(例如，图6E至图6G所描绘的627)的大小。响应于对显示附加字幕信息的请求而自动增大一个参与者的表示的大小同时减小另一参与者的表示的大小通过以下方式增强了通信会话体验：在不需要来自用户的进一步输入的情况下提供一个参与者的较大视图，同时减小另一参与者的视图，并且提供正在显示附加字幕信息的视觉反馈，这提供了改进的视觉反馈并且减少了执行操作所需的输入数量。

在一些实施方案中，修改第一表示的位置和/或第一表示的大小包括将第一表示在实况通信用户界面中从第一位置移动到第二位置(例如，如图6A至图6B中的623所描绘，如图6E至图6G中的623所描绘，并且/或者如图6E至图6G中的627所描绘)。在一些实施方案中，当显示具有实况通信用户界面的第一区域中的第一字幕的实况通信用户界面时，计算机系统显示一个或多个参与者的第二表示(例如，621、623、625、627和/或629)，其中第一表示对应于第一参与者(例如，620、622、624、626和/或628)，并且第二表示对应于第二参与者(例如，620、622、624、626和/或628)。响应于检测到与对显示扩展字幕信息的请求相对应的输入，计算机系统经由显示生成组件将第二表示在实况通信用户界面中从第三位置移动到第四位置(例如，如图6A至图6B中的623所描绘，如图6E至图6G中的623所描绘，并且/或者如图6E至图6G中的627所描绘)。响应于对显示附加字幕信息的请求而自动修改第一表示和第二表示的位置向用户提供了正在显示附加字幕信息的视觉反馈，并且通过以下方式增强了通信会话体验：在不需要来自用户的进一步输入的情况下移动第一表示和第二表示以便容纳对话的附加转录本的显示，这提供了改进的视觉反馈并且减少了执行操作所需的输入数量。

在一些实施方案中，计算机系统改变在实况通信用户界面中显示的一个或多个表示的数量(例如，如通过改变图6E至图6G中的表示的数量和/或设备600停止显示名册632和/或本地用户表示621所描绘)(例如，添加表示以增加所显示的一个或多个表示的数量，或者停止表示的显示以便减少所显示的一个或多个表示的数量)。在一些实施方案中，计算机系统响应于检测到与对显示扩展字幕信息的请求相对应的输入而改变在实况通信用户界面中显示的一个或多个表示的数量。自动修改一个或多个表示的量向用户提供了正在显示附加字幕信息的视觉反馈，并且通过以下方式增强了通信会话体验：在不需要来自用户的进一步输入的情况下容纳通信会话的其他内容(例如，附加字幕信息或活跃参与者)的显示，这提供了改进的视觉反馈并且减少了执行操作所需的输入数量。

在一些实施方案中，改变一个或多个表示的数量包括停止显示一个或多个参与者的一个或多个表示中的至少一个表示(例如，如通过改变图6E至图6G中的表示的数量和/或设备600停止显示名册632和/或本地用户表示621所描绘)(例如，一个或多个参与者的名册、一个或多个参与者的网格或活跃或最近活跃的参与者的表示)。在一些实施方案中，计算机系统响应于与显示扩展字幕信息的请求相对应的输入而停止显示一个或多个参与者的至少一个表示。在一些实施方案中，计算机系统响应于参与者没有正在讲话(例如，没有正在说话或正在沉默)而停止显示一个或多个参与者的至少一个表示。在一些实施方案中，改变一个或多个表示的数量包括增加一个或多个表示的数量。自动停止一个或多个参与者的至少一个表示的显示向用户提供了正在显示附加字幕信息的视觉反馈，并且通过以下方式增强了通信会话体验：在不需要来自用户的进一步输入的情况下容纳附加内容(例如，附加字幕信息或活跃参与者)的显示，这提供了改进的视觉反馈并且减少了执行操作所需的输入数量。

在一些实施方案中，响应于检测到与对显示扩展字幕信息的请求相对应的输入，计算机系统显示实况通信会话中的参与者的动态表示(例如，图6D中的623和/或629，和/或图6AD所描绘的623、625和627)，该动态表示基于实况通信会话中的参与者中的一个或多个参与者的活跃水平的变化(例如，如参考图6D所描述)(例如，当前正在说话的参与者和/或当前说话最响的参与者)而从作为一个参与者的表示(例如，图6D所描绘的623)改变为作为不同参与者的表示(例如，图6E所描绘的627)。在一些实施方案中，第一表示从表示单个参与者改变为表示各种参与者(例如，满足预定活动(例如，音频活动或视觉活动)条件的参与者)。基于参与者的活跃水平来改变表示向用户提供了正在显示附加字幕信息的视觉反馈，并且通过以下方式增强了通信会话体验：在不需要来自用户的进一步输入的情况下使用户界面整洁以允许用户将注意力集中于最活跃的参与者，这提供了改进的视觉反馈并且减少了执行操作所需的输入数量。

在一些实施方案中，计算机系统与第二字幕和第一表示同时显示一个或多个参与者的一个或多个表示中的第二表示(例如，图6B所描绘的621和623，和/或图6D所描绘的621、623、625、627和/或629)，其中第一表示对应于第一参与者，并且第二表示对应于第二参与者。(例如，当系统接收对显示扩展字幕信息的请求时)与第一表示和第二表示同时显示字幕通过以下方式增强了通信会话体验：在不需要来自用户的进一步输入的情况下允许用户查看通信会话的转录本以及与参与通信会话的至少两个参与者相对应的图像，这减少了执行操作所需的输入数量。

在一些实施方案中，一个或多个参与者包括第一参与者(例如，图6D所描绘的622)和第二参与者(例如，图6D所描绘的628)。在一些实施方案中，根据确定针对音频数据的相应部分(例如，音频数据的第一部分或音频数据的第二部分)的相应字幕(例如，图6D所描绘的604)对应于第一参与者，计算机系统显示指示相应字幕对应于第一参与者的指示(例如，如参考图6A中的610所描述)(例如，图形和/或文本对象并且/或者靠近相应字幕显示)。根据确定针对音频数据的相应部分的相应字幕对应于第二参与者，计算机系统显示指示相应字幕对应于第二参与者的指示(例如，图形和/或文本对象并且/或者靠近相应字幕显示)(例如，如图6D所描绘，“Emily”显示在与Emily相关联的字幕上方，并且“John Appleseed”显示在与John Appleseed相关联的字幕上方)。显示指示字幕对应于特定参与者的指示通过以下方式增强了通信会话体验：在不同参与者说话时提供针对字幕的上下文并且向用户提供关于字幕对应于哪个说话者的反馈，这提供了改进的视觉反馈。

在一些实施方案中，检测与对显示扩展字幕信息的请求相对应的输入包括检测指向第一字幕的拖动手势(例如，如参考图6A所描述)(例如，向下拖动手势、向上拖动手势、捏合手势和/或扩张手势)。响应于检测到指向字幕的拖动手势而显示附加字幕信息向用户提供了检测到拖动手势的反馈，并且帮助防止用户无意中显示附加字幕信息，从而提供改进的反馈并且增强用户-机器界面。

在一些实施方案中，检测与对显示扩展字幕信息的请求相对应的输入包括检测指向第一字幕的轻击手势(例如，图6A所描绘的616a)(例如，轻击手势可以在与第一字幕相关联的扩展示能表示上)。响应于检测到指向字幕的轻击手势而显示附加字幕信息向用户提供了检测到轻击手势的反馈，并且使得用户能够快速地引起附加字幕信息的显示，从而提供改进的反馈并且增强用户-机器界面。

在一些实施方案中，当显示具有实况通信用户界面的第一区域中的第一字幕的实况通信用户界面时，计算机系统显示参与者名册(例如，图6D所描绘的632)。响应于检测到与对显示扩展字幕信息的请求相对应的输入并且根据确定计算机系统没有正在显示共享(例如，视频和/或文本)内容(在一些实施方案中，根据确定实况通信会话不包括非实况视频源的流式传输(用于由多个参与者观看)并且/或者不包括并非源自参与者的设备中的一者的相机的视频源(例如，电影应用、TV流式传输应用和/或来自社交媒体网站的视频)的流式传输(用于由多个参与者观看))，计算机系统保持经由显示生成组件对参与者名册(例如，图6G所描绘的632)的显示(例如，实况通信会话的参与者中的一些或全部参与者；在不改变名册中示出的参与者的情况下或在改变名册中示出的参与者的情况下)。在一些实施方案中，参与者名册包括参与实况通信会话的一个或多个参与者的多个表示。在计算机系统没有正在显示共享内容时保持参与者名册的显示向用户提供了关于实况通信会话的状态(并且具体地，哪些个体仍然是参与者)的视觉反馈。

在一些实施方案中，当显示具有实况通信用户界面的第一区域中的第一字幕的实况通信用户界面时，计算机系统显示参与者名册(例如，图6D所描绘的632)，该参与者名册包括比实况通信用户界面中的参与者的其他表示(例如，图6D所描绘的621、623、629)(例如，第一表示和/或第二表示)小的不同参与者的多个表示(例如，图6D所描绘的627和625)。响应于检测到与对显示扩展字幕信息的请求相对应的输入并且根据确定计算机系统正在显示共享(例如，视频和/或文本)内容(在一些实施方案中，根据确定实况通信会话包括非实况视频源的流式传输(用于由多个参与者观看)并且/或者包括并非源自参与者的设备中的一者的相机的视频源(例如，电影应用、TV流式传输应用和/或来自社交媒体网站的视频)的流式传输(用于由多个参与者观看))，计算机系统停止经由显示生成组件显示参与者名册(例如，设备600停止显示图6G所描绘的名册632)。在一些实施方案中，与包括参与者(例如，活跃(或最活跃)参与者)的表示的动态表示区域相比，名册的当前显示的部分更新的频率更低。在一些实施方案中，基于参与者的活跃水平将参与者的表示在名册与动态表示区域之间移动(例如，使最活跃参与者从名册移动到动态表示区域)。在一些实施方案中，名册是可滚动的(例如，用户可以滚动浏览名册，这包括停止显示实况通信会话中的一个或多个参与者的第一子集的多个表示，以及显示实况通信会话中的一个或多个参与者的第二子集的多个表示，该第二子集不同于一个或多个参与者的第一子集，并且例如通过在第一方向上将实况通信会话中的一个或多个参与者的第一子集的多个表示挪出显示区并在第一方向上将实况通信会话中的一个或多个参与者的第二子集的多个表示挪入显示区而在先前由实况通信会话中的一个或多个参与者的第一子集的多个表示占据的位置处显示)。在一些实施方案中，名册包括(例如，与其表示在动态表示区域中显示的一个或多个参与者相比)一个或多个较不活跃的参与者。在正在显示共享内容时停止显示参与者名册使得计算机系统能够显示更多共享内容并且/或者使用更大的大小来显示共享内容，从而改进人机界面。

在一些实施方案中，当经由显示生成组件显示第二字幕时，计算机系统检测与对滚动第二字幕的请求相对应的滚动输入(例如，图6G所描绘的616e)。响应于检测到滚动输入，计算机系统滚动第二字幕的一部分，包括：显示(例如，先前没有显示的)一个或多个字幕的第一部分(例如，如图6H所描绘的609-2和/或609-3)；以及停止显示一个或多个字幕的第二部分(例如，设备600停止显示图6G所描绘的字幕605)。在一些实施方案中，响应于检测到与对滚动第二字幕的请求相对应的滚动输入，计算系统滚动浏览针对通信会话的字幕。在一些实施方案中，响应于检测到与对滚动第二字幕的请求相对应的滚动输入，计算系统停止显示针对通信会话的最近话语的一个或多个字幕，并且显示针对通信会话的较早部分的话语的一个或多个字幕(例如，计算机系统可以滚动浏览针对当前通信会话的历史字幕)。在一些实施方案中，滚动浏览通信会话的字幕允许用户回顾用户在通信会话期间错过的内容。滚动字幕使得计算机系统能够在例如用户(例如，因将她的眼睛从她的设备移开而)错过对话的一部分的情况下显示实况通信会话的附加字幕信息，这向用户提供了关于作为实况通信会话的一部分被传输的内容的反馈，从而改进视觉反馈。

在一些实施方案中，根据确定第二字幕(和/或第一字幕)是可滚动的，以第一视觉属性显示第二字幕(和/或第一字幕)的文本(例如，字幕605的顶部部分是灰色的，如图6G所描绘)(例如，以指示文本是可滚动的或指示存在可用的附加转录本)(例如，文本的一部分(例如，顶部部分和/或底部部分)变暗、淡出和/或是部分透明的)。根据确定第二字幕(和/或第一字幕)不是可滚动的，不以第一视觉属性显示第二字幕(和/或第一字幕)的文本(例如，字幕605的底部部分不是灰色的，如图6G所描绘)(例如，文本不变暗、不淡出和/或不是部分透明的)。在字幕是可滚动的时(与在其不是可滚动的时相比)修改字幕的文本的视觉属性向用户提供了字幕是可滚动的视觉反馈，从而提供了改进的反馈。

在一些实施方案中，基于计算机系统加入实况通信会话的时间点来限制导航浏览字幕的可用性(例如，如参考图6G所描述)。在一些实施方案中，计算机系统可以接收用于导航浏览转录本的输入以查看在计算机系统加入实况通信会话的时间直到当前时间之间的参与者的话语的转录本，但在计算机系统加入实况通信系统的时间之前的参与者的话语的转录本是不可用的并且不能被导航到。仅提供从用户/计算机系统加入通信会话的时间点起的通信会话的字幕增强了通信会话体验，因为它维护了在用户加入通信会话之前发生的参与者之间的对话的隐私，这提供了隐私并且提高了内容的安全性。

在一些实施方案中，计算机系统(例如，响应于对显示设置用户界面的请求而)经由显示生成组件显示设置用户界面(例如，图6AB所描绘的666)。在显示设置用户界面时，计算机系统检测与对修改字幕设置的请求相对应的输入(例如，616z和/或指向图6AB所描绘的通信应用字幕选项664的输入)。响应于检测到与对修改字幕设置的请求相对应的输入，计算机系统修改字幕设置(例如，如图6AB所描绘)。在修改字幕设置之后，计算机系统接收对加入第二实况通信会话(例如，与图6A至图6P所描绘的实况通信会话不同的实况通信会话)的请求。响应于接收到对加入第二实况通信会话的请求，计算机系统加入第二实况通信会话。响应于接收到对加入第二实况通信会话的请求并且根据确定字幕设置指示字幕被启用，计算机系统经由显示生成组件显示基于第二实况通信会话的一个或多个参与者的音频数据的一个或多个字幕(例如，设备600显示类似于图6A至图6P所描绘的字幕604和/或扩展字幕605的字幕)。响应于接收到对加入第二实况通信会话的请求并且根据确定字幕设置指示字幕未被启用，计算机系统放弃经由显示生成组件显示基于第二实况通信会话的一个或多个参与者的音频数据的一个或多个字幕(例如，设备600放弃显示类似于图6A至图6P所描绘的字幕604和/或扩展字幕605的字幕)。在用于实况通信会话的设置用户界面中提供字幕设置增强了通信会话体验，因为它允许用户针对多个通信会话(例如，当前通信会话和未来通信会话)直观地开启或关闭字幕，从而减少了执行操作所需的输入数量。

在一些实施方案中，在修改字幕设置之后，计算机系统接收对(例如，经由第二实况通信会话)流式传输共享(例如，视频)内容(例如，类似于电影652的内容)的请求(在一些实施方案中，根据确定实况通信会话不包括非实况视频源的流式传输(用于由多个参与者观看)并且/或者不包括并非源自参与者的设备中的一者的相机的视频源的流式传输(用于由多个参与者观看))。响应于接收到对流式传输共享内容(例如，第二实况通信会话)的请求，计算机系统(例如，经由第二实况通信会话)流式传输共享内容。响应于接收到对流传输共享内容(例如，第二实况通信会话)的请求并且根据确定字幕设置指示字幕被启用(例如，图6AB的通用字幕选项662是开启的)，计算机系统经由显示生成组件显示共享内容的一个或多个字幕(例如，类似于电影字幕654的字幕)。响应于接收到对流传输共享内容(例如，第二实况通信会话)的请求并且根据确定字幕设置指示字幕未被启用(例如，图6AB的通用字幕选项662是关闭的)，计算机系统放弃经由显示生成组件显示共享内容的一个或多个字幕。控制针对流式传输内容(例如，电影、演出)和针对实况通信会话的参与者的音频这两者的字幕使得计算机系统能够利用单个用户输入来启用或禁用针对这两种类型的媒体的字幕，从而减少了执行操作所需的输入数量。

在一些实施方案中，在实况通信会话期间，计算机系统(例如，响应于对显示设置用户界面的请求而)经由显示生成组件显示第二设置用户界面(例如，图6AC所描绘的670)。在显示第二设置用户界面时，计算机系统检测与对修改第二字幕设置(例如，图6AC所描绘的通信会话字幕选项668)的请求相对应的输入(例如，图6AC所描绘的616aa)。响应于检测到与对修改第二字幕设置的请求相对应的输入，计算机系统修改第二字幕设置。根据确定第二字幕设置指示字幕被启用(例如，图6AC所描绘的通信会话字幕选项668是开启的)，计算机系统经由显示生成组件显示基于实况通信会话的参与者的音频数据的一个或多个字幕(例如，类似于图6A至图6P所描绘的字幕604和/或扩展字幕605的字幕)(例如，从不显示字幕转变为显示字幕)。根据确定第二字幕设置指示字幕未被启用(例如，图6AC所描绘的通信会话字幕选项668是关闭的)，计算机系统停止经由显示生成组件显示基于实况通信会话的参与者的音频数据的一个或多个字幕(例如，从显示字幕转变为不显示字幕)。在一些实施方案中，第二字幕专用于当前/活动实况通信会话，并且不为未来的实况通信会话保持该设置。控制针对特定实况通信会话的字幕增强了通信会话体验，因为它使得计算机系统能够暂时激活或停用针对当前实况通信会话的字幕，同时不改变针对所有未来通信会话的字幕设置。

在一些实施方案中，同时地，实况通信会话中的第一参与者说出多个文字(例如，与图6J所描绘的针对远程用户622的字幕604相对应的文字)，并且实况通信会话中的第二参与者说出多个文字(例如，与图6K所描绘的针对远程用户624的字幕604相对应的文字)。在一些实施方案中，计算机系统经由显示生成组件(例如，在第一行上)显示针对由第一参与者说出的、被分组在一起并且与第一参与者的表示相关联的多个文字的字幕(例如，与Emily的姓名和图像相关联地显示针对远程用户622的字幕604，如图6J和/或图6L所描绘)。计算机系统经由显示生成组件(例如，在第二行上)显示针对由第二参与者说出的、被分组在一起并且与第二参与者的表示相关联的多个文字的字幕(例如，与Kim的姓名和图像相关联地显示针对远程用户624的字幕604，如图6K所描绘)。在一些实施方案中，由第一参与者说出的多个文字显示在第一行上，并且由第二参与者说出的文字显示在第二行上。后续文字在一些实施方案中，当两个参与者同时说话时，在针对由第二参与者说出的文字的字幕被显示之前，针对第一参与者说出的文字的字幕被分组在一起并一起显示。在一些实施方案中，基于检测到话音中的暂停(例如，5秒或1秒的暂停)(例如，当参与者已经结束他或她的句子时或当参与者已经保持沉默达预定时间段时)来将相应参与者的文字分组在一起。在一些实施方案中，计算机系统在显示针对由第一参与者说出的、被分组在一起并且与第一参与者的表示相关联的多个文字的字幕之后，显示针对由第二参与者说出的、被分组在一起并且与第二参与者的表示相关联的多个文字的字幕。一旦由相应参与者说出的话语完成就将针对相应参与者的话语的字幕显示为一组说出的文字向用户提供了关于参与者何时已经说话的时序的视觉反馈，从而提供了增强的视觉反馈。

在一些实施方案中，同时地，实况通信会话的第一参与者(例如，图6J所描绘的远程用户622)说出多个文字(例如，与图6J所描绘的针对远程用户624的字幕604相对应的文字)，并且实况通信会话的第二参与者(例如，图6K所描绘的远程用户624)说出多个文字(例如，与图6K所描绘的针对远程用户622的字幕604相对应的文字)。在一些实施方案中，计算机系统经由显示生成组件(例如，在第一行上)显示针对由第一参与者说出的多个文字中的第一文字的字幕(例如，设备600显示图6J所描绘的“doesn’t”)。在显示针对第一参与者的多个文字中的第一文字的字幕之后，计算机系统经由显示生成组件(例如，在第二行上)显示针对由第二参与者说出的多个文字中的第一文字的字幕(例如，设备600显示图6K所描绘的“Thanks”)。在显示针对第二参与者的多个文字中的第一文字的字幕之后，计算机系统经由显示生成组件(例如，在第一行上)显示针对由第一参与者说出的多个文字中的第二文字的字幕(例如，设备600显示图6L所描绘的“mean”)。在一些实施方案中，计算机系统显示针对由第一参与者说出的第一文字的字幕和针对由第一参与者说出的第二文字的字幕，该第一文字和该第二文字被分组在一起并且与第一参与者的表示相关联。在一些实施方案中，在显示针对由第二参与者说出的多个文字中的第一文字的字幕之后，计算机系统显示针对第二参与者的多个文字中的第二文字的字幕，该第二文字与针对由第二参与者说出的第一文字的字幕分组在一起并且与第二参与者的表示相关联。在一些实施方案中，在显示针对第一参与者的多个文字中的第二文字的字幕之后，计算机系统经由显示生成组件(例如，在第二行上)显示针对由第二参与者说出的多个文字中的第二文字的字幕。在一些实施方案中，根据确定由至少两个参与者说出的话语重叠，计算机系统在第一排上显示针对第一参与者的一个或多个字幕。当在第一排上显示针对第一参与者的一个或多个字幕时，计算机系统在第二排上显示针对第二参与者的一个或多个字幕。当在第二排上显示针对第二参与者的一个或多个字幕并且在第一排上显示针对第一参与者的一个或多个字幕时，计算机系统在第一排上显示针对第一参与者的一个或多个新字幕。在不将文字分组在一起的情况下显示针对由参与者说出的文字的字幕提供了关于说出各个文字的时序以及哪个用户说出这些文字的视觉反馈，从而提供了改进的视觉反馈。

在一些实施方案中，在第一行(例如，如图6J所描绘的640)上显示针对由第一参与者说出的多个文字中的第一文字的字幕，在(例如，第一行下方的)第二行(例如，如图6K所描绘的642)上显示针对由第二参与者说出的多个文字中的第二文字的字幕，并且在(例如，第二行下方的)第三行上显示针对由第一参与者说出的多个文字中的第二文字的字幕(例如，设备600在行642之下的新行上显示“mean”)。。在一些实施方案中，当显示新的字幕行时，较早显示的字幕行向上滚动。在一些实施方案中，计算机系统在第一行上一次一个文字地显示(例如，第一字幕中或第二字幕中的)多个文字，并且在第一行上显示多个文字之后，计算机系统将该多个文字从第一排移动到第二排(例如，为显示用于附加字幕的附加行腾出空间)。一次一个文字地显示多个文字并且将该多个文字从第一排移动到第二排增强了通信会话体验，因为它允许用户更好地跟随对话，这是由于它将最近的转录本保持在第一行上，这提供了改进的视觉反馈并且减少了执行操作(例如，向后滚动浏览转录本)所需的输入数量。

在一些实施方案中，在相应用户界面区(例如，如图6L所描绘的606)中显示第一字幕和第二字幕。在一些实施方案中，计算机系统检测到已经满足预定阈值不活动(例如，一个或多个参与者已经停止讲话、没有正在显示新字幕和/或没有正在接收要显示的新字幕)时间。响应于检测到已经满足预定阈值不活动时间，计算机系统使在其中显示第一字幕和第二字幕的相应用户界面区(例如，如参考图6O至图6P所描述，6P的字幕区域606小于图6O的字幕区域606)最小化(例如，减小该相应用户界面区的大小或移除该相应用户界面区)(例如，减小用于第一字幕或第二字幕的窗口的大小)。在一些实施方案中，在已经满足(例如，比预定阈值的时间长的)第二预定阈值不活动时间之后，计算机系统停止显示一个或多个字幕。在已经满足预定阈值不活动时间时使字幕窗口最小化增强了通信会话体验，因为它在没有人正在讲话时使用户界面整洁，这通过为其他内容提供附加显示空间来提供改进的视觉反馈。

在一些实施方案中，根据确定实况通信会话是在不多于两个参与者之间(例如，如图6A至图6C所描绘)，计算机系统在一个或多个表示上覆盖一个或多个字幕(例如，如图6D至图6O所描绘的604)(例如，第一字幕和/或第二字幕)(例如，如图6C所描绘)。在一些实施方案中，根据确定实况通信会话是在多于两个参与者之间，放弃在一个或多个表示上覆盖一个或多个字幕(例如，第一字幕和/或第二字幕)。在一些实施方案中，计算机系统确定实况通信已经从不多于两个参与者改变为至少三个参与者(例如，附加参与者已经加入实况通信会话)。响应于确定实况通信会话已经改变为至少三个参与者，计算机系统停止在一个或多个表示上覆盖一个或多个字幕。在一些实施方案中，计算机系统确定实况通信已经从至少三个参与者改变为不多于两个参与者(例如，一个或多个参与者已经离开实况通信会话)。响应于确定实况通信会话已经改变为至少三个参与者，计算机系统在一个或多个表示上覆盖一个或多个字幕。在通信会话仅涉及两个参与者时在一个或多个表示上覆盖字幕通过以下方式增强了通信会话体验：启用参与者中的一者的更大视图，同时仍然显示字幕，这向用户提供了对参与者的表情的改进的视觉反馈。

在一些实施方案中，根据确定实况通信会话是在至少三个参与者之间(例如，如图6D至图6O所描绘)，计算机系统靠近一个或多个表示(例如，在该一个或多个表示旁边并且/或者不与该一个或多个表示重叠)显示一个或多个字幕(例如，如图6D至图6O所描绘的604和/或605)(例如，第一字幕或第二字幕)(例如，如图6D至图6O所描绘)。在一些实施方案中，计算机系统确定实况通信已经从不多于两个参与者改变为至少三个参与者(例如，附加参与者已经加入实况通信会话)。响应于确定实况通信会话已经改变为至少三个参与者，计算机系统靠近一个或多个表示显示一个或多个字幕。在一些实施方案中，计算机系统确定实况通信已经从至少三个参与者改变为不多于两个参与者(例如，一个或多个参与者已经离开实况通信会话)。响应于确定实况通信会话已经改变为至少三个参与者，计算机系统停止靠近一个或多个表示显示一个或多个字幕。在通信会话涉及至少三个参与者时靠近一个或多个表示显示字幕通过以下方式增强了通信会话体验：不遮挡参与者中的一者的视图，同时仍然显示对话的转录本，这提供了改进的视觉反馈。

在一些实施方案中，计算机系统检测与对放大针对一个或多个字幕的文本的请求相对应的输入(例如，如参考图6I所描述)。响应于检测到与对放大针对一个或多个字幕的文本的请求相对应的输入，计算机系统放大针对一个或多个字幕的文本(例如，增大显示文本的大小)(例如，如图6I所描绘)。附加地或另选地，响应于检测到与对放大针对一个或多个字幕的文本的请求相对应的输入，计算机系统扩展用于一个或多个字幕(例如，第一字幕和/或第二字幕)的区(例如，增大在其中显示字幕的区域)(例如，图6I中的606大于图6H中的606)。在针对一个或多个字幕的文本被放大时自动扩展字幕区增强了通信会话体验，因为它向用户提供了查看文本的放大视图的能力，同时还扩展了用于该文本的区，使得从视图中排除较少量(如果有的话)的文本，这提供了改进的视觉反馈。

在一些实施方案中，根据确定针对话语(例如，针对一个或多个说出的文字)的字幕具有(例如，在第一置信水平范围(例如，针对低置信水平的范围和/或0％-50％或0％-25％置信水平的范围)内的)小于第一阈值量的置信水平(例如，如参考图6H所描述)，计算机系统显示指示话语具有小于第一阈值量的置信水平的图形对象(例如，636)(该图形对象任选地不包括字母字符)(例如，使文字消隐、没有文字的下划线、文字之间的空格)。在一些实施方案中，图形对象的大小(例如，长度和/或宽度)基于话语的持续时间(例如，如参考图6H所描述)(例如，根据确定话语具有第一持续时间，图形对象具有第一长度，并且根据确定话语具有比第一持续时间长的第二持续时间，图形对象具有比第一长度长的第二长度)(例如，话语的文字量和/或时间长度)(例如，文字之间的较短距离指示具有低置信度的较小数量的文字并且/或者文字之间的较大距离长度指示具有低置信度的较大数量的文字)。显示指示话语的机器转录/字幕(以及话语的持续时间/长度)处于特定置信水平(例如，低置信度)的图形对象增强了通信会话体验，因为它向机器转录的读者提供了关于系统具有字幕准确的置信水平的反馈，这提供了改进的视觉反馈。

在一些实施方案中，根据确定针对话语的字幕具有在置信水平范围(例如，针对中等置信水平的范围和/或51％-75％或51％-90％置信水平的范围)内的置信水平(例如，如参考图6H所描述)，计算机系统以预定视觉外观(例如，638)显示针对与话语相对应的字幕的文本(该文本任选地包括字母字符)(例如，文本变灰、文本之下的虚线和/或加下划线的文本)。在一些实施方案中，针对一个或多个字幕的文本与一个或多个图形对象一起显示，以指示针对话语的置信水平在第二置信水平范围内。在话语处于特定置信水平(例如，中等置信水平)时以预定视觉外观显示针对一个或多个字幕的文本增强了通信会话体验，因为它向用户提供了关于系统在转录的文字中具有的置信度的反馈，并且促进了依赖于机器转录来通信的用户之间的更好通信。

在一些实施方案中，计算机系统显示指示一个或多个字幕是机器生成的图形对象(例如，612)。显示指示字幕是机器生成的图形对象增强了通信会话体验，因为用户可以快速地标识字幕是否是由另一用户键入的文本，这提供了改进的视觉反馈，并且促进了依赖于机器转录来通信的用户之间的更好通信。

在一些实施方案中，当显示一个或多个字幕时，计算机系统检测与对停止显示一个或多个字幕(例如，第一字幕或第二字幕)的请求相对应的输入(例如，如图6R所描绘的616i和/或如图6AA所描绘的616y)(例如，轻击输入或非轻击输入)。响应于检测到与对停止显示一个或多个字幕的请求相对应的输入，计算机系统停止显示一个或多个字幕并且停止显示一个或多个参与者的表示(例如，如图6V所描绘)。在一些实施方案中，一个或多个参与者的表示重叠到共享内容上。在一些实施方案中，计算机系统处于横向模式。响应于对停止显示字幕的请求而自动停止一个或多个参与者的表示和一个或多个字幕的显示增强了通信会话体验，因为用户可以观看在通信会话中共享的内容，这提供了改进的视觉反馈，并且减少了执行操作所需的输入数量。

在一些实施方案中，计算机系统检测到计算机系统处于相应定位(例如，取向，诸如横向取向)。响应于检测到计算机系统处于相应定位并且根据确定实况通信用户界面相对于计算机系统的相机(例如，602)处于第一空间取向(例如，如图6AD所描绘)(例如，第一横向取向，其中相机位于显示生成组件的右方)，计算机系统在用户界面中的靠近计算机系统的相机的第一位置处显示(例如，第一字幕或第二字幕中的)一个或多个字幕(例如，图6AD的605)(例如，如图6AD所描绘)。响应于检测到计算机系统处于相应定位并且根据确定实况通信用户界面相对于计算机系统的相机处于不同于第一空间取向的第二空间取向(例如，第二横向取向，其中相机位于显示生成组件的左方)(例如，如图6AE所描绘)，计算机系统在实况通信用户界面中的靠近相机的、不同于实况通信用户界面中的第一位置的第二位置处显示(例如，第一字幕或第二字幕中的)一个或多个字幕(例如，图6AE的605)(例如，如图6AE所描绘)。在一些实施方案中，计算机系统在相机的定位附近显示一个或多个字幕，使得在用户正在阅读字幕时(对于实况通信会话的其他参与者)看起来像该用户正在看相机。将字幕放置在用户界面中的基于计算机系统的取向并且更靠近相机位置的位置处增强了通信会话体验，因为用户可以在看起来像该用户正在看相机时阅读转录，这提供了改进的视觉反馈，并且减少了执行操作(例如，移动一个或多个字幕)所需的输入数量。

在一些实施方案中，当实况通信会话包括多于两个参与者时，计算机系统在实况通信用户界面中以第一大小(例如，第一宽度和/或第一长度)显示实况通信会话的第一参与者(例如，图6D的620、622和/或628)(和/或第二参与者)的表示(例如，图6D的621、623和/或629)。计算机系统检测到实况通信会话包括不多于两个参与者(例如，设备600检测到通信会话是在图6A至图6C的本地用户620与远程用户622之间)。响应于检测到实况通信会话包括不多于两个参与者，计算机系统增加在实况通信用户界面中显示的字幕信息的量(例如，行或文字的数量)(例如，设备600可以增大字幕区域606并且/或者显示针对字幕604的更多文本)。增大实况通信界面中的字幕的大小通过以下方式增强了通信会话体验：启用字幕的较大显示并且向用户提供了在实况通信会话中剩余仅两个参与者的反馈，这提供了改进的视觉反馈。

在一些实施方案中，在相应用户界面区中显示第一字幕和第二字幕。在一些实施方案中，计算机系统显示(例如，第一字幕或第二字幕中的)一个或多个字幕。根据确定从话语已经出现起已经经过预定阈值的时间(例如，如参考图6P所描述)(例如，一个或多个参与者尚未说话或尚未检测到话语)，计算机系统停止显示相应用户界面区(例如，图6P的字幕604和/或字幕区域606)。在一些实施方案中，一个或多个字幕覆盖在图形对象(例如，盘(platter)、托盘(tray)、形状和/或背景)上。在一些实施方案中，停止显示相应用户界面区包括停止显示第一字幕和第二字幕。停止显示一个或多个字幕通过以下方式增强了通信会话体验：在不需要来自用户的进一步输入的情况下，在没有人正在说话时使用户界面整洁，这提供了改进的视觉反馈，并且减少了执行操作所需的输入数量。

在一些实施方案中，计算机系统(例如，响应于检测到暂停和/或环境音而)在一个或多个字幕(例如，604和/或605)(的文本)内显示对话语的上下文(例如，话语或环境音之间的暂停长度)的图形指示(例如，内联或嵌入在该文本内)(例如，如参考图6A所描述)。在一些实施方案中，计算机系统在不对应于话语的字幕中显示基于音频(和/或缺少音频)的内容。例如，字幕可以包括对参与者的背景中的犬吠的图形指示、参与者的背景中响起的闹铃和/或参与者的背景中播放的音乐(例如，钢琴)。显示对话语的上下文的指示通过以下方式增强了通信会话体验：提供对背景噪声和/或转录本中间的暂停的指示，这提供了改进的视觉反馈，并且促进了依赖于机器转录来通信的用户之间的更好通信。

注意，上文关于方法700(例如，图7)所描述的过程的细节也以类似方式适用于下文所描述的方法。例如，方法800任选地包括上文参考方法700所描述的各种方法的特性中的一个或多个特性。例如，方法800可以包括用于管理实况视频通信会话的方法700的特性。为了简明起见，这些详情在下文中不再重复。

图8是例示根据一些实施方案的用于使用计算机系统在实况通信会话期间切换用户界面的方法的流程图。方法800在与显示生成组件(例如，601)(例如，显示控制器、触敏显示器系统和/或监视器)和一个或多个输入设备(例如，601)(例如，触敏表面、键盘、控制器和/或鼠标)通信的计算机系统(例如，100、300、500和/或600)(例如，智能电话、平板计算机和/或膝上型计算机)处执行。方法800中的一些操作任选地被组合，一些操作的次序任选地被改变，并且一些操作任选地被省略。

如下文所描述，方法800提供了用于在实况通信会话期间切换用户界面的直观方式。该方法减少了对用户管理实况通信会话的字幕所造成的认知负担，从而创建了更高效的人机界面。对于电池驱动的计算设备，使得用户能够更快并更高效地管理实况通信会话的字幕节省了功率，并且增大了电池充电之间的时间间隔。

在一些实施方案中，计算机系统经由显示生成组件显示(802)实况通信应用的对应于实况通信会话(例如，图6A至图6AA所描绘的实况通信会话)的用户界面(例如，614和/或615)。实况通信应用的用户界面同时包括(804)在实况通信应用中显示的实况通信会话的第一参与者(例如，620、622、624、626和/或628)的表示(例如，621、623、625、627和/或629)((例如，化身、静止图像和/或视频(例如，实况视频馈送))。实况通信应用的用户界面同时包括(806)针对在实况通信应用中显示的第一参与者的音频数据(例如，由参与者的实况通信应用接收、处理和/或传输的音频数据)的(例如，包括文本的)第一字幕(例如，604和/或605)。

在一些实施方案中，当显示实况通信应用的用户界面时，计算机系统接收(808)与对切换到显示不同于实况通信应用的相应用户界面(例如，如图6Q所描绘的主屏幕的用户界面和/或电影应用651的用户界面)的请求相对应的一个或多个输入(例如，616g和/或616h)的序列。

响应于(810)接收到与对切换到显示相应用户界面的请求相对应的一个或多个输入的序列，计算机系统用不同于实况通信应用的相应用户界面(例如，不同的应用或诸如主屏幕的系统用户界面)替代(812)实况通信应用的至少一部分。响应于(810)接收到与对切换到显示相应用户界面的请求相对应的一个或多个输入的序列，计算机系统显示(812)覆盖在相应用户界面的至少一部分上的实况通信会话的第一参与者的缩小比例表示(例如，图6Q的629)(例如，如图6Q至图6U、图6Y至图6AA所描绘)。响应于(810)接收到与对切换到显示相应用户界面的请求相对应的一个或多个输入的序列，计算机系统显示针对第一参与者的音频数据的(例如，与第一字幕相同或不同于第一字幕的)第二字幕(例如，图6Q中的604)，其中针对音频数据的第二字幕与实况通信会话的第一参与者的缩小比例表示分开显示，并且覆盖在相应用户界面的至少一部分上(例如，如图6Q所描绘)。在一些实施方案中，与第一字幕相比，第二字幕是缩小比例字幕(例如，占据显示器的更小部分)。在一些实施方案中，实况通信应用的用户界面与相应用户界面的第一部分重叠(例如，遮挡和/或隐藏该第一部分)，并且不与相应用户界面的第二部分重叠。在一些实施方案中，实况通信应用的用户界面不与第一用户界面重叠(例如，不遮挡和/或隐藏该第一用户界面)(例如，靠近相应用户界面显示实况通信应用的用户界面)。在用于不同于实况通信应用的应用的用户界面上显示缩小比例表示和字幕通过以下方式增强了通信会话体验：允许用户在导航浏览应用或主屏幕时查看通信会话的转录本，这提供了改进的视觉反馈，并且促进在用户导航离开实况通信应用时的更好通信。

在一些实施方案中，第一参与者的缩小比例表示和针对该参与者的音频数据的第二字幕自动定位在不隐藏(例如，不遮挡视图和/或重叠)相应用户界面的预定内容(例如，图6T中的654)(例如，特定用户界面对象(例如，虚拟键盘、按钮和/或应用任务栏(dock))、共享媒体、共享媒体的字幕)的位置。。在一些实施方案中，计算机系统检测到预定内容已经移动。响应于检测到预定内容已经移动，计算机系统移动第一参与者的缩小比例表示和针对该参与者的音频数据的第二字幕(例如，以避免隐藏预定内容)。在一些实施方案中，计算机系统检测与对将第一参与者的缩小比例表示和针对该参与者的音频数据的第二字幕移动到由预定内容占据的位置的请求相对应的输入(例如，拖动手势)。当继续检测输入(例如，保持初始接触)时，将第一参与者的缩小比例表示和针对该参与者的音频数据的第二字幕移动到由预定内容占据的位置(在一些实施方案中，第一参与者的缩小比例表示和针对该参与者的音频数据的第二字幕隐藏预定内容)。当第一参与者的缩小比例表示和针对该参与者的音频数据的第二字幕处于由预定内容占据的位置时，计算机系统检测输入的结束(例如，手指抬离事件和/或接触的结束)。响应于检测到输入的结束并且根据确定第一参与者的缩小比例表示和针对该参与者的音频数据的第二字幕处于由预定内容占据的位置，计算机系统自动定位在不同于由预定内容占据的位置的位置处(例如，计算机系统自动移动第一参与者的缩小比例表示和针对该参与者的音频数据的第二字幕，使得它们不隐藏预定内容)。自动放置第一参与者的缩小比例表示和针对该参与者的音频数据的第二字幕以避免特定内容通过以下方式增强了通信会话体验：允许用户在不遮挡重要内容的情况下查看通信会话的转录本，这提供了改进的视觉反馈。

在一些实施方案中，当显示相应用户界面时，计算机系统检测与对更新(例如，滚动浏览和/或导航浏览)相应用户界面的内容的请求相对应的输入(例如，616n和/或616x)。响应于检测到与对更新相应用户界面的内容的请求相对应的输入，计算机系统独立于第二字幕的内容(例如，在不更新第二字幕的内容的情况下)来更新相应用户界面的内容(例如，如参考图6R至图6S所描述)(例如，而不滚动浏览第二字幕或导航浏览第二字幕)。在一些实施方案中，计算机系统接收用于更新第二字幕的内容(例如，滚动浏览内容)的用户输入，并且作为响应，独立于更新相应应用的内容(例如，在不更新相应应用的内容的情况下)来更新第二字幕的内容。在一些实施方案中，计算机系统独立于检测到对(例如，响应于由实况通信会话的一个或多个参与者说出的话语而)更新相应用户界面的内容的请求来自动更新第二字幕(例如，用不同于第二字幕的一个或多个字幕替代第二字幕)。在不(基于输入)更新第二字幕的内容的情况下(在计算机系统检测到针对相应用户界面的输入时)更新相应用户界面的内容使得计算机系统能够允许对两个应用的独立控制，并且向用户提供了关于正在更新哪个应用的反馈，从而提供了增强的用户反馈。

在一些实施方案中，当显示相应用户界面时，计算机系统检测与对移动参与者的缩小比例表示和/或第二字幕(例如，而不滚动参与者的缩小比例表示和/或第二字幕和/或不改变参与者的缩小比例表示和/或第二字幕的大小)的请求相对应的输入(例如，616j和/或616w)。响应于检测到与对移动第一参与者的缩小比例表示和/或第二字幕的请求相对应的输入，计算机系统独立于相应用户界面的内容(例如，在不导航浏览相应用户界面的内容的情况下)来移动第一参与者的缩小比例表示和/或第二字幕(例如，如图6S所描绘和/或参考图6AA所描述)。在一些实施方案中，计算机系统接收用于导航浏览相应用户界面的内容的用户输入，并且作为响应，独立于移动第一参与者的缩小比例表示和/或第二字幕(例如，在不移动第一参与者的缩小比例表示和/或第二字幕的情况下)来导航浏览相应用户界面的内容。独立于导航浏览相应用户界面的内容来移动第一参与者的缩小比例表示和/或移动第二字幕通过以下方式增强了通信会话体验：允许用户移动通信会话的转录本，使得该转录本不遮挡用户期望查看/访问的相应应用的内容，这提供了改进的视觉反馈。

在一些实施方案中，当显示覆盖在相应用户界面的至少一部分上的实况通信会话的相应参与者(例如，如图6R所描绘的623)的缩小比例表示时，计算机系统检测指示一个或多个字幕可用于针对相应参与者(例如，第一参与者或第二参与者)的相应话语的信息(例如，设备600检测到图6S的字幕604是可用的)。响应于检测到一个或多个字幕可用于针对相应参与者的相应话语，计算机系统显示针对相应话语的一个或多个字幕，而不是显示(例如，替代和/或更新)第二字幕(例如，显示图6S的字幕604而不是图6R的字幕604)。在新字幕是可用的时更新一个或多个字幕通过以下方式增强了通信会话体验：允许用户查看最近通信会话的最新转录本，这提供了改进的视觉反馈。

在一些实施方案中，第二字幕覆盖在与实况通信会话中的多个参与者共享的共享内容(例如，由实况通信会话中的至少两个参与者观看的内容或在至少两个设备之间共享的内容)上(例如，图6T至图6U的字幕604和/或图6Y的字幕604)。在一些实施方案中，相应应用的内容在实况通信会话的参与者之间共享(例如，实况通信会话的多个参与者正在同时观看内容)，并且一个或多个字幕(例如，第一字幕和/或第二字幕)覆盖在相应应用的共享内容上。在共享内容上覆盖字幕通过以下方式增强了通信会话体验：允许用户同时查看通信会话的转录本以及共享内容，这提供了改进的视觉反馈，并且促进在用户查看共享内容时的更好通信。例如，用户可以监视单个位置以查看共享内容和对字幕的更新两者。

在一些实施方案中，计算机系统显示(例如，覆盖在图形对象(例如，盘、托盘、形状和/或背景)上的)一个或多个字幕(例如，图6Q至图6U和图6Y至图6Z的604)(例如，针对第一参与者的音频数据的第二字幕或针对第一参与者的音频数据的第一字幕)。在显示一个或多个字幕之后并且根据确定从已经将字幕添加到一个或多个字幕起已经经过预定阈值量的时间(例如，如参考图6P所描述)(例如，从话语已经出现起已经经过预定阈值的时间(例如，多个参与者尚未说话))，计算机系统停止显示一个或多个字幕(例如，设备600可以停止显示图6Q至图6U和图6Y至图6Z的字幕604)(并且任选地，停止显示图形对象的至少一部分(例如，全部))。在一些实施方案中，根据确定从字幕已经被添加到一个或多个字幕起尚未经过预定阈值量的时间，并且根据确定字幕已经被添加到一个或多个字幕，放弃停止显示一个或多个字幕。在一些实施方案中，如果字幕在已经经过(或满足)预定阈值量的时间之前被添加到一个或多个字幕，则计算机系统放弃停止显示一个或多个字幕。停止显示一个或多个字幕通过以下方式增强了通信会话体验：在不需要进一步用户输入的情况下，使用户界面整洁并且允许用户更好地查看共享内容和/或相应应用的内容，这提供了改进的视觉反馈，并且在已经满足一组条件时，在不需要进一步用户输入的情况下执行操作。

在一些实施方案中，计算机系统检测与对移动相应参与者(例如，第一参与者)的缩小比例表示的请求相对应的输入(例如，616j和/或616v)(例如，在缩小比例表示上的触摸并拖动输入)。响应于检测到与对移动相应参与者的缩小比例表示的请求相对应的输入，计算机系统经由显示生成组件移动相应参与者的缩小比例表示的位置，并且经由显示生成组件(例如，自动)移动(例如，如图6S所描绘)一个或多个字幕(例如，针对第一参与者的音频数据的第二字幕)的位置(例如，如图6S所描绘)。在一些实施方案中，计算机系统移动一个或多个字幕，使得一个或多个字幕相对于相应参与者的缩小比例表示的定位与在移动相应参与者的缩小比例表示之前一个或多个字幕的定位相同。在一些实施方案中，计算机系统移动一个或多个字幕，使得一个或多个字幕相对于相应参与者的缩小比例表示的定位与在移动相应参与者的缩小比例表示之前一个或多个字幕的定位不同。响应于对移动缩小比例表示的请求而自动移动相应参与者的缩小比例表示和一个或多个字幕通过以下方式增强了通信会话体验：允许用户更好地查看共享内容和/或应用的内容，这提供了改进的视觉反馈，并且减少了执行操作所需的输入数量。

在一些实施方案中，当显示覆盖在相应用户界面的至少一部分上的实况通信会话的第一参与者(例如，John)的缩小比例表示(例如，图6Q的629)时，计算机系统检测到相应参与者(例如，Emily)在实况通信会话中比第一参与者活跃(例如，如参考图6D所描述)(例如，相应参与者开始说话并且第一参与者停止说话，或相应参与者比第一参与者说话更响、时间上更近和/或更快)。响应于检测到相应参与者在实况通信会话中比第一参与者活跃，计算机系统用相应参与者的缩小比例表示(例如，图6R的623)替代第一参与者的缩小比例表示。用相应参与者的缩小比例表示替代第一参与者的缩小比例表示通过以下方式增强了通信会话体验：允许用户查看活跃说话者的表示(例如，图像)，从而向用户指示哪个参与者正在说话，这提供了改进的视觉反馈。

在一些实施方案中，计算机系统显示设置用户界面(例如，666和/或指向664的输入)。当显示设置用户界面时，计算机系统检测与对修改(例如，切换、启用或禁用)针对实况通信应用的用户界面的字幕设置的请求相对应的输入(例如，616z指向664的输入)。响应于检测到与对修改针对实况通信应用的字幕设置的请求相对应的输入并且根据确定输入激活针对实况通信应用的字幕设置，计算机系统启用显示一个或多个字幕作为用于实况通信会话的实况通信应用的用户界面的一部分(例如，如参考图6AB所描述)。响应于检测到与对修改针对实况通信应用的字幕设置的请求相对应的输入并且根据确定输入停用针对实况通信应用的字幕设置，计算机系统禁用显示字幕作为用于实况通信会话的实况通信应用的用户界面的一部分(例如，如参考图6AB所描述)。在一些实施方案中，根据确定一个或多个字幕的显示被启用，计算机系统在实况通信用户界面中显示一个或多个字幕(例如，第一字幕和/或第二字幕)。在一些实施方案中，根据确定一个或多个字幕的显示被禁用，计算机系统放弃在实况通信用户界面中显示一个或多个字幕(例如，第一字幕和/或第二字幕)。在用于实况通信应用的设置用户界面中提供字幕设置增强了通信会话体验，因为它允许用户针对多个通信会话(例如，当前通信会话和未来通信会话)开启或关闭字幕，这提供了直观的界面，并且减少了执行操作所需的输入数量(例如，不需要针对每个新的实况通信会话改变设置)。

在一些实施方案中，当显示覆盖在相应用户界面的至少一部分上的实况通信会话的第一参与者的缩小比例表示(例如，图6Q的629)时，计算机系统检测到相应参与者(例如，Emily)在实况通信会话中比第一参与者活跃(例如，如参考图6D所描述)(例如，相应参与者开始说话并且第一参与者停止说话，或相应参与者比第一参与者说话更响、时间上更近和/或更快)。响应于响应于检测到相应参与者在实况通信中比第一参与者活跃，计算机系统经由显示生成组件用相应参与者的缩小比例表示(例如，图6R的623)替代(例如，交换或切换)第一参与者的缩小比例表示。响应于检测到相应参与者在实况通信中比第一参与者活跃，计算机系统经由显示生成组件用针对相应参与者的音频数据的字幕替代(例如，交换或切换)针对第一参与者的音频数据的第二字幕(例如，图6Q的字幕604被图6R的字幕604替代)。在不同的人活跃时替代人的缩小比例表示和第二字幕两者增强了通信会话体验，因为它允许用户查看活跃说话者的转录本和表示(例如，图像)两者，这向用户提供了关于活跃说话者及其对应字幕的反馈。

在一些实施方案中，当显示相应参与者(例如，Emily和/或Kim)(例如，第一参与者)的缩小比例表示(例如，图6R的623和/或图6U所描绘的Kim的表示)和针对相应参与者(例如，第一参与者)的音频数据的第二字幕(例如，图6R的604和/或图6U的604)时，计算机系统检测指向相应参与者的缩小比例表示的输入(例如，616i和/或616p)(例如，最小化输入，诸如单个手势并且/或者与对使相应参与者的缩小比例表示最小化(例如，停止显示或移动到应用任务栏)的请求相对应)。响应于检测到指向相应参与者的缩小比例表示的输入(例如，最小化输入，诸如单个手势、与对使相应参与者的缩小比例表示最小化的请求相对应，并且/或者无需接收附加用户输入)，计算机系统降低相应参与者的缩小比例表示的突出性(例如，视觉突出性)(例如，使缩小比例表示最小化、使缩小比例表示的大小缩小、使缩小比例表示模糊、使缩小比例表示变暗并且/或者停止显示缩小比例表示)(例如，如图6V所描绘)。在一些实施方案中，响应于检测到指向相应参与者的缩小比例表示的输入，计算机系统降低针对相应参与者的音频数据的第二字幕的突出性(例如，使第二字幕最小化或缩小第二字幕的大小，并且/或者停止显示第二字幕)(例如，如图6V所描绘)。响应于检测到输入而自动降低相应参与者的缩小比例表示和字幕两者的突出性增强了通信会话体验，因为它使用户界面整洁，并且减少了使相应参与者的缩小比例表示和针对相应参与者的音频数据的字幕两者最小化所需的输入数量，这减少了执行操作所需的输入数量。

在一些实施方案中，降低相应参与者的缩小比例表示和针对相应参与者的音频数据的第二字幕的突出性包括停止显示相应参与者的缩小比例表示和针对相应参与者的音频数据的第二字幕(例如，如图6V所描绘)。在一些实施方案中，计算机系统显示指示一个或多个参与者(例如，第一参与者或第二参与者)正在说话(任选地，并且/或者从上一次显示字幕起已经说话)的指示(例如，图6V的656)(例如，图形对象(例如，形状、高亮或符号)和/或图形对象中的视觉变化)，而不显示相应参与者的缩小比例(以及任选地，任何比例)表示和针对相应参与者的音频数据的字幕。显示参与者正在说话的视觉提示增强了通信会话体验，因为它向用户提供了参与者正在说话的视觉反馈，这提供了改进的视觉反馈。

在一些实施方案中，显示指示一个或多个参与者正在说话的指示包括(例如，经由弹跳箭头并且/或者经由颜色的变化)对相应用户界面中的与相应参与者的缩小比例表示相关联的位置处的图形用户界面对象(例如，图6W的656)进行动画处理(例如，658)。在一些实施方案中，计算机系统检测与相应用户界面中的与相应参与者的表示相关联的位置相对应的输入(例如，轻击手势、轻扫手势和/或拖动手势)。在一些实施方案中，响应于检测到输入，计算机系统提高相应参与者的缩小比例表示和针对相应参与者的音频数据的字幕的突出性。对图形用户界面对象进行动画处理提供了参与者正在说话的视觉提示，增强了通信会话体验，因为向用户提供了参与者正在说话的视觉反馈，这提供了改进的视觉反馈。

在一些实施方案中，计算机系统与第一参与者的缩小比例表示(以及任选地，针对第一参与者的音频数据的第二字幕)同时显示共享内容(例如，如图6U所描绘)。在一些实施方案中，当与第一参与者的缩小比例表示(以及任选地，针对第一参与者的音频数据的第二字幕)同时显示共享内容时，计算机系统检测与对降低第一参与者的缩小比例表示的突出性(例如，停止显示缩小比例表示或使缩小比例表示最小化)的请求相对应的输入(例如，616p)。在一些实施方案中，响应于检测到与对降低第一参与者的缩小比例表示的突出性(例如，停止显示缩小比例表示或使缩小比例表示最小化)的请求相对应的输入，计算机系统降低第一参与者的缩小比例表示的突出性(例如，停止显示缩小比例表示或使缩小比例表示最小化)(并且，任选地，停止显示针对第一参与者的音频数据的第二字幕，或保持针对第一参与者的音频数据的第二字幕的显示)并且/或者保持共享内容的显示(例如，如图6U所描绘)。在一些实施方案中，计算机系统进一步响应于检测到与对降低第一参与者的缩小比例表示的突出性的请求相对应的输入而停止显示针对第一参与者的音频数据的第二字幕。停止显示缩小比例表示同时保持共享内容的显示增强了通信会话体验，因为它使共享内容(并且因此，共享内容的用户视图)的显示最大化，这提供了改进的视觉反馈。

在一些实施方案中，计算机系统显示覆盖在共享内容(例如，图6AA的电影652)(例如，正在共享的电影)上的针对共享内容的一个或多个字幕(例如，图6AA的电影字幕)(例如，针对正在经由实况通信会话共享的电影的隐藏式字幕)。在一些实施方案中，靠近共享内容(例如，不与共享内容重叠或不遮挡共享内容的视图)显示与针对共享内容的一个或多个字幕同时显示的针对相应参与者的音频数据的一个或多个字幕(例如，图6AA的604)(例如，第二字幕)(如图6AA所描绘)。在一些实施方案中，计算机系统随时间更新针对共享内容的一个或多个字幕。在一些实施方案中，计算机系统独立于针对相应参与者的音频数据的一个或多个字幕(例如，在不更新该一个或多个字幕和/或不向该一个或多个字幕添加字幕的情况下)来更新针对共享内容的一个或多个字幕。在一些实施方案中，计算机系统随时间更新针对相应参与者的音频数据的一个或多个字幕。在一些实施方案中，计算机系统独立于针对相应参与者的音频数据的字幕来更新针对共享内容的一个或多个字幕。在一些实施方案中，计算机系统独立于针对共享内容的一个或多个字幕(例如，在不更新该一个或多个字幕和/或不向该一个或多个字幕添加字幕的情况下)来更新针对相应参与者的音频数据的一个或多个字幕。显示靠近共享内容的针对相应参与者的音频数据的字幕和覆盖在共享内容上的针对共享内容的字幕向用户提供了关于哪个字幕对应于哪个项目(其他参与者或共享内容)的视觉反馈，这提供了改进的视觉反馈。

需注意，上文关于方法800(例如，图8)所描述的过程的详情也以类似方式适用于上文所描述的方法。例如，方法700任选地包括上文参考方法800所描述的各种方法的一个或多个特性。例如，方法700可以包括用于管理实况视频通信会话的方法800的特性。为了简明起见，这些详情在下文中不再重复。

图9A至图9AI例示了根据一些实施方案的用于提供字幕的示例性用户界面。这些附图中的用户界面用于例示下文所描述的包括图10中的过程的过程。

图9A例示了电子设备900。在图9A中，电子设备900是便携式多功能设备，并且具有上文关于设备100、300、500和600中的一者或多者所描述的一个或多个组件。

在图9A中，设备900在显示器902上显示用于管理(例如，在设备900上提供的)字幕的各种方面的字幕设置界面910。字幕设置界面910包括启用选项912、文本选项914和颜色选项916a、916b。启用选项912在被选择时激活(或停用)设备900上的字幕特征。在一些实施方案中，启用字幕特征允许设备900基于由设备900提供和/或接收的音频(或音频元数据)在字幕界面中提供字幕(例如，转录)。在一些实施方案中，可以修改以此方式提供的字幕的各种视觉特性。作为示例，可以使用文本选项914来修改文本大小，可以使用颜色选项916a来修改文本颜色，并且可以使用颜色选项916b来修改字幕界面的背景颜色。

在示例操作中，设备900在显示字幕界面910时检测对启用选项912的选择。该选择是在启用选项912上的轻击手势905a。如图9B所示，响应于检测到轻击手势905a，设备900显示字幕界面920并且将启用选项912的状态从“关闭”切换到“开启”，从而指示已经在设备900上启用了字幕特征。在一些实施方案中，字幕界面920覆盖在字幕设置界面910上。

在一些实施方案中，字幕界面920包括指示符922a和文本部分922b。指示符922a指示字幕界面920是用于提供由设备900接收的音频的字幕(例如，“实况字幕”)的界面。任选地，并且如下文进一步详细描述，在一些实施方案中，当字幕由设备900提供时，指示符922a指示当前音频源。文本部分922b指示由设备900提供的字幕的状态(例如，暂停和/或等待)。在一些实施方案中，在文本部分922b中显示由设备900提供的字幕。

在一些实施方案中，进一步响应于对启用选项912的选择，设备900在字幕设置界面910中显示字幕选项918。当被启用时，字幕选项918防止在诸如电话呼叫、视频呼叫、会议呼叫等的实况通信会话期间加字幕。

当显示字幕界面920(例如，其任选地覆盖在字幕设置界面910上或没有覆盖在字幕设置界面910上)时，设备900检测对显示主屏幕界面的请求。在一些实施方案中，该请求是位于显示器902的底部处或附近的向上轻扫手势905b。如图9C所示，响应于检测到轻扫手势905b，设备900显示包括对应于播客应用的应用示能表示932的主界面930。在一些实施方案中，保持字幕界面920的显示，直到在设备900上禁用字幕特征为止。因此，设备900保持字幕界面920的显示，使得字幕界面920覆盖在主界面930上。

在显示主界面930时，设备900检测与字幕界面920的位置相对应的输入。该输入是轻击手势905c。如图9D所示，响应于检测到轻击手势905c，设备900将字幕界面920的显示修改(例如，扩展或收缩)为显示控件924。

控件924包括最小化示能表示924a、麦克风示能表示924b、启用示能表示924c和最大化示能表示924d。最小化示能表示924a在被选择时使得缩小字幕界面920的大小。在一些实施方案中，以此方式缩小字幕界面920的大小包括停止指示符922a、文本部分922b和控件924a-d中的一者或多者的显示。最大化示能表示924d在被选择时使得增大字幕界面920的大小。麦克风示能表示924b在被选择时激活麦克风加字幕，使得设备900基于由设备900接收(例如，检测到)的用户输入(例如，话音输入和/或音频输入)和/或其他听觉输入(例如，非言语声音、来自除设备900的用户之外的说话者的话音输入)来提供字幕。

启用示能表示924c在被选择时启用在设备900上加字幕，使得设备900例如基于由设备900接收的音频(或音频元数据)来提供字幕界面920中的字幕。例如，当显示控件924时，设备900检测对启用示能表示924c的选择。该选择是在启用示能表示924c上的轻击手势905d。如图9E所示，响应于检测到轻击手势905d，设备900修改启用示能表示924c的显示(例如，从“播放”指示符修改为“暂停”指示符)以指示已经在设备900上激活加字幕。在一些实施方案中，修改文本部分922b的显示，从而指示设备900正在等待从其提供字幕的音频源(例如，“等待”)。

此后，设备900检测对应用示能表示932的选择(例如，轻击手势905e)。如图9F所示，响应于检测到对应用示能表示932的选择，设备900打开(例如，执行)播客应用并显示包括播放示能表示942的播客界面940，该播放示能表示在被选择时发起播客片段(例如，播客片段260)的回放。在显示播客界面940时，设备900检测对播放示能表示942的选择(例如，轻击手势905f)，并且作为响应发起播客片段的回放。

图9G至图9H例示了在播客片段的回放期间启用加字幕的示例操作。如图9G所示，在回放期间，字幕界面920的指示符922a指示音频源(例如，“播客”)，并且字幕界面920的文本部分922b包括从播客片段的音频导出的字幕(例如，“Hello everyone…”)。在一些实施方案中，设备900指示提供字幕的时间。字幕界面920可以包括例如指示已经提供针对播客的字幕的时间的时间指示符922c。

在一些实施方案中，设备900可以被配置为标识在音频源中说话的一个或多个个体(也被称为说话者)。例如，如图9G所示，字幕归属于“说话者1”，并且如图9H所示，随后的字幕归属于“说话者2”。在一些实施方案中，可以使用一种或多种机器学习技术和/或语音识别模型来标识说话的个体。

在一些实施方案中，在给定时间，仅可以在字幕界面920中显示由设备900提供的字幕的一部分。因此，在一些实施方案中，设备900可以滚动字幕界面920中的字幕，使得在提供新字幕时不再显示较旧的字幕。作为示例，图9G例示了播客片段的回放已经开始的时间10:09的回放，并且图9H例示了播客片段的回放已经进行的时间10:10。如图所示，在已经提供了归属于“说话者2”的附加字幕之后，在时间10:10(图9H)不再显示在时间10:09(图9G)显示的归属于“说话者1”的字幕的一部分。

在一些实施方案中，可以在实况通信会话期间提供字幕。例如，当显示播客界面940时，设备900显示指示设备900当前正在接收(例如，来自联系人“Mom”的)传入电话呼叫的呼叫通知948。当显示呼叫通知948时，设备900检测对呼叫通知948的接受示能表示948a的选择以接受传入呼叫。该选择是在接受示能表示948a上的轻击手势905h。如图9I所示，响应于检测到轻击手势905h，设备600显示电话应用的电话界面950并且发起电话呼叫会话。如所描述，在一些实施方案中，保持字幕界面920的显示，直到字幕特征被禁用为止。因此，设备900保持字幕界面920的显示，使得字幕界面920覆盖在电话界面950上。

在一些实施方案中，在预定位置处并且/或者以预定状态显示字幕界面920。例如，在一些实施方案中，当与特定应用同时显示时，字幕界面920可以在特定位置(例如，用户指定位置或系统指定位置)处显示。作为另一示例，当与特定应用同时显示时，字幕界面920可以被显示为具有特定大小。作为另一示例，字幕界面920可以被显示为使得字幕界面920不遮挡底层界面(例如，字幕界面920覆盖在其上的界面)的一个或多个元素。例如，参考图9I，字幕界面920覆盖在电话界面950上的某一位置处，使得电话界面950的各种控件(例如，静音、小键盘、扬声器、添加呼叫、视频呼叫和/或联系人)对于设备900的用户而言是可见的和可访问的。

在电话呼叫期间，设备900提供对应于各种说话者的字幕。例如，可以基于从设备900的用户接收的输入来提供字幕。在电话呼叫期间，设备900(例如，经由设备900的麦克风)从设备900的用户(“John”)接收话音输入905i(例如，“Hey Mom,how are you？”)，并且在字幕界面920中提供针对话音输入905i的字幕。如图所示，来自设备900的用户的字幕可以归属于该用户。作为另一示例，可以从电话呼叫的其他参与者(例如，联系人“Mom”)提供字幕。在电话呼叫会话期间，设备900从对应于联系人“Mom”的电话应用接收音频，并且提供对应字幕(“Hi honey,I just wanted…”)。如图所示，来自其他参与者的字幕可以归属于这些参与者。

在一些实施方案中，字幕可以标识非言语声音。参考图9J，例如，设备900在电话呼叫会话期间提供指示由设备900检测到被确定为门铃的声音的字幕954(例如，“doorbell”)。可以从任何音频源标识非言语声音，该音频源包括但不限于由设备900的麦克风检测到的音频和由设备900的一个或多个应用提供的音频。在一些实施方案中，设备900可以提供针对任何数量和/或类型的非言语声音的字幕，这些非言语声音诸如铃声、敲击声、警报(例如，电器警报)、警笛以及非言语话音声音(例如，哭泣的婴儿和/或人叫喊)。

在一些实施方案中，顺序地显示在字幕界面920中提供的字幕。例如，当从第一应用切换到第二应用时，设备900可以停止显示对应于第一应用的字幕。在一些实施方案中，同时显示在字幕界面920中提供的字幕(例如，字幕在设备900在应用之间切换之后持续)。例如，如图9K所示，在设备900的用户与联系人“Mom”之间的电话呼叫会话已经结束之后，设备900恢复(例如，自动恢复)播客应用的显示。如字幕界面920所示，在电话呼叫期间提供的字幕显示在文本部分922b中并且归属于电话应用(如由指示符922a所指示)。此外，设备900在前一视觉状态下显示字幕界面920(例如，设备900在切换到电话应用之前将字幕界面920的显示返回到字幕界面920的位置)。

如所描述，在一些实施方案中，基于由设备900的麦克风接收的音频来提供字幕。在一些实施方案中，当麦克风加字幕被启用时，基于音频来提供字幕。例如，当显示字幕界面920时，设备900检测对麦克风示能表示924b的选择。该选择是在麦克风示能表示924b上的轻击手势905k。如图9L所示，响应于检测到轻击手势905k，设备900启用麦克风加字幕并且在视觉上突出显示麦克风示能表示924b(例如，对该麦克风示能表示进行加亮和/或加下划线)，从而指示麦克风加字幕已经被启用。进一步响应于对麦克风示能表示924b的选择，指示符922a被更新以将字幕归属于由麦克风捕获的音频。在一些实施方案中，设备900(在字幕界面920中)显示指示符956以标识使用麦克风加字幕提供的字幕。

如图9M所示，当麦克风加字幕被启用时，设备900接收话音输入905m(“Pleaseopen your text books to page 62.”)并且提供对应于话音输入905m的字幕958。此后，当显示字幕界面920时，设备900检测对麦克风示能表示924b的选择。该选择是在麦克风示能表示924b上的轻击手势907m。响应于检测到轻击手势907m，设备900停用麦克风加字幕并且移除对麦克风示能表示924b的视觉强调，从而指示麦克风加字幕不再被启用。

当显示字幕界面920时，设备900进一步检测对最大化示能表示924d的选择。该选择是在最大化示能表示924d上的轻击手势909m。如图9N所示，响应于检测到轻击手势909m，设备900增大字幕界面920的大小。在一些实施方案中，增大字幕界面920的大小包括增大字幕界面920的大小，使得将显示器902的全部或几乎全部用于显示字幕界面920。

在一些实施方案中，增大字幕界面920的大小允许更大数量的字幕的显示。如图所示，同时显示针对各种应用(例如，播客应用、电话应用和/或麦克风)的先前显示的字幕。在一些实施方案中，以时间次序显示字幕。在一些实施方案中，尽管字幕界面920的大小增大，但是在给定时间，仅可以在字幕界面920中显示由设备900提供的字幕的一部分。因此，在一些实施方案中，字幕界面920是可(例如，使用轻扫手势和/或非轻扫手势)滚动的，使得可以在字幕界面920中显示其他字幕。

当(例如，以增大的大小或以中间大小)显示字幕界面920时，设备900检测对最小化示能表示924a的选择。该选择是在最小化示能表示924a上的轻击手势905n。如图9O所示，响应于对最小化示能表示924a的选择，设备900缩小字幕界面920的大小(例如，缩小到先前大小并且/或者缩小到预定大小)。如图所示，缩小字幕界面920的大小可以任选地使得设备900恢复播客界面940的显示。

在一些实施方案中，字幕界面920可以例如独立于底层显示的应用而在显示器902上重新定位和/或重新设定大小。例如，当显示字幕界面920(图9O)时，设备900检测输入905o(例如，在对应于字幕界面920的位置处开始的轻扫手势)。作为响应，设备根据输入905o来移动字幕界面920。如图9P所示，响应于检测到输入905o，设备900例如根据输入905o的方向和量值来移动字幕界面920。

参考图9O至图9R，在一些实施方案中，在字幕界面920处于完全最小化状态时提供字幕。例如，在图9O中，设备900检测对播放示能表示942的选择。该选择是在播放示能表示942上的轻击手势907o。如图9P所示，响应于检测到轻击手势907o，设备900恢复播客片段的回放，并且随着回放进行而提供针对播客片段的字幕。

在发起回放之后，设备900检测对最小化示能表示924a的选择。该选择是在最小化示能表示924a上的轻击手势905p。如图9Q所示，响应于检测到轻击手势905p，设备900缩小字幕界面920的大小。在一些实施方案中，缩小字幕界面920的大小包括停止指示符922a、文本部分922b和/或控件924a-d的显示。

在一些实施方案中，在字幕界面920处于最小化状态时提供字幕。例如，参考图9Q，在最小化字幕界面920之后，播客片段的回放继续，并且设备900接收话音输入905q(图9Q)。此后，(例如，当字幕界面处于最小化状态时)设备900检测在对应于字幕界面920的位置处的输入。该输入是轻击手势907q。如图9R所示，响应于检测到轻击手势907q，设备900增大字幕界面920的大小，并且任选地，恢复在字幕界面920中显示指示符922a、文本部分922b和控件924a-d中的一者或多者。

如所例示，当增大字幕界面920的大小时，在字幕界面920处于最小化状态时为所回放的播客的音频提供字幕。然而，因为在字幕界面920处于最小化状态时未(例如，响应于对麦克风示能表示924b的选择而)启用麦克风加字幕，所以不提供对应于话音输入905q的字幕。在一些实施方案中，当字幕界面920处于最小化状态并且在设备900上激活加字幕时，设备900在视觉上突出显示(例如，加粗和/或加亮)字幕界面920。

在图9S中，当在设备900上激活加字幕时，设备900显示用于执行视频回放的视频界面960。在一些实施方案中，视频界面960对应于“movies”应用。视频界面960包括用于显示视频回放的视频区962、视频控件964和应用控件966。视频控件964包括翻译字幕选项964a，该翻译字幕选项在被启用时使得设备900在视频回放期间在视频区962中显示翻译字幕。如图所示，在视觉上突出显示(例如，加粗和/或加亮)翻译字幕选项964a，从而指示翻译字幕选项964a被启用，并且作为结果，在视频区962中显示翻译字幕。

在一些实施方案中，在视频的回放期间，设备900确定是否启用了翻译字幕选项。如果翻译字幕选项被启用，则即使在设备900上激活加字幕，设备900也不显示字幕界面920。如果翻译字幕选项未被启用，则设备900显示字幕界面920并且提供针对视频回放的字幕。例如，当显示视频界面960时，设备900检测对翻译字幕选项964a的选择。该选择是在翻译字幕选项964a上的轻击手势905s。如图9T所示，响应于检测到轻击手势905s，设备900移除对选项964a的视觉强调(并且任选地，修改翻译字幕选项964a以指示“off”)，显示字幕界面920，并且开始在回放期间提供字幕。

虽然本文已经关于设备900基于由在设备900上执行的应用提供的音频来提供字幕而进行了描述，但是应当理解，在一些实施方案中，可以基于其他类型的信息来提供字幕。作为示例，设备900基于由在设备900上执行的应用提供的元数据来提供字幕。例如，在视频的回放期间提供的字幕可以基于翻译字幕文件，使得设备900不需要分析音频以提供针对视频的字幕。作为另一示例，设备900基于从一个或多个外部设备接收的信息来提供字幕。诸如与设备900共享本地网络的设备的外部设备向设备900提供字幕数据。设备900又基于字幕数据来提供字幕。

在一些实施方案中，当以全屏模式显示诸如视频应用的应用时提供字幕。在一些实施方案中，当以此方式显示应用时，不显示字幕界面920的一个或多个元素，诸如指示符922a或指示符922c。

在一些实施方案中，在以特定模式(诸如画中画(PiP)模式)播放视频时提供字幕。例如，应用控件966包括画中画(PiP)示能表示966a，该画中画(PiP)示能表示在被选择时使得视频在设备900上以画中画模式回放。当显示视频界面960时，设备900检测对PiP示能表示966a的选择。该选择是在PiP示能表示966a上的轻击手势905t。如图9U所示，响应于检测到轻击手势905t，设备900以PiP模式显示主界面930(例如，用该主界面替代视频界面960的显示)并且继续视频的回放。附加地，设备900保持字幕界面920的显示以在视频的回放期间提供字幕。如图所示，字幕界面920可以在不遮挡PiP窗口934的位置处覆盖在主界面930上。

在显示主界面930时，设备900检测与对切换应用的请求相对应的输入。在一些实施方案中，输入是在主界面930上的轻扫手势905u，该轻扫手势在靠近主界面930的底部的位置处开始并且在向上方向上移动。如图9V所示，响应于检测到轻扫手势905u，设备900显示应用切换界面970。

应用切换界面970包括应用预览972，该应用预览包括对应于设备900的字幕特征的应用预览972a。当显示应用切换界面970时，设备900检测对应用预览972a的选择。该选择是在应用预览972a上的轻击手势905v。如图9W所示，响应于检测到轻击手势905v，设备900显示字幕界面920。

在一些实施方案中，响应于对应用预览972a的选择而显示字幕界面920使得以扩展状态显示字幕界面920。因此，如图9W所示，字幕界面920包括针对在设备900的操作期间提供的多个应用的字幕。

如所描述，在一些实例中，在给定时间，仅在字幕界面920中显示由设备900提供的字幕的一部分，并且可以通过滚动字幕界面920中的字幕来显示其他部分。例如，当显示字幕界面920时，设备900检测与对滚动字幕界面920中的字幕的请求相对应的输入。在一些实施方案中，输入905w是在字幕界面920上在向下方向上的轻扫手势。如图9X所示，响应于检测到输入905w，在对应于输入905w的方向(例如，向下方向)上滚动字幕界面920的字幕以显示附加字幕。在一些实施方案中，在与输入905w的方向相反的方向上滚动字幕界面920的字幕。

在一些实施方案中，在由设备900捕获的屏幕截图(例如，在给定时间在显示器902上显示的一个或多个界面的图像)中显示由设备900提供的字幕。在一些实施方案中，不在由设备900捕获的屏幕截图中显示由设备900提供的字幕。例如，参考图9U，当显示主屏幕界面930时，设备900接收与针对设备900捕获屏幕截图的请求相对应的输入907u。在一些实施方案中，输入907u是按钮903a、903b的同时按压。在图9Y中，设备900显示照片界面980，该照片界面包括与响应于输入907u而生成的屏幕截图的图像相对应的照片预览982。如图所示，照片预览982不包括字幕界面920(该字幕界面在检测到输入907u的时间显示)。

在图9Z至图9AI所描述的示例中，设备901(例如，具有设备100、300、500、600和/或900的一个或多个特征的设备)使得在显示器903上显示下文所描述的用户界面。在一些实施方案中，显示器903是设备901的集成部分。在一些实施方案中，设备901是与显示器903(例如，无线、有线)通信的单独设备(例如，台式计算机或膝上型计算机)。在一些实施方案中，设备901与一个或多个输入设备(诸如键盘或鼠标)通信。

在图9Z中，设备901在显示器903上显示用于管理(例如，在设备901上提供的)字幕的各种方面的字幕设置界面990。字幕设置界面990包括启用选项992、字幕选项994、文本选项996a、996b、颜色选项996c、996d以及语言选项998a、998b。

启用选项992在被启用时启用设备901上的字幕特征。在一些实施方案中，启用字幕特征使得设备901显示基于由设备901提供和/或接收的音频来提供字幕(例如，转录)的字幕界面。字幕选项994在被启用时防止在诸如电话呼叫、视频呼叫、会议呼叫等的实况通信会话期间加字幕。在一些实施方案中，仅当在设备901上启用字幕特征时才显示字幕选项994。

在一些实施方案中，可以修改以此方式提供的字幕的各种视觉特性。作为示例，可以使用文本选项996a来修改文本字体。作为另一示例，可以使用文本选项996b来修改文本大小。作为又一示例，可以使用颜色选项996c来修改文本颜色。作为又一示例，可以使用颜色选项996d来修改字幕界面的背景颜色。

在一些实施方案中，可以以各种语言提供由设备901提供的字幕。作为示例，语言选项998a可以被启用以使得设备901检测音频源的语言并且以检测到的语言提供字幕。在另一示例中，如果语言选项998a未被启用，则可以使用语言选项998b(例如，下拉菜单或另一选择机制)来手动选择用于字幕的语言。

在示例操作中，设备901在显示字幕界面990时检测对启用选项992的选择。该选择是在启用选项992上的用户输入905z(例如，鼠标点击和/或触摸手势)。如图9AA所示，响应于检测到输入905z，设备900显示字幕界面920A并且将启用选项992的状态从“关闭”切换到“开启”，从而指示已经在设备901上启用了字幕特征。在一些实施方案中，字幕界面920A覆盖在字幕设置界面990上。在一些实施方案中，靠近字幕设置界面990显示字幕界面920A。

在一些实施方案中，字幕界面920A包括指示符922Aa和文本部分922Ab。指示符922Aa指示字幕界面920A是用于提供由设备901接收的音频的字幕(例如，“实况字幕”)的界面。任选地，在一些实施方案中，指示符922Aa指示用于由设备901提供的字幕的当前音频源。文本部分922Ab任选地指示字幕特征的状态(例如，暂停和/或等待)并且/或者包括由设备901提供的字幕。

在一些实施方案中，字幕界面920A还包括控件924A。控件924A包括最小化示能表示924Aa、麦克风示能表示924Bb、启用示能表示924Ac和覆盖示能表示924Ad。最小化示能表示924Aa在被选择时使得缩小字幕界面920A的大小。在一些实施方案中，以此方式缩小字幕界面920A的大小包括停止指示符922Aa、文本部分922Ab和控件924Aa-d中的一者或多者的显示。麦克风示能表示924Ab在被选择时激活麦克风字幕，使得设备901基于用户输入(例如，话音输入和/或音频输入)和/或由设备901检测到的其他听觉输入(例如，非言语声音、来自除设备901的用户之外的说话者的话音输入)来提供字幕。启用示能表示924Ac在被选择时激活设备901上的字幕，使得设备901例如基于由设备901接收的音频来提供字幕界面920A中的字幕。覆盖示能表示924Ad在被选择时使得设备901将字幕界面920A覆盖在任何其他所显示的界面上方。

当显示字幕界面920A(和字幕设置界面990)时，设备901检测对停止字幕设置界面990的显示的请求。该请求是在字幕设置界面990的关闭示能表示上的用户输入905Aa(例如，鼠标点击和/或触摸手势)。此外，当显示字幕界面920A时，设备901检测对启用示能表示924Ac的选择。该选择是在启用示能表示924Ac上的用户输入907Aa(例如，鼠标点击和/或触摸手势)。如图9AB所示，响应于检测到用户输入907Aa，设备901修改启用示能表示924Ac的显示(例如，从“播放”指示符修改为“暂停”指示符)以指示已经在设备901上激活加字幕。

再次参考图9AA，设备901进一步检测对对应于播客应用的(例如，位于显示在显示器903上的应用任务栏中的)应用示能表示932A的选择以及对(例如，位于菜单栏中的)字幕选项示能表示934A的选择。对应用示能表示932A的选择是用户输入909Aa(例如，鼠标点击和/或触摸手势)，并且对字幕选项示能表示934A的选择是用户输入911Aa(例如，鼠标点击和/或触摸手势)。

如图9AB所示，响应于检测到用户输入907Aa，设备901打开(例如，执行和/或显示)播客应用并且显示包括播放示能表示942A的播客界面940A。

响应于检测到用户输入909Aa(图9AA)，设备901显示字幕菜单950A。字幕菜单950A包括启用选项950Aa，该启用选项在被启用时在设备901上激活加字幕。如图所示，启用选项950Aa被显示为被启用(例如，如由靠近启用选项950Aa的复选标记所指示)(请回想，加字幕响应于对启用示能表示924Ac的选择而被激活)。字幕菜单950A还包括音频源选项950Ab和950Ac。音频源选项950Ab在被启用时使得设备901基于从在设备901上执行的一个或多个应用接收的音频来提供字幕。音频源选项950Ac在被启用时激活设备901上的麦克风加字幕。在一些实施方案中，在给定时间仅可以启用音频源选项950Ab和950Ac中的一者。在其他实施方案中，可以同时启用音频源选项950Ab和950Ac。字幕菜单950A还包括覆盖选项950Ad，该覆盖选项在被启用时使得设备901将字幕界面920A覆盖在其他所显示的界面上方。字幕菜单950A还包括文本到话音选项950Ae，该文本到话音选项在被启用时使得设备901基于由用户在字幕界面920A中提供的文本输入来提供音频输出(例如，合成话音)。在一些实施方案中，设备901的用户可以为以此方式提供的音频输出选择合成语音。字幕菜单950A还包括重新居中选项950Af，该重新居中选项在被选择时使得设备901在显示器903上水平地和/或竖直地重新定位(例如，居中)显示字幕界面920A。

当显示播客界面940A时，设备901检测对播放示能表示942A的选择。该选择是在启用示能表示924Ac上的用户输入907Ab(例如，鼠标点击和/或触摸手势)。如图9AC所示，响应于检测到用户输入907Aa，发起播客片段的回放。在播客的回放期间，字幕界面920的指示符922Aa指示音频源(例如，“播客”)，并且字幕界面920的文本部分922Ab包括从播客片段的音频导出的字幕(例如，“Hello everyone..”)。任选地，设备901指示提供字幕的时间。

当显示(例如，覆盖在播客界面940A上的)字幕界面920A时，设备901显示指示设备901当前正在接收加入实况通信会话(例如，视频呼叫和/或会议呼叫)的邀请的视频通知948Aa。当显示视频通知948Aa时，设备901检测对呼叫通知948A的接受示能表示948Aa的选择以接受加入实况通信会话的邀请。该选择是在接受示能表示948Aa上的用户输入905Ac(例如，鼠标点击和/或触摸手势)。如图9AD所示，响应于检测到用户输入905Ac，设备901显示视频通信应用的通信界面954A并且发起与联系人“Jane”和“Anne”的实况通信会话。

在实况通信会话期间，设备901提供对应于各种参与者(例如，说话的个体)的字幕。例如，可以基于由设备901的用户正在与之通信的联系人提供的输入来提供字幕。在实况通信会话期间，例如，设备901从视频通信应用接收程序接收对应于标识为“说话者1”(例如，Jane)的联系人的音频，并且提供对应字幕956A(“Hey John,how’s it going？”)。作为另一示例，可以基于由设备901的用户提供的输入来提供字幕。在实况通信会话期间，设备901(例如，经由集成在设备901中并且/或者与该设备通信的麦克风)从设备901的用户接收话音输入905Ad(例如，“Hi Jane.Doing well.How are you？”)，并且提供对应字幕958A。在一些实施方案中，在实况通信会话期间，如果麦克风加字幕未被激活，则不对由用户提供的一个或多个输入加字幕。

在一些实施方案中，设备901标识与由用户提供的输入相对应的字幕界面920A中的字幕。例如，设备901可以显示诸如指示符952A的指示符，以标识对应于用户输入(以及任选地，由设备901的麦克风检测到的其他输入)的字幕。在一些实施方案中，设备901以此方式加亮所有用户输入(例如，话音输入和文本输入两者)。

在实况通信会话期间，设备901检测对文本到话音选项950Ae的选择。该选择是在文本到话音选项950Ae上的用户输入907Ad(例如，鼠标点击和/或触摸手势)。如图9AE所示，响应于检测到用户输入907Ad，设备901(例如，通过在文本到话音选项950Ae旁边显示复选标记)指示已经针对字幕界面920A中的用户输入激活文本到话音，并且在文本部分922Ab中指示设备901将基于由用户提供的文本输入来提供合成话音(例如，“键入转说出”)。

例如，如图9AF所示，设备901接收文本输入905Af(例如，“sounds good”)。如图9AG所示，响应于对提交文本输入905Af的请求(例如，输入键的按压和/或提供特定触摸手势)，设备901在字幕界面920A中将输入905Af显示为话音气泡905Ag，并且提供对应于输入905Af的合成话音输出907Ag。在一些实施方案中，还可以向对应于实况通信会话的其他参与者(例如，Jane和Ann)的设备提供文本输入905Af和/或话音输出907Ag，这些设备又可以提供对应于文本输入905Af和/或话音输出907Ag的合成话音输出。以此方式，设备901的用户可以使用文本输入来与实况通信会话的其他参与者进行口头通信。

在一些实施方案中，设备901在视觉上突出显示感兴趣的字幕(例如，对感兴趣的字幕进行加亮、加粗和/或加下划线)。作为示例，在一些实施方案中，设备901加亮提及设备901的用户的字幕。例如，图9AH描绘了在已经提供了提及设备901的用户(“John”)的字幕962Aa、962Ab之后的时间的实况通信会话。如图所示，字幕962Aa和962Ab中的每一者被加亮，使得设备901的用户可以容易地标识在实况通信会话期间提及该用户的实例。

在一些实施方案中，设备901加亮字幕的包括一个或多个预定数据类型(例如，电子邮件地址、电话号码、地址、时间和/或地点)的至少一部分。如图9AH所示，例如，加亮字幕964Aa的电话号码，并且加亮字幕964Ab的电子邮件地址。在一些实施方案中，字幕的以此方式加亮的各部分是交互式对象。例如，当显示字幕964Ab时，设备901检测对字幕964Ab的电子邮件地址的选择。该选择是在字幕964Ab的电子邮件地址上的用户输入905Ah(例如，鼠标点击和/或触摸手势)。如图9AI所示，响应于检测到用户输入905Ah，设备901显示对应于电子邮件应用的草稿通信界面970A，并且用字幕964Ab的电子邮件地址填充电子邮件的“To”字段。

在一些实施方案中，转录本可以存储在设备901上。例如，针对会议(例如，使用实况通信会话举行的会议)的转录本可以保存在日程安排应用中的日历事件中并且/或者以其他方式与该日历事件相关联。以此方式，设备901的用户可以回顾会议的转录本以回顾会议的字幕，例如以回想在会议期间所讨论的内容。在一些实施方案中，可以使用设备901的日程安排应用和/或操作系统搜索功能来搜索以此方式保存的转录本。

图10是例示根据一些实施方案的用于提供字幕的方法的流程图。方法1000在与显示生成组件(例如，902)(例如，显示器、显示控制器、头戴式显示系统和/或触敏显示器)通信的计算机系统(例如，100、300、500、600、900和/或901)(例如，智能电话、智能手表、头戴式设备(例如，头戴式增强现实和/或扩展现实设备)和/或个人计算机)处执行。方法1000中的一些操作任选地被组合，一些操作的次序任选地被改变，并且一些操作任选地被省略。

如下文所描述，方法1000提供了用于提供字幕的直观方式。该方法减少了对用户提供字幕所造成的认知负担，从而创建了更高效的人机界面。对于电池驱动的计算设备，使得用户能够更快并更高效地提供节省了功率，并且增大了电池充电之间的时间间隔。

计算机系统接收(1002)与第一应用(例如，图9G中的播客应用)(例如，语音通信应用、视频通信应用、视频播放器应用、音乐应用或游戏应用)中(例如，指向和/或来自第一应用)的第一音频(例如，来自图9G的播客片段260的音频)相对应的第一信息(例如，图9G中的显示界面920的字幕)(例如，字幕元数据和/或音频)；

计算机系统接收(1004)与不同于第一应用的第二应用(例如，图9I中的电话应用)(例如，语音通信应用、视频通信应用、视频播放器应用、音乐应用或游戏应用)中(例如，指向和/或来自第二应用)的第二音频(例如，来自图9I中的电话呼叫的音频)相对应的第二信息(图9I中的显示界面920的字幕)(例如，字幕元数据和/或音频)；以及

计算机系统经由显示生成组件(例如，在字幕窗口中和/或在显示器的底部部分中)显示(1006)系统音频转录本(例如，字幕界面920中的字幕)。在一些实施方案中，显示系统音频转录本包括显示系统音频转录本的第一转录本部分(1008)，该第一转录本部分包括基于第一音频(例如，使用字幕元数据来确定并且/或者使用音频来转录或以其他方式确定)的第一字幕(例如，如图9N所例示的字幕“Hello everyone”)(例如，当(用于产生第一字幕的)字幕元数据对应于第一音频时第一字幕基于第一音频，并且/或者当第一字幕是第一音频的转录时第一字幕基于第一音频)。在一些实施方案中，使用第一信息来生成第一字幕。在一些实施方案中，显示系统音频转录本包括显示系统音频转录本的第二转录本部分(1010)，该第二转录本部分包括基于第二音频(例如，使用字幕元数据来确定并且/或者使用音频来转录或以其他方式确定)的不同于第一字幕的第二字幕(例如，如图9N所例示的“I’ll call you back”)(例如，当(用于产生第二字幕的)字幕元数据对应于第二音频时第二字幕基于第二音频，并且/或者当第二字幕是第二音频的转录时第二字幕基于第二音频)。在一些实施方案中，使用第二信息来生成第二字幕。基于系统音频转录本中的两个不同应用的音频来显示字幕使得计算机系统能够将字幕的显示组合到单个转录本区域中，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，(例如，在同一窗口或显示区中)顺序地显示第一字幕和第二字幕(和/或第一转录本部分和第二转录本部分)(例如，图9G中的字幕界面920和图9K中的字幕界面920)。在一些实施方案中，第二转录本部分替代第一转录本部分的显示。顺序地显示第一字幕和第二字幕使得计算机系统能够向用户提供关于哪个字幕基于最近音频的反馈，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，(例如，在同一窗口或显示区中)同时显示第一字幕和第二字幕(和/或第一转录本部分和第二转录本部分)(例如，图9N中的字幕界面920)。在一些实施方案中，靠近第一转录本部分(例如，在第一转录本部分旁边并且/或者在第一转录本部分下方)显示第二转录本部分。同时显示第一字幕和第二字幕使得计算机系统能够同时向用户提供关于两个字幕的反馈，从而给予用户更多时间来回顾字幕，并且因此向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，显示第一转录本部分和第二转录本部分包括：根据确定系统音频转录本(例如，(例如，在字幕窗口中和/或在显示器的底部部分中的)字幕窗口和/或第一用户界面区)处于缩小大小，在(例如，在同一窗口或显示区中的)系统音频转录本中顺序地(例如，一个接一个地并且/或者第二转录本替代第一转录本的显示)显示第一字幕和第二字幕(和/或第一转录本部分和第二转录本部分)。在一些实施方案中，显示第一转录本部分和第二转录本部分包括：根据确定系统音频转录本(例如，(例如，在字幕窗口中和/或在显示器的底部部分中的)字幕窗口和/或第一用户界面区)不处于缩小大小(例如，处于中等大小或处于放大大小)，在(例如，在同一窗口或显示区中的)系统音频转录本中同时显示第一字幕和第二字幕(和/或第一转录本部分和第二转录本部分)。在系统音频转录本处于缩小大小时顺序地显示第一字幕和第二字幕并且在系统音频转录本不处于缩小大小(例如，更大)时同时显示第一字幕和第二字幕使得计算机系统能够优化系统音频转录本的区域的使用，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，计算机系统与一个或多个输入设备(例如，触敏表面(例如，触摸屏)、鼠标和/或键盘)通信。在一些实施方案中，计算机系统经由一个或多个输入设备接收滚动输入(例如，905w)(例如，轻扫手势、空中手势和/或指向系统音频转录本的手势)。在一些实施方案中，响应于接收到滚动输入，计算机系统经由显示生成组件滚动系统音频转录本的内容。在一些实施方案中，滚动系统音频转录本包括停止显示第二字幕以及新显示在接收到滚动输入之前未显示的第三字幕。在一些实施方案中，系统音频转录本的内容的滚动方向(例如，上、下、右和/或左)基于滚动输入的方向(例如，上、下、右和/或左)。在一些实施方案中，向上滚动输入引起系统音频转录本的内容的向上滚动，并且向下滚动输入引起系统音频转录本的内容的向下滚动。在一些实施方案中，系统音频转录本的内容的滚动量值(例如，滚动的速度和/或量)基于滚动输入的量值(例如，速度、持续时间和/或量)。滚动系统音频转录本使得计算机系统能够基于用户输入来显示来自音频的较早部分的字幕，从而允许用户回顾在音频中较早出现的话音和/或声音，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，根据确定针对第一转录本部分满足一组指示符条件，计算机系统经由显示生成组件(例如，靠近第一转录本部分或在第一转录本部分中，或者不靠近第一转录本部分并且不在第一转录本部分中)显示对第一应用(例如，语音通信应用、视频通信应用、视频播放器应用、音乐应用或游戏应用)的指示(例如，922a、“播客”、“通话”、“麦克风”)(例如，应用名称和/或应用图标)。在一些实施方案中，根据确定针对第二转录本部分满足该组指示符条件，计算机系统经由显示生成组件(例如，靠近第二转录本部分或在第二转录本部分中，或者不靠近第二转录本部分并且不在第二转录本部分中)显示对第二应用(例如，语音通信应用、视频通信应用、视频播放器应用、音乐应用或游戏应用)的指示(例如，922a、“播客”、“通话”、“麦克风”。显示对与相应转录本相对应的相应应用的指示向用户提供了关于哪些转录本对应于哪些应用的反馈，并且向用户提供了关于应用的音频的内容的反馈，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，当没有突出地显示对应于相应转录本部分的相应应用(例如，在图9U中以PiP模式显示的“电影”应用)(例如，不占用超过预定义量(例如，50％或80％)的显示空间并且/或者没有以全屏模式显示)时，针对相应转录本部分满足该组指示符条件。在一些实施方案中，当结合第一转录本部分显示对第一应用的指示时，计算机系统开始突出地显示第一应用的窗口，并且作为响应，停止结合第一转录本部分显示对第一应用的指示。在一些实施方案中，当结合第二转录本部分显示对第二应用的指示时，计算机系统开始突出地显示第二应用的窗口，并且作为响应，停止结合第二转录本部分显示对第二应用的指示。在突出地显示对应的相应应用时不包括对用于相应转录本部分的相应应用的指示使得计算机系统能够节省显示空间并且避免使用户界面杂乱，同时仍然向用户提供了关于音频/转录本与哪个应用相关的信息，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，计算机系统经由显示生成组件显示对接收到对应于相应字幕的音频的时间的指示(例如，922c)(例如，下午3:04和/或5分钟前)(以及任选地，日期)(例如，音频是在实时通信会话期间说话的人，并且时间指示这个人何时说了话)。在一些实施方案中，靠近相应字幕显示对时间的指示。在一些实施方案中，响应于请求显示时间信息的用户输入而显示对时间的指示。显示对接收到对应于相应字幕的音频的时间的指示向用户提供了关于显示字幕的新近度的视觉反馈，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，计算机系统与一个或多个输入设备(例如，触敏表面(例如，触摸屏)、鼠标和/或键盘)通信。在一些实施方案中，计算机系统经由一个或多个输入设备接收调整在其中显示第一字幕和第二字幕的系统音频转录本(例如，(例如，在字幕窗口中和/或在显示器的底部部分中的)字幕窗口和/或第一用户界面区)的输入(例如，909m、905p、905o、907q)。在一些实施方案中，响应于接收到调整系统音频转录本的输入，根据确定调整系统音频转录本的输入(例如，909m、905p、907q)是重新设定大小输入，计算机系统根据重新设定大小输入(例如，独立于第一应用和第二应用)来重新设定系统音频转录本的大小。在一些实施方案中，响应于接收到调整系统音频转录本的输入，根据确定调整系统音频转录本的输入是重新定位输入(例如，905o)，计算机系统根据重新定位输入(例如，在不重新设定系统音频转录本的大小的情况下并且/或者独立于第一应用和第二应用)来移动系统音频转录本。在一些实施方案中，系统音频转录本覆盖在第一应用和/或第二应用的用户界面上。移动系统音频转录本和/或重新设定系统音频转录本的大小使得计算机系统能够以用户的优选大小(该优选大小任选地影响系统音频转录本显示的字幕量)并且在优选位置(该优选位置帮助避免将内容覆盖在用户优选观看的其他用户界面元素上)处显示系统音频转录本。移动系统音频转录本/重新设定系统音频转录本的大小还使得计算机系统能够在用户观看同一显示器上的其他内容时显示内容，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，当经由显示生成组件在第一位置处显示在其中显示第一字幕和第二字幕的系统音频转录本(例如，(例如，在字幕窗口中和/或在显示器的底部部分中的)字幕窗口和/或第一用户界面区)时，计算机系统接收调整第一应用和/或第二应用(例如，“播客”和/或“电话”)的显示的用户输入(例如，905h和终止图9I至图9J的电话呼叫的输入)。在一些实施方案中，响应于接收到调整第一应用和/或第二应用的显示的用户输入，计算机系统调整第一应用和/或第二应用的显示(例如，移动该显示、重新设定该显示的大小、关闭该显示、使该显示最小化、使该显示最大化并且/或者改变该显示的视图)，同时继续在第一位置处显示在其中显示第一字幕和第二字幕的系统音频转录本。在调整其他应用的显示时在同一位置处继续显示系统音频转录本使得计算机系统能够向用户提供一致的体验，其中该用户可以在调整其他应用的其他显示时连续地观看字幕，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，计算机系统与一个或多个输入设备(例如，触敏表面(例如，触摸屏)、鼠标和/或键盘)通信。在一些实施方案中，计算机系统经由一个或多个输入设备接收用户输入(例如，用于禁用字幕特征的对912的选择，907q)。在一些实施方案中，响应于接收到用户输入并且根据确定用户输入与对停止显示(以及任选地，当前显示的)字幕的请求相对应(例如，按钮被切换到关闭定位并且/或者用户选择用于停止字幕的显示的按钮)，计算机系统停止进一步字幕的显示(例如，直到接收到启用进一步字幕的显示的进一步用户输入为止并且/或者直到已经经过预定义量的时间为止)。在一些实施方案中，响应于接收到用户输入并且根据确定用户输入与对发起显示进一步(并且任选地，先前显示的)字幕的请求相对应(例如，按钮被切换到开启定位并且/或者用户选择用于发起字幕的显示的按钮)，发起进一步字幕的显示。计算机系统向用户提供停止显示进一步字幕的选项诸如通过使得用户能够在不再需要字幕时停止显示进一步字幕并且/或者在另一人能够看到计算机系统的显示时停止显示机密呼叫的进一步字幕而提高了计算机系统的可使用性和安全性。

在一些实施方案中，计算机系统与一个或多个输入设备(例如，触敏表面(例如，触摸屏)、鼠标和/或键盘)通信。在一些实施方案中，计算机系统经由一个或多个输入设备接收请求将包括第一字幕和第二字幕的系统音频转录本转变为最小化状态的用户输入(例如，907q)。在一些实施方案中，响应于接收到请求将系统音频转录本转变为最小化状态的用户输入，计算机系统(例如，在不显示进一步字幕时并且/或者在不显示字幕时)将系统音频转录本的显示更新为最小化状态。

在一些实施方案中，当系统音频转录本处于最小化状态时，计算机系统生成对应于所接收的相应音频(例如，第一音频和/或第二音频)的字幕，而不显示对应于所接收的相应音频的字幕。在继续生成字幕时以最小化状态显示系统音频转录本使得计算机系统能够避免使用用于系统音频转录本的显示空间，同时仍然允许计算机系统稍后提供在处于最小化状态时生成的字幕，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，在生成对应于所接收的相应音频(例如，作为第一音频的一部分或第一音频流的延续的音频和/或作为第二音频的一部分或第二音频流的延续的音频)的字幕而不显示对应于所接收的相应音频的字幕之后，计算机系统经由一个或多个输入设备接收用于放大系统音频转录本的输入(例如，909m)。在一些实施方案中，响应于接收到用于放大系统音频转录本的输入，计算机系统放大系统音频转录本(例如，使得系统音频转录本不处于最小化状态；使得系统音频转录本不处于缩小大小，使得系统音频转录本处于中等大小或处于放大大小)。在一些实施方案中，响应于接收到用于放大系统音频转录本的输入，计算机系统经由显示生成组件并且作为系统音频转录本的一部分来显示先前没有显示的对应于先前所接收的相应音频的所生成的字幕中的至少一些字幕。一旦系统音频转录本被放大就显示先前生成的字幕使得计算机系统能够向用户提供关于在字幕正在被生成并且没有被显示时检测到的音频的反馈，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，当系统音频转录本处于最小化状态时，计算机系统经由显示生成组件(例如，基于用户界面对象的颜色(例如，系统音频转录本处于最小化状态的指示的颜色)并且/或者基于文本信息)显示正在生成与正在接收的相应音频(例如，第一音频和/或第二音频)相对应的进一步字幕的指示，而不显示字幕的内容。在一些实施方案中，当系统音频转录本不处于最小化状态时，计算机系统显示进一步字幕，而不显示正在生成与正在接收的相应音频(例如，第一音频和/或第二音频)相对应的进一步字幕的指示。在一些实施方案中，在系统音频转录本处于最小化状态的持续时间之后，计算机系统经由一个或多个输入设备接收请求将系统音频转录本转变为非最小化(例如，放大和/或中间)状态的用户输入。响应于接收到请求将系统音频转录本转变为非最小化状态的用户输入，计算机系统通过增大系统音频转录本的大小来将系统音频转录本的显示更新为非最小化状态，并且从系统音频转录本处于最小化状态的持续时间起显示至少一些字幕。显示正在为所接收的音频生成字幕的指示向用户提供了关于计算机系统的状态(并且具体地，即使没有正在显示字幕也正在生成字幕)的反馈，从而向用户提供了关于应用的音频的改进的视觉反馈。即使没有正在显示字幕也显示正在为所接收的音频生成字幕的指示向用户提供了正在生成(并且任选地存储)字幕的反馈，从而改善用户的隐私(因为用户可以在用户偏好的情况下禁用生成字幕)。在系统音频转录本处于最小化状态时显示正在为所接收的音频生成字幕的指示通过减少由系统音频转录本在显示器上占据的空间量来减少计算机系统的用户界面中的视觉杂乱，从而向用户提供了改进的视觉反馈。

在一些实施方案中，显示系统音频转录本作为与第一应用和第二应用不同的第三应用(例如，计算机系统的操作系统和/或与第一应用和第二应用不同的应用)的一部分。在一些实施方案中，第一信息是包括第一字幕的元数据信息(例如，呈文本形式和/或呈二进制形式)。在一些实施方案中，(例如，由第三应用)从第一应用接收第一信息。在一些实施方案中，元数据信息不包括音频。在一些实施方案中，第三应用不基于音频来生成第一字幕。在一些实施方案中，第三应用在显示第二字幕之前从第二应用接收包括第二字幕的元数据信息。显示从其他应用接收的字幕作为系统音频转录本的一部分使得计算机系统能够编译来自各种源的字幕并且在单个界面中显示这些字幕，从而允许用户更容易地访问字幕，并且向用户提供了关于一个位置中的各种应用的音频的改进的视觉反馈。

在一些实施方案中，第一字幕(和/或第二字幕)是电影字幕(例如，图9T中的992b中的字幕)。在一些实施方案中，第一应用是视频(例如，演出和/或电影)回放应用。在系统音频转录本中提供电影字幕使得计算机系统能够编译来自具有其他各种源的电影的字幕并且在单个界面中显示这些字幕，从而允许用户更容易地访问字幕，并且向用户提供了关于一个位置中的应用的音频的改进的视觉反馈。

在一些实施方案中，第一字幕(和/或第二字幕)是视频会议字幕(例如，其中字幕在归属于或不归属于说话者的情况下显示)。在一些实施方案中，第一应用是实时视频会议应用。在系统音频转录本中提供视频会议字幕使得计算机系统能够编译来自具有其他各种源的视频会议的字幕并且在单个界面中显示这些字幕，从而允许用户更容易地访问字幕，并且向用户提供了关于一个位置中的应用的音频的改进的视觉反馈。

在一些实施方案中，从不同于计算机系统的外部设备(例如，在外部设备上运行的第一应用)接收第一信息。在一些实施方案中，外部设备与计算机系统位于同一通信网络(例如，同一无线网络和/或同一局域网)上。在一些实施方案中，外部设备和计算机系统都使用同一账户登录到同一服务中。基于从外部设备接收的信息在系统音频转录本中提供字幕使得计算机系统能够编译来自各种源的字幕并且在单个界面中显示这些字幕，从而允许用户更容易地访问字幕，并且向用户提供了关于一个位置中的音频的改进的视觉反馈。

在一些实施方案中，根据确定第一应用已经发起显示(例如，正在显示或将经由计算机系统的显示生成组件和/或经由外部显示器显示)与第一应用中(例如，指向和/或来自第一应用)的音频相对应的字幕，计算机系统停止显示与第一应用中的音频相对应的进一步字幕作为系统音频转录本的一部分。在一些实施方案中，根据确定第一应用尚未发起显示与第一应用中(例如，指向和/或来自第一应用)的音频相对应的字幕，计算机系统继续显示与第一应用中的音频相对应的进一步字幕作为系统音频转录本的一部分。在一些实施方案中，当计算机系统确定应用正在显示字幕时，计算机系统暂停(对应于应用的)字幕在系统音频转录本中的显示。在一些实施方案中，计算机系统暂停针对正在显示字幕作为相应应用的一部分的相应应用的字幕的显示，并且计算机系统继续显示针对没有正在显示字幕作为其他应用的一部分的其他应用的字幕。在相应应用显示字幕时暂停相应应用的字幕在系统音频转录本中的显示使得计算机系统能够不重复字幕，这节省了显示空间并使用户界面整洁，从而在不需要进一步用户输入的情况下向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，根据确定第一应用已经停止显示(例如，不再经由计算机系统的显示生成组件和/或经由外部显示器显示，或将不经由计算机系统的显示生成组件和/或经由外部显示器显示)与第一应用中(例如，指向和/或来自第一应用)的音频相对应的字幕，计算机系统显示与第一应用中的音频相对应的进一步字幕作为系统音频转录本的一部分。在一些实施方案中，基于接收到用于隐藏和/或禁用第一应用的字幕的显示的用户输入，第一应用停止显示与第一应用中的音频相对应的字幕，同时继续显示第一应用。在一些实施方案中，基于第一应用(例如，基于用户输入或自动)停止被显示(例如，被隐藏和/或最小化)，第一应用停止显示与第一应用中的音频相对应的字幕。在一些实施方案中，根据确定第一应用尚未停止显示与第一应用中(例如，指向和/或来自第一应用)的音频相对应的字幕，继续不显示与第一应用中的音频相对应的进一步字幕作为系统音频转录本的一部分。在一些实施方案中，当计算机系统确定应用没有正在(或不再)显示字幕时，计算机系统开始(或重新开始)在系统音频转录本中显示(对应于应用的)字幕。在相应应用停止显示字幕时在系统音频转录本中显示相应应用的字幕使得计算机系统能够向用户提供相应应用的音频的字幕，从而在不需要进一步用户输入的情况下向用户提供了关于相应应用的音频的改进的视觉反馈。

在一些实施方案中，第一应用是实时视频会议应用，并且当实时视频会议应用中的会议呼叫处于缩小大小状态(例如，处于画中画状态或使得不再显示实时视频会议应用的用户界面)时，实时视频会议应用停止显示与会议呼叫的会议音频相对应的字幕。在一些实施方案中，画中画状态是实时视频会议应用通过覆盖在第二应用的顶部而被显示并且实时视频会议应用可以响应于用户输入而(在不重新定位第二应用的情况下)被重新定位的状态。在一些实施方案中，从非画中画状态到画中画状态的转变是使得实时视频会议应用同时显示正在使用实时视频会议应用进行的实时通信会话的较少参与者的表示(例如，这些参与者的视频和/或这些参与者的姓名)的状态。在一些实施方案中，在非画中画状态期间，实时视频会议应用同时显示实时通信会话的多个参与者(例如，4个、5个或6个参与者)的表示，并且在画中画状态中，实时视频会议应用在任一时间显示实时通信会话的多个参与者中的一个(例如，不是4个、5个或6个)参与者的表示。在实时视频会议应用停止显示字幕时在系统音频转录本中显示实时视频会议应用的字幕使得计算机系统能够向用户提供实时视频会议应用的音频的字幕，从而在不需要进一步用户输入的情况下向用户提供了关于实时视频会议应用的音频的改进的视觉反馈。

在一些实施方案中，计算机系统在将进一步字幕添加到系统音频转录本时自动滚动系统音频转录本。在一些实施方案中，计算机系统基于第三音频来确定要包括在系统音频转录本中的第三字幕。作为响应，计算机系统停止显示第一字幕并显示第三字幕。在一些实施方案中，计算机系统还向上挪动第二字幕的显示。在将进一步字幕添加到系统音频转录本时自动滚动系统音频转录本使得计算机系统能够在不需要进一步用户输入的情况下在有限显示区域中显示字幕，这减少了观看字幕所需的输入数量。

在一些实施方案中，第一字幕基于预先录制的音频(例如，由应用提供的预先录制的视频指导和/或预先录制的音频指导)，并且第二字幕基于实况音频(例如，来自视频聊天的音频、在(例如，与计算机系统通信的设备的计算机系统的)麦克风处检测到的音频和/或电话呼叫的音频)。在一些实施方案中，系统音频转录本同时包括(同时显示)基于预先录制的音频的第一字幕和基于实况音频的第二字幕。基于预先录制的音频和实况音频两者来显示字幕使得计算机系统能够向用户提供用于来自各种应用的字幕的单个界面，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，当没有检测到具有要加字幕的内容的音频(例如，音频中没有说出的内容并且/或者音频中没有识别出的声音(例如，犬吠或婴儿哭泣))时，计算机系统经由显示生成组件显示计算机系统正在等待具有要加字幕的内容的音频的指示(例如，“等待…”和/或非文本指示)。显示计算机系统正在等待具有要加字幕的内容的音频的指示向用户提供了加字幕系统即使在没有正在显示新字幕时也是活动的反馈，从而向用户提供了关于计算机系统的状态的改进的视觉反馈。

在一些实施方案中，显示系统音频转录本包括根据确定没有经由显示生成组件在第一位置处显示第一类型的内容(例如，电话界面950的控件)(例如，任务栏、呼叫应答/结束按钮、媒体播放器控件、通知/或键盘、系统内容和/或重要内容)(例如，显示第二类型的内容和/或不显示内容)，经由显示生成组件在第一位置处显示系统音频转录本。在一些实施方案中，显示系统音频转录本包括根据确定经由显示生成组件在第一位置处显示了第一类型的内容，经由显示生成组件在不同于第一位置的第二位置(例如，第二位置不与第一类型的内容的显示的位置重叠)处显示系统音频转录本。在一些实施方案中，当最初显示系统音频转录本时，在第一位置或第二位置处显示系统音频转录本。在一些实施方案中，接收用于增大系统音频转录本的大小的用户输入、接收用于移动系统音频转录本的用户输入以及/或者新显示的第一类型的内容(例如，显示的虚拟键盘或显示的系统警报)和/或新移动的第一类型的内容使得计算机系统自动调整系统音频转录本的显示位置，使得系统音频转录本不覆盖第一类型的内容并且/或者不与第一类型的内容重叠。移动系统音频转录本以使系统音频转录本不覆盖和/或阻挡特定内容(例如，重要内容和/或系统内容)使得计算机系统能够自动显示特定内容，并且还在不需要进一步用户输入的情况下显示系统音频转录本，从而减少了访问字幕所需的输入数量。

在一些实施方案中，计算机系统与一个或多个输入设备(例如，触敏表面(例如，触摸屏)、鼠标和/或键盘)通信。在一些实施方案中，当(例如，以全屏模式或不以全屏模式)显示系统音频转录本时，计算机系统经由一个或多个输入设备检测用于访问用于在应用之间切换的用户界面的输入(例如，905u)。在一些实施方案中，响应于检测到用于访问用于在应用之间切换的用户界面的输入，计算机系统显示系统音频转录本的全屏版本的表示(例如，972a)(例如，而不管在检测到用于访问用于在应用之间切换的用户界面的输入时系统音频转录本是否是全屏的)。在一些实施方案中，响应于检测到用于访问用于在应用之间切换的用户界面的输入，计算机系统与系统音频转录本的全屏版本的表示同时显示其他当前和/或最近执行的应用的一个或多个表示。在一些实施方案中，系统音频转录本的表示的全屏版本的大小被设定为预定义大小，使得用户可以在其中切换的其他应用的表示也以预定义大小显示。在一些实施方案中，系统音频转录本的全屏版本的表示允许用户界面的一部分(例如，小于20％、小于10％或小于5％)由诸如系统状态信息(例如，当前日期、当前时间、电池电量、无线服务强度)的其他内容占据。在一些实施方案中，系统音频转录本的全屏版本的表示不包括非操作系统应用的用户界面元素。在计算机系统正在显示应用切换用户界面时将系统音频转录本显示为全屏应用向用户提供了系统音频转录本特征是活动的并且可被访问和/或关闭的视觉反馈，从而向用户提供了关于加字幕系统的状态和可用性的改进的视觉反馈。

在一些实施方案中，计算机系统与一个或多个输入设备(例如，触敏表面(例如，触摸屏)、鼠标和/或键盘)通信。在一些实施方案中，当经由显示生成组件显示包括第一字幕和第二字幕的系统音频转录本时，计算机系统经由一个或多个输入设备接收对捕获包括在其中显示系统音频转录本的区域(例如，显示生成组件的显示区域)的显示屏幕截图(例如，907u)的请求。在一些实施方案中，响应于接收到对捕获显示屏幕截图的请求，计算机系统捕获包括在其中显示系统音频转录本的区域的显示屏幕截图(例如，982)，而不在显示屏幕截图中包括系统音频转录本。在一些实施方案中，系统音频转录本覆盖在该区域处的其他内容上，并且该其他内容被包括在该区域处的显示屏幕截图中。即使在显示系统音频转录本时也不将系统音频转录本包括在计算机系统的显示器的屏幕截图中使得计算机系统能够在屏幕截图中提供附加非系统音频转录本信息，而不需要用户提供用于使显示系统音频转录本最小化或停止显示系统音频转录本的输入，从而减少了执行操作所需的输入数量。即使在显示系统音频转录本时也不将系统音频转录本包括在计算机系统的显示器的屏幕截图中通过不捕获系统音频转录本的(例如，可能包括私人音频对话的字幕的)内容来改善用户的隐私。

在一些实施方案中，响应于确定第二音频转录本正在被显示或将由不同的应用显示，计算机系统停止显示系统音频转录本。停止显示两个同时运行的字幕内容中的一者使得计算机系统能够在显示器上显示附加非字幕信息，并且在不需要用户提供附加输入的情况下减少显示同一字幕信息的重复，从而减少了执行操作所需的输入数量。

在一些实施方案中，响应于确定在系统音频转录本正在被显示时第二音频转录本正在被显示或将由不同的应用显示，计算机系统放弃第二音频转录本的显示(或者任选地，抑制第二音频转录本的显示)。停止显示两个同时运行的字幕内容中的一者使得计算机系统能够在显示器上显示附加非字幕信息，并且在不需要用户提供附加输入的情况下减少显示同一字幕信息的重复，从而减少了执行操作所需的输入数量。

在一些实施方案中，计算机系统与一个或多个输入设备(例如，触敏表面(例如，触摸屏)、鼠标和/或键盘)通信。在一些实施方案中，当以第一视觉状态(例如，以第一大小并且/或者以第一位置)显示系统音频转录本时，计算机系统接收用于显示应用的输入(例如，905e)。在一些实施方案中，响应于接收到用于显示应用的输入，根据确定该应用是第四应用，计算机系统以不同于第一视觉状态的第二视觉状态(例如，以第二大小(例如，最小化状态或非最小化(例如，放大、全屏、缩小大小和/或中间)状态)并且/或者以第二位置)显示系统音频转录本。在一些实施方案中，响应于接收到用于显示应用的输入，根据确定该应用是第五应用，计算机系统以不同于第二视觉状态的第三视觉状态(例如，以第三大小(例如，最小化状态或非最小化(例如，放大、全屏、缩小大小和/或中间)状态)并且/或者以第三位置)显示系统音频转录本。在一些实施方案中，第三视觉状态与第一视觉状态相同。在一些实施方案中，计算机系统基于最突出(例如，在顶部显示和/或全屏)的应用来更新系统音频转录本的显示。在一些实施方案中，计算机系统基于系统音频转录本在先前时间(例如，针对对应应用显示系统音频转录本的最后时间)的状态来以第二视觉状态或第三视觉状态显示系统音频转录本。在一些实施方案中，当系统音频转录本在相应应用最后一次活动(例如，被显示或被使用)时处于第二视觉状态时，计算机系统在相应应用变为活动时自动将系统音频转录本转变为第二视觉状态。在每个应用的基础上保持系统音频转录本的状态(例如，大小和/或位置)使得计算机系统能够在显示和/或突出显示特定应用时在不需要进一步用户输入的情况下以优选方式显示系统音频转录本，从而减少执行操作所需的输入数量。

在一些实施方案中，从外部设备接收对应于第一音频的第一信息(例如，字幕元数据和/或音频)，该外部设备还向不同于计算机系统的一个或多个设备提供第一信息。在一些实施方案中，第一用户登录到第一计算机系统中，并且不同的用户登录到一个或多个设备中。在一些实施方案中，第一信息包括从第一外部设备接收的第一字幕信息，以及从不同于第一外部设备的第二外部设备接收的第二字幕信息。在一些实施方案中，从接收自多个设备(例如，在会议中的多个用户设备)的音频导出字幕。从还向其他计算机提供字幕的源获得字幕的计算机系统使得计算机系统能够获得与其他计算机相同的字幕并且/或者访问根据比计算机系统能够访问的音频源质量更高的音频源准备的字幕，从而向用户提供了改进的视觉反馈。

在一些实施方案中，计算机系统经由显示生成组件显示对非话音声音(例如，门铃、哭泣的婴儿、火警和/或犬吠)的描述(例如，954)作为系统音频转录本的一部分。在一些实施方案中，计算机系统接收音频并检测非话音声音，其中对非话音声音的描述的显示是响应于在所接收的音频中检测到非话音声音。在系统音频转录本中显示对非话音声音的描述向用户提供了关于音频的内容的视觉反馈，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，计算机系统接收与第三应用(例如，语音通信应用、视频通信应用、视频播放器应用、音乐应用或游戏应用)中(例如，指向和/或来自第三应用)的第三音频相对应的第三信息(例如，字幕元数据和/或音频)。在一些实施方案中。在一些实施方案中，计算机系统经由显示生成组件作为(例如，在字幕窗口中和/或在显示器的底部部分中的)系统音频转录本的一部分并且基于第三音频来显示以下各项：第一说话者的第一话音的字幕(例如，图9G中归属于“说话者1”的字幕)；与第一说话者不同的第二说话者的第二话音的字幕(例如，图9H中归属于“说话者2”的字幕)；以及第一话音的字幕的说话者与第二话音的字幕的说话者不同的指示(例如，图9G至图9H中将字幕归属于“说话者1”和“说话者2”的指示符)。在一些实施方案中，计算机系统显示对靠近第一话音的字幕的第一说话者的指示和/或对靠近第二话音的字幕的第二说话者的指示。在一些实施方案中，计算机系统使用听写模型(例如，机器学习模型技术或非机器学习模型技术)来区分第一话音和第二话音的说话者。显示在各种说话者之间进行区分的信息向用户提供了谁哪个人正在说什么内容的被显示为系统音频转录本的一部分的视觉信息，从而向用户提供了关于应用的音频的改进的视觉反馈。

在一些实施方案中，计算机系统提供禁用对实时通信会话加字幕的选项(例如，918)。在一些实施方案中，计算机系统检测对禁用对实时通信会话加字幕的选项的选择。在一些实施方案中，在检测到对禁用对实时通信会话加字幕的选项的选择之后(例如，响应于检测到对禁用对实时通信会话加字幕的选项的选择)，计算机系统放弃对实时通信会话加字幕，同时继续对不是实时通信会话的一部分的一个或多个音频加字幕。在一些实施方案中，当对实时通信会话加字幕时，计算机系统提供音频输出，该音频输出向实时通信会话的参与者指示正在对会话加字幕。在一些实施方案中，当禁用对实时通信会话加字幕的选项被选择时，计算机系统不对会话加字幕，并且不提供向会话的参与者指示正在对会话加字幕的音频输出。在一些实施方案中，显示禁用对实时通信会话加字幕的选项作为系统用户界面(例如，系统设置用户界面和/或系统应用)的一部分。在一些实施方案中，显示禁用对实时通信会话加字幕的选项作为实时通信应用(例如，音频呼叫应用和/或视频呼叫应用)的用户界面的一部分。使得用户能够禁用针对实时通信会话加字幕使得用户能够参与实时通信会话而不必暴露正在对音频加字幕，并且使得用户能够禁用对私人通信加字幕，从而改进机器-用户交互。

需注意，上文关于方法1000(例如，图10)所描述的过程的详情也以类似方式适用于上文所描述的方法。例如，方法700-1000可以在诸如设备600的同一设备上执行。为了简明起见，这些详情在下文中不再重复。

图11是例示根据一些实施方案的用于提供字幕的方法的流程图。方法1100在与显示生成组件(例如，903)(例如，显示器、显示控制器、头戴式显示系统和/或触敏显示器)通信的计算机系统(例如，100、300、500、600、900和/或901)(例如，智能电话、智能手表、头戴式设备(例如，头戴式增强现实和/或扩展现实设备)和/或个人计算机)处执行。方法1200中的一些操作任选地被组合，一些操作的次序任选地被改变，并且一些操作任选地被省略。

如下文所描述，方法1100提供了用于提供字幕的直观方式。该方法减少了对用户提供字幕所造成的认知负担，从而创建了更高效的人机界面。对于电池驱动的计算设备，使得用户能够更快并更高效地提供节省了功率，并且增大了电池充电之间的时间间隔。

在一些实施方案中，计算机系统经由显示生成组件在第一用户界面区(例如，字幕界面920A)(例如，在字幕窗口中和/或在显示器的底部部分中)中显示(1102)字幕集合(例如，字幕界面920A、956A、958A中的字幕)(例如，该字幕集合包括话语的转录本，并且/或者该字幕集合包括诸如背景噪声(例如，犬吠、音乐播放和/或掌声)的其他声音的转录本)。

在一些实施方案中，当显示字幕集合时，计算机系统检测(1104)用于将与计算机系统处的相应活动相对应的键入的字幕添加到字幕集合的键入的用户输入(例如，905Af)。

在一些实施方案中，响应于检测到用于将键入的字幕添加到字幕集合的键入的用户输入，计算机系统经由显示生成组件在第一用户界面区中显示(1106)键入的字幕，其中提供基于键入的字幕的模拟话音(例如，907Ag)作为针对相应活动的音频输出。提供基于键入的字幕的模拟话音使得不能够或不想说话(例如，在诸如图书馆的安静区域中，和/或在不鼓励说话的位置处，诸如在飞机上)的用户能够参与音频对话，诸如语音呼叫或视频呼叫。

在一些实施方案中，计算机系统经由计算机系统的音频输出设备(例如，扬声器、耳机和/或耳麦)输出模拟话音。经由计算机的音频输出设备输出模拟话音使得不能说话的用户能够与附近的个体通信。

在一些实施方案中，经由(例如，在实时通信会话中)与计算机系统(例如，无线或有线)通信的远程计算机系统(例如，参与者Jane或参与者Ann的设备)(例如，智能电话、智能手表头戴式设备(例如，头戴式增强现实和/或扩展现实设备)和/或个人计算机)的音频输出设备(例如，扬声器、耳机和/或耳麦)输出模拟话音。在一些实施方案中，计算机系统生成模拟话音的音频(以经由音频输出设备输出)，并且向远程计算机系统传输模拟话音的音频以作为音频而输出。经由远程计算机系统输出模拟话音使得用户能够与不在附近的个体通信。

在一些实施方案中，计算机系统与一个或多个输入设备(例如，触敏表面(例如，触摸屏)、鼠标和/或键盘)通信。在一些实施方案中，在提供基于键入的字幕的模拟话音作为针对相应活动的音频输出之前(例如，在显示字幕集合之前和/或在检测到用于将键入的字幕添加到字幕集合的键入的用户输入之前)，计算机系统经由一个或多个输入设备接收(例如，从多个模拟语音之间)选择模拟语音的用户输入。在一些实施方案中，使用所选择的模拟语音来提供基于键入的字幕的模拟话音作为针对相应活动的音频输出。在一些实施方案中，用户任选地选择与他们的偏好匹配的模拟语音(例如，低沉语音、高音调语音、具有第一口音的语音或具有第二口音的语音)。在一些实施方案中，提供基于键入的字幕的模拟话音作为针对相应活动的音频输出包括：根据确定已经(例如，由用户或自动)针对模拟话音选择第一模拟语音，模拟话音使用第一模拟语音，并且根据确定已经(例如，由用户或自动)针对模拟话音选择(不同于第一模拟语音的)第二模拟语音，模拟话音使用第二模拟语音。使得用户能够从各种模拟语音之间进行选择使得用户能够例如选择更紧密地匹配用户的实际语音(例如，音调、速度和/或口音)的模拟语音。

在一些实施方案中，计算机系统与麦克风和一个或多个输入设备(例如，触敏表面(例如，触摸屏)、鼠标和/或键盘)通信。在一些实施方案中，计算机系统经由显示生成组件显示启用显示基于经由麦克风检测到的音频(例如，该音频的或使用该音频)的字幕的选项(例如，950Ac)。在一些实施方案中，计算机系统经由一个或多个输入设备接收对启用显示基于经由麦克风检测到的音频的字幕的选项的选择。在一些实施方案中，响应于接收到对启用显示基于经由麦克风检测到的音频的字幕的选项的选择，计算机系统经由显示生成组件(例如，在第一用户界面区中或在第一用户界面区之外)显示基于经由麦克风检测到的音频的字幕。显示基于经由麦克风检测到的音频的字幕使得计算机系统能够向不能理解和/或听到附近音频的用户提供关于附近音频的信息。

在一些实施方案中，计算机系统经由显示生成组件显示基于经由麦克风检测到的音频(例如，话音音频和/或非话音音频)的第一字幕(例如，958A)和对应于第一字幕(例如，靠近第一字幕显示并且/或者作为第一字幕的一部分(诸如经由颜色或大小)显示)的视觉指示(例如，952A)。在一些实施方案中，视觉指示指示第一字幕基于经由麦克风检测到的音频。在一些实施方案中，计算机系统经由显示生成组件显示不基于经由麦克风检测到的音频的第二字幕而不显示对应于第二字幕的视觉指示，该视觉指示指示第二字幕基于经由麦克风检测到的音频。在一些实施方案中，同时显示第一字幕和第二字幕。在一些实施方案中，计算机系统显示不同于视觉指示的对应于第二字幕的第二视觉指示，该第二视觉指示指示第二字幕对应于特定应用。在一些实施方案中，计算机系统显示对应于相应字幕的视觉指示，该视觉指示指示相应字幕归属于什么应用。在一些实施方案中，字幕集合任选地包括基于经由麦克风检测到的音频的多个字幕和不基于经由麦克风检测到的音频的多个字幕。在一些实施方案中，计算机系统显示与基于经由麦克风检测到的音频的字幕相对应(例如，靠近字幕显示并且/或者作为字幕的一部分(诸如经由颜色或大小)显示)的一个或多个视觉指示，以指示经由麦克风检测到音频。在一些实施方案中，计算机系统不显示与不基于经由麦克风检测到的音频的字幕相对应的相同视觉指示。在一些实施方案中，相应远程设备的音频的字幕经由显示生成组件被显示，并且包括对音频源的指示(例如，字幕基于来自第一远程设备的音频的指示，以及另一字幕基于来自与第一远程设备不同的第二远程设备的音频的不同指示)。在一些实施方案中(例如，当计算机系统正在参与与远程设备的实时通信会话时)，计算机系统显示在基于在远程设备处键入的内容的字幕与基于在远程设备处生成的音频的字幕之间进行区分的指示(例如，针对计算机系统的用户在视觉上区分字幕是使用音频产生的还是远程设备的用户在正在显示为字幕集合的一部分的文本中键入的)。在基于来自麦克风的音频与不是来自麦克风的音频的字幕的各部分之间在视觉上进行区分向用户提供了关于附近音频和非附近音频的视觉反馈。

在一些实施方案中，计算机系统与麦克风通信。在一些实施方案中，计算机系统(例如，响应于经由一个或多个输入设备接收到选择菜单选项的用户输入)经由显示生成组件显示菜单(例如，950A)，该菜单包括以下各项中的一项或多项：启用和/或禁用字幕的显示的选项(例如，950Aa)(例如，在被禁用时(例如，在暂停或不暂停对用于字幕的音频的处理的情况下)暂停字幕的显示，并且/或者在被禁用时，保持已经显示的字幕而不显示附加字幕(直到选项被启用为止))；在用于在计算机处输出的音频(例如，由计算机系统的程序生成的音频和/或在计算机系统处接收的没有通过计算机系统的麦克风的音频)与经由计算机系统的麦克风检测到的音频之间切换用于字幕的音频源的选项(例如，950Ab、950Ac)；经由显示生成组件连续显示(例如，防止应用阻塞和/或防止脱离屏幕)具有字幕的第一用户界面区的选项(例如，950Ad)；启用和/或禁用基于接收到键入的字幕来提供模拟话音作为音频输出的选项(例如，950Ae)；以及经由显示生成组件使具有字幕的第一用户界面区居中的选项(例如，950Af)。显示各种菜单选项使得计算机系统能够向用户提供个性化的加字幕体验，从而改进人机界面。

在一些实施方案中，经由显示生成组件在第一用户界面区中显示字幕集合包括：根据确定字幕集合包括(例如，基于与不同类型的文本相对应的一个或多个正则表达式模式和/或基于对文本的分析)被确定为相应类型(例如，电话号码、电子邮件、网站URL和/或物理位置的地址)的文本的文本部分，经由显示生成组件显示已经检测到相应类型的文本的指示(例如，字幕962Aa的高亮、字幕962Ab的高亮、字幕964Aa的高亮、字幕964Ab的高亮)。在一些实施方案中，作为显示已经检测到相应类型的文本的指示的一部分，计算机系统突出显示该文本部分(例如，对该文本部分加亮、加下划线、加颜色和/或加括号)。在一些实施方案中，靠近具有相应类型的文本的文本部分显示已经检测到相应类型的文本的指示。在一些实施方案中，根据确定相应文本不包括具有相应类型的文本的文本部分，计算机系统不显示已经检测到相应类型的文本的指示。显示对相应类型的文本的指示向用户提供了关于所显示的文本的类型(例如，文本是可操作的/可激活的)的视觉反馈，从而向用户提供了改进的视觉反馈。

在一些实施方案中，计算机系统与一个或多个输入设备(例如，触敏表面(例如，触摸屏)、鼠标和/或键盘)通信。在一些实施方案中，计算机系统经由一个或多个输入设备接收对被确定为相应类型的文本部分的选择(例如，905Ah)。在一些实施方案中，响应于接收到对被确定为相应类型的文本部分的选择，计算机系统执行与该文本部分相关联的动作(例如，使用电话号码发起呼叫、使用电子邮件地址撰写草稿电子邮件、显示网站和/或使用地址来显示导航方向)。在一些实施方案中，执行的动作基于相应类型。在一些实施方案中，计算机系统接收对文本部分的选择，并且根据确定该文本部分具有第一类型，计算机系统(响应于接收到对该文本部分的选择)使用该文本部分来执行第一操作(例如，发起语音呼叫或发起视频呼叫)；以及根据确定该文本部分具有(不同于第一类型的)第二类型，计算机系统(响应于接收到对该文本部分的选择)使用该文本部分来执行(不同于第一操作的)第二操作(例如，显示草稿电子邮件或显示草稿文本消息)。在用户选择文本时执行与具有相应类型的文本相关联的动作使得计算机系统能够以减少的用户输入执行操作(例如，用户可以在电话号码上轻击而不是重新键入电话号码)。

在一些实施方案中，当在第一用户界面区中显示字幕集合(例如，该字幕集合包括话语的转录本，并且/或者该字幕集合包括诸如背景噪声(例如，犬吠、音乐播放和/或掌声)的其他声音的转录本)时，并且响应于检测到包括计算机系统的用户的姓名的(例如，作为实时音频通信会话的一部分被接收、作为实时视频通信会话的一部分被接收并且/或者作为所录制的音频的一部分被接收的)音频，计算机系统突出显示(例如，加亮、变亮和/或放大)第一用户界面区(例如，字幕964Aa的高亮、字幕964Ab的高亮)。在一些实施方案中，当在第一用户界面区中显示字幕集合(例如，该字幕集合包括话语的转录本，并且/或者该字幕集合包括诸如背景噪声(例如，犬吠、音乐播放和/或掌声)的其他声音的转录本)时，并且响应于检测到包括计算机系统的用户的姓名的(例如，作为实时音频通信会话的一部分被接收、作为实时视频通信会话的一部分被接收并且/或者作为所录制的音频的一部分被接收的)音频，计算机系统突出显示(例如，加亮、变亮和/或放大)字幕集合的与包括计算机系统的用户的姓名的音频相对应的文本部分(例如，多于或不多于该文本部分)(例如，字幕962Aa的高亮、字幕962Ab的高亮)。在对用户的姓名加字幕时突出显示第一用户界面区以及突出显示包括用户的姓名的文本部分向用户提供了他们的姓名已经被说出的视觉反馈并且为用户标识了使用的上下文，从而向用户提供了改进的视觉反馈。

在一些实施方案中，计算机系统与对应于显示字幕集合的时间的日历信息(例如，日历约会和/或日历邀请)相关联地(例如，在计算机系统处的存储器中和/或在远程计算机系统处的存储器中)存储字幕集合。在一些实施方案中，以用户可搜索的格式存储字幕集合，使得用户随后可以搜索语音或视频对话和/或表示的内容。在一些实施方案中，字幕集合与日历信息相关联，使得用户可以访问对应于日历信息的日历条目，并且回顾在所安排的日历条目期间出现的字幕集合(例如，语音或视频对话和/或表示)。将字幕与日历信息一起存储使得计算机系统能够基于对与日历信息相对应的日历条目的选择向用户提供未来的字幕，从而向用户提供了关于计算机系统在日历条目的时间期间接收的音频的信息，并且向用户提供了改进的视觉反馈。

在一些实施方案中，计算机系统接收对应于第一音频的第一信息(例如，字幕元数据和/或音频)。在一些实施方案中，计算机系统基于第一音频来自动选择转录语言(例如，检测正在说出的语言，检测指示第一音频包括特定语言的话音的内容)。在一些实施方案中，计算机系统经由显示生成组件(例如，在第一用户界面区中或不在第一用户界面区中)显示对应于第一音频的字幕，其中对应于第一音频的字幕基于所自动选择的转录语言(例如，使用所自动选择的转录语言来生成的和/或使用所自动选择的转录语言来显示的)。在一些实施方案中，响应于接收到第一信息：根据确定在第一音频中检测到第一语言，自动以第一语言显示针对第一音频的字幕，并且根据确定在第一音频中检测到(不同于第一语言的)第二语言，自动以第二语言显示针对第一音频的字幕。自动检测/选择用于加字幕系统的语言使得计算机系统能够在不需要用户提供附加输入的情况下基于检测到的/所选择的语言来提供正确的字幕，从而减少了执行操作所需的输入数量。

在一些实施方案中，计算机系统与一个或多个输入设备(例如，触敏表面(例如，触摸屏)、鼠标和/或键盘)通信。在一些实施方案中，计算机系统(例如，在显示对应于第一音频的字幕之后)经由一个或多个输入设备接收用于手动选择转录语言的输入(例如，对来自998b的语言的选择)。在一些实施方案中，计算机系统接收对应于第二音频的第二信息(例如，字幕元数据和/或音频)。在一些实施方案中，计算机系统经由显示生成组件(例如，在第一用户界面区中或不在第一用户界面区中)显示对应于第二音频的字幕。在一些实施方案中，对应于第二音频的字幕基于所手动选择的语言(例如，使用所手动选择的语言来生成的和/或使用所手动选择的语言来显示的)。在一些实施方案中，响应于接收到手动选择转录语言的输入：根据确定转录语言是第一语言，以第一语言自动显示针对音频的字幕，并且根据确定转录语言是(不同于第一语言的)第二语言，以第二语言自动显示针对音频的字幕。在一些实施方案中，显示转录的语言不考虑正在音频中说出的语言并且/或者不考虑自动检测为正在音频中说出的语言。计算机系统接收对用于转录音频的语言的手动选择使得计算机系统能够提供适合于正在说出或预期说出的语言的字幕，从而使得计算机系统能够向用户提供关于计算机系统正在接收的音频的改进的字幕和改进的视觉反馈。

应注意，上文关于方法1100(例如，图11)所描述的过程的详情也以类似方式适用于上文所描述的方法。例如，方法700-1100可以在诸如设备600的同一设备上执行。为了简明起见，这些详情在下文中不再重复。

出于解释的目的，前面的描述是通过参考具体实施方案来描述的。然而，上文的例示性论述并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容，很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预期的特定用途的各种修改的各种实施方案。

虽然参考附图对本公开以及示例进行了全面的描述，但应当注意，各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解，此类变化和修改被认为被包括在由权利要求书所限定的本公开和示例的范围内。

如上文所描述，本技术的一个方面在于采集和使用得自各种来源的数据，以增强用户的实况通话体验。本公开预期，在一些实例中，这些所采集的数据可包括唯一地标识或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可以包括人口统计数据、基于位置的数据、电话号码、电子邮件地址、推特ID、家庭地址、与用户的健康或健身水平有关的数据或记录(例如，生命体征测量、药物信息、锻炼信息)、出生日期或任何其他标识或个人信息。

本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如，个人信息数据可以用于定制用于实况通信应用的用户配置文件并且/或者改进如何向用户提供字幕。因此，使用此类个人信息数据使得用户能够对所递送的内容进行有计划的控制。此外，本公开还预期个人信息数据有益于用户的其他用途。例如，健康和健身数据可用于向用户的总体健康状况提供见解，或者可用作使用技术来追求健康目标的个体的积极反馈。

本公开设想负责采集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地，此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。此类政策应该能被用户方便地访问，并应随着数据的采集和/或使用变化而被更新。来自用户的个人信息应当被收集用于实体的合法且合理的用途，并且不在这些合法使用之外共享或出售。此外，应在收到用户知情同意后进行此类采集/共享。附加地，此类实体应考虑采取任何必要步骤，保卫和保障对此类个人信息数据的访问，并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外，这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。另外，应当调整政策和实践，以便采集和/或访问的特定类型的个人信息数据，并适用于包括管辖范围的具体考虑的适用法律和标准。例如，在美国，对某些健康数据的收集或获取可能受联邦和/或州法律的管辖，诸如健康保险流通和责任法案(HIPAA)；而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。因此，在每个国家应为不同的个人数据类型保持不同的隐私实践。

不管前述情况如何，本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件，以防止或阻止对此类个人信息数据的访问。例如，就实况通信用户界面而言，本发明技术可以被配置为允许用户在注册服务期间或之后任何时候选择“选择加入”或“选择退出”参与对个人信息数据的收集。除了提供“选择加入”和“选择退出”选项外，本公开还设想提供与访问或使用个人信息相关的通知。例如，可在下载应用时向用户通知其个人信息数据将被访问，然后就在个人信息数据被应用访问之前再次提醒用户。

此外，本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据，通过限制数据收集和删除数据可最小化风险。此外，并且当适用时，包括在某些健康相关应用中，数据去标识可用于保护用户的隐私。可在适当时通过移除特定标识符(例如，出生日期等)、控制所存储数据的量或特异性(例如，在城市级别而不是在地址级别收集位置数据)、控制数据如何被存储(例如，在用户之间聚合数据)和/或其他方法来促进去标识。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案，但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即，本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如，可以基于非个人信息数据或绝对最小量的个人信息(诸如与用户相关联的设备所请求的内容、适用于内容递送服务的其他非个人信息或公开可用信息)来为实况通信应用创建通用用户配置文件。

权利要求书(按照条约第19条的修改)

1.一种方法，所述方法包括：

在与显示生成组件和一个或多个输入设备通信的计算机系统处：

经由所述显示生成组件显示实况通信用户界面，所述实况通信用户界面对应于实况通信会话，所述实况通信用户界面包括：

所述实况通信会话的一个或多个参与者的一个或多个表示，其中在所述实况通信用户界面中在一位置处并且以一大小显示所述一个或多个参与者的所述一个或多个表示中的第一表示；以及

所述实况通信用户界面的第一区域中的第一字幕，所述第一字幕与所述实况通信会话的音频数据的第一部分相对应；

当显示具有所述实况通信用户界面的所述第一区域中的所述第一字幕的所述实况通信用户界面时，经由所述一个或多个输入设备从所述计算机系统的本地用户检测与对显示扩展字幕信息的请求相对应的输入；以及

响应于检测到与对显示扩展字幕信息的请求相对应的所述输入：

经由所述显示生成组件显示与所述实况通信会话的音频数据的第二部分相对应的第二字幕，所述第二部分不同于所述实况通信会话的音频数据的所述第一部分，所述第二字幕显示在所述实况通信用户界面的第二区域处；以及

经由所述显示生成组件修改所述实况通信用户界面中的所述第一表示的所述位置和/或所述第一表示的所述大小。

2.根据权利要求1所述的方法，其中，修改所述第一表示的所述位置和/或所述第一表示的所述大小包括修改所述实况通信用户界面中的所述第一表示的所述大小，所述方法还包括：

当显示具有所述实况通信用户界面的所述第一区域中的所述第一字幕的所述实况通信用户界面时，显示所述一个或多个参与者的第二表示，其中所述第一表示对应于第一参与者，并且所述第二表示对应于第二参与者；以及

经由所述显示生成组件修改所述实况通信用户界面中的所述第二表示的大小。

3.根据权利要求2所述的方法，其中：

所述第一表示是所述计算机系统的用户的表示。

4.根据权利要求2至3中任一项所述的方法，其中：

修改所述第一表示的所述大小包括减小所述第一表示的所述大小；以及

修改所述第二表示的所述大小包括增大所述第二表示的所述大小。

5.根据权利要求1至4中任一项所述的方法，其中，修改所述第一表示的所述位置和/或所述第一表示的所述大小包括将所述第一表示在所述实况通信用户界面中从第一位置移动到第二位置，所述方法还包括：

响应于检测到与对显示扩展字幕信息的请求相对应的所述输入，经由所述显示生成组件将所述第二表示在所述实况通信用户界面中从第三位置移动到第四位置。

6.根据权利要求1至5中任一项所述的方法，所述方法还包括：

改变在所述实况通信用户界面中显示的所述一个或多个表示的数量。

7.根据权利要求6所述的方法，其中，改变所述一个或多个表示的所述数量包括停止显示所述一个或多个参与者的所述一个或多个表示中的至少一个表示。

8.根据权利要求1至7中任一项所述的方法，所述方法还包括：

响应于检测到与对显示扩展字幕信息的请求相对应的所述输入，显示所述实况通信会话中的参与者的动态表示，所述动态表示基于所述实况通信会话中的所述参与者中的一个或多个参与者的活跃水平的变化而从作为一个参与者的表示改变为作为不同参与者的表示。

9.根据权利要求1至8中任一项所述的方法，所述方法还包括：

与所述第二字幕和所述第一表示同时显示所述一个或多个参与者的所述一个或多个表示中的第二表示，其中所述第一表示对应于第一参与者，并且所述第二表示对应于第二参与者。

10.根据权利要求1至9中任一项所述的方法，其中，所述一个或多个参与者包括第一参与者和第二参与者，所述方法还包括：

根据确定针对音频数据的相应部分的相应字幕对应于所述第一参与者，显示指示所述相应字幕对应于所述第一参与者的指示；以及

根据确定针对音频数据的所述相应部分的所述相应字幕对应于所述第二参与者，显示指示所述相应字幕对应于所述第二参与者的指示。

11.根据权利要求1至10中任一项所述的方法，其中，检测与对显示扩展字幕信息的请求相对应的所述输入包括检测指向所述第一字幕的拖动手势。

12.根据权利要求1至11中任一项所述的方法，其中，检测与对显示扩展字幕信息的请求相对应的所述输入包括检测指向所述第一字幕的轻击手势。

13.根据权利要求1至12中任一项所述的方法，所述方法还包括：

当显示具有所述实况通信用户界面的所述第一区域中的所述第一字幕的所述实况通信用户界面时，显示参与者名册；以及

根据确定所述计算机系统没有正在显示共享内容：

保持经由所述显示生成组件显示所述参与者名册。

14.根据权利要求1至13中任一项所述的方法，所述方法还包括：

当显示具有所述实况通信用户界面的所述第一区域中的所述第一字幕的所述实况通信用户界面时，显示参与者名册，所述参与者名册包括比所述实况通信用户界面中的参与者的其他表示小的不同参与者的多个表示；以及

根据确定所述计算机系统正在显示共享内容：

停止经由所述显示生成组件显示所述参与者名册。

15.根据权利要求1至14中任一项所述的方法，所述方法还包括：

当经由所述显示生成组件显示所述第二字幕时，检测与对滚动所述第二字幕的请求相对应的滚动输入；以及

响应于检测到所述滚动输入，滚动第二字幕的一部分，包括：

显示一个或多个字幕的第一部分；以及

停止显示一个或多个字幕的第二部分。

16.根据权利要求1至15中任一项所述的方法，其中：

根据确定所述第二字幕是可滚动的，以第一视觉属性显示所述第二字幕的文本；以及

根据确定所述第二字幕不是可滚动的，不以所述第一视觉属性显示所述第二字幕的文本。

17.根据权利要求1至16中任一项所述的方法，其中，基于所述计算机系统加入所述实况通信会话的时间点来限制导航浏览所述字幕的可用性。

18.根据权利要求1至17中任一项所述的方法，所述方法还包括：

经由所述显示生成组件显示设置用户界面；

当显示所述设置用户界面时，检测与对修改字幕设置的请求相对应的输入；

响应于检测到与对修改所述字幕设置的请求相对应的所述输入，修改所述字幕设置；

在修改所述字幕设置之后，接收对加入第二实况通信会话的请求；以及

响应于接收到对加入所述第二实况通信会话的请求：

加入所述第二实况通信会话；

根据确定所述字幕设置指示字幕被启用，经由所述显示生成组件显示基于所述第二实况通信会话的一个或多个参与者的音频数据的一个或多个字幕；以及

根据确定所述字幕设置指示字幕未被启用，放弃经由所述显示生成组件显示基于所述第二实况通信会话的所述一个或多个参与者的音频数据的所述一个或多个字幕。

19.根据权利要求18所述的方法，所述方法还包括：

在修改所述字幕设置之后，接收对流式传输共享内容的请求；以及

响应于接收到对流式传输共享内容的请求：

流式传输所述共享内容；

根据确定所述字幕设置指示字幕被启用，经由所述显示生成组件显示所述共享内容的一个或多个字幕；以及

根据确定所述字幕设置指示字幕未被启用，放弃经由所述显示生成组件显示所述共享内容的所述一个或多个字幕。

20.根据权利要求1至19中任一项所述的方法，所述方法还包括：

在所述实况通信会话期间：

经由所述显示生成组件显示第二设置用户界面；

当显示所述第二设置用户界面时，检测与对修改第二字幕设置的请求相对应的输入；

响应于检测到与对修改所述第二字幕设置的请求相对应的所述输入：

修改所述第二字幕设置；

根据确定所述第二字幕设置指示字幕被启用，经由所述显示生成组件显示基于所述实况通信会话的参与者的音频数据的一个或多个字幕；以及

根据确定所述第二字幕设置指示字幕未被启用，停止经由所述显示生成组件显示基于所述实况通信会话的参与者的音频数据的所述一个或多个字幕。

21.根据权利要求1至20中任一项所述的方法，其中，同时地，所述实况通信会话中的第一参与者说出多个文字，并且所述实况通信会话中的第二参与者说出多个文字，所述方法还包括：

经由所述显示生成组件显示针对由所述第一参与者说出的、被分组在一起并且与所述第一参与者的表示相关联的多个文字的字幕；以及

经由所述显示生成组件显示针对由所述第二参与者说出的、被分组在一起并且与所述第二参与者的表示相关联的多个文字的字幕。

22.根据权利要求1至20中任一项所述的方法，其中，同时地，所述实况通信会话的第一参与者说出多个文字，并且所述实况通信会话的第二参与者说出多个文字，所述方法还包括：

经由所述显示生成组件显示针对由所述第一参与者说出的多个文字中的第一文字的字幕；

在显示针对所述第一参与者的多个文字中的第一文字的字幕之后，经由所述显示生成组件显示针对由所述第二参与者说出的多个文字中的第一文字的字幕；以及

在显示针对所述第二参与者的多个文字中的第一文字的字幕之后，经由所述显示生成组件显示针对由所述第一参与者说出的多个文字中的第二文字的字幕。

23.根据权利要求22所述的方法，其中，在第一行上显示针对由所述第一参加者说出的多个文字中的第一文字的字幕，在第二行上显示针对由所述第二参加者说出的多个文字中的第一文字的字幕，并且在第三行上显示针对由所述第一参加者说出的多个文字中的第二文字的字幕。

24.根据权利要求1至23中任一项所述的方法，其中，在相应用户界面区中显示所述第一字幕和所述第二字幕，并且所述方法还包括：

检测到已经满足预定阈值不活动时间；以及

响应于检测到已经满足所述预定阈值不活动时间，使在其中显示所述第一字幕和所述第二字幕的所述相应用户界面区最小化。

25.根据权利要求1至24中任一项所述的方法，所述方法还包括：

根据确定所述实况通信会话是在不多于两个参与者之间的，在所述一个或多个表示上覆盖一个或多个字幕。

26.根据权利要求1至25中任一项所述的方法，所述方法还包括：

根据确定所述实况通信会话是在至少三个参与者之间的，靠近所述一个或多个表示显示一个或多个字幕。

27.根据权利要求1至26中任一项所述的方法，所述方法还包括：

检测与对放大针对一个或多个字幕的文本的请求相对应的输入；以及

响应于检测到与对放大针对所述一个或多个字幕的所述文本的请求相对应的所述输入：

放大针对所述一个或多个字幕的所述文本；以及

扩展用于所述一个或多个字幕的区。

28.根据权利要求1至27中任一项所述的方法，所述方法还包括：

根据确定针对话语的字幕具有小于第一阈值量的置信水平，显示指示所述话语具有小于所述第一阈值量的置信水平的图形对象，其中所述图形对象的大小基于所述话语的持续时间。

29.根据权利要求1至28中任一项所述的方法，所述方法还包括：

根据确定针对话语的字幕具有在置信水平范围内的置信水平，以预定视觉外观显示针对与所述话语相对应的所述字幕的文本。

30.根据权利要求1至29中任一项所述的方法，所述方法还包括：

显示指示一个或多个字幕是机器生成的图形对象。

31.根据权利要求1至30中任一项所述的方法，所述方法还包括：

当显示一个或多个字幕时，检测与对停止显示所述一个或多个字幕的请求相对应的输入；以及

响应于检测到与对停止显示所述一个或多个字幕的请求相对应的所述输入：

停止显示所述一个或多个字幕；以及

停止显示一个或多个参与者的表示。

32.根据权利要求1至31中任一项所述的方法，所述方法还包括：

检测到所述计算机系统处于相应定位；

响应于检测到所述计算机系统处于相应定位：

根据确定所述实况通信用户界面相对于所述计算机系统的相机处于第一空间取向，在所述实况通信用户界面中的靠近所述计算机系统的相机的第一位置处显示一个或多个字幕；以及

根据确定所述实况通信用户界面相对于所述计算机系统的所述相机处于不同于所述第一空间取向的第二空间取向，在所述实况通信用户界面中的靠近所述相机的、不同于所述实况通信用户界面中的所述第一位置的第二位置处显示一个或多个字幕。

33.根据权利要求1至32中任一项所述的方法，所述方法还包括：

当所述实况通信会话包括多于两个参与者时，在所述实况通信用户界面中以第一大小显示所述实况通信会话的第一参与者的表示；

检测到所述实况通信会话包括不多于两个参与者；以及

响应于检测到所述实况通信会话包括不多于两个参与者，增加在所述实况通信用户界面中显示的字幕信息的量。

34.根据权利要求1至33中任一项所述的方法，其中，在相应用户界面区中显示所述第一字幕和所述第二字幕，并且所述方法还包括：

显示一个或多个字幕；以及

根据确定从话语已经出现起已经经过预定阈值的时间，停止显示所述相应用户界面区。

35.根据权利要求1至34中任一项所述的方法，所述方法还包括：

在一个或多个字幕内显示对话语的上下文的图形指示。

36.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求1至35中任一项所述的方法的指令。

37.一种计算机系统，所述计算机系统被配置为与显示生成组件和一个或多个输入设备通信，所述计算机系统包括：

一个或多个处理器；以及

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求1至35中任一项所述的方法的指令。

38.一种计算机系统，所述计算机系统被配置为与显示生成组件和一个或多个输入设备通信，所述计算机系统包括：

用于执行根据权利要求1至35中任一项所述的方法的构件。

39.一种计算机程序产品，所述计算机程序产品包括被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求1至35中任一项所述的方法的指令。

40.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

41.一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统，所述计算机系统包括：

一个或多个处理器；以及

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

42.一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统，所述计算机系统包括：

用于经由所述显示生成组件显示实况通信用户界面的构件，所述实况通信用户界面对应于实况通信会话，所述实况通信用户界面包括：

当显示具有所述实况通信用户界面的所述第一区域中的所述第一字幕的所述实况通信用户界面时，用于经由所述一个或多个输入设备从所述计算机系统的本地用户检测与对显示扩展字幕信息的请求相对应的输入的构件；以及

响应于检测到与对显示扩展字幕信息的请求相对应的所述输入，用于以下操作的构件：

43.一种计算机程序产品，所述计算机程序产品包括被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

44.一种方法，所述方法包括：

经由所述显示生成组件显示实况通信应用的对应于实况通信会话的用户界面，所述实况通信应用的所述用户界面同时包括：

在所述实况通信应用中显示的所述实况通信会话的第一参与者的表示；以及

针对在所述实况通信应用中显示的所述第一参与者的音频数据的第一字幕；

当显示所述实况通信应用的所述用户界面时，接收与对切换到显示不同于所述实况通信应用的相应用户界面的请求相对应的一个或多个输入的序列；以及

响应于接收到与对切换到显示所述相应用户界面的请求相对应的一个或多个输入的所述序列：

用不同于所述实况通信应用的所述相应用户界面替代所述实况通信应用的至少一部分；

显示覆盖在所述相应用户界面的至少一部分上的所述实况通信会话的所述第一参与者的缩小比例表示；以及

显示针对所述第一参与者的音频数据的第二字幕，其中针对音频数据的所述第二字幕与所述实况通信会话的所述第一参与者的所述缩小比例表示分开显示，并且覆盖在所述相应用户界面的至少一部分上。

45.根据权利要求44所述的方法，其中，所述第一参与者的所述缩小比例表示和针对所述第一参与者的音频数据的所述第二字幕自动定位在不隐藏所述相应用户界面的预定内容的位置。

46.根据权利要求44至45中任一项所述的方法，所述方法还包括：

当显示所述相应用户界面时，检测与对更新所述相应用户界面的内容的请求相对应的输入；以及

响应于检测到与对更新所述相应用户界面的内容的请求相对应的所述输入，独立于所述第二字幕的内容来更新所述相应用户界面的内容。

47.根据权利要求44至46中任一项所述的方法，所述方法还包括：

当显示所述相应用户界面时，检测与对移动所述第一参与者的所述缩小比例表示和/或所述第二字幕的请求相对应的输入；以及

响应于检测到与对移动所述第一参与者的所述缩小比例表示和/或所述第二字幕的请求相对应的所述输入：

独立于所述相应用户界面的内容来移动所述第一参与者的所述缩小比例表示和/或所述第二字幕。

48.根据权利要求44至47中任一项所述的方法，所述方法还包括当显示覆盖在所述相应用户界面的至少一部分上的所述实况通信会话的相应参与者的缩小比例表示时：

检测指示一个或多个字幕能够用于针对所述相应参与者的相应话语的信息；以及

响应于检测到所述一个或多个字幕能够用于针对所述相应参与者的所述相应话语，显示针对所述相应话语的所述一个或多个字幕，而不是显示所述第二字幕。

49.根据权利要求44至48中任一项所述的方法，其中，所述第二字幕覆盖在与所述实况通信会话中的多个参与者共享的共享内容上。

50.根据权利要求44至49中任一项所述的方法，所述方法还包括：

显示一个或多个字幕；以及

在显示所述一个或多个字幕之后，根据确定从已经将字幕添加到所述一个或多个字幕起已经经过预定阈值量的时间，停止显示所述一个或多个字幕。

51.根据权利要求44至50中任一项所述的方法，所述方法还包括：

检测与对移动相应参与者的缩小比例表示的请求相对应的输入；以及

响应于检测到与对移动所述相应参与者的所述缩小比例表示的请求相对应的所述输入：

经由所述显示生成组件移动所述相应参与者的所述缩小比例表示的位置；以及

经由所述显示生成组件移动一个或多个字幕的位置。

52.根据权利要求44至51中任一项所述的方法，所述方法还包括：

当显示覆盖在所述相应用户界面的至少一部分上的所述实况通信会话的所述第一参与者的缩小比例表示时，检测到相应参与者在所述实况通信会话中比所述第一参与者活跃；以及

响应于检测到所述相应参与者在所述实况通信会话中比所述第一参与者活跃，用所述相应参与者的缩小比例表示替代所述第一参与者的所述缩小比例表示。

53.根据权利要求44至52中任一项所述的方法，所述方法还包括：

显示设置用户界面；

当显示所述设置用户界面时，检测与对修改针对所述实况通信应用的所述用户界面的字幕设置的请求相对应的输入；以及

响应于检测到与对修改针对所述实况通信应用的所述字幕设置的请求相对应的所述输入：

根据确定所述输入激活针对所述实况通信应用的所述字幕设置，启用显示一个或多个字幕作为用于实况通信会话的所述实况通信应用的所述用户界面的一部分；以及

根据确定所述输入停用针对所述实况通信应用的所述字幕设置，禁用显示字幕作为用于实况通信会话的所述实况通信应用的所述用户界面的一部分。

54.根据权利要求44至53中任一项所述的方法，所述方法还包括：

响应于响应于检测到所述相应参与者在所述实况通信会话中比所述第一参与者活跃：

经由所述显示生成组件用所述相应参与者的缩小比例表示替代所述第一参与者的所述缩小比例表示；以及

经由所述显示生成组件用针对所述相应参与者的音频数据的字幕替代针对所述第一参与者的音频数据的所述第二字幕。

55.根据权利要求44至54中任一项所述的方法，所述方法还包括：

当显示相应参与者的缩小比例表示和针对所述相应参与者的音频数据的第二字幕时，检测指向所述相应参与者的所述缩小比例表示的输入；以及

响应于检测到指向所述相应参与者的所述缩小比例表示的所述输入：

降低所述相应参与者的所述缩小比例表示的突出性；以及

降低针对所述相应参与者的音频数据的所述第二字幕的突出性。

56.根据权利要求55所述的方法，其中，降低所述相应参与者的所述缩小比例表示和针对所述相应参与者的音频数据的所述第二字幕的所述突出性包括停止显示所述相应参与者的所述缩小比例表示和针对所述相应参与者的音频数据的所述第二字幕，所述方法还包括：

显示指示一个或多个参与者正在说话的指示，而不显示所述相应参与者的所述缩小比例表示和针对所述相应参与者的音频数据的所述第二字幕。

57.根据权利要求56所述的方法，其中，显示指示一个或多个参与者正在说话的所述指示包括对所述相应用户界面中的与所述相应参与者的所述缩小比例表示相关联的位置处的图形用户界面对象进行动画处理。

58.根据权利要求44至57中任一项所述的方法，所述方法还包括：

与所述第一参与者的所述缩小比例表示同时显示共享内容；

当与所述第一参与者的所述缩小比例表示同时显示所述共享内容时，检测与对降低所述第一参与者的所述缩小比例表示的突出性的请求相对应的输入；以及

响应于检测到与对降低所述第一参与者的所述缩小比例表示的所述突出性的请求相对应的所述输入：

降低所述第一参与者的所述缩小比例表示的突出性；以及

保持显示共享内容。

59.根据权利要求44至58中任一项所述的方法，所述方法还包括：

显示覆盖在共享内容上的针对共享内容的一个或多个字幕；以及

其中，与针对所述共享内容的所述一个或多个字幕同时显示的、针对相应参与者的音频数据的一个或多个字幕被靠近所述共享内容显示。

60.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求44至59中任一项所述的方法的指令。

61.一种计算机系统，所述计算机系统被配置为与显示生成组件和一个或多个输入设备通信，所述计算机系统包括：

一个或多个处理器；以及

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求44至59中任一项所述的方法的指令。

62.一种计算机系统，所述计算机系统被配置为与显示生成组件和一个或多个输入设备通信，所述计算机系统包括：

用于执行根据权利要求44至59中任一项所述的方法的构件。

63.一种计算机程序产品，所述计算机程序产品包括被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求44至59中任一项所述的方法的指令。

64.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

65.一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统，所述计算机系统包括：

一个或多个处理器；以及

66.一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统，所述计算机系统包括：

用于经由所述显示生成组件显示实况通信应用的对应于实况通信会话的用户界面的构件，所述实况通信应用的所述用户界面同时包括：

当显示所述实况通信应用的所述用户界面时，用于接收与对切换到显示不同于所述实况通信应用的相应用户界面的请求相对应的一个或多个输入的序列的构件；以及

响应于接收到与对切换到显示所述相应用户界面的请求相对应的一个或多个输入的所述序列，用于以下操作的构件：

67.一种计算机程序产品，所述计算机程序产品包括被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

68.一种方法，所述方法包括：

在与显示生成组件通信的计算机系统处：

接收与第一应用中的第一音频相对应的第一信息；

接收与不同于所述第一应用的第二应用中的第二音频相对应的第二信息；以及

经由所述显示生成组件显示系统音频转录本，其中显示所述系统音频转录本包括显示：

所述系统音频转录本的第一转录本部分，所述第一转录本部分包括基于所述第一音频的第一字幕；以及

所述系统音频转录本的第二转录本部分，所述第二转录本部分包括基于所述第二音频的不同于所述第一字幕的第二字幕。

69.根据权利要求68所述的方法，其中，所述第一字幕和所述第二字幕被顺序地显示。

70.根据权利要求68所述的方法，其中，所述第一字幕和所述第二字幕被同时显示。

71.根据权利要求68所述的方法，其中，显示所述第一转录本部分和所述第二转录本部分包括：

根据确定所述系统音频转录本处于缩小大小，在所述系统音频转录本中顺序地显示所述第一字幕和所述第二字幕；以及

根据确定所述系统音频转录本不处于所述缩小大小，在所述系统音频转录本中同时显示所述第一字幕和所述第二字幕。

72.根据权利要求68至71中任一项所述的方法，其中，所述计算机系统与一个或多个输入设备通信，所述方法还包括：

经由所述一个或多个输入设备接收滚动输入；以及

响应于接收到所述滚动输入，经由所述显示生成组件滚动所述系统音频转录本的内容。

73.根据权利要求68至72中任一项所述的方法，所述方法还包括：

根据确定针对所述第一转录本部分满足一组指示符条件，经由所述显示生成组件显示对所述第一应用的指示；以及

根据确定针对所述第二转录本部分满足所述一组指示符条件，经由所述显示生成组件显示对所述第二应用的指示。

74.根据权利要求73所述的方法，其中，当对应于相应转录本部分的相应应用没有被突出地显示时，针对所述相应转录本部分满足所述一组指示符条件。

75.根据权利要求68至74中任一项所述的方法，所述方法还包括：

经由所述显示生成组件显示对接收到对应于相应字幕的音频的时间的指示。

76.根据权利要求68至74中任一项所述的方法，其中，所述计算机系统与一个或多个输入设备通信，所述方法还包括：

经由所述一个或多个输入设备接收调整在其中显示所述第一字幕和所述第二字幕的所述系统音频转录本的输入；以及

响应于接收到调整所述系统音频转录本的所述输入：

根据确定调整所述系统音频转录本的所述输入是重新设定大小输入，根据所述重新设定大小输入来重新设定所述系统音频转录本的大小；以及

根据确定调整所述系统音频转录本的所述输入是重新定位输入，根据所述重新定位输入来移动所述系统音频转录本。

77.根据权利要求68至76中任一项所述的方法，所述方法还包括：

当经由所述显示生成组件在第一位置处显示在其中显示所述第一字幕和所述第二字幕的所述系统音频转录本时，接收调整所述第一应用和/或所述第二应用的显示的用户输入；以及

响应于接收到调整所述第一应用和/或所述第二应用的显示的所述用户输入，调整所述第一应用和/或所述第二应用的显示，同时继续在所述第一位置处显示在其中显示所述第一字幕和所述第二字幕的所述系统音频转录本。

78.根据权利要求68至77中任一项所述的方法，其中，所述计算机系统与一个或多个输入设备通信，所述方法还包括：

经由所述一个或多个输入设备接收用户输入；以及

响应于接收到所述用户输入并且根据确定所述用户输入与对停止显示字幕的请求相对应，停止进一步字幕的显示。

79.根据权利要求68至78中任一项所述的方法，其中，所述计算机系统与一个或多个输入设备通信，所述方法还包括：

经由所述一个或多个输入设备接收请求将包括所述第一字幕和所述第二字幕的所述系统音频转录本转变为最小化状态的用户输入；

响应于接收到请求将所述系统音频转录本转变为所述最小化状态的所述用户输入，将所述系统音频转录本的显示更新为所述最小化状态；以及

当所述系统音频转录本处于所述最小化状态时，生成对应于所接收的相应音频的字幕，而不显示对应于所接收的所述相应音频的所述字幕。

80.根据权利要求79所述的方法，所述方法还包括：

在生成对应于所接收的相应音频的字幕而不显示对应于所接收的所述相应音频的所述字幕之后，经由所述一个或多个输入设备接收用于放大所述系统音频转录本的输入；以及

响应于接收到用于放大所述系统音频转录本的输入：

放大所述系统音频转录本；以及

经由所述显示生成组件并且作为所述系统音频转录本的一部分来显示先前没有显示的、对应于所述相应音频的所生成的字幕中的至少一些字幕。

81.根据权利要求79至80中任一项所述的方法，所述方法还包括：

当所述系统音频转录本处于所述最小化状态时，经由所述显示生成组件显示正在生成与正在接收的相应音频相对应的进一步字幕的指示，而不显示所述字幕的内容。

82.根据权利要求68至80中任一项所述的方法，其中：

显示所述系统音频转录本作为与所述第一应用和所述第二应用不同的第三应用的一部分；

所述第一信息是包括所述第一字幕的元数据信息；以及

从所述第一应用接收所述第一信息。

83.根据权利要求82所述的方法，其中，所述第一字幕是电影字幕。

84.根据权利要求82所述的方法，其中，所述第一字幕是视频会议字幕。

85.根据权利要求82至84中任一项所述的方法，其中，从不同于所述计算机系统的外部设备接收所述第一信息，其中所述外部设备与所述计算机系统位于同一通信网络上。

86.根据权利要求68至85中任一项所述的方法，所述方法还包括：

根据确定所述第一应用已经发起显示与所述第一应用中的音频相对应的字幕，停止显示与所述第一应用中的音频相对应的进一步字幕作为所述系统音频转录本的一部分；以及

根据确定所述第一应用尚未发起显示与所述第一应用中的音频相对应的字幕，继续显示与所述第一应用中的音频相对应的进一步字幕作为所述系统音频转录本的一部分。

87.根据权利要求86所述的方法，所述方法还包括：

根据确定所述第一应用已经停止显示与所述第一应用中的音频相对应的字幕，显示与所述第一应用中的音频相对应的进一步字幕作为所述系统音频转录本的一部分。

88.根据权利要求87所述的方法，其中，所述第一应用是实时视频会议应用，并且当所述实时视频会议应用中的会议呼叫处于缩小大小状态时，所述实时视频会议应用停止显示与所述会议呼叫的会议音频相对应的字幕。

89.根据权利要求68至88中任一项所述的方法，所述方法还包括：

在进一步字幕被添加到所述系统音频转录本时自动滚动所述系统音频转录本。

90.根据权利要求68至89中任一项所述的方法，其中，所述第一字幕基于预先录制的音频，并且所述第二字幕基于实况音频。

91.根据权利要求68至90中任一项所述的方法，所述方法还包括：

当没有检测到具有要加字幕的内容的音频时，经由所述显示生成组件显示所述计算机系统正在等待具有要加字幕的内容的音频的指示。

92.根据权利要求68至91中任一项所述的方法，其中，显示所述系统音频转录本包括：

根据确定没有经由所述显示生成组件在第一位置处显示第一类型的内容，经由所述显示生成组件在所述第一位置处显示所述系统音频转录本；以及

根据确定经由所述显示生成组件在所述第一位置处显示了所述第一类型的内容，经由所述显示生成组件在不同于所述第一位置的第二位置处显示所述系统音频转录本。

93.根据权利要求68至92中任一项所述的方法，其中，所述计算机系统与一个或多个输入设备通信，所述方法还包括：

当显示所述系统音频转录本时，经由所述一个或多个输入设备检测用于访问用于在应用之间切换的用户界面的输入；以及

响应于检测到用于访问用于在应用之间切换的所述用户界面的所述输入，显示所述系统音频转录本的全屏版本的表示。

94.根据权利要求68至93中任一项所述的方法，其中，所述计算机系统与一个或多个输入设备通信，所述方法还包括：

当经由所述显示生成组件显示包括所述第一字幕和所述第二字幕的所述系统音频转录本时，经由所述一个或多个输入设备接收对捕获包括在其中显示所述系统音频转录本的区域的显示屏幕截图的请求；以及

响应于接收到对捕获所述显示屏幕截图的请求，捕获包括在其中显示所述系统音频转录本的所述区域的显示屏幕截图，而不在所述显示屏幕截图中包括所述系统音频转录本。

95.根据权利要求68至94中任一项所述的方法，所述方法还包括：

响应于确定第二音频转录本正在被显示或将由不同的应用显示，停止显示所述系统音频转录本。

96.根据权利要求68至95中任一项所述的方法，所述方法还包括：

响应于确定在所述系统音频转录本正在被显示时第二音频转录本正在被显示或将由不同的应用显示，放弃所述第二音频转录本的显示。

97.根据权利要求68至96中任一项所述的方法，其中，所述计算机系统与一个或多个输入设备通信，所述方法还包括：

当以第一视觉状态显示所述系统音频转录本时，接收用于显示应用的输入；以及

响应于接收到用于显示所述应用的所述输入：

根据确定所述应用是第四应用，以不同于所述第一视觉状态的第二视觉状态显示所述系统音频转录本；以及

根据确定所述应用是第五应用，以不同于所述第二视觉状态的第三视觉状态显示所述系统音频转录本。

98.根据权利要求68至97中任一项所述的方法，其中，从外部设备接收对应于第一音频的所述第一信息，所述外部设备还向不同于所述计算机系统的一个或多个设备提供所述第一信息。

99.根据权利要求68至98中任一项所述的方法，所述方法还包括：

经由所述显示生成组件显示对非话音声音的描述作为所述系统音频转录本的一部分。

100.根据权利要求68至99中任一项所述的方法，所述方法还包括：

接收与第三应用中的第三音频相对应的第三信息；以及

经由所述显示生成组件作为所述系统音频转录本的一部分并且基于所述第三音频来显示以下各项：

第一说话者的第一话音的字幕；

与所述第一说话者不同的第二说话者的第二话音的字幕；以及

所述第一话音的字幕的说话者与所述第二话音的字幕的说话者不同的指示。

101.根据权利要求68至100中任一项所述的方法，所述方法还包括：

提供禁用对实时通信会话加字幕的选项；

检测对禁用对实时通信会话加字幕的所述选项的选择；以及

在检测到对禁用对实时通信会话加字幕的所述选项的选择之后，放弃对实时通信会话加字幕，同时继续对不是实时通信会话的一部分的一个或多个音频加字幕。

102.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求68至101中任一项所述的方法的指令。

103.一种计算机系统，所述计算机系统被配置为与显示生成组件和一个或多个输入设备通信，所述计算机系统包括：

一个或多个处理器；以及

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求68至101中任一项所述的方法的指令。

104.一种计算机系统，所述计算机系统被配置为与显示生成组件和一个或多个输入设备通信，所述计算机系统包括：

用于执行根据权利要求68至101中任一项所述的方法的构件。

105.一种计算机程序产品，所述计算机程序产品包括被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求68至101中任一项所述的方法的指令。

106.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

接收与第一应用中的第一音频相对应的第一信息；

107.一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统，所述计算机系统包括：

一个或多个处理器；以及

接收与第一应用中的第一音频相对应的第一信息；

108.一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统，所述计算机系统包括：

用于接收与第一应用中的第一音频相对应的第一信息的构件；

用于接收与不同于所述第一应用的第二应用中的第二音频相对应的第二信息的构件；以及

用于经由所述显示生成组件显示系统音频转录本的构件，其中显示所述系统音频转录本包括显示：

用于所述系统音频转录本的第一转录本部分的构件，所述第一转录本部分包括基于所述第一音频的第一字幕；以及

用于所述系统音频转录本的第二转录本部分的构件，所述第二转录本部分包括基于所述第二音频的不同于所述第一字幕的第二字幕。

109.一种计算机程序产品，所述计算机程序产品包括被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

接收与第一应用中的第一音频相对应的第一信息；

110.一种方法，所述方法包括：

在与显示生成组件通信的计算机系统处：

经由所述显示生成组件在第一用户界面区中显示字幕集合；

当显示所述字幕集合时，检测用于将与所述计算机系统处的相应活动相对应的键入的字幕添加到所述字幕集合的键入的用户输入；以及

响应于检测到用于将所述键入的字幕添加到所述字幕集合的所述键入的用户输入，经由所述显示生成组件在所述第一用户界面区中显示所述键入的字幕，其中提供基于所述键入的字幕的模拟话音作为针对所述相应活动的音频输出。

111.根据权利要求110所述的方法，所述方法还包括：

经由所述计算机系统的音频输出设备输出所述模拟话音。

112.根据权利要求110至111中任一项所述的方法，其中，所述模拟话音是经由与所述计算机系统通信的远程计算机系统的音频输出设备输出的。

113.根据权利要求110至112中任一项所述的方法，其中，所述计算机系统与一个或多个输入设备通信，所述方法还包括：

在提供基于所述键入的字幕的所述模拟话音作为针对所述相应活动的音频输出之前，经由所述一个或多个输入设备接收选择模拟语音的用户输入，其中使用所选择的模拟语音提供基于所述键入的字幕的所述模拟话音作为针对所述相应活动的音频输出。

114.根据权利要求110至113中任一项所述的方法，其中，所述计算机系统与麦克风和一个或多个输入设备通信，所述方法还包括：

经由所述显示生成组件显示启用显示基于经由所述麦克风检测到的音频的字幕的选项；

经由所述一个或多个输入设备接收对启用显示基于经由所述麦克风检测到的音频的字幕的所述选项的选择；以及

响应于接收到对启用显示基于经由所述麦克风检测到的音频的字幕的所述选项的选择，经由所述显示生成组件显示基于经由所述麦克风检测到的音频的字幕。

115.根据权利要求114所述的方法，所述方法还包括：

经由所述显示生成组件显示基于经由所述麦克风检测到的音频的第一字幕和对应于所述第一字幕的视觉指示，其中所述视觉指示指示所述第一字幕基于经由所述麦克风检测到的音频；以及

经由所述显示生成组件显示不基于经由所述麦克风检测到的音频的第二字幕而不显示对应于所述第二字幕的视觉指示，所述视觉指示指示所述第二字幕基于经由所述麦克风检测到的音频。

116.根据权利要求110至115中任一项所述的方法，其中，所述计算机系统与麦克风通信，所述方法还包括：

经由所述显示生成组件显示菜单，所述菜单包括以下各项中的一项或多项：

启用和/或禁用字幕的显示的选项；

在用于在所述计算机系统处输出的音频与经由所述计算机系统的所述麦克风检测到的音频之间切换用于字幕的音频源的选项；

经由所述显示生成组件连续显示具有字幕的所述第一用户界面区的选项；

启用和/或禁用基于接收到键入的字幕来提供模拟话音作为音频输出的选项；以及

经由所述显示生成组件使具有字幕的所述第一用户界面区居中的选项。

117.根据权利要求110至116中任一项所述的方法，其中，经由所述显示生成组件在所述第一用户界面区中显示所述字幕集合包括：

根据确定所述字幕集合包括被确定为相应类型的文本的文本部分，经由所述显示生成组件显示已经检测到所述相应类型的文本的指示。

118.根据权利要求117所述的方法，其中，所述计算机系统与一个或多个输入设备通信，所述方法还包括：

经由所述一个或多个输入设备接收对被确定为所述相应类型的所述文本部分的选择；以及

响应于接收到对被确定为所述相应类型的所述文本部分的选择，执行与所述文本部分相关联的动作。

119.根据权利要求110至118中任一项所述的方法，所述方法还包括：

当在所述第一用户界面区中显示所述字幕集合时，并且响应于检测到包括所述计算机系统的用户的姓名的音频：

突出显示所述第一用户界面区；以及

突出显示所述字幕集合的、与包括所述计算机系统的所述用户的所述姓名的所述音频相对应的文本部分。

120.根据权利要求110至119中任一项所述的方法，所述方法还包括：

与对应于所述字幕集合被显示的时间的日历信息相关联地存储所述字幕集合。

121.根据权利要求110至120中任一项所述的方法，所述方法还包括：

接收对应于第一音频的第一信息；

基于所述第一音频来自动选择转录语言；以及

经由所述显示生成组件显示对应于所述第一音频的字幕，其中对应于所述第一音频的所述字幕基于所自动选择的转录语言。

122.根据权利要求110至121中任一项所述的方法，其中，所述计算机系统与一个或多个输入设备通信，所述方法还包括：

经由一个或多个输入设备接收用于手动选择转录语言的输入；

接收对应于第二音频的第二信息；

经由所述显示生成组件显示对应于所述第二音频的字幕，其中对应于所述第二音频的所述字幕基于所手动选择的语言。

123.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求110至122中任一项所述的方法的指令。

124.一种计算机系统，所述计算机系统被配置为与显示生成组件和一个或多个输入设备通信，所述计算机系统包括：

一个或多个处理器；以及

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求110至122中任一项所述的方法的指令。

125.一种计算机系统，所述计算机系统被配置为与显示生成组件和一个或多个输入设备通信，所述计算机系统包括：

用于执行根据权利要求110至122中任一项所述的方法的构件。

126.一种计算机程序产品，所述计算机程序产品包括被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求110至122中任一项所述的方法的指令。

127.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

经由所述显示生成组件在第一用户界面区中显示字幕集合；

128.一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统，所述计算机系统包括：

一个或多个处理器；以及

经由所述显示生成组件在第一用户界面区中显示字幕集合；

129.一种被配置为与显示生成组件和一个或多个输入设备通信的计算机系统，所述计算机系统包括：

用于经由所述显示生成组件在第一用户界面区中显示字幕集合的构件；

用于当显示所述字幕集合时，检测用于将与所述计算机系统处的相应活动相对应的键入的字幕添加到所述字幕集合的键入的用户输入的构件；以及

用于响应于检测到用于将所述键入的字幕添加到所述字幕集合的所述键入的用户输入，经由所述显示生成组件在所述第一用户界面区中显示所述键入的字幕的构件，其中提供基于所述键入的字幕的模拟话音作为针对所述相应活动的音频输出。

130.一种计算机程序产品，所述计算机程序产品包括被配置为由与显示生成组件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

经由所述显示生成组件在第一用户界面区中显示字幕集合；

Claims

1.一种方法，所述方法包括：

当显示具有所述实况通信用户界面的所述第一区域中的所述第一字幕的所述实况通信用户界面时，经由所述一个或多个输入设备检测与对显示扩展字幕信息的请求相对应的输入；以及

3.根据权利要求2所述的方法，其中：

所述第一表示是所述计算机系统的用户的表示。

4.根据权利要求2至3中任一项所述的方法，其中：

6.根据权利要求1至5中任一项所述的方法，所述方法还包括：

8.根据权利要求1至7中任一项所述的方法，所述方法还包括：

9.根据权利要求1至8中任一项所述的方法，所述方法还包括：

根据确定所述计算机系统没有正在显示共享内容：

保持经由所述显示生成组件显示所述参与者名册。

根据确定所述计算机系统正在显示共享内容：

停止经由所述显示生成组件显示所述参与者名册。

显示一个或多个字幕的第一部分；以及

停止显示一个或多个字幕的第二部分。

16.根据权利要求1至15中任一项所述的方法，其中：

经由所述显示生成组件显示设置用户界面；

响应于接收到对加入所述第二实况通信会话的请求：

加入所述第二实况通信会话；

19.根据权利要求18所述的方法，所述方法还包括：

响应于接收到对流式传输共享内容的请求：

流式传输所述共享内容；

在所述实况通信会话期间：

经由所述显示生成组件显示第二设置用户界面；

修改所述第二字幕设置；

检测到已经满足预定阈值不活动时间；以及

放大针对所述一个或多个字幕的所述文本；以及

扩展用于所述一个或多个字幕的区。

显示指示一个或多个字幕是机器生成的图形对象。

停止显示所述一个或多个字幕；以及

停止显示一个或多个参与者的表示。

检测到所述计算机系统处于相应定位；

响应于检测到所述计算机系统处于相应定位：

检测到所述实况通信会话包括不多于两个参与者；以及

显示一个或多个字幕；以及

在一个或多个字幕内显示对话语的上下文的图形指示。

一个或多个处理器；以及

用于执行根据权利要求1至35中任一项所述的方法的构件。

一个或多个处理器；以及

当显示具有所述实况通信用户界面的所述第一区域中的所述第一字幕的所述实况通信用户界面时，用于经由所述一个或多个输入设备检测与对显示扩展字幕信息的请求相对应的输入的构件；以及

44.一种方法，所述方法包括：

显示一个或多个字幕；以及

经由所述显示生成组件移动一个或多个字幕的位置。

显示设置用户界面；

降低所述相应参与者的所述缩小比例表示的突出性；以及

与所述第一参与者的所述缩小比例表示同时显示共享内容；

降低所述第一参与者的所述缩小比例表示的突出性；以及

保持显示共享内容。

一个或多个处理器；以及

用于执行根据权利要求44至59中任一项所述的方法的构件。

一个或多个处理器；以及

68.一种方法，所述方法包括：

在与显示生成组件通信的计算机系统处：

接收与第一应用中的第一音频相对应的第一信息；

经由所述一个或多个输入设备接收滚动输入；以及

响应于接收到调整所述系统音频转录本的所述输入：

经由所述一个或多个输入设备接收用户输入；以及

80.根据权利要求79所述的方法，所述方法还包括：

响应于接收到用于放大所述系统音频转录本的输入：

放大所述系统音频转录本；以及

82.根据权利要求68至80中任一项所述的方法，其中：

所述第一信息是包括所述第一字幕的元数据信息；以及

从所述第一应用接收所述第一信息。

87.根据权利要求86所述的方法，所述方法还包括：

响应于接收到用于显示所述应用的所述输入：

接收与第三应用中的第三音频相对应的第三信息；以及

第一说话者的第一话音的字幕；

提供禁用对实时通信会话加字幕的选项；

检测对禁用对实时通信会话加字幕的所述选项的选择；以及

一个或多个处理器；以及

用于执行根据权利要求68至101中任一项所述的方法的构件。

接收与第一应用中的第一音频相对应的第一信息；

一个或多个处理器；以及

接收与第一应用中的第一音频相对应的第一信息；

110.一种方法，所述方法包括：

在与显示生成组件通信的计算机系统处：

经由所述显示生成组件在第一用户界面区中显示字幕集合；

111.根据权利要求110所述的方法，所述方法还包括：

经由所述计算机系统的音频输出设备输出所述模拟话音。

115.根据权利要求114所述的方法，所述方法还包括：

启用和/或禁用字幕的显示的选项；

突出显示所述第一用户界面区；以及

接收对应于第一音频的第一信息；

基于所述第一音频来自动选择转录语言；以及

接收对应于第二音频的第二信息；

一个或多个处理器；以及

用于执行根据权利要求110至122中任一项所述的方法的构件。

经由所述显示生成组件在第一用户界面区中显示字幕集合；

一个或多个处理器；以及

经由所述显示生成组件在第一用户界面区中显示字幕集合；