CN116034370A

CN116034370A - 音频媒体回放用户界面

Info

Publication number: CN116034370A
Application number: CN202180055443.9A
Authority: CN
Inventors: A·K·费泰斯; S·T-H·邵
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-08-14
Filing date: 2021-08-13
Publication date: 2023-04-28
Also published as: WO2022036212A1; EP4196873A1

Abstract

本公开整体涉及媒体回放用户界面。在一些示例中，该媒体回放用户界面显示与音频内容的语音相对应的文本。在一些示例中，该媒体回放用户界面有助于对与该音频内容相对应的书签的管理。在一些示例中，该媒体回放用户界面使得能够搜索与该音频内容的语音相对应的文本。

Description

音频媒体回放用户界面

相关申请的交叉引用

本申请要求以下专利申请的优先权：于2020年8月14日提交的名称为“AUDIOMEDIA PLAYBACK USER INTERFACE”的美国专利申请序列号16/994,434；以及于2020年8月14日提交的名称为“AUDIO MEDIA PLAYBACK USER INTERFACE”的美国专利申请序列号16/994,438，以上专利申请中的每个专利申请的内容出于所有目的据此全文以引用方式并入本文。

技术领域

本公开整体涉及计算机用户界面，并且更具体地，涉及用于管理音频媒体回放的技术。

背景技术

计算机系统具有控制各种媒体文件(诸如音乐文件、有声读物文件、视频文件和/或其他多媒体文件)的音频输出的能力。例如，计算机系统被配置为基于用户界面上的用户输入来播放媒体文件的音频、暂停媒体文件的音频和/或跳跃媒体文件的音频。

发明内容

然而，用于使用计算机系统来管理媒体回放应用程序的一些技术通常很麻烦且效率低下。例如，一些现有技术不显示与音频文件中的语音相对应的文本的视觉指示，使得用户可能在音频中定位特定语音内容时经受困难。另外，一些现有技术使用复杂且耗时的用户界面来回放音频文件或导航到音频文件的特定部分，这可包括多次按键或击键。现有技术需要比所需更多的时间，这导致浪费用户的时间和设备能量。这后一考虑在电池驱动的设备中是特别重要的。

因此，本技术为计算机系统提供了用于管理媒体回放应用程序的更快、更有效的方法和界面。此类方法和界面任选地补充或替换用于管理媒体回放应用程序的其他方法。此类方法和界面减少对用户所造成的认知负担，并且产生更有效的人机界面。对于电池驱动的计算设备，此类方法和界面节省功率，并且增大电池充电之间的时间间隔。另外，此类方法和界面减少了用于回放音频文件的特定部分的不必要的、无关的和/或重复性的输入的数量。

本文公开了示例性方法。一种示例性方法包括，在与显示生成部件和一个或多个输入设备通信的计算机系统处：经由所述显示生成部件显示媒体回放界面，所述媒体回放界面包括一组一个或多个媒体回放控制用户界面对象，其中所述一组一个或多个媒体回放控制用户界面对象包括可选择的回放位置指示符；以及在所述媒体回放界面被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述一个或多个输入设备检测与所述可选择的回放位置指示符相对应的第一输入；并且响应于检测到所述第一输入：将所述可选择的回放位置指示符从与所述第一媒体项的第一回放时间相对应的第一位置移动到与所述第一媒体项的第二回放时间相对应的第二位置；以及经由所述显示生成部件显示第一文本，所述第一文本表示所述第一媒体项的所述音频内容中与所述第二回放时间相对应的语音。

本文描述了示例性非暂态计算机可读存储介质。一种示例性非暂态计算机可读存储介质存储被配置为由与显示生成部件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：经由所述显示生成部件显示媒体回放界面，所述媒体回放界面包括一组一个或多个媒体回放控制用户界面对象，其中所述一组一个或多个媒体回放控制用户界面对象包括可选择的回放位置指示符；以及在所述媒体回放界面被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述一个或多个输入设备检测与所述可选择的回放位置指示符相对应的第一输入；并且响应于检测到所述第一输入：将所述可选择的回放位置指示符从与所述第一媒体项的第一回放时间相对应的第一位置移动到与所述第一媒体项的第二回放时间相对应的第二位置；以及经由所述显示生成部件显示第一文本，所述第一文本表示所述第一媒体项的所述音频内容中与所述第二回放时间相对应的语音。

本文描述了示例性暂态计算机可读存储介质。一种示例性暂态计算机可读存储介质存储被配置为由与显示生成部件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：经由所述显示生成部件显示媒体回放界面，所述媒体回放界面包括一组一个或多个媒体回放控制用户界面对象，其中所述一组一个或多个媒体回放控制用户界面对象包括可选择的回放位置指示符；以及在所述媒体回放界面被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述一个或多个输入设备检测与所述可选择的回放位置指示符相对应的第一输入；并且响应于检测到所述第一输入：将所述可选择的回放位置指示符从与所述第一媒体项的第一回放时间相对应的第一位置移动到与所述第一媒体项的第二回放时间相对应的第二位置；以及经由所述显示生成部件显示第一文本，所述第一文本表示所述第一媒体项的所述音频内容中与所述第二回放时间相对应的语音。

本文描述了示例性计算机系统。一种示例性计算机系统，该示例性计算机系统包括：显示生成部件；一个或多个输入设备；一个或多个处理器；和存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：经由所述显示生成部件显示媒体回放界面，所述媒体回放界面包括一组一个或多个媒体回放控制用户界面对象，其中所述一组一个或多个媒体回放控制用户界面对象包括可选择的回放位置指示符；以及在所述媒体回放界面被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述一个或多个输入设备检测与所述可选择的回放位置指示符相对应的第一输入；并且响应于检测到所述第一输入：将所述可选择的回放位置指示符从与所述第一媒体项的第一回放时间相对应的第一位置移动到与所述第一媒体项的第二回放时间相对应的第二位置；以及经由所述显示生成部件显示第一文本，所述第一文本表示所述第一媒体项的所述音频内容中与所述第二回放时间相对应的语音。

一种示例性计算机系统，该示例性计算机系统包括：显示生成部件；一个或多个输入设备；用于经由所述显示生成部件显示媒体回放界面的装置，所述媒体回放界面包括一组一个或多个媒体回放控制用户界面对象，其中所述一组一个或多个媒体回放控制用户界面对象包括可选择的回放位置指示符；和在所述媒体回放界面被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：用于经由所述一个或多个输入设备检测与所述可选择的回放位置指示符相对应的第一输入的装置；和响应于检测到所述第一输入：用于将所述可选择的回放位置指示符从与所述第一媒体项的第一回放时间相对应的第一位置移动到与所述第一媒体项的第二回放时间相对应的第二位置的装置；和用于经由所述显示生成部件显示第一文本的装置，所述第一文本表示所述第一媒体项的所述音频内容中与所述第二回放时间相对应的语音。

本文公开了示例性方法。一种示例性方法包括，在与显示生成部件和一个或多个输入设备通信的计算机系统处：经由所述显示生成部件显示媒体回放界面；以及在所述媒体回放界面被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述显示生成部件显示可选择的回放书签指示符；经由所述一个或多个输入设备检测与所述可选择的回放书签指示符相对应的第一用户输入；以及响应于检测到所述第一用户输入，从与在第一类型的语法结构的第一实例的开始处的语音相对应的第一回放时间输出所述第一媒体项的音频内容，其中所述第一类型的所述语法结构包括多个字词。

本文描述了示例性非暂态计算机可读存储介质。一种示例性非暂态计算机可读存储介质存储被配置为由与显示生成部件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：经由所述显示生成部件显示媒体回放界面；以及在所述媒体回放界面被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述显示生成部件显示可选择的回放书签指示符；经由所述一个或多个输入设备检测与所述可选择的回放书签指示符相对应的第一用户输入；以及响应于检测到所述第一用户输入，从与在第一类型的语法结构的第一实例的开始处的语音相对应的第一回放时间输出所述第一媒体项的音频内容，其中所述第一类型的所述语法结构包括多个字词。

本文描述了示例性暂态计算机可读存储介质。一种示例性暂态计算机可读存储介质存储被配置为由与显示生成部件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：经由所述显示生成部件显示媒体回放界面；以及在所述媒体回放界面被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述显示生成部件显示可选择的回放书签指示符；经由所述一个或多个输入设备检测与所述可选择的回放书签指示符相对应的第一用户输入；以及响应于检测到所述第一用户输入，从与在第一类型的语法结构的第一实例的开始处的语音相对应的第一回放时间输出所述第一媒体项的音频内容，其中所述第一类型的所述语法结构包括多个字词。

本文描述了示例性计算机系统。一种示例性计算机系统，该示例性计算机系统包括：显示生成部件；一个或多个输入设备；一个或多个处理器；和存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：经由所述显示生成部件显示媒体回放界面；以及在所述媒体回放界面被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述显示生成部件显示可选择的回放书签指示符；经由所述一个或多个输入设备检测与所述可选择的回放书签指示符相对应的第一用户输入；以及响应于检测到所述第一用户输入，从与在第一类型的语法结构的第一实例的开始处的语音相对应的第一回放时间输出所述第一媒体项的音频内容，其中所述第一类型的所述语法结构包括多个字词。

一种示例性计算机系统，该示例性计算机系统包括：显示生成部件；一个或多个输入设备；用于经由所述显示生成部件显示媒体回放界面的装置；和在所述媒体回放界面被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：用于经由所述显示生成部件显示可选择的回放书签指示符的装置；用于经由所述一个或多个输入设备检测与所述可选择的回放书签指示符相对应的第一用户输入的装置；和响应于检测到所述第一用户输入，用于从与在第一类型的语法结构的第一实例的开始处的语音相对应的第一回放时间输出所述第一媒体项的音频内容的装置，其中所述第一类型的所述语法结构包括多个字词。

本文公开了示例性方法。一种示例性方法包括，在与显示生成部件和一个或多个输入设备通信的计算机系统处：经由所述显示生成部件显示媒体回放应用程序的搜索界面；以及在所述媒体回放应用程序被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述一个或多个输入设备检测包括第一文本搜索串的第一用户输入；以及在检测到所述第一用户输入之后，显示包括第一搜索结果的一个或多个搜索结果，所述第一搜索结果与所述第一媒体项的所述音频内容的语音中匹配所述第一文本搜索串的第一部分相对应。

本文描述了示例性非暂态计算机可读存储介质。一种示例性非暂态计算机可读存储介质存储被配置为由与显示生成部件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：经由所述显示生成部件显示媒体回放应用程序的搜索界面；以及在所述媒体回放应用程序被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述一个或多个输入设备检测包括第一文本搜索串的第一用户输入；以及在检测到所述第一用户输入之后，显示包括第一搜索结果的一个或多个搜索结果，所述第一搜索结果与所述第一媒体项的所述音频内容的语音中匹配所述第一文本搜索串的第一部分相对应。

本文描述了示例性暂态计算机可读存储介质。一种示例性暂态计算机可读存储介质存储被配置为由与显示生成部件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：经由所述显示生成部件显示媒体回放应用程序的搜索界面；以及在所述媒体回放应用程序被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述一个或多个输入设备检测包括第一文本搜索串的第一用户输入；以及在检测到所述第一用户输入之后，显示包括第一搜索结果的一个或多个搜索结果，所述第一搜索结果与所述第一媒体项的所述音频内容的语音中匹配所述第一文本搜索串的第一部分相对应。

本文描述了示例性计算机系统。一种示例性计算机系统，该示例性计算机系统包括：显示生成部件；一个或多个输入设备；一个或多个处理器；和存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：经由所述显示生成部件显示媒体回放应用程序的搜索界面；以及在所述媒体回放应用程序被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：经由所述一个或多个输入设备检测包括第一文本搜索串的第一用户输入；以及在检测到所述第一用户输入之后，显示包括第一搜索结果的一个或多个搜索结果，所述第一搜索结果与所述第一媒体项的所述音频内容的语音中匹配所述第一文本搜索串的第一部分相对应。

一种示例性计算机系统，该示例性计算机系统包括：显示生成部件；一个或多个输入设备；用于经由所述显示生成部件显示媒体回放应用程序的搜索界面的装置；和在所述媒体回放应用程序被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：用于经由所述一个或多个输入设备检测包括第一文本搜索串的第一用户输入的装置；和在检测到所述第一用户输入之后，用于显示包括第一搜索结果的一个或多个搜索结果的装置，所述第一搜索结果与所述第一媒体项的所述音频内容的语音中匹配所述第一文本搜索串的第一部分相对应。

用于执行这些功能的可执行指令任选地被包括在被配置用于由一个或多个处理器执行的非暂态计算机可读存储介质或其他计算机程序产品中。用于执行这些功能的可执行指令任选地被包括在被配置用于由一个或多个处理器执行的暂态计算机可读存储介质或其他计算机程序产品中。

因此，为设备提供了用于管理媒体回放应用程序的更快、更有效的方法和界面，从而提高了此类设备的有效性、效率和用户满意度。此类方法和界面可补充或替换用于管理媒体回放应用程序的其他方法。

附图说明

为了更好地理解各种所述实施方案，应结合以下附图参考下面的具体实施方式，其中类似的附图标号在所有附图中指示对应的部分。

图1A是示出根据一些实施方案的具有触敏显示器的便携式多功能设备的框图。

图1B是示出了根据一些实施方案的用于事件处理的示例性部件的框图。

图2示出了根据一些实施方案的具有触摸屏的便携式多功能设备。

图3是根据一些实施方案的具有显示器和触敏表面的示例性多功能设备的框图。

图4A示出了根据一些实施方案的针对便携式多功能设备上应用程序的菜单的示例性用户界面。

图4B示出了根据一些实施方案的针对具有与显示器分开的触敏表面的多功能设备的示例性用户界面。

图5A示出了根据一些实施方案的个人电子设备。

图5B是示出根据一些实施方案的个人电子设备的框图。

图6A至图6N示出了根据一些实施方案的用于显示与音频的语音相对应的文本的示例性用户界面。

图7是示出了根据一些实施方案的用于显示与音频的语音相对应的文本的方法的流程图。

图8A至图8I示出了根据一些实施方案的用于管理音频文件的书签的示例性用户界面。

图9是示出了根据一些实施方案的用于管理音频文件的书签的方法的流程图。

图10A至图10E示出了根据一些实施方案的用于搜索与音频文件的语音相对应的文本的示例性用户界面。

图11是示出了根据一些实施方案的用于搜索与音频文件的语音相对应的文本的方法的流程图。

具体实施方式

以下描述阐述了示例性方法、参数等。然而，应当认识到，此类描述并非意在限制本公开的范围，而是作为对示例性实施方案的描述来提供。

电子设备需要提供用于管理媒体回放应用程序的有效方法和界面。例如，用户可能需要与被配置为由媒体回放应用程序控制的音频的语音相对应的文本的视觉指示。文本的视觉指示使得用户能够快速地找到音频文件的特定部分。又如，用户可利用音频文件的书签来引起音频文件的特定部分的回放。在语法结构的开始处发起音频文件中与书签相关联的部分的回放有助于用户对音频的理解。又如，用户可能需要通过在搜索功能中使用文本字符串来搜索音频文件的特定部分。电子设备可引起对音频文件执行语音识别以便使得用户能够搜索音频文件的特定部分。此类技术可减轻与媒体回放应用程序交互的用户的认知负担，从而提高生产率。此外，此类技术可减少以其他方式浪费在冗余用户输入上的处理器功率和电池功率。

下面图1A至图1B、图2、图3、图4A至图4B和图5A至图5B提供了对用于执行管理事件通知的技术的示例性设备的描述。图6A至图6N示出了根据一些实施方案的用于显示与音频文件的语音相对应的文本的示例性用户界面。图7是示出了根据一些实施方案的用于显示与音频文件的语音相对应的文本的方法的流程图。图6A至图6N中的用户界面用于示出下文所述的过程，这些过程包括图7中的过程。图8A至图8I示出了根据一些实施方案的用于管理音频文件的书签的示例性用户界面。图9是示出了根据一些实施方案的管理音频文件的书签的方法的流程图。图8A至图8I中的用户界面用于示出下文所述的过程，这些过程包括图9中的过程。图10A至图10E示出了根据一些实施方案的用于搜索与音频文件的语音相对应的文本的示例性用户界面。图11是示出了根据一些实施方案的搜索与音频文件的语音相对应的文本的方法的流程图。图10A至图10E中的用户界面用于示出下文所述的过程，这些过程包括图11中的过程。

尽管以下描述使用术语“第一”、“第二”等来描述各种元件，但这些元件不应受术语的限制。这些术语只是用于将一个元件与另一元件区分开。例如，第一触摸可被命名为第二触摸并且类似地第二触摸可被命名为第一触摸，而不脱离各种所述实施方案的范围。第一触摸和第二触摸两者均为触摸，但是它们不是同一触摸。

在本文中对各种所述实施方案的描述中所使用的术语只是为了描述特定实施方案的目的，而并非旨在进行限制。如在对各种所述实施方案中的描述和所附权利要求书中所使用的那样，单数形式“一个”和“该”旨在也包括复数形式，除非上下文另外明确地指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”(“includes”、“including”、“comprises”和/或“comprising”)在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其分组。

根据上下文，术语“如果”任选地被解释为意指“当......时”、“在......时”或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定……”或“如果检测到[所陈述的条件或事件]”任选地被解释为是指“在确定……时”或“响应于确定……”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

本文描述了电子设备、此类设备的用户界面和使用此类设备的相关过程的实施方案。在一些实施方案中，该设备为还包含其他功能诸如PDA和/或音乐播放器功能的便携式通信设备，诸如移动电话。便携式多功能设备的示例性实施方案包括但不限于来自AppleInc.(Cupertino,California)的

设备、

设备、和

设备。任选地使用其他便携式电子设备，诸如具有触敏表面(例如，触摸屏显示器和/或触摸板)的膝上型电脑或平板电脑。还应当理解的是，在一些实施方案中，该设备并非便携式通信设备，而是具有触敏表面(例如，触摸屏显示器和/或触摸板)的台式计算机。在一些实施方案中，电子设备是(例如，经由无线通信、经由有线通信)与显示生成部件进行通信的计算机系统。显示生成部件被配置为提供视觉输出，诸如经由CRT显示器的显示、经由LED显示器的显示或者经由图像投影的显示。在一些实施方案中，显示生成部件与该计算机系统集成。在一些实施方案中，显示生成部件与该计算机系统分开。如本文所用，“显示”内容包括通过经由有线或无线连接向集成或外部显示生成部件传输数据(例如，图像数据或视频数据)以在视觉上产生内容来显示内容(例如，由显示控制器156渲染或解码的视频数据)。

在下面的讨论中，描述了一种包括显示器和触敏表面的电子设备。然而，应当理解，该电子设备任选地包括一个或多个其他物理用户界面设备，诸如物理键盘、鼠标和/或操纵杆。

该设备通常支持各种应用程序，诸如以下中的一者或多者：绘图应用程序、呈现应用程序、文字处理应用程序、网站创建应用程序、盘编辑应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息应用程序、健身支持应用程序、照片管理应用程序、数字相机应用程序、数字视频摄像机应用程序、网页浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

在设备上执行的各种应用程序任选地使用至少一个通用的物理用户界面设备，诸如触敏表面。触敏表面的一种或多种功能以及被显示在设备上的对应信息任选地对于不同应用程序被调整和/或变化，和/或在相应应用程序内被调整和/或变化。这样，设备的共用物理架构(诸如触敏表面)任选地利用对于用户而言直观且清楚的用户界面来支持各种应用程序。

现在将注意力转到具有触敏显示器的便携式设备的实施方案。图1A是示出了根据一些实施方案的具有触敏显示器系统112的便携式多功能设备100的框图。触敏显示器112有时为了方便被叫做“触摸屏”，并且有时被称为或被叫做“触敏显示器系统”。设备100包括存储器102(其任选地包括一个或多个计算机可读存储介质)、存储器控制器122、一个或多个处理单元(CPU)120、外围设备接口118、RF电路108、音频电路110、扬声器111、麦克风113、输入/输出(I/O)子系统106、其他输入控制设备116和外部端口124。设备100任选地包括一个或多个光学传感器164。设备100任选地包括用于检测设备100(例如，触敏表面，诸如设备100的触敏显示器系统112)上的接触的强度的一个或多个接触强度传感器165。设备100任选地包括用于在设备100上生成触觉输出的一个或多个触觉输出发生器167(例如，在触敏表面(诸如设备100的触敏显示器系统112或设备300的触摸板355)上生成触觉输出)。这些部件任选地通过一个或多个通信总线或信号线103进行通信。

如在本说明书和权利要求书中所使用的，术语触敏表面上的接触的“强度”是指触敏表面上的接触(例如，手指接触)的力或压力(每单位面积的力)，或是指触敏表面上的接触的力或压力的替代物(代用物)。接触的强度具有值范围，该值范围包括至少四个不同的值并且更典型地包括上百个不同的值(例如，至少256个)。接触的强度任选地使用各种方法和各种传感器或传感器的组合来确定(或测量)。例如，在触敏表面下方或相邻于触敏表面的一个或多个力传感器任选地用于测量触敏表面上的不同点处的力。在一些具体实施中，来自多个力传感器的力测量值被组合(例如，加权平均)以确定所估计的接触力。类似地，触笔的压敏顶端任选地用于确定触笔在触敏表面上的压力。另选地，在触敏表面上检测到的接触区域的尺寸和/或其变化、接触附近的触敏表面的电容和/或其变化以及/或者接触附近的触敏表面的电阻和/或其变化任选地被用作触敏表面上的接触的力或压力的替代物。在一些具体实施中，接触力或压力的替代物测量直接用于确定是否已经超过强度阈值(例如，强度阈值以对应于替代物测量的单位来描述)。在一些具体实施中，接触力或压力的替代物测量被转换成估计的力或压力，并且估计的力或压力用于确定是否已超过强度阈值(例如，强度阈值是以压力的单位进行测量的压力阈值)。使用接触的强度作为用户输入的属性，从而允许用户访问用户在实地面积有限的尺寸更小的设备上本来不可访问的附加设备功能，该尺寸更小的设备用于(例如，在触敏显示器上)显示示能表示和/或接收用户输入(例如，经由触敏显示器、触敏表面或物理控件/机械控件，诸如旋钮或按钮)。

如本说明书和权利要求书中所使用的，术语“触觉输出”是指将由用户利用用户的触感检测到的设备相对于设备的先前位置的物理位移、设备的部件(例如，触敏表面)相对于设备的另一个部件(例如，外壳)的物理位移、或部件相对于设备的质心的位移。例如，在设备或设备的部件与用户对触摸敏感的表面(例如，手指、手掌或用户手部的其他部分)接触的情况下，通过物理位移生成的触觉输出将由用户解释为触感，该触感对应于设备或设备的部件的物理特征的所感知的变化。例如，触敏表面(例如，触敏显示器或触控板)的移动任选地由用户解释为对物理致动按钮的“按下点击”或“松开点击”。在一些情况下，用户将感觉到触感，诸如“按下点击”或“松开点击”，即使在通过用户的移动而物理地被按压(例如，被移位)的与触敏表面相关联的物理致动按钮没有移动时。又如，即使在触敏表面的光滑度无变化时，触敏表面的移动也会任选地由用户解释或感测为触敏表面的“粗糙度”。虽然用户对触摸的此类解释将受到用户的个体化感官知觉的限制，但是对触摸的许多感官知觉是大多数用户共有的。因此，当触觉输出被描述为对应于用户的特定感官知觉(例如，“按下点击”、“松开点击”、“粗糙度”)时，除非另外陈述，否则所生成的触觉输出对应于设备或其部件的物理位移，该物理位移将会生成典型(或普通)用户的所述感官知觉。

应当理解，设备100仅仅是便携式多功能设备的一个示例，并且设备100任选地具有比所示出的部件更多或更少的部件，任选地组合两个或更多个部件，或者任选地具有这些部件的不同配置或布置。图1A中所示的各种部件以硬件、软件、或硬件与软件两者的组合来实现，包括一个或多个信号处理和/或专用集成电路。

存储器102任选地包括高速随机存取存储器，并且还任选地包括非易失性存储器，诸如一个或多个磁盘存储设备、闪存存储器设备、或其他非易失性固态存储器设备。存储器控制器122任选地控制设备100的其他部件访问存储器102。

外围设备接口118可用于将设备的输入外围设备和输出外围设备耦接到CPU 120和存储器102。一个或多个处理器120运行或执行存储器102中所存储的各种软件程序和/或指令集以执行设备100的各种功能并处理数据。在一些实施方案中，外围设备接口118、CPU120和存储器控制器122任选地被实现在单个芯片诸如芯片104上。在一些其他实施方案中，它们任选地在独立的芯片上实现。

RF(射频)电路108接收和发送也被称作电磁信号的RF信号。RF电路108将电信号转换为电磁信号/将电磁信号转换为电信号，并且经由电磁信号与通信网络及其他通信设备进行通信。RF电路108任选地包括用于执行这些功能的熟知的电路，包括但不限于天线系统、RF收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码芯片组、用户身份模块(SIM)卡、存储器等等。RF电路108任选地通过无线通信来与网络和其他设备进行通信，这些网络为诸如互联网(也被称为万维网(WWW))、内联网和/或无线网络(诸如，蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN))。RF电路108任选地包括用于诸如通过近程通信无线电部件来检测近场通信(NFC)场的熟知的电路。无线通信任选地使用多种通信标准、协议和技术中的任一者，包括但不限于全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进、纯数据(EV-DO)、HSPA、HSPA+、双单元HSPA(DC-HSPDA)、长期演进(LTE)、近场通信(NFC)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、蓝牙低功耗(BTLE)、无线保真(Wi-Fi)(例如，IEEE 802.11a、IEEE 802.11b、IEEE 802.11g、IEEE802.11n和/或IEEE802.11ac)、互联网协议语音(VoIP)、Wi-MAX、电子邮件协议(例如，互联网消息访问协议(IMAP)和/或邮局协议(POP))、即时消息(例如，可扩展消息处理和存在协议(XMPP)、用于即时消息和存在利用扩展的会话发起协议(SIMPLE)、即时消息和存在服务(IMPS))、和/或短消息服务(SMS)，或者包括在本文档提交日期时还未开发出的通信协议的任何其他适当的通信协议。

音频电路110、扬声器111和麦克风113提供用户与设备100之间的音频接口。音频电路110从外围设备接口118接收音频数据，将音频数据转换为电信号，并将电信号传输到扬声器111。扬声器111将电信号转换为人类可听到的声波。音频电路110还接收由麦克风113从声波转换的电信号。音频电路110将电信号转换为音频数据，并且将音频数据传输到外围设备接口118以用于处理。音频数据任选地由外围设备接口118检索自和/或传输至存储器102和/或RF电路108。在一些实施方案中，音频电路110还包括耳麦插孔(例如，图2中的212)。耳麦插孔提供音频电路110与可移除音频输入/输出外围设备之间的接口，该外围设备为诸如仅输出的耳机或者具有输出(例如，单耳耳机或双耳耳机)和输入(例如，麦克风)两者的耳麦。

I/O子系统106将设备100上的输入/输出外围设备诸如触摸屏112和其他输入控制设备116耦接到外围设备接口118。I/O子系统106任选地包括显示控制器156、光学传感器控制器158、深度相机控制器169、强度传感器控制器159、触觉反馈控制器161，以及用于其他输入或控制设备的一个或多个输入控制器160。该一个或多个输入控制器160从其他输入控制设备116接收电信号/将电信号发送到该其他输入控制设备。该其他输入控制设备116任选地包括物理按钮(例如，下压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击式转盘等。在一些实施方案中，输入控制器160任选地耦接到以下各项中的任一者(或不耦接到以下各项中的任一者)：键盘、红外线端口、USB端口，以及指向设备诸如鼠标。一个或多个按钮(例如，图2中的208)任选地包括用于扬声器111和/或麦克风113音量控制的增大/减小按钮。该一个或多个按钮任选地包括下压按钮(例如，图2中的206)。在一些实施方案中，电子设备是(例如，经由无线通信、经由有线通信)与一个或多个输入设备进行通信的计算机系统。在一些实施方案中，该一个或多个输入设备包括触敏表面(例如，触控板，作为触敏显示器的一部分)。在一些实施方案中，该一个或多个输入设备包括一个或多个相机传感器(例如，一个或多个光学传感器164和/或一个或多个深度相机传感器175)，诸如用于跟踪用户的手势(例如，手部手势)作为输入。在一些实施方案中，一个或多个输入设备与该计算机系统集成。在一些实施方案中，一个或多个输入设备与该计算机系统分开。

快速按下下压按钮任选地脱离触摸屏112的锁定或者任选地开始使用触摸屏上的手势来对设备进行解锁的过程，如在2005年12月23日提交的名称为“Unlocking a Deviceby Performing Gestures on an Unlock Image”的美国专利申请11/322,549(即，美国专利第7,657,849号)中所述的，该美国专利申请据此全文以引用方式并入本文。长按下压按钮(例如206)任选地使设备100开机或关机。一个或多个按钮的功能任选地为用户可定制的。触摸屏112用于实现虚拟按钮或软按钮以及一个或多个软键盘。

触敏显示器112提供设备和用户之间的输入接口和输出接口。显示控制器156从触摸屏112接收电信号和/或将电信号发送到触摸屏112。触摸屏112向用户显示视觉输出。视觉输出任选地包括图形、文本、图标、视频以及它们的任何组合(统称为“图形”)。在一些实施方案中，一些视觉输出或全部的视觉输出任选地与用户界面对象对应。

触摸屏112具有基于触觉和/或触感接触来接受来自用户的输入的触敏表面、传感器、或传感器组。触摸屏112和显示控制器156(与存储器102中的任何相关联的模块和/或指令集一起)检测触摸屏112上的接触(和该接触的任何移动或中断)，并且将所检测到的接触转换为与被显示在触摸屏112上的用户界面对象(例如，一个或多个软键、图标、网页或图像)的交互。在示例性实施方案中，触摸屏112与用户之间的接触点对应于用户的手指。

触摸屏112任选地使用LCD(液晶显示器)技术、LPD(发光聚合物显示器)技术或LED(发光二极管)技术，但是在其他实施方案中使用其他显示技术。触摸屏112和显示控制器156任选地使用现在已知的或以后将开发出的多种触摸感测技术中的任何技术以及其他接近传感器阵列或用于确定与触摸屏112接触的一个或多个点的其他元件来检测接触及其任何移动或中断，该多种触摸感测技术包括但不限于电容性的、电阻性的、红外线的、和表面声波技术。在示例性实施方案中，使用投射式互电容感测技术，诸如在来自Apple Inc.(Cupertino,California)的

和iPod

中使用的技术。

触摸屏112的一些实施方案中的触敏显示器任选地类似于以下美国专利中描述的多点触敏触摸板：6,323,846(Westerman等人)、6,570,557(Westerman等人)和/或6,677,932(Westerman等人)和/或美国专利公开2002/0015024A1，该每个专利据此全文以引用方式并入。然而，触摸屏112显示来自设备100的视觉输出，而触敏触摸板不提供视觉输出。

触摸屏112的一些实施方案中的触敏显示器在以下申请中有所描述：(1)2006年5月2日提交的美国专利申请11/381,313，“Multipoint Touch Surface Controller”；(2)2004年5月6日提交的美国专利申请10/840,862，“Multipoint Touchscreen”；(3)2004年7月30日提交的美国专利申请10/903,964，“Gestures For Touch Sensitive InputDevices”；(4)2005年1月31日提交的美国专利申请11/048,264，“Gestures For TouchSensitive Input Devices”；(5)2005年1月18日提交的美国专利申请11/038,590，“Mode-Based Graphical User Interfaces For Touch Sensitive Input Devices”；(6)2005年9月16日提交的美国专利申请11/228,758，“Virtual Input Device Placement On A TouchScreen User Interface”；(7)2005年9月16日提交的美国专利申请11/228,700，“Operation Of A Computer With A Touch Screen Interface”；(8)2005年9月16日提交的美国专利申请11/228,737，“Activating Virtual Keys Of A Touch-Screen VirtualKeyboard”；以及(9)2006年3月3日提交的美国专利申请11/367,749，“Multi-FunctionalHand-Held Device”。所有这些申请全文以引用方式并入本文。

触摸屏112任选地具有超过100dpi的视频分辨率。在一些实施方案中，触摸屏具有约160dpi的视频分辨率。用户任选地使用任何合适的物体或附加物诸如触笔、手指等等来与触摸屏112接触。在一些实施方案中，将用户界面设计为主要通过基于手指的接触和手势来工作，由于手指在触摸屏上的接触区域较大，因此这可能不如基于触笔的输入精确。在一些实施方案中，设备将基于手指的粗略输入转化为精确的指针/光标位置或命令以用于执行用户所期望的动作。

在一些实施方案中，除了触摸屏之外，设备100任选地还包括用于激活或去激活特定功能的触摸板。在一些实施方案中，触摸板是设备的触敏区域，与触摸屏不同，该触敏区域不显示视觉输出。触摸板任选地是与触摸屏112分开的触敏表面，或者是由触摸屏形成的触敏表面的延伸部分。

设备100还包括用于为各种部件供电的电力系统162。电力系统162任选地包括电力管理系统、一个或多个电源(例如，电池、交流电(AC))、再充电系统、电力故障检测电路、功率转换器或逆变器、电源状态指示符(例如，发光二极管(LED))以及与便携式设备中的电力的生成、管理和分配相关联的任何其他部件。

设备100任选地还包括一个或多个光学传感器164。图1A示出了耦接到I/O子系统106中的光学传感器控制器158的光学传感器。光学传感器164任选地包括电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光电晶体管。光学传感器164从环境接收通过一个或多个透镜而投射的光，并且将光转换为表示图像的数据。结合成像模块143(也叫做相机模块)，光学传感器164任选地捕获静态图像或视频。在一些实施方案中，光学传感器位于设备100的后部上，与设备前部上的触摸屏显示器112相背对，使得触摸屏显示器能够用作用于静态图像和/或视频图像采集的取景器。在一些实施方案中，光学传感器位于设备的前部上，使得在用户在触摸屏显示器上查看其他视频会议参与者的同时任选地获取该用户的图像以用于视频会议。在一些实施方案中，光学传感器164的位置可由用户改变(例如，通过旋转设备外壳中的透镜和传感器)，使得单个光学传感器164与触摸屏显示器一起使用，以用于视频会议和静态图像和/或视频图像采集两者。

设备100任选地还包括一个或多个深度相机传感器175。图1A示出了耦接到I/O子系统106中的深度相机控制器169的深度相机传感器。深度相机传感器175从环境接收数据以从视点(例如，深度相机传感器)创建场景内的对象(例如，面部)的三维模型。在一些实施方案中，结合成像模块143(也称为相机模块)，深度相机传感器175可选地用于确定由成像模块143捕获的图像的不同部分的深度图。在一些实施方案中，深度相机传感器位于设备100的前部，使得在用户在触摸屏显示器上查看其他视频会议参与者的同时任选地获取具有深度信息的用户图像以用于视频会议，并且捕捉具有深度图数据的自拍。在一些实施方案中，深度相机传感器175位于设备的后部，或者设备100的后部和前部。在一些实施方案中，深度相机传感器175的位置可由用户改变(例如，通过旋转设备外壳中的透镜和传感器)，使得深度相机传感器175与触摸屏显示器一起使用以用于视频会议和静态图像和/或视频图像采集两者。

设备100任选地还包括一个或多个接触强度传感器165。图1A示出了耦接到I/O子系统106中的强度传感器控制器159的接触强度传感器。接触强度传感器165任选地包括一个或多个压阻应变仪、电容式力传感器、电气力传感器、压电力传感器、光学力传感器、电容式触敏表面或其他强度传感器(例如，用于测量触敏表面上的接触的力(或压力)的传感器)。接触强度传感器165从环境接收接触强度信息(例如，压力信息或压力信息的代用物)。在一些实施方案中，至少一个接触强度传感器与触敏表面(例如，触敏显示器系统112)并置排列或邻近。在一些实施方案中，至少一个接触强度传感器位于设备100的后部上，与位于设备100的前部上的触摸屏显示器112相背对。

设备100任选地还包括一个或多个接近传感器166。图1A示出了耦接到外围设备接口118的接近传感器166。另选地，接近传感器166任选地耦接到I/O子系统106中的输入控制器160。接近传感器166任选地如以下美国专利申请中所述的那样执行：第11/241,839号，名称为“Proximity Detector In Handheld Device”；第11/240,788号，名称为“ProximityDetector In Handheld Device”；第11/620,702号，名称为“Using Ambient Light SensorTo Augment Proximity Sensor Output”；第11/586,862号，名称为“Automated ResponseTo And Sensing Of User Activity In Portable Devices”；以及第11/638,251号，名称为“Methods And Systems For Automatic Configuration Of Peripherals”，这些美国专利申请据此全文以引用方式并入本文。在一些实施方案中，当多功能设备被置于用户的耳朵附近时(例如，当用户正在进行电话呼叫时)，接近传感器关闭并且禁用触摸屏112。

设备100任选地还包括一个或多个触觉输出发生器167。图1A示出了耦接到I/O子系统106中的触觉反馈控制器161的触觉输出发生器。触觉输出发生器167任选地包括一个或多个电声设备诸如扬声器或其他音频部件；和/或用于将能量转换成线性运动的机电设备诸如电机、螺线管、电活性聚合物、压电致动器、静电致动器或其他触觉输出生成部件(例如，用于将电信号转换成设备上的触觉输出的部件)。接触强度传感器165从触觉反馈模块133接收触觉反馈生成指令，并且在设备100上生成能够由设备100的用户感觉到的触觉输出。在一些实施方案中，至少一个触觉输出发生器与触敏表面(例如，触敏显示器系统112)并置排列或邻近，并且任选地通过竖直地(例如，向设备100的表面内/外)或侧向地(例如，在与设备100的表面相同的平面中向后和向前)移动触敏表面来生成触觉输出。在一些实施方案中，至少一个触觉输出发生器传感器位于设备100的后部上，与位于设备100的前部上的触摸屏显示器112相背对。

设备100任选地还包括一个或多个加速度计168。图1A示出了耦接到外围设备接口118的加速度计168。另选地，加速度计168任选地耦接到I/O子系统106中的输入控制器160。加速度计168任选地如以下美国专利公开中所述的那样执行：美国专利公开第20050190059号，名称为“Acceleration-based Theft Detection System for Portable ElectronicDevices”和美国专利公开第20060017692号，名称为“Methods And Apparatuses ForOperating A Portable Device Based On An Accelerometer”，这两个美国专利公开均全文以引用方式并入本文。在一些实施方案中，基于对从一个或多个加速度计接收的数据的分析来在触摸屏显示器上以纵向视图或横向视图显示信息。设备100任选地除了加速度计168之外还包括磁力仪和GPS(或GLONASS或其他全球导航系统)接收器，以用于获取关于设备100的位置和取向(例如，纵向或横向)的信息。

在一些实施方案中，存储于存储器102中的软件组件包括操作系统126、通信模块(或指令集)128、接触/运动模块(或指令集)130、图形模块(或指令集)132、文本输入模块(或指令集)134、全球定位系统(GPS)模块(或指令集)135以及应用程序(或指令集)136。此外，在一些实施方案中，存储器102(图1A)或370(图3)存储设备/全局内部状态157，如图1A和图3中所示。设备/全局内部状态157包括以下中的一者或多者：活动应用程序状态，其指示哪些应用程序(如果有的话)当前是活动的；显示状态，指示什么应用、视图或其他信息占据了触摸屏显示器112的各个区域；传感器状态，包括从设备的各个传感器和输入控制设备116获得的信息；以及涉及设备位置和/或姿态的位置信息。

操作系统126(例如，Darwin、RTXC、LINUX、UNIX、OS X、iOS、WINDOWS或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般系统任务(例如，存储器管理、存储设备控制、功率管理等)的各种软件组件和/或驱动器，并且促进各种硬件组件和软件组件之间的通信。

通信模块128有利于通过一个或多个外部端口124来与其他设备进行通信，并且还包括用于处理由RF电路108和/或外部端口124所接收的数据的各种软件组件。外部端口124(例如，通用串行总线(USB)、火线等)适于直接耦接到其他设备，或间接地通过网络(例如，互联网、无线LAN等)进行耦接。在一些实施方案中，外部端口是与

(Apple Inc.的商标)设备上所使用的30针连接器相同的或类似的和/或与其兼容的多针(例如，30针)连接器。

接触/运动模块130任选地检测与触摸屏112(结合显示控制器156)和其他触敏设备(例如，触摸板或物理点击式转盘)的接触。接触/运动模块130包括各种软件组件以用于执行与接触检测相关的各种操作，诸如确定是否已经发生了接触(例如，检测手指按下事件)、确定接触强度(例如，接触的力或压力，或者接触的力或压力的替代物)、确定是否存在接触的移动并跟踪在触敏表面上的移动(例如，检测一个或多个手指拖动事件)，以及确定接触是否已经停止(例如，检测手指抬起事件或者接触断开)。接触/运动模块130从触敏表面接收接触数据。确定接触点的移动任选地包括确定接触点的速率(量值)、速度(量值和方向)和/或加速度(量值和/或方向的改变)，所述接触点的移动由一系列接触数据表示。这些操作任选地被应用于单点接触(例如，单指接触)或者多点同时接触(例如，“多点触摸”/多个手指接触)。在一些实施方案中，接触/运动模块130和显示控制器156检测触摸板上的接触。

在一些实施方案中，接触/运动模块130使用一组一个或多个强度阈值来确定操作是否已由用户执行(例如，确定用户是否已“点击”图标)。在一些实施方案中，根据软件参数来确定强度阈值的至少一个子集(例如，强度阈值不是由特定物理致动器的激活阈值来确定的，并且可在不改变设备100的物理硬件的情况下被调节)。例如，在不改变触控板或触摸屏显示器硬件的情况下，触控板或触摸屏的鼠标“点击”阈值可被设定成预定义的阈值的大范围中的任一个阈值。另外，在一些具体实施中，向设备的用户提供用于调节一组强度阈值中的一个或多个强度阈值(例如，通过调节各个强度阈值和/或通过利用对“强度”参数的系统级点击来一次调节多个强度阈值)的软件设置。

接触/运动模块130任选地检测由用户进行的手势输入。触敏表面上的不同手势具有不同的接触模式(例如，所检测到的接触的不同运动、计时和/或强度)。因此，任选地通过检测特定接触模式来检测手势。例如，检测手指轻击手势包括检测手指按下事件，然后在与手指按下事件相同的位置(或基本上相同的位置)处(例如，在图标的位置处)检测手指抬起(抬离)事件。作为另一个示例，在触敏表面上检测手指轻扫手势包括检测手指按下事件，然后检测一个或多个手指拖动事件，并且随后检测手指抬起(抬离)事件。

图形模块132包括用于在触摸屏112或其他显示器上呈现和显示图形的各种已知的软件组件，包括用于改变所显示的图形的视觉冲击(例如，亮度、透明度、饱和度、对比度或其他视觉属性)的部件。如本文所用，术语“图形”包括可被显示给用户的任何对象，包括但不限于文本、网页、图标(诸如，包括软键的用户界面对象)、数字图像、视频、动画等。

在一些实施方案中，图形模块132存储表示待使用的图形的数据。每个图形任选地被分配有对应的代码。图形模块132从应用程序等接收用于指定待显示的图形的一个或多个代码，在必要的情况下还一起接收坐标数据和其他图形属性数据，并且然后生成屏幕图像数据，以输出至显示控制器156。

触觉反馈模块133包括用于生成指令的各种软件组件，该指令由触觉输出发生器167用于响应于用户与设备100的交互而在设备100上的一个或多个位置处产生触觉输出。

任选地为图形模块132的部件的文本输入模块134提供用于在各种应用程序(例如，联系人137、电子邮件140、IM 141、浏览器147和需要文本输入的任何其他应用程序)中输入文本的软键盘。

GPS模块135确定设备的位置，并提供该信息以供在各种应用程序中使用(例如提供给电话138以供在基于位置的拨号中使用；提供给相机143作为图片/视频元数据；以及提供给提供基于位置的服务的应用程序，诸如天气小组件、本地黄页小组件和地图/导航小组件)。

应用程序136任选地包括以下模块(或指令集)或者其子集或超集：

·联系人模块137(有时称为通讯录或联系人列表)；

·电话模块138；

·视频会议模块139；

·电子邮件客户端模块140；

·即时消息(IM)模块141；

·健身支持模块142；

·用于静态图像和/或视频图像的相机模块143；

·图像管理模块144；

·视频播放器模块；

·音乐播放器模块；

·浏览器模块147；

·日历模块148；

·小组件模块149，其任选地包括以下各项中的一者或多者：天气小组件149-1、股市小组件149-2、计算器小组件149-3、闹钟小组件149-4、词典小组件149-5、和由用户获取的其他小组件、以及用户创建的小组件149-6；

·用于形成用户创建的小组件149-6的小组件创建器模块150；

·搜索模块151；

·视频和音乐播放器模块152，其合并视频播放器模块和音乐播放器模块；

·笔记模块153；

·地图模块154；和/或

·在线视频模块155。

任选地存储在存储器102中的其他应用程序136的示例包括其他文字处理应用程序、其他图像编辑应用程序、绘图应用程序、呈现应用程序、支持JAVA的应用程序、加密、数字权益管理、语音识别和语音复制。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132、和文本输入模块134，联系人模块137任选地用于管理通讯录或联系人列表(例如，存储在存储器102或存储器370中的联系人模块137的应用程序内部状态192中)，包括：向通讯录添加一个或多个姓名；从通讯录删除姓名；将电话号码、电子邮件地址、物理地址或其他信息与姓名关联；将图像与姓名关联；对姓名进行归类和分类；提供电话号码或电子邮件地址来发起和/或促进通过电话138、视频会议模块139、电子邮件140或IM 141进行的通信；等等。

结合RF电路108、音频电路110、扬声器111、麦克风113、触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，电话模块138任选地用于输入与电话号码对应的字符序列、访问联系人模块137中的一个或多个电话号码、修改已输入的电话号码、拨打相应的电话号码、进行会话，以及当会话完成时断开或挂断。如上所述，无线通信任选地使用多种通信标准、协议和技术中的任一种。

结合RF电路108、音频电路110、扬声器111、麦克风113、触摸屏112、显示控制器156、光学传感器164、光学传感器控制器158、接触/运动模块130、图形模块132、文本输入模块134、联系人模块137和电话模块138，视频会议模块139包括根据用户指令来发起、进行和终止用户与一个或多个其他参与方之间的视频会议的可执行指令。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，电子邮件客户端模块140包括响应于用户指令来创建、发送、接收和管理电子邮件的可执行指令。结合图像管理模块144，电子邮件客户端模块140使得非常容易创建和发送具有由相机模块143拍摄的静态图像或视频图像的电子邮件。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，即时消息模块141包括用于以下操作的可执行指令：输入与即时消息对应的字符序列、修改先前输入的字符、传输相应即时消息(例如，使用短消息服务(SMS)或多媒体消息服务(MMS)协议以用于基于电话的即时消息或者使用XMPP、SIMPLE、或IMPS以用于基于互联网的即时消息)、接收即时消息以及查看所接收的即时消息。在一些实施方案中，所传输和/或接收的即时消息任选地包括图形、照片、音频文件、视频文件和/或MMS和/或增强消息服务(EMS)中所支持的其他附件。如本文所用，“即时消息”是指基于电话的消息(例如，使用SMS或MMS发送的消息)和基于互联网的消息(例如，使用XMPP、SIMPLE或IMPS发送的消息)两者。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134、GPS模块135、地图模块154和音乐播放器模块，健身支持模块142包括用于创建健身(例如，具有时间、距离和/或卡路里燃烧目标)的可执行指令；与健身传感器(运动设备)进行通信；接收健身传感器数据；校准用于监视健身的传感器；为健身选择和播放音乐；以及显示、存储和传输健身数据。

结合触摸屏112、显示控制器156、光学传感器164、光学传感器控制器158、接触/运动模块130、图形模块132和图像管理模块144，相机模块143包括用于以下操作的可执行指令：捕获静态图像或视频(包括视频流)并且将它们存储到存储器102中、修改静态图像或视频的特征，或从存储器102删除静态图像或视频。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134、和相机模块143，图像管理模块144包括用于排列、修改(例如，编辑)、或以其他方式操控、加标签、删除、呈现(例如，在数字幻灯片或专辑中)、以及存储静态图像和/或视频图像的可执行指令。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，浏览器模块147包括用于根据用户指令来浏览互联网，包括搜索、链接至、接收和显示网页或其部分，以及链接至网页的附件和其他文件的可执行指令。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134、电子邮件客户端模块140和浏览器模块147，日历模块148包括根据用户指令来创建、显示、修改和存储日历以及与日历相关联的数据(例如，日历条目、待办事项等)的可执行指令。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134和浏览器模块147，小组件模块149是任选地由用户下载和使用的微型应用程序(例如，天气小组件149-1、股市小组件149-2、计算器小组件149-3、闹钟小组件149-4和词典小组件149-5)或由用户创建的微型应用程序(例如，用户创建的小组件149-6)。在一些实施方案中，小组件包括HTML(超文本标记语言)文件、CSS(层叠样式表)文件和JavaScript文件。在一些实施方案中，小组件包括XML(可扩展标记语言)文件和JavaScript文件(例如，Yahoo！小组件)。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134和浏览器模块147，小组件创建器模块150任选地被用户用于创建小组件(例如，将网页的用户指定部分转变为小组件)。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，搜索模块151包括用于根据用户指令来搜索存储器102中与一个或多个搜索条件(例如，一个或多个用户指定的搜索词)匹配的文本、音乐、声音、图像、视频和/或其他文件的可执行指令。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132、音频电路110、扬声器111、RF电路108、和浏览器模块147，视频和音乐播放器模块152包括允许用户下载和回放以一种或多种文件格式诸如MP3或AAC文件存储的所记录的音乐和其他声音文件的可执行指令，以及用于显示、呈现或以其他方式回放视频(例如，在触摸屏112上或在经由外部端口124连接的外部显示器上)的可执行指令。在一些实施方案中，设备100任选地包括MP3播放器诸如iPod(Apple Inc.的商标)的功能。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132和文本输入模块134，笔记模块153包括用于根据用户指令来创建和管理笔记、待办事项等的可执行指令。

结合RF电路108、触摸屏112、显示控制器156、接触/运动模块130、图形模块132、文本输入模块134、GPS模块135和浏览器模块147，地图模块154任选地用于根据用户指令接收、显示、修改和存储地图以及与地图相关联的数据(例如，驾驶方向、与特定位置处或附近的商店及其他兴趣点有关的数据，以及其他基于位置的数据)。

结合触摸屏112、显示控制器156、接触/运动模块130、图形模块132、音频电路110、扬声器111、RF电路108、文本输入模块134、电子邮件客户端模块140和浏览器模块147，在线视频模块155包括用于执行以下操作的指令：允许用户访问、浏览、接收(例如，通过流式传输和/或下载)、回放(例如在触摸屏上或在经由外部端口124所连接的外部显示器上)、发送具有至特定在线视频的链接的电子邮件，以及以其他方式管理一种或多种文件格式诸如H.264的在线视频。在一些实施方案中，使用即时消息模块141而不是电子邮件客户端模块140来发送特定在线视频的链接。在线视频应用程序的其他描述可见于2007年6月20日提交的名称为“Portable Multifunction Device,Method,and Graphical User Interfacefor Playing Online Videos”的美国临时专利申请第60/936,562号和2007年12月31日提交的名称为“Portable Multifunction Device,Method,and Graphical User Interfacefor Playing Online Videos”的美国专利申请第11/968,067号，这两个专利申请的内容据此全文以引用方式并入本文。

上述每个模块和应用程序对应于用于执行上述一种或多种功能以及在本专利申请中所述的方法(例如，本文所述的计算机实现的方法和其他信息处理方法)的可执行指令集。这些模块(例如，指令集)不必以独立的软件程序、过程或模块实现，因此这些模块的各种子集任选地在各种实施方案中组合或以其他方式重新布置。例如，视频播放器模块任选地与音乐播放器模块组合成单个模块(例如，图1A中的视频和音乐播放器模块152)。在一些实施方案中，存储器102任选地存储上述模块和数据结构的子组。此外，存储器102任选地存储上文未描述的另外的模块和数据结构。

在一些实施方案中，设备100是该设备上的预定义的一组功能的操作唯一地通过触摸屏和/或触摸板来执行的设备。通过使用触摸屏和/或触摸板作为用于操作设备100的主要输入控制设备，任选地减少设备100上的物理输入控制设备(例如，下压按钮、拨盘等等)的数量。

唯一地通过触摸屏和/或触摸板来执行的预定义的一组功能任选地包括在用户界面之间的浏览。在一些实施方案中，触摸板在被用户触摸时将设备100从设备100上显示的任何用户界面导航到主菜单、home菜单或根菜单。在此类实施方案中，使用触摸板来实现“菜单按钮”。在一些其他实施方案中，菜单按钮是物理下压按钮或者其他物理输入控制设备，而不是触摸板。

图1B是示出了根据一些实施方案的用于事件处理的示例性部件的框图。在一些实施方案中，存储器102(图1A)或存储器370(图3)包括事件分类器170(例如，在操作系统126中)以及相应的应用程序136-1(例如，前述应用程序137至151、155、380至390中的任一个应用程序)。

事件分类器170接收事件信息并确定要将事件信息递送到的应用程序136-1和应用程序136-1的应用程序视图191。事件分类器170包括事件监视器171和事件分配器模块174。在一些实施方案中，应用程序136-1包括应用程序内部状态192，该应用程序内部状态指示当应用程序是活动的或正在执行时被显示在触敏显示器112上的一个或多个当前应用程序视图。在一些实施方案中，设备/全局内部状态157被事件分类器170用来确定哪个(哪些)应用程序当前是活动的，并且应用程序内部状态192被事件分类器170用来确定要将事件信息递送到的应用程序视图191。

在一些实施方案中，应用程序内部状态192包括附加信息，诸如以下各项中的一者或多者：当应用程序136-1恢复执行时将被使用的恢复信息、指示信息正被显示或准备好用于被应用程序136-1显示的用户界面状态信息、用于使得用户能够返回到应用程序136-1的前一状态或视图的状态队列，以及用户采取的先前动作的重复/撤销队列。

事件监视器171从外围设备接口118接收事件信息。事件信息包括关于子事件(例如，触敏显示器112上的用户触摸，作为多点触摸手势的一部分)的信息。外围设备接口118传输其从I/O子系统106或传感器诸如接近传感器166、一个或多个加速度计168和/或麦克风113(通过音频电路110)接收的信息。外围设备接口118从I/O子系统106接收的信息包括来自触敏显示器112或触敏表面的信息。

在一些实施方案中，事件监视器171以预先确定的间隔将请求发送至外围设备接口118。作为响应，外围设备接口118传输事件信息。在其他实施方案中，外围设备接口118仅当存在显著事件(例如，接收到高于预先确定的噪声阈值和/或接收到超过预先确定的持续时间的输入)时才传输事件信息。

在一些实施方案中，事件分类器170还包括命中视图确定模块172和/或活动事件识别器确定模块173。

当触敏显示器112显示多于一个视图时，命中视图确定模块172提供用于确定子事件已在一个或多个视图内的什么地方发生的软件过程。视图由用户能够在显示器上看到的控件和其他元素构成。

与应用程序相关联的用户界面的另一方面是一组视图，本文中有时也称为应用程序视图或用户界面窗口，在其中显示信息并且发生基于触摸的手势。在其中检测到触摸的(相应应用程序的)应用程序视图任选地对应于在应用程序的程序化或视图分级结构内的程序化水平。例如，在其中检测到触摸的最低水平视图任选地被称为命中视图，并且被识别为正确输入的事件集任选地至少部分地基于初始触摸的命中视图来确定，所述初始触摸开始基于触摸的手势。

命中视图确定模块172接收与基于触摸的手势的子事件相关的信息。当应用程序具有以分级结构组织的多个视图时，命中视图确定模块172将命中视图识别为应当对子事件进行处理的分级结构中的最低视图。在大多数情况下，命中视图是发起子事件(例如，形成事件或潜在事件的子事件序列中的第一子事件)在其中发生的最低水平视图。一旦命中视图被命中视图确定模块172识别，命中视图便通常接收与其被识别为命中视图所针对的同一触摸或输入源相关的所有子事件。

活动事件识别器确定模块173确定视图分级结构内的哪个或哪些视图应接收特定子事件序列。在一些实施方案中，活动事件识别器确定模块173确定仅命中视图应接收特定子事件序列。在其他实施方案中，活动事件识别器确定模块173确定包括子事件的物理位置的所有视图是活跃参与的视图，并因此确定所有活跃参与的视图都应接收特定子事件序列。在其他实施方案中，即使触摸子事件完全被局限到与一个特定视图相关联的区域，分级结构中的较高视图将仍然保持为活跃参与的视图。

事件分配器模块174将事件信息分配到事件识别器(例如，事件识别器180)。在包括活动事件识别器确定模块173的实施方案中，事件分配器模块174将事件信息递送到由活动事件识别器确定模块173确定的事件识别器。在一些实施方案中，事件分配器模块174在事件队列中存储事件信息，该事件信息由相应事件接收器182进行检索。

在一些实施方案中，操作系统126包括事件分类器170。另选地，应用程序136-1包括事件分类器170。在又一个实施方案中，事件分类器170是独立模块，或者是存储在存储器102中的另一个模块(诸如，接触/运动模块130)的一部分。

在一些实施方案中，应用程序136-1包括多个事件处理程序190和一个或多个应用程序视图191，其中的每一个都包括用于处理发生在应用程序的用户界面的相应视图内的触摸事件的指令。应用程序136-1的每个应用程序视图191包括一个或多个事件识别器180。通常，相应应用程序视图191包括多个事件识别器180。在其他实施方案中，事件识别器180中的一个或多个事件识别器是独立模块的一部分，该独立模块为诸如用户界面工具包或应用程序136-1从中继承方法和其他属性的更高级别的对象。在一些实施方案中，相应事件处理程序190包括以下各项中的一者或多者：数据更新器176、对象更新器177、GUI更新器178、和/或从事件分类器170接收的事件数据179。事件处理程序190任选地利用或调用数据更新器176、对象更新器177或GUI更新器178来更新应用程序内部状态192。另选地，应用程序视图191中的一个或多个应用程序视图包括一个或多个相应事件处理程序190。另外，在一些实施方案中，数据更新器176、对象更新器177和GUI更新器178中的一者或多者被包括在相应应用程序视图191中。

相应的事件识别器180从事件分类器170接收事件信息(例如，事件数据179)，并且根据事件信息识别事件。事件识别器180包括事件接收器182和事件比较器184。在一些实施方案中，事件识别器180还包括元数据183和事件传递指令188(其任选地包括子事件递送指令)的至少一个子集。

事件接收器182从事件分类器170接收事件信息。事件信息包括关于子事件例如触摸或触摸移动的信息。根据子事件，事件信息还包括附加信息，诸如子事件的位置。当子事件涉及触摸的运动时，事件信息任选地还包括子事件的速率和方向。在一些实施方案中，事件包括设备从一个取向旋转到另一取向(例如，从纵向取向旋转到横向取向，或反之亦然)，并且事件信息包括关于设备的当前取向(也被称为设备姿态)的对应信息。

事件比较器184将事件信息与预定义的事件或子事件定义进行比较，并且基于该比较来确定事件或子事件，或者确定或更新事件或子事件的状态。在一些实施方案中，事件比较器184包括事件定义186。事件定义186包含事件的定义(例如，预定义的子事件序列)，例如事件1(187-1)、事件2(187-2)以及其他。在一些实施方案中，事件(187)中的子事件例如包括触摸开始、触摸结束、触摸移动、触摸取消和多点触摸。在一个示例中，事件1(187-1)的定义是被显示对象上的双击。例如，双击包括被显示对象上的预先确定时长的第一触摸(触摸开始)、预先确定时长的第一抬离(触摸结束)、被显示对象上的预先确定时长的第二触摸(触摸开始)以及预先确定时长的第二抬离(触摸结束)。在另一个示例中，事件2(187-2)的定义是被显示对象上的拖动。例如，拖动包括被显示对象上的预先确定时长的触摸(或接触)、触摸在触敏显示器112上的移动、以及触摸的抬离(触摸结束)。在一些实施方案中，事件还包括用于一个或多个相关联的事件处理程序190的信息。

在一些实施方案中，事件定义187包括对用于相应用户界面对象的事件的定义。在一些实施方案中，事件比较器184执行命中测试以确定哪个用户界面对象与子事件相关联。例如，在触敏显示器112上显示三个用户界面对象的应用程序视图中，当在触敏显示器112上检测到触摸时，事件比较器184执行命中测试以确定这三个用户界面对象中的哪一个用户界面对象与该触摸(子事件)相关联。如果每个所显示对象与相应事件处理程序190相关联，则事件比较器使用该命中测试的结果来确定哪个事件处理程序190应当被激活。例如，事件比较器184选择与子事件和触发该命中测试的对象相关联的事件处理程序。

在一些实施方案中，相应事件(187)的定义还包括延迟动作，该延迟动作延迟事件信息的递送，直到已确定子事件序列确实对应于或不对应于事件识别器的事件类型。

当相应事件识别器180确定子事件序列不与事件定义186中的任何事件匹配时，该相应事件识别器180进入事件不可能、事件失败或事件结束状态，在此之后忽略基于触摸的手势的后续子事件。在这种情况下，对于命中视图保持活动的其他事件识别器(如果有的话)继续跟踪并处理持续进行的基于触摸的手势的子事件。

在一些实施方案中，相应事件识别器180包括具有指示事件递送系统应当如何执行对活跃参与的事件识别器的子事件递送的可配置属性、标记和/或列表的元数据183。在一些实施方案中，元数据183包括指示事件识别器彼此如何交互或如何能够交互的可配置属性、标志和/或列表。在一些实施方案中，元数据183包括指示子事件是否递送到视图或程序化分级结构中的不同层级的可配置属性、标志和/或列表。

在一些实施方案中，当事件的一个或多个特定子事件被识别时，相应事件识别器180激活与事件相关联的事件处理程序190。在一些实施方案中，相应事件识别器180将与事件相关联的事件信息递送到事件处理程序190。激活事件处理程序190不同于将子事件发送(和延期发送)到相应命中视图。在一些实施方案中，事件识别器180抛出与所识别的事件相关联的标记，并且与该标记相关联的事件处理程序190获取该标记并执行预定义过程。

在一些实施方案中，事件递送指令188包括递送关于子事件的事件信息而不激活事件处理程序的子事件递送指令。相反，子事件递送指令将事件信息递送到与子事件序列相关联的事件处理程序或者递送到活跃参与的视图。与子事件序列或与活跃参与的视图相关联的事件处理程序接收事件信息并执行预先确定的过程。

在一些实施方案中，数据更新器176创建并更新在应用程序136-1中使用的数据。例如，数据更新器176对联系人模块137中所使用的电话号码进行更新，或者对视频播放器模块中所使用的视频文件进行存储。在一些实施方案中，对象更新器177创建并更新在应用程序136-1中使用的对象。例如，对象更新器177创建新的用户界面对象或更新用户界面对象的位置。GUI更新器178更新GUI。例如，GUI更新器178准备显示信息，并且将显示信息发送到图形模块132用以显示在触敏显示器上。

在一些实施方案中，事件处理程序190包括数据更新器176、对象更新器177和GUI更新器178，或具有对该数据更新器、该对象更新器和该GUI更新器的访问权限。在一些实施方案中，数据更新器176、对象更新器177和GUI更新器178被包括在相应应用程序136-1或应用程序视图191的单个模块中。在其他实施方案中，它们被包括在两个或更多个软件模块中。

应当理解，关于触敏显示器上的用户触摸的事件处理的上述论述还适用于利用输入设备来操作多功能设备100的其他形式的用户输入，并不是所有用户输入都是在触摸屏上发起的。例如，任选地与单次或多次键盘按下或按住协作的鼠标移动和鼠标按钮按下；触摸板上的接触移动，诸如轻击、拖动、滚动等；触笔输入；设备的移动；口头指令；检测到的眼睛移动；生物特征输入；和/或它们的任何组合任选地被用作对应于限定要识别的事件的子事件的输入。

图2示出了根据一些实施方案的具有触摸屏112的便携式多功能设备100。触摸屏任选地在用户界面(UI)200内显示一个或多个图形。在本实施方案以及下文所述的其他实施方案中，用户能够通过例如利用一根或多根手指202(在图中未按比例绘制)或一支或多支触笔203(在图中未按比例绘制)在图形上作出手势来选择这些图形中的一个或多个图形。在一些实施方案中，当用户中断与一个或多个图形的接触时，将发生对一个或多个图形的选择。在一些实施方案中，手势任选地包括一次或多次轻击、一次或多次轻扫(从左向右、从右向左、向上和/或向下)和/或已与设备100发生接触的手指的滚动(从右向左、从左向右、向上和/或向下)。在一些具体实施中或在一些情况下，不经意地与图形接触不会选择图形。例如，当与选择对应的手势是轻击时，在应用程序图标上方扫动的轻扫手势任选地不会选择对应的应用程序。

设备100任选地还包括一个或多个物理按钮，诸如“home”或菜单按钮204。如前所述，菜单按钮204任选地用于导航到任选地在设备100上被执行的一组应用程序中的任何应用程序136。另选地，在一些实施方案中，菜单按钮被实现为被显示在触摸屏112上的GUI中的软键。

在一些实施方案中，设备100包括触摸屏112、菜单按钮204、用于使设备开机/关机和用于锁定设备的下压按钮206、一个或多个音量调节按钮208、用户身份模块(SIM)卡槽210、耳麦插孔212和对接/充电外部端口124。下压按钮206任选地用于通过压下该按钮并且将该按钮保持在压下状态持续预定义的时间间隔来对设备进行开/关机；通过压下该按钮并在该预定义的时间间隔过去之前释放该按钮来锁定设备；和/或对设备进行解锁或发起解锁过程。在另选的实施方案中，设备100还通过麦克风113接受用于激活或去激活某些功能的语音输入。设备100还任选地包括用于检测触摸屏112上的接触的强度的一个或多个接触强度传感器165，和/或用于为设备100的用户生成触觉输出的一个或多个触觉输出发生器167。

图3是根据一些实施方案的具有显示器和触敏表面的示例性多功能设备的框图。设备300不必是便携式的。在一些实施方案中，设备300是膝上型电脑、台式计算机、平板电脑、多媒体播放器设备、导航设备、教育设备(诸如儿童学习玩具)、游戏系统或控制设备(例如，家用控制器或工业用控制器)。设备300通常包括一个或多个处理单元(CPU)310、一个或多个网络或其他通信接口360、存储器370和用于使这些部件互连的一条或多条通信总线320。通信总线320任选地包括使系统部件互连并且控制系统部件之间的通信的电路(有时称作芯片组)。设备300包括具有显示器340的输入/输出(I/O)接口330，该显示器通常是触摸屏显示器。I/O接口330还任选地包括键盘和/或鼠标(或其他指向设备)350和触摸板355、用于在设备300上生成触觉输出的触觉输出发生器357(例如，类似于上文参考图1A所述的触觉输出发生器167)、传感器359(例如，光学传感器、加速度传感器、接近传感器、触敏传感器和/或接触强度传感器(类似于上文参考图1A所述的接触强度传感器165))。存储器370包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM，或其他随机存取固态存储器设备；并且任选地包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器370任选地包括远离CPU 310定位的一个或多个存储设备。在一些实施方案中，存储器370存储与便携式多功能设备100(图1A)的存储器102中存储的程序、模块和数据结构类似的程序、模块和数据结构或其子集。此外，存储器370任选地存储在便携式多功能设备100的存储器102中不存在的附加程序、模块和数据结构。例如，设备300的存储器370任选地存储绘图模块380、呈现模块382、文字处理模块384、网站创建模块386、盘编辑模块388、和/或电子表格模块390，而便携式多功能设备100(图1A)的存储器102任选地不存储这些模块。

图3中的上述元素中的每个元素任选地存储于先前提到的存储器设备的一个或多个存储器设备中。上述模块中的每个模块对应于用于执行上述功能的指令集。上述模块或程序(例如，指令集)不必被实现为单独的软件程序、过程或模块，并且因此这些模块的各种子集任选地在各种实施方案中被组合或以其他方式重新布置。在一些实施方案中，存储器370任选地存储上述模块和数据结构的子组。此外，存储器370任选地存储上文未描述的附加模块和数据结构。

现在将注意力转到任选地在例如便携式多功能设备100上实现的用户界面的实施方案。

图4A示出了根据一些实施方案的便携式多功能设备100上的应用程序菜单的示例性用户界面。类似的用户界面任选地在设备300上实现。在一些实施方案中，用户界面400包括以下元件或者其子集或超集：

·无线通信诸如蜂窝信号和Wi-Fi信号的信号强度指示符402；

·时间404；

·蓝牙指示符405；

·电池状态指示符406；

·具有针对常用应用程序的图标的托盘408，该图标诸如：

ο电话模块138的被标记为“电话”的图标416，该图标416任选地包括未接来电或语音信箱的数量的指示符414；

ο电子邮件客户端模块140的被标记为“邮件”的图标418，该图标418任选地包括未读电子邮件的数量的指示符410；

ο浏览器模块147的标记为“浏览器”的图标420；以及

ο视频和音乐播放器模块152(也称为iPod(苹果公司(AppleInc.)的商标)模块152)的被标记为“iPod”的图标422；以及

·其他应用程序的图标，诸如：

οIM模块141的被标记为“消息”的图标424；

ο日历模块148的被标记为“日历”的图标426；

ο图像管理模块144的被标记为“照片”的图标428；

ο相机模块143的被标记为“相机”的图标430；

ο在线视频模块155的被标记为“在线视频”的图标432；

ο股市小组件149-2的被标记为“股市”的图标434；

ο地图模块154的被标记为“地图”的图标436；

ο天气小组件149-1的被标记为“天气”的图标438；

ο闹钟小组件149-4的被标记为“时钟”的图标440；

ο健身支持模块142的被标记为“健身支持”的图标442；

ο笔记模块153的标记为“笔记”的图标444；以及

ο设置应用程序或模块的被标记为“设置”的图标446，该图标提供对设备100及其各种应用程序136的设置的访问。

应当指出的是，图4A中示出的图标标签仅仅是示例性的。例如，视频和音乐播放器模块152的图标422被标记“音乐”或“音乐播放器”。对于各种应用程序图标任选地使用其他标签。在一些实施方案中，相应应用程序图标的标签包括与该相应应用程序图标对应的应用程序的名称。在一些实施方案中，特定应用程序图标的标签不同于与该特定应用程序图标对应的应用程序的名称。

图4B示出了具有与显示器450(例如，触摸屏显示器112)分开的触敏表面451(例如，图3的平板电脑或触摸板355)的设备(例如，图3的设备300)上的示例性用户界面。设备300还任选地包括用于检测触敏表面451上的接触的强度的一个或多个接触强度传感器(例如，传感器359中的一个或多个传感器)和/或用于为设备300的用户生成触觉输出的一个或多个触觉输出发生器357。

尽管将参考触摸屏显示器112(其中组合了触敏表面和显示器)上的输入给出以下示例中的一些示例，但是在一些实施方案中，设备检测与显示器分开的触敏表面上的输入，如图4B中所示。在一些实施方案中，触敏表面(例如，图4B中的451)具有与显示器(例如，450)上的主轴(例如，图4B中的453)对应的主轴(例如，图4B中的452)。根据这些实施方案，设备检测在与显示器上的相应位置对应的位置(例如，在图4B中，460对应于468并且462对应于470)处与触敏表面451的接触(例如，图4B中的460和462)。这样，当触敏表面(例如，图4B中的451)与多功能设备的显示器(例如，图4B中的450)分开时，由设备在该触敏表面上检测到的用户输入(例如，接触460和462以及它们的移动)被该设备用于操纵该显示器上的用户界面。应当理解，类似的方法任选地用于本文所述的其他用户界面。

另外，虽然主要是参考手指输入(例如，手指接触、单指轻击手势、手指轻扫手势)来给出下面的示例，但是应当理解的是，在一些实施方案中，这些手指输入中的一个或多个手指输入由来自另一输入设备的输入(例如，基于鼠标的输入或触笔输入)替代。例如，轻扫手势任选地由鼠标点击(例如，而不是接触)，之后是光标沿着轻扫的路径的移动(例如，而不是接触的移动)替代。又如，轻击手势任选地由在光标位于轻击手势的位置上方时的鼠标点击(例如，代替对接触的检测，之后是停止检测接触)替代。类似地，当同时检测到多个用户输入时，应当理解的是，多个计算机鼠标任选地被同时使用，或鼠标和手指接触任选地被同时使用。

图5A示出了示例性个人电子设备500。设备500包括主体502。在一些实施方案中，设备500可包括相对于设备100和300(例如，图1A至图4B)所述的特征中的一些或全部特征。在一些实施方案中，设备500具有在下文中称为触摸屏504的触敏显示屏504。作为触摸屏504的替代或补充，设备500具有显示器和触敏表面。与设备100和300的情况一样，在一些实施方案中，触摸屏504(或触敏表面)任选地包括用于检测所施加的接触(例如，触摸)强度的一个或多个强度传感器。触摸屏504(或触敏表面)的一个或多个强度传感器可提供表示触摸的强度的输出数据。设备500的用户界面可基于触摸的强度来对触摸作出响应，这意味着不同强度的触摸可调用设备500上的不同用户界面操作。

用于检测和处理触摸强度的示例性技术见于例如以下相关专利申请中：2013年5月8日提交的名称为“Device,Method,and Graphical User Interface for DisplayingUser Interface Objects Corresponding to an Application”的国际专利申请序列号PCT/US2013/040061，发布为WIPO专利公开WO/2013/169849；以及2013年11月11日提交的名称为“Device,Method,and Graphical User Interface for Transitioning BetweenTouch Input to Display Output Relationships”的国际专利申请序列号PCT/US2013/069483，发布为WIPO专利公开WO/2014/105276，该每个专利申请据此全文以引用方式并入。

在一些实施方案中，设备500具有一个或多个输入机构506和508。输入机构506和508(如果包括的话)可以是物理形式的。物理输入机构的示例包括下压按钮和可旋转机构。在一些实施方案中，设备500具有一个或多个附接机构。此类附接机构(如果包括的话)可允许将设备500与例如帽子、眼镜、耳环、项链、衬衣、夹克、手镯、表带、手链、裤子、皮带、鞋子、钱包、背包等附接。这些附接机构允许用户穿戴设备500。

图5B描绘了示例性个人电子设备500。在一些实施方案中，设备500可包括参考图1A、图1B和图3所述的部件中的一些或全部部件。设备500具有总线512，该总线将I/O部分514与一个或多个计算机处理器516和存储器518操作性地耦接。I/O部分514可连接到显示器504，该显示器可具有触敏部件522并且任选地具有强度传感器524(例如，接触强度传感器)。此外，I/O部分514可与通信单元530连接，用于使用Wi-Fi、蓝牙、近场通信(NFC)、蜂窝和/或其他无线通信技术来接收应用程序和操作系统数据。设备500可包括输入机构506和/或508。例如，输入机构506任选地是可旋转输入设备或者可按压输入设备以及可旋转输入设备。在一些示例中，输入机构508任选地是按钮。

在一些示例中，输入机构508任选地是麦克风。个人电子设备500任选地包括各种传感器，诸如GPS传感器532、加速度计534、定向传感器540(例如，罗盘)、陀螺仪536、运动传感器538和/或其组合，所有这些设备均可操作地连接到I/O部分514。

个人电子设备500的存储器518可包括用于存储计算机可执行指令的一个或多个非暂态计算机可读存储介质，当由一个或多个计算机处理器516执行时，这些计算机可执行指令例如可使得计算机处理器执行下文所述的技术，包括过程700、900和1100(图7、图9和图11)。计算机可读存储介质可以是可有形地包含或存储计算机可执行指令以供指令执行系统、装置和设备使用或与其结合的任何介质。在一些示例中，存储介质是暂态计算机可读存储介质。在一些示例中，存储介质是非暂态计算机可读存储介质。非暂态计算机可读存储介质可包括但不限于磁存储装置、光学存储装置、和/或半导体存储装置。此类存储装置的示例包括磁盘、基于CD、DVD或蓝光技术的光盘，以及持久性固态存储器诸如闪存、固态驱动器等。个人电子设备500不限于图5B的部件和配置，而是可包括多种配置中的其他部件或附加部件。

如本文所用，术语“示能表示”是指任选地在设备100、300和/或500(图1A、图3和图5A至图5B)的显示屏上显示的用户交互式图形用户界面对象。例如，图像(例如，图标)、按钮和文本(例如，超链接)任选地各自构成示能表示。

如本文所用，术语“焦点选择器”是指用于指示用户正与之进行交互的用户界面的当前部分的输入元件。在包括光标或其他位置标记的一些具体实施中，光标充当“焦点选择器”，使得当光标在特定用户界面元素(例如，按钮、窗口、滑块或其他用户界面元素)上方时在触敏表面(例如，图3中的触摸板355或图4B中的触敏表面451)上检测到输入(例如，按压输入)的情况下，该特定用户界面元素根据所检测到的输入而被调节。在包括能够实现与触摸屏显示器上的用户界面元素的直接交互的触摸屏显示器(例如，图1A中的触敏显示器系统112或图4A中的触摸屏112)的一些具体实施中，在触摸屏上所检测到的接触充当“焦点选择器”，使得当在触摸屏显示器上在特定用户界面元素(例如，按钮、窗口、滑块或其他用户界面元素)的位置处检测到输入(例如，由接触进行的按压输入)时，该特定用户界面元素根据所检测到的输入而被调节。在一些具体实施中，焦点从用户界面的一个区域移动到用户界面的另一个区域，而无需光标的对应移动或触摸屏显示器上的接触的移动(例如，通过使用制表键或箭头键将焦点从一个按钮移动到另一个按钮)；在这些具体实施中，焦点选择器根据焦点在用户界面的不同区域之间的移动而移动。不考虑焦点选择器所采取的具体形式，焦点选择器通常是由用户控制的以便递送与用户界面的用户预期的交互(例如，通过向设备指示用户界面的用户期望与其进行交互的元素)的用户界面元素(或触摸屏显示器上的接触)。例如，在触敏表面(例如，触摸板或触摸屏)上检测到按压输入时，焦点选择器(例如，光标、接触或选择框)在相应按钮上方的位置将指示用户期望激活相应按钮(而不是设备显示器上示出的其他用户界面元素)。

如说明书和权利要求中所使用的，接触的“特征强度”这一术语是指基于接触的一个或多个强度的接触的特征。在一些实施方案中，特征强度基于多个强度样本。特征强度任选地基于相对于预定义事件(例如，在检测到接触之后，在检测到接触抬离之前，在检测到接触开始移动之前或之后，在检测到接触结束之前，在检测到接触的强度增大之前或之后和/或在检测到接触的强度减小之前或之后)而言在预先确定的时间段(例如，0.05秒、0.1秒、0.2秒、0.5秒、1秒、2秒、5秒、10秒)期间采集的预定义数量的强度样本或一组强度样本。接触的特征强度任选地基于以下各项中的一者或多者：接触的强度的最大值、接触的强度的均值、接触的强度的平均值、接触的强度的前10％处的值、接触的强度的半最大值、接触的强度的90％最大值等。在一些实施方案中，在确定特征强度时使用接触的持续时间(例如，在特征强度是接触的强度在时间上的平均值时)。在一些实施方案中，将特征强度与一组一个或多个强度阈值进行比较，以确定用户是否已执行操作。例如，该组一个或多个强度阈值任选地包括第一强度阈值和第二强度阈值。在该示例中，特征强度未超过第一阈值的接触导致第一操作，特征强度超过第一强度阈值但未超过第二强度阈值的接触导致第二操作，而特征强度超过第二阈值的接触导致第三操作。在一些实施方案中，使用特征强度与一个或多个阈值之间的比较来确定是否要执行一个或多个操作(例如，是执行相应操作还是放弃执行相应操作)而不是用于确定执行第一操作还是第二操作。

在一些实施方案中，识别手势的一部分以用于确定特征强度。例如，触敏表面任选地接收连续的轻扫接触，该连续的轻扫接触从起始位置过渡并到达结束位置，在该结束位置处，接触强度增加。在该示例中，接触在结束位置处的特征强度任选地仅基于连续轻扫接触的一部分，而不是整个轻扫接触(例如，仅结束位置处的轻扫接触的部分)。在一些实施方案中，在确定接触的特征强度之前任选地向轻扫接触的强度应用平滑算法。例如，平滑化算法任选地包括以下各项中的一种或多种：不加权滑动平均平滑化算法、三角平滑化算法、中值滤波器平滑化算法和/或指数平滑化算法。在一些情况下，这些平滑化算法消除了轻扫接触的强度中的窄的尖峰或凹陷，以实现确定特征强度的目的。

任选地相对于一个或多个强度阈值诸如接触检测强度阈值、轻按压强度阈值、深按压强度阈值和/或一个或多个其他强度阈值来表征触敏表面上的接触强度。在一些实施方案中，轻按压强度阈值对应于这样的强度：在该强度下设备将执行通常与点击物理鼠标或触控板的按钮相关联的操作。在一些实施方案中，深按压强度阈值对应于这样的强度：在该强度下设备将执行与通常与点击物理鼠标或触控板的按钮相关联的操作不同的操作。在一些实施方案中，当检测到特征强度低于轻按压强度阈值(例如，并且高于标称接触检测强度阈值，比标称接触检测强度阈值低的接触不再被检测到)的接触时，设备将根据接触在触敏表面上的移动来移动焦点选择器，而不执行与轻按压强度阈值或深按压强度阈值相关联的操作。一般来讲，除非另有陈述，否则这些强度阈值在不同组的用户界面附图之间是一致的。

接触特征强度从低于轻按压强度阈值的强度增大到介于轻按压强度阈值与深按压强度阈值之间的强度有时被称为“轻按压”输入。接触特征强度从低于深按压强度阈值的强度增大到高于深按压强度阈值的强度有时被称为“深按压”输入。接触特征强度从低于接触检测强度阈值的强度增大到介于接触检测强度阈值与轻按压强度阈值之间的强度有时被称为检测到触摸表面上的接触。接触特征强度从高于接触检测强度阈值的强度减小到低于接触检测强度阈值的强度有时被称为检测到接触从触摸表面抬离。在一些实施方案中，接触检测强度阈值为零。在一些实施方案中，接触检测强度阈值大于零。

在本文中所述的一些实施方案中，响应于检测到包括相应按压输入的手势或响应于检测到利用相应接触(或多个接触)执行的相应按压输入来执行一个或多个操作，其中至少部分地基于检测到该接触(或多个接触)的强度增大到高于按压输入强度阈值而检测到相应按压输入。在一些实施方案中，响应于检测到相应接触的强度增大到高于按压输入强度阈值(例如，相应按压输入的“向下冲程”)来执行相应操作。在一些实施方案中，按压输入包括相应接触的强度增大到高于按压输入强度阈值以及该接触的强度随后减小到低于按压输入强度阈值，并且响应于检测到相应接触的强度随后减小到低于按压输入阈值(例如，相应按压输入的“向上冲程”)来执行相应操作。

在一些实施方案中，设备采用强度滞后以避免有时被称为“抖动”的意外输入，其中设备限定或选择与按压输入强度阈值具有预定义关系的滞后强度阈值(例如，滞后强度阈值比按压输入强度阈值低X个强度单位，或滞后强度阈值是按压输入强度阈值的75％、90％或某个合理比例)。因此，在一些实施方案中，按压输入包括相应接触的强度增大到高于按压输入强度阈值以及该接触的强度随后减小到低于对应于按压输入强度阈值的滞后强度阈值，并且响应于检测到相应接触的强度随后减小到低于滞后强度阈值(例如，相应按压输入的“向上冲程”)来执行相应操作。类似地，在一些实施方案中，仅在设备检测到接触强度从等于或低于滞后强度阈值的强度增大到等于或高于按压输入强度阈值的强度并且任选地接触强度随后减小到等于或低于滞后强度的强度时才检测到按压输入，并且响应于检测到按压输入(例如，根据环境，接触强度增大或接触强度减小)来执行相应操作。

为了容易解释，任选地，响应于检测到以下各种情况中的任一种情况而触发对响应于与按压输入强度阈值相关联的按压输入或响应于包括按压输入的手势而执行的操作的描述：接触强度增大到高于按压输入强度阈值、接触强度从低于滞后强度阈值的强度增大到高于按压输入强度阈值的强度、接触强度减小到低于按压输入强度阈值、和/或接触强度减小到低于与按压输入强度阈值对应的滞后强度阈值。另外，在将操作描述为响应于检测到接触的强度减小到低于按压输入强度阈值而执行的示例中，任选地响应于检测到接触的强度减小到低于对应于并且小于按压输入强度阈值的滞后强度阈值来执行操作。

现在将注意力转到在电子设备(诸如便携式多功能设备100、设备300或设备500)上实现的用户界面(“UI”)以及相关联的过程的实施方案。

图6A至图6N示出了根据一些实施方案的用于显示与音频文件的语音相对应的文本的示例性用户界面。这些附图中的用户界面用于示出下文所述的包括图7中的过程的过程。

图6A示出了具有显示器602(例如，触摸屏)的电子设备600(例如，智能电话)。在一些实施方案中，设备600包括设备100、300和/或500的一个或多个特征。在图6A中，电子设备600在显示器602上显示与电子设备600的媒体应用程序(例如，书籍应用程序、有声读物应用程序)相关联的媒体回放用户界面604。媒体回放用户界面604使得电子设备600的用户能够调整和/或控制由电子设备600输出的媒体的音频设置。媒体回放用户界面604被配置为控制音频文件的回放。在一些实施方案中，音频文件可以是有声读物文件、音乐文件、播客文件、多媒体文件(例如，视频文件)和/或包括音频的其他媒体文件。

电子设备600的用户可能希望查看表示音频文件的语音(例如，字词和/或歌词)的文本。例如，用户可能希望在音频文件中包括特定对话和/或歌词的特定部分处引起音频文件的回放。然而，在一些实施方案(包括图6A至图6N的实施方案)中，音频文件不包括与音频文件的语音相对应的预先生成的文本数据。换句话讲，音频文件不包括元数据、嵌入数据和/或包括语音的文本的任何相关联数据。因此，电子设备600(或与电子设备600通信的外部设备)执行音频文件的语音识别和/或转录音频文件以生成与音频文件中的语音相对应的文本。在一些实施方案中，实时地(例如，在电子设备600输出音频文件的音频时)、在特定音频文件被选择用于经由媒体回放用户界面604进行控制时和/或在音频文件被存储在电子设备600上(例如，在电子设备600的存储器中和/或在云中)时执行语音识别。因此，电子设备600可显示与在音频文件中在特定时间处输出的音频的语音相对应的文本，使得用户可通过查看经由语音识别生成的文本来控制音频文件的回放以输出音频的语音的期望部分。参考图6A至图6N详细地讨论媒体回放用户界面604显示与音频文件(例如，有声读物文件)的语音相对应的文本的方式。

在图6A中，媒体回放用户界面604控制名称为“The Autobiography of JohnAppleseed”的有声读物文件的音频的回放。在图6A中，媒体回放用户界面604包括有声读物指示符604a，诸如与该有声读物文件相关联的有声读物的书籍封面的图像以及识别该有声读物文件的文本。媒体回放用户界面604包括正在播放指示符604b，诸如指示所选有声读物文件的章节或部分的文本和/或指示所选有声读物文件的标题的文本。媒体回放用户界面还包括设置用户界面对象604c，当经由用户输入被选择时，其使得电子设备600显示包括各种控制用户界面对象(诸如书签用户界面对象)的设置用户界面。媒体回放用户界面604还包括刷动条604d，其使得用户能够经由用户输入来调整音频的回放时间。媒体回放用户界面604包括音频控制用户界面对象604e，其使得用户能够通过暂停、播放和/或跳跃音频来控制音频的回放。另外，媒体回放用户界面604包括音量控制用户界面对象604f，其使得用户能够经由用户输入来调整音频输出的音量。此外，媒体回放用户界面604包括：音频速度用户界面对象604g，其使得用户能够调整音频输出的回放速度；睡眠设置用户界面对象604h，其使得用户能够选择电子设备600在暂停和/或停止音频输出之前继续音频输出的持续时间；和共享音频用户界面对象604i，其使得用户能够将与有声读物文件相关的数据传输到外部设备。媒体回放用户界面604还包括内容表用户界面对象604j，当经由用户输入被选择时，其使得电子设备600显示内容表用户界面、书签用户界面和/或笔记用户界面。

在图6A中，电子设备600检测用户输入650a，该用户输入是当滑块604k处于刷动条604d上的第一位置(例如，第一位置与有声读物文件的时间10:00相关联)时在刷动条604d的滑块604k上进行的轻击和保持手势在第一方向上的移动和/或轻击和轻扫手势在第一方向上的移动。响应于检测到用户输入650a，电子设备600显示文本指示符604l，如图6B所示。用户输入650a包括触摸和保持手势在向左方向上的移动。在检测到用户输入650a的接触时，电子设备显示文本指示符604l，其示出与音频文件在与滑块604k在刷动条604d上的第二位置相关联的时间(例如，时间0:27)处的语音相对应的文本。另外，用户输入650a的移动使得滑块604k在向左方向(例如，第一方向和/或与触摸和保持手势或用户输入650a的移动相同的方向)上从刷动条604d上的第一位置移动到第二位置。因此，文本指示符604l显示与音频在第二位置处的语音相对应的文本(例如，与音频在时间0:27处的语音相对应的文本)。在一些实施方案中，在用户输入650a的初始接触时(例如，当在滑块604k上检测到手指接触达预先确定的时间段时)，文本指示符604l和与音频在第一位置处的语音相对应的文本(例如，与音频在时间10:00处的语音相对应的文本)一起显示。

在一些实施方案中，用户输入650a包括在多个方向上和/或沿着两个不同轴(例如，相对于显示器602的垂直轴和水平轴)的移动。例如，用户输入650a可包括沿着显示器602的水平移动和垂直移动。在一些实施方案中，电子设备600辨识与沿着仅单个轴(例如，相对于显示器602的水平轴或方向)的用户输入650a相关联的移动。因此，虽然用户输入650a可包括在多个方向上的移动，但是电子设备600基于沿着单个轴的移动来在文本指示符604l中显示文本。在一些实施方案中，与沿着第二轴(例如，相对于显示器602的垂直轴或方向)的用户输入650a相关联的移动被电子设备600忽略和/或不以其他方式用于确定由文本指示符604l显示的文本。

在一些实施方案中，电子设备600在检测到用户输入650a时停止引起音频输出。例如，在检测到用户输入650a的触摸和保持部分时，电子设备600停止引起音频输出(例如，经由电子设备600的扬声器(例如，电子设备600的内部扬声器或与电子设备600通信的外部扬声器))。在一些实施方案中，在检测到用户输入650a的移动部分时，电子设备600引起音频输出(例如，在发生触摸和保持时，电子设备600以与用户输入650a的移动部分的速度和/或用户输入650a的移动部分的所检测移动量相结合的速度引起音频的输出)。在一些实施方案中，电子设备600停止引起音频输出，直到检测到用户输入650a的抬离为止(例如，停止音频输出直到用户输入650a在显示器602上的手指接触被中断或不再被检测到为止)。

在图6B中，文本指示符604l(例如，弹出气泡)被显示为覆盖在正在播放指示符604b上。因此，文本指示符604l至少部分地覆盖和/或至少部分地阻挡正在播放指示符604b的显示。在一些实施方案中，文本指示符604l覆盖在媒体回放用户界面604的不同元素上，诸如有声读物指示符604a、设置用户界面对象604c、音频控制用户界面对象604e和/或音量控制用户界面对象604f。在一些实施方案中，文本指示符604l被显示为覆盖在刷动条604d上。此外，在一些实施方案中，文本指示符604l是至少部分地透明的，使得用户可在显示文本指示符604l时继续查看媒体回放用户界面604的元素(例如，用户可查看媒体回放用户界面604在文本指示符604l后面的元素)。

在图6B中，文本指示符604l包括与音频文件在滑块604k的第二位置处的语音相对应的文本的自动收报机带(例如，滚动文本集合)显示。例如，文本指示符604l显示与音频的语音相对应的文本的第一句子和与音频的语音相对应的文本的第二句子的至少一部分。在一些实施方案中，由文本指示符604l显示的文本突出显示与在与滑块604k的位置相关联的特定时间处输出的音频的语音相对应的特定文本字词。另外，文本指示符604l包括在与在音频文件的与滑块604k的位置相关联的特定时间处输出的音频的语音相对应的特定文本字词之前和/或之后的字词。在一些实施方案中，文本指示符604l包括仅在与在音频文件的与滑块604k的位置相关联的特定时间处输出的音频的语音相对应的特定文本字词之后的字词。

在图6B中，电子设备600在滑块604k处于第二位置时检测刷动条604d的滑块604k上的用户输入650b(例如，轻击和保持手势在与第一方向相反的第二方向上的移动，或轻击和轻扫手势在第二方向上的移动)。响应于检测到用户输入650b，电子设备600使得滑块604k从第二位置移动到不同于第一位置和第二位置的第三位置(例如，与时间0:41相关联的位置)。因此，滑块604k的位置在向右方向(例如，第二方向和/或和与用户输入650b相关联的移动相同的方向)上移动，如图6C所示。在图6C中，电子设备600显示文本指示符604l，其具有与音频在与滑块604k的第三位置相关联的时间处的语音相对应的文本(例如，与当滑块604k处于第二位置时显示的文本不同的文本)。因此，滑块604k上的用户输入可回退(例如，在时间上向后跳跃)或快进(例如，在时间上向前跳跃)有声读物文件的音频输出。

在图6C中，文本指示符604l中所包括的文本包括与在滑块604k的第三位置(例如，时间0:41)处的语音相对应的文本。另外，在图6C中，电子设备600检测到用户输入650b被维持在显示器602上(例如，用户输入650b的手指接触尚未被中断或从屏幕602移除)。在图6D中，用户输入650b不再被电子设备600检测到，并且接触的抬离被电子设备600检测到。如上所述，电子设备600在与滑块604k的第三位置(例如，当检测到用户输入650b的抬离时滑块604k的位置)相对应的时间处引起有声读物文件的音频输出。此外，在图6D中，电子设备600停止在媒体回放用户界面604上显示文本指示符604l。

如上文所讨论的，图6A至图6D示出了具有与音频的语音相对应的文本的自动收报机带显示的文本指示符604l的示例。在一些实施方案中，电子设备600被配置为在将文本指示符604l中的文本显示为自动收报机带格式与显示为语音的整个结构分量格式之间切换。例如，电子设备600检测在设置用户界面(例如，电子设备600的媒体应用程序的设置用户界面和/或系统应用程序(例如，操作系统)的一般设置用户界面)上的与对用于显示文本指示符604l的特定格式的选择相对应的用户输入。因此，电子设备600根据所选择的格式(例如，自动收报机带或语音的整个结构分量)在文本指示符604l中显示文本。在一些实施方案中，电子设备600包括用于在文本指示符604l中显示文本的默认格式，其不能经由用户输入来调整和/或改变。

在图6E中，电子设备600使用语音的整个结构分量格式来在文本指示符中显示文本。如图6E所示，电子设备600在滑块604k处于第四位置时检测媒体回放用户界面604的滑块604k上的用户输入650c(例如，轻击和保持手势在第二方向上的移动和/或轻击和轻扫手势在第二方向上的移动)。因此，响应于检测到用户输入650c，电子设备600显示文本指示符604l。在图6E中，文本指示符604l包括与音频的语音的整个句子相对应的文本，其中该整个句子包括在与滑块604k的位置相关联的时间处的音频的语音的至少一个字词。例如，字词“having”的至少一部分的音频输出可出现在有声读物文件的时间0:27处。因此，文本指示符604l显示包括字词“having”的整个句子(例如，“I loved having three siblings.”)。

在图6E中，用户输入650c包括在第二方向(例如，向右方向)上的移动。响应于检测到用户输入650c的移动部分，电子设备600将滑块604k从第四位置移动到第五位置，如图6F所示。在图6F中，文本指示符604l包括与音频的语音的整个句子相对应的文本，其中该整个句子包括在与滑块604k的第五位置相关联的时间处的音频的语音的至少一个字词。例如，字词“pies”的至少一部分的音频输出可出现在有声读物文件的时间0:56处。因此，文本指示符604l显示包括字词“pies”的整个句子(例如，“Joe would bake the best pies usingwhatever fruit was in season.”)。

在图6G中，电子设备600检测用户输入650c的抬离(例如，用户手指的接触中断)。响应于检测到用户输入650c的抬离，电子设备600停止显示文本指示符604l。如上所述，在一些实施方案中，当检测到用户输入650c的抬离时，电子设备600在与滑块604k的位置相关联的时间处恢复有声读物文件的音频输出。在图6G中，所输出的音频606包括表示在与滑块604k的位置相关联的时间处的音频输出的语音的文本；所输出的音频606以及本文描述的其他音频指示符不是用户界面的一部分，并且在这些图中被提供以在视觉上示出正由设备600输出的音频。具体地，所输出的音频606强调文本的一部分(例如，字词“Joe”)，该部分指示在与滑块604k的位置相关联的时间处输出的音频的特定部分。因此，响应于检测到用户输入650c的抬离，电子设备600引起有声读物文件的回放(例如，经由电子设备600的扬声器(例如，内部扬声器)和/或经由与电子设备600通信的扬声器(例如，经由蓝牙连接到电子设备600的头戴式耳机))。

在图6G中，电子设备600检测用户输入650d(例如，在有声读物指示符604a上的向右轻扫手势)。响应于检测到用户输入650d，电子设备600使得有声读物文件的音频输出在时间上向前跳跃(例如，快进)。在一些实施方案中，电子设备600使得有声读物文件的音频输出向前跳跃预先确定的时间量(例如，10秒、15秒、20秒、30秒、34秒)。另选地，电子设备600检测用户输入650e(例如，在有声读物指示符604a上的向左轻扫手势)。响应于检测到用户输入650e，电子设备600使得有声读物文件的音频输出在时间上向后跳跃(例如，回退)。在一些实施方案中，电子设备600使得有声读物文件的音频输出向后跳跃预先确定的时间量(例如，10秒、15秒、20秒、30秒、34秒)。在一些实施方案中，预先确定的时间量基于与用户输入650d和/或650e相关联的移动量(例如，与用户输入650d和/或650e的更小移动量相比，用户输入650d和/或650e的更大移动量增加预先确定的时间量)。在一些实施方案中，预先确定的时间量基于用户选择，如下文参考图6N所讨论的。

在一些实施方案中，用户输入650d和/或650e使得电子设备600在时间上向前和/或向后跳跃音频的语音的预定义结构分量(例如，向前跳跃到当前句子和/或段落之后的句子和/或段落和/或从当前句子和/或段落向后跳跃到上一句子和/或段落)。在一些实施方案中，电子设备600基于用户选择来确定是向前和/或向后跳跃预先确定的时间量还是预定义的结构分量。例如，如以下参考图6N所阐述的，电子设备600使得用户能够选择用户输入650d和/或650e使得电子设备600在时间上向前和/或向后跳跃句子和/或段落而不是预先确定的时间量。

响应于用户输入650d，电子设备600引起有声读物指示符604a的移动，以在视觉上向电子设备600的用户指示检测到用户输入650d。例如，在图6H中，有声读物指示符604a从显示器602上的中心位置(例如，如图6G所示)在第一方向(例如，向右方向)上朝向显示器602的边缘移动。在一些实施方案中，响应于用户输入650d，有声读物指示符604a的一部分移动离开显示器602。电子设备600的用户因此可在视觉上理解用户输入650d被电子设备600检测到并且有声读物文件的音频输出已在时间上被向前跳跃。

在图6I中，电子设备600使得滑块604k的位置从第一位置(例如，如图6G和图6H所示)移动到第二位置。滑块604k的第二位置与有声读物文件中比滑块604k的第一位置更晚的时间相关联。因此，用户输入650d使得有声读物文件的音频的回放向前跳跃，并且在与滑块604k的第二位置相关联的时间处开始有声读物文件的音频的回放。在图6I中，所输出的音频606包括表示在与滑块604k的第二位置相关联的时间处的音频输出的语音的文本。具体地，所输出的音频606强调文本的一部分(例如，字词“We”)，该部分指示在与滑块604k的第二位置相关联的特定时间处输出的音频的部分。因此，电子设备600使得有声读物文件的音频输出向前跳跃，从而在比电子设备检测到用户输入650d之前的播放的音频更晚的时间处播放音频。

在一些实施方案中，电子设备600被配置为除了用户手势(例如，轻击手势和/或轻扫手势)之外还经由语音命令使得音频输出在时间上向前跳跃和/或在时间上向后跳跃。在图6J中，电子设备600检测用户输入650f(例如，陈述“嘿，助理，回退”的语音命令)。响应于检测到用户输入650f，电子设备600使得有声读物文件的音频的回放在时间上向后跳跃(例如，因为用户输入650f包括语音命令“回退”)。在图6J中，所输出的音频606强调文本的一部分(例如，字词“would”)，该部分指示在与滑块604k的位置相关联的特定时间处输出的音频的部分。

在图6K中，电子设备600使得滑块604k的位置从第一位置(例如，如图6G和图6K所示)移动到第三位置。滑块604k的第三位置与有声读物文件中比滑块604k的第一位置更早的时间相关联。因此，用户输入650f使得有声读物文件的音频的回放向后跳跃，并且在与滑块604k的第三位置相关联的时间处开始有声读物文件的音频的回放。在图6K中，所输出的音频606包括表示在与滑块604k的第三位置相关联的时间处的音频输出的语音的文本。具体地，所输出的音频606强调文本的一部分(例如，字词“We”)，该部分指示在与滑块604k的第三位置相关联的特定时间处输出的音频的部分。因此，电子设备600使得有声读物文件的音频输出在时间上向后跳跃，从而在比电子设备检测到用户输入650f之前的播放的音频更早的时间处播放音频。

在图6K中，响应于检测到用户输入650f，电子设备600使得有声读物指示符604a在与第一方向相反的第二方向上(例如，在向左方向上)移动，从而指示电子设备600检测到用户输入650f。因此，电子设备600显示用户输入650f被检测到的视觉指示。此外，电子设备600在视觉上指示音频输出在时间上是向前跳跃(例如，通过在第一方向上移动有声读物指示符604a)还是向后跳跃(例如，通过在第二方向上移动有声读物指示符604a)，使得电子设备600的用户接收到对用户输入650d、650e和/或650f的视觉确认。

在图6L中，与图6K相比，电子设备600继续有声读物文件的音频的回放。所输出的音频606强调文本的一部分(例如，字词“playing”)，该部分指示在与滑块604k的第四位置相关联的特定时间(例如，0:44)输出的音频的部分。在图6L中，电子设备600检测音频控制用户界面对象604e的暂停用户界面对象604m上的轻击手势650g。响应于检测到轻击手势650g，电子设备600停止引起有声读物文件的音频输出(例如，经由电子设备600的扬声器(例如，内部扬声器)和/或经由与电子设备600通信的扬声器)。

在图6M中，不显示所输出的音频606，从而指示已响应于电子设备600检测到轻击手势650g而停止音频输出。另外，响应于检测到轻击手势650g，电子设备600停止显示暂停用户界面对象604m并且显示音频控制用户界面对象604e的播放用户界面对象604n。暂停用户界面对象604m和播放用户界面对象604n的显示在视觉上向用户指示有声读物文件的音频输出是正在发生(例如，当暂停用户界面对象604m被显示时)还是未在发生(例如，当播放用户界面对象604n被显示时)。在图6M中，电子设备600检测播放用户界面对象604n上的轻击手势650h。响应于检测到轻击手势650h，电子设备600使得恢复有声读物文件的音频输出。

在一些实施方案中，恢复有声读物文件的音频输出包括在与滑块604k的位置相关联的时间处回放音频(例如，在与滑块604k的位置相关联的时间处在音频的语音的结构分量(例如，句子和/或段落)内的任何位置处恢复回放)。例如，在图6L中，当电子设备600检测到轻击手势650g时，电子设备600在与滑块604k的位置相关联的第一时间(例如，0:44)处停止音频输出。响应于在图6M中检测到轻击手势650h，电子设备600可在第一时间(例如，0:44)处恢复音频输出的回放，使得输出音频的语音的字词“playing”(例如，如在图6L中由所输出的音频606所示)。

在一些实施方案中，电子设备600在音频的语音的结构分量(例如，句子和/或段落)的开始处恢复音频输出，而不是在检测到轻击手势650g时与滑块604k的位置相关联的时间处恢复音频输出。例如，响应于在图6M中检测到轻击手势650h，电子设备600可在时间上向后跳跃到音频的语音的结构分量的开始，其中音频的语音的结构分量包括将在检测到轻击手势650g时与滑块604k的位置相关联的时间处输出的字词。因此，电子设备600在第一时间(例如，0:44)之前的第二时间(例如，0:42)处恢复音频的回放以在音频的语音的结构分量的开始处发起音频输出。换句话讲，电子设备600在第二时间(例如，0:42)处恢复音频输出，而不是在检测到轻击手势650g时的第一时间(例如，0:44)处恢复音频输出。在音频的语音的结构分量的开始处发起音频输出的回放可有助于用户对音频的理解。例如，用户可暂停音频输出(例如，经由轻击手势650g)并且在延长的间隔之后(例如，一小时和/或一天之后)恢复音频输出(例如，经由轻击手势650h)。因此，通过在音频的语音的结构分量的开始处恢复音频输出，用户接收附加上下文以在检测到轻击手势650g时(例如，在电子设备600使得音频输出暂停时)的时间处刷新其关于音频输出的记忆。

如上所述，电子设备600可响应于用户输入650d、650e和/或650f而在时间上向前跳跃和/或向后跳跃预先确定的时间量或音频的语音的预定义结构分量。例如，在图6N中，电子设备600显示设置用户界面608。设置用户界面608包括预先确定的时间区域610、控制选项区域612和重置用户界面对象608a。

在图6N中，预先确定的时间区域610包括向前跳跃用户界面对象610a和向后跳跃用户界面对象610b。如上所述，在一些实施方案中，电子设备600使得音频输出响应于用户输入650d、650e和/或650f而向前跳跃和/或向后跳跃预先确定的时间段。响应于检测到在向前跳跃用户界面对象610a上的用户输入，电子设备600使得用户能够选择用于在时间上向前跳跃音频输出的第一预先确定的时间段(例如，15秒)。类似地，响应于检测到在向后跳跃用户界面对象610b上的用户输入，电子设备600使得用户能够选择用于在时间上向后跳跃音频输出的第二预先确定的时间段(例如，15秒)。在一些实施方案中，第一预先确定的时间段和第二预先确定的时间段彼此不同。

在图6N中，控制选项区域612包括被配置为调整用于在时间上向前和/或向后跳跃音频输出的设置的用户界面对象612a至612d。第一用户界面对象612a对应于将音频输出在时间上向前和/或向后跳跃有声读物文件的预定义部分(例如，有声读物文件的章节和/或节段)。第二用户界面对象612b对应于将音频输出在时间上向前和/或向后跳跃预先确定的时间段(例如，与向前跳跃用户界面对象610a相关联的第一预先确定的时间段和与向后跳跃用户界面对象610b相关联的第二预先确定的时间段)。第三用户界面对象612c对应于将音频输出在时间上向前和/或向后跳跃音频的语音的第一结构分量(例如，句子)。第四用户界面对象612d对应于将音频输出在时间上向前和/或向后跳跃音频的语音的第二结构分量(例如，段落)。因此，电子设备600基于对应于用户界面对象612a至612d中的一者的用户输入来调整向前跳跃和/或向后跳跃音频的量(例如，响应于用户输入650d、650e和/或650f)。

在一些实施方案中，设置用户界面608被配置为调整用于除了电子设备600之外的其他设备(例如，外部设备)的音频输出设置。例如，电子设备600可与输出和/或控制有声读物文件的音频的输出(例如，通过接收来自电子设备600的传输)的外部设备通信(例如，无线连接到外部设备)。因此，外部设备也被配置为响应于检测到用户输入(例如，对外部设备的用户输入)而基于设置用户界面608的所选择设置在时间上向前和/或向后跳跃。

图7是示出了根据一些实施方案的用于使用电子设备来显示与音频文件的语音相对应的文本的方法的流程图。方法700在具有显示生成部件和一个或多个输入设备的计算机系统(例如，100、300、500、600)处执行。方法700中的一些操作任选地被组合，一些操作的次序任选地被改变，并且一些操作任选地被省略。

如下所述，方法700提供了用于显示与音频文件的语音相对应的文本的直观方式。该方法减轻了用户访问和/或查找音频文件的特定部分的认知负担，从而创建了更有效的人机界面。对于电池驱动的计算设备，使得用户能够更快且更有效地访问音频文件的特定部分节省了功率并且增加了电池两次充电之间的时间间隔。

在方法700中，计算机系统(例如，600)(例如，智能电话；平板电脑；个人计算机；电子文档阅读器)与显示生成部件(例如，602)(例如，集成显示器、(例如，无线地)连接的显示器)和一个或多个输入设备(例如，触敏表面(例如，触摸屏)；鼠标)通信。计算机系统(例如，600)经由显示生成部件(例如，602)显示(702)包括一组一个或多个媒体回放控制用户界面对象(例如，604c、604d、604e、604g、604h、604i、604j和/或604k)的媒体回放界面(例如，604)(例如，有声读物回放应用程序的界面)。所述一组一个或多个媒体回放控制用户界面对象(例如，604c、604d、604e、604g、604h、604i、604j和/或604k)包括可选择的回放位置指示符(例如，604k)。在一些实施方案中，可选择的回放位置指示符相对于描绘第一媒体项的总回放持续时间的图形用户界面对象(例如，线；刷动条的槽道)进行显示(例如，定位在其上)。在一些实施方案中，可选择的回放位置指示符是刷动条的滑块。

在媒体回放界面(例如，604)被配置为控制第一媒体项(704)(例如，有声读物；语音记录)的回放时，第一媒体项包括音频内容，该音频内容包括语音(例如，记录的人类语音；合成语音)，计算机系统(例如，600)经由所述一个或多个输入设备检测(706)第一输入(例如，650a、650b和/或650c)(例如，轻扫手势；随着鼠标的移动而保持的鼠标点击)，第一输入对应于可选择的回放位置指示符(例如，604k)。

在媒体回放界面(例如，604)被配置为控制第一媒体项(704)(例如，有声读物；语音记录)的回放时，第一媒体项包括音频内容，该音频内容包括语音(例如，记录的人类语音；合成语音)，并且响应于检测到第一输入(708)，计算机系统(例如，600)将(710)可选择的回放位置指示符(例如，604k)从与第一媒体项的第一回放时间(例如，开始；结尾；以小时、分钟和/或秒测量的时间)相对应的第一位置移动到与第一媒体项的第二回放时间相对应的第二位置。

在媒体回放界面(例如，604)被配置为控制第一媒体项(704)(例如，有声读物；语音记录)的回放时，第一媒体项包括音频内容，该音频内容包括语音(例如，记录的人类语音；合成语音)，并且响应于检测到第一输入(708)，计算机系统(例如，600)经由显示生成部件(例如，602)显示(712)表示第一媒体项的音频内容中与第二回放时间相对应的语音的第一文本(例如，语音的转录)(例如，604l)(例如，文本包括至少在精确的第二回放时间处的语音；文本包括作为与第二回放时间最接近的所检测语音的语音(例如，之前或之后最接近的所检测语音；之后最接近的所检测语音))。

显示表示第一媒体项的音频内容的语音的第一文本向用户提供了改进的视觉反馈。例如，用户可在视觉上理解音频内容的一部分，从而有助于用户选择音频内容的一部分以用于回放的能力。提供改进的视觉反馈增强了设备的可操作性，并且使用户-设备界面更有效(例如，通过帮助用户提供合适的输入并减少操作设备/与设备进行交互时的用户错误)，另外，通过使得用户能够更快速且有效地使用设备，这还可以降低电力使用并延长设备的电池寿命。

在一些实施方案中，显示表示第一媒体项的音频内容的语音的第一文本(例如，604l)包括计算机系统(例如，602)将第一文本覆盖在媒体回放界面(例如，604)的一个或多个图形元素(例如，604b)(例如，所述一组一个或多个媒体回放控制用户界面对象的回放控件；不可选择的图形元素)上。在一些实施方案中，第一文本被显示在覆盖在界面上的弹出窗口或气泡中。

在一些实施方案中，第一文本(例如，604l)包括与第二回放时间相对应的第一类型的语法结构(例如，句子；独立子句；段落)的全部字词。

在一些实施方案中，第一文本(例如，604l)是第一类型的语法结构的第一实例(例如，是第一句子；第一段落)。另外，当计算机系统(例如，600)在第二位置处显示可选择的回放位置指示符(例如，604k)时并且当计算机系统(例如，600)显示第一文本(例如，604l)时，计算机系统(例如，600)经由所述一个或多个输入设备检测第二用户输入(例如，650a、650b和/或650c)(例如，第一输入的继续；与第一输入不同的输入)，第二用户输入对应于可选择的回放位置指示符(例如，604k)。响应于检测到第二用户输入(例如，650a、650b和/或650c)，计算机系统(例如，600)将可选择的回放位置指示符(例如，604k)从第二位置移动到对应于第一媒体项的第三回放时间的第三位置，该第三回放时间不对应于包括在第一类型的语法结构的第一实例中的语音(例如，第二回放时间对应于第一句子，并且第三回放时间对应于不同的句子)。响应于检测到第二用户输入(例如，650a、650b和/或650c)，计算机系统(例如，600)经由显示生成部件(例如，602)显示表示第一媒体项的音频内容的语音的第二文本(例如，语音的转录)(例如，604l)，该第二文本包括第一类型的语法结构的第二实例的全部字词。在包括在音频内容中的语音中，第二实例与第一实例相邻(例如，来自第一文本的句子的下一句子或上一句子)。在一些实施方案中，一旦回放指示符被移动超过与当前显示的句子(例如，第一文本)相关联的时间，则显示上一句子或下一句子。

在一些实施方案中，第一文本(例如，604l)被显示为表示第一媒体项的音频内容中与在第一回放时间与第二回放时间之间(例如，包括和/或跨越第一回放时间和第二回放时间)的时段相对应的语音的滚动文本集合的一部分。

在一些实施方案中，根据确定媒体回放用户界面(例如，604)当前被配置(例如，经由设置用户界面被配置)为以第一方式显示表示音频内容的语音的文本，计算机系统(例如，600)将第一文本(例如，604l)显示为对应于第二回放时间的第二类型(例如，不同于第一类型；与第一类型相同)的语法结构的多个字词。在一些实施方案中，根据确定媒体回放用户界面(例如，604)当前被配置为以第二方式显示表示音频内容的语音的文本，计算机系统(例如，600)将第一文本(例如，604l)显示为表示第一媒体项的音频内容中与在第一回放时间与第二回放时间之间的时段相对应的语音的滚动文本集合的一部分。

在一些实施方案中，第一用户输入(例如，650a、650b和/或650c)包括可选择的回放位置指示符(例如，604k)上的触摸和保持手势的移动。

在一些实施方案中，当计算机系统(例如，600)在第二位置处显示可选择的回放位置指示符(例如，604k)时并且当计算机系统(例如，600)显示第一文本(例如，604l)时，计算机系统(例如，600)经由所述一个或多个输入设备检测第四用户输入(例如，650a、650b和/或650c)(例如，第一输入的继续；与第一输入不同的输入)，第四用户输入对应于可选择的回放位置指示符(例如，604k)。响应于第四用户输入(例如，650a、650b和/或650c)，计算机系统(例如，600)将可选择的回放位置指示符(例如，604k)移动到与第一媒体项的第四回放时间相对应的第四位置。响应于第四用户输入(例如，650a、650b和/或650c)并且根据确定第四回放时间在第二回放时间之前(例如，在第一媒体项的顺序回放中更早)，计算机系统(例如，600)显示表示在由第一文本(例如，604l)表示的第一媒体项的音频内容的语音之前的第一媒体项的音频内容的语音的第三文本(例如，604l)。响应于第四用户输入(例如，650a、650b和/或650c)并且根据确定第四回放时间在第二回放时间之后(例如，在第一媒体项的顺序回放中更晚)，计算机系统(例如，600)显示表示在由第一文本(例如，604l)表示的第一媒体项的音频内容的语音之后的第一媒体项的音频内容的语音的第四文本(例如，604l)。在一些实施方案中，第三文本(例如，604l)表示与由第一文本(例如，604l)表示的语音紧邻的语音。在一些实施方案中，第三文本(例如，604l)表示对应于第四回放时间的不与由第一文本(例如，604l)表示的语音相邻的语音(例如，在由第三文本和第一文本表示的语音之间存在居间语音)。

在一些实施方案中，第一用户输入(例如，650a、650b和/或650c)包括持续输入分量(例如，触敏表面上的接触；点击并保持鼠标按钮)。在一些实施方案中，第一输入的持续输入分量在第一输入完成之后持续(例如，第一输入是轻扫手势，其中在移动停止之后保持接触)。另外，在计算机系统(例如，600)显示第一文本(例如，604l)时，计算机系统(例如，600)检测持续输入分量已停止(例如，接触已被抬离；鼠标按钮不再被保持)。响应于检测到持续输入分量已停止，计算机系统(例如，600)停止显示第一文本(例如，604l)。

在一些实施方案中，显示第一文本(例如，604l)包括计算机系统(例如，600)显示第二回放时间的指示。

在一些实施方案中，第一媒体项不包括与音频内容的语音相对应的预先生成的文本数据。在一些实施方案中，第一媒体项在计算机系统处被接收(例如，被下载)，而没有与包括在媒体项中的音频内容的语音相对应的文本数据，或者文本数据没有与媒体项一起被接收。在一些实施方案中，使用一个或多个语音转文本功能直接从第一媒体项的音频内容确定第一文本(例如，生成第一文本以供显示)。

即使第一媒体项不包括预先生成的文本数据也显示表示第一媒体项的音频内容的语音的第一文本向用户提供了改进的视觉反馈。例如，用户可在视觉上理解音频内容的一部分，从而有助于用户选择音频内容的一部分以用于回放的能力。提供改进的视觉反馈增强了设备的可操作性，并且使用户-设备界面更有效(例如，通过帮助用户提供合适的输入并减少操作设备/与设备进行交互时的用户错误)，另外，通过使得用户能够更快速且有效地使用设备，这还可以降低电力使用并延长设备的电池寿命。

在一些实施方案中，在计算机系统(例如，600)输出第一媒体项的音频内容的第一部分时(例如，在播放第一媒体项时)，音频内容的第一部分包括作为第三类型的语法结构(例如，句子；独立子句；段落)(例如，不同于第一类型和/或第二类型；与第一类型和/或第二类型相同)的第一实例的一部分的语音，计算机系统(例如，600)经由所述一个或多个输入设备检测第五用户输入(例如，650d、650e和/或650f)(例如，与用于在第一媒体项中向后跳跃或向前跳跃的请求相对应的输入)。在一些实施方案中，音频内容的第一部分包括作为第一句子的一部分的语音。响应于第五用户输入(例如，650d、650e和/或650f)并且根据确定第三类型的语法结构的第二实例在第一媒体项的第五回放时间处开始，第三类型的语法结构的第二实例在包括在音频内容中的语音中与第三类型的语法结构的第一实例相邻(例如，来自正被输出的句子的下一句子或上一句子)，计算机系统(例如，600)输出(例如，通过向前或向后跳跃)第一媒体项的音频内容中在第五回放时间处开始的第二部分。响应于第五用户输入(例如，650d、650e和/或650f)并且根据确定第三类型的语法结构的第二实例在第一媒体项的第六回放时间处开始，计算机系统(例如，600)输出第一媒体项的音频内容中在第六回放时间处开始的第三部分。在一些实施方案中，在播放第一媒体项时，计算机系统(例如，600)将包括语音的音频的回放向前跳跃或回退语音的预定义结构分量(例如，句子或段落)。

在一些实施方案中，在计算机系统(例如，600)输出第一媒体项的音频内容时(例如，在播放第一媒体项时)，该音频内容包括作为第四类型的语法结构(例如，句子；独立子句；段落)(例如，不同于第一、第二和/或第三类型；与第一、第二和/或第三类型相同)的第一实例的一部分的语音，计算机系统(例如，600)经由所述一个或多个输入设备检测第六用户输入(例如，650g)(例如，与用于暂停第一媒体项的回放的请求相对应的输入)。在一些实施方案中，第一媒体项的音频内容包括作为第一句子的一部分的语音。响应于第六用户输入(例如，650g)，计算机系统(例如，600)暂停第一媒体项的音频内容的输出。在暂停第一媒体项的音频内容的输出之后，计算机系统(例如，600)经由所述一个或多个输入设备检测第七用户输入(例如，650h)(例如，与用于恢复输出的请求相对应的输入)。响应于检测到第七用户输入(例如，650h)，计算机系统(例如，600)在第七回放时间处恢复第一媒体项的音频内容的输出，该音频内容包括(例如，匹配)在第四类型的语法结构的第一实例的开始处的语音。在一些实施方案中，在暂停回放之后，回放的恢复从音频中的语音的当前结构分量的开始处开始(例如，在暂停在句子的中间之后在句子的开始处恢复回放)。

在一些实施方案中，第三类型的语法结构是用户可选择类型的语法结构。在一些实施方案中，用户可配置在向前或向后跳跃时使用的语法结构(例如，句子、段落)的类型。

在一些实施方案中，第三类型的语法结构是句子或段落。

在一些实施方案中，用户选择的语法结构(例如，句子或段落)被传输到一个或多个外部计算机系统，并且被此类系统用于控制在回放媒体项时(例如，在回放第一媒体项时)向前或向后跳跃的单元。

在一些实施方案中，媒体回放界面(例如，604)包括第一媒体项的图形表示(例如，604a)(例如，书籍封面)，并且第五用户输入是与第一媒体项的图形表示(例如，604a)相对应的轻扫手势(例如，650d和/或650e)。

在一些实施方案中，第五用户输入是由与计算机系统(例如，600)连接的一个或多个麦克风检测的语音输入(例如，650f)(例如，口头命令)。

需注意，上面关于方法700(例如，图7)所述的过程的细节也以类似方式适用于下文/上文所述的方法。例如，方法900和1100任选地包括上文参考方法700所述的各种方法的一个或多个特征。例如，用户可能希望查看与音频内容的语音相对应的文本以便对音频文件的特定部分加书签。又如，用户可能希望搜索音频文件中靠近音频文件的特定部分的部分，并且查看与音频内容的语音相对应的文本以最终找到音频文件的特定部分。为了简明起见，这些详情在下文中不再重复。

图8A至图8I示出了根据一些实施方案的用于管理音频文件的书签的示例性用户界面。这些附图中的用户界面用于示出下文所述的包括图9中的过程的过程。

图8A示出了具有显示器602的电子设备600。在图8A中，电子设备600在显示器602上显示与电子设备600的媒体应用程序(例如，书籍应用程序、有声读物应用程序)相关联的媒体回放用户界面604。

电子设备600的用户可能希望对被配置为由媒体回放用户界面604回放的音频文件的部分加书签。例如，用户可能希望在音频文件中包括特定对话和/或歌词的特定部分处引起音频文件的回放。媒体回放用户界面604包括有助于用户找到并引起回放由电子设备600创建和/或存储的音频文件的特定部分的能力的特征。

在图8A中，媒体回放用户界面604控制名称为“The Autobiography of JohnAppleseed”的有声读物文件的音频的回放。在图8A处，所输出的音频606示出了与当前正由电子设备600输出(例如，经由电子设备600的内部扬声器和/或与电子设备600通信的外部扬声器)的音频相对应的文本。例如，所输出的音频606指示在有声读物文件的第一时间(例如，0:27)处输出与音频的语音相对应的字词“siblings”。在一些实施方案中，由电子设备600输出的音频可在第一时间处暂停(例如，经由在第一时间处检测到音频控制用户界面对象604e上的用户输入)。

在图8A中，电子设备600检测设置用户界面对象604c上的轻击手势850a。响应于检测到设置用户界面对象604c上的轻击手势850a，电子设备600显示设置用户界面802，如图8B所示。另选地，电子设备600检测内容表用户界面对象604j上的轻击手势850b。响应于检测到内容表用户界面对象604j上的轻击手势850b，电子设备显示内容表用户界面804，如图8C所示。

在图8B中，设置用户界面802被显示为部分地重叠媒体回放用户界面604(例如，部分地覆盖在其上)。设置用户界面802包括有声读物指示符802a(例如，指示有声读物文件的标题和/或作者的文本(诸如“The Autobiography of John…John Appleseed”)和/或有声读物的封面的视觉指示)、第一命令区域806和第二命令区域808。在图8B中，第一命令区域806包括用于复制到有声读物文件的链接的复制用户界面对象806a和用于发起用于将与有声读物文件相关联的信息发送到外部设备的过程的共享有声读物用户界面对象806b。另外，第二命令区域808包括下载用户界面对象808a、添加书签用户界面对象808b、添加到集合用户界面对象808c、评级和评论用户界面对象808d和/或建议用户界面对象808e。

在图8B中，电子设备600检测添加书签用户界面对象808b上的轻击手势850c。响应于检测到轻击手势850c，电子设备600发起在有声读物文件的检测到轻击手势850c时的时间处创建书签的过程。在一些实施方案中，电子设备600发起在有声读物文件的检测到语音命令(例如，“嘿，助理，创建书签”)时的时间处创建书签的过程。

响应于轻击手势850c和/或语音命令，电子设备600在检测到轻击手势850c(或语音命令)时的时间处创建包括与有声读物文件相对应的信息和/或数据的书签。在一些实施方案中，书签的信息和/或数据包括与当前正经由媒体回放用户界面604回放的有声读物文件相关联的信息和/或数据(例如，有声读物文件的标题和/或对应于有声读物文件的数据在媒体应用程序中的位置)、与有声读物文件的音频中在和/或接近检测到轻击手势850c时的时间处的语音相对应的文本、在检测到轻击手势850c时的时间在有声读物文件中的时间戳、与有声读物文件在检测到轻击手势850c时的时间处的一部分相关联的数据(例如，有声读物文件的章节标题和/或节段标题)和/或有声读物文件在检测到轻击手势650c时当前正在回放的特定部分的位置信息(例如，数据存储位置信息)。

经由轻击手势850c创建书签的用户可能希望访问该书签并且使得电子设备600在与该书签相关联的时间(例如，有声读物文件在检测到轻击手势850c时的时间)处输出有声读物文件的音频。因此，电子设备600包括书签用户界面810，其显示针对特定有声读物文件(例如，当前选择的和/或当前播放的有声读物文件)创建和/或存储的所有书签。电子设备600响应于内容表用户界面对象604j上的轻击手势850b和内容表用户界面804上的书签选项卡804a上的轻击手势850d而显示书签用户界面810。

在图8C中，电子设备600响应于轻击手势850b而显示内容表用户界面804。内容表用户界面804包括有声读物指示符804b、内容选项卡804c、书签选项卡804a、笔记选项卡804d和内容用户界面对象804e至804n。在图8C中，电子设备600检测书签选项卡804a上的轻击手势850d。响应于检测到轻击手势850d，电子设备600显示书签用户界面810，如图8D所示。在一些实施方案中，电子设备600响应于语音命令(例如，“嘿，助理，打开书签”)而显示书签用户界面810。

在图8D中，书签用户界面810包括有声读物指示符810a、第一书签用户界面对象810b、第二书签用户界面对象810c、第三书签用户界面对象810d和第四书签用户界面对象810e。如上所述，添加书签用户界面对象808b上的轻击手势850c使得电子设备600发起用于创建与有声读物文件相关联的书签的过程。第二书签用户界面对象810c对应于响应于轻击手势850c而创建的书签。

在图8D中，第二书签用户界面对象810c包括识别响应于轻击手势850c而创建的书签的信息。第二用户界面对象810c包括有声读物部分指示符812(例如，“章节1：Childhood”)、时间戳814和与在与书签相关联的时间(例如，在检测到轻击手势850c时的时间)处和/或附近的音频的语音相对应的文本816。

第二书签用户界面对象810c的文本816包括与在电子设备600检测到轻击手势850c时的时间处和/或附近的音频的语音相对应的文本。在图8D中，文本816包括被配置为在与书签相关联的时间(例如，章节1的0:26)处输出的音频的语音的视觉指示。在一些实施方案中，文本816显示在被配置为在与书签相关联的时间处输出的音频的语音的特定字词之前和/或之后的字词。例如，轻击手势850c由电子设备在时间0:27处检测到(例如，如图8A和图8B所示)。在时间0:27处，输出与音频的语音相对应的字词“siblings”，如图8A的所输出的音频606所指示的。因此，第二书签用户界面对象810c的文本816包括字词“siblings”以及在字词“siblings”之前的字词(例如，“I grew up with three”)和在字词“siblings”之后的字词(例如，“I had two older brothers and one…”)。

在图8D中，时间戳814为书签指示比检测到轻击手势850c的时间更早的时间。例如，在图8A中，有声读物文件的当前回放时间是0:27。如图8A所示，所输出的音频606示出当前正在输出的音频的语音。具体地，所输出的音频606指示字词“siblings”是音频在时间0:27处的当前语音(例如，音频正在时间0:27处播放的当前语音)。字词“siblings”在句子“Igrew up with three siblings,I had two older brothers and one younger sister”的中间。因此，时间戳814(例如，0:26)与有声读物文件中输出在包括字词“siblings”的句子的开始处的字词“I”的时间相关联。因此，电子设备600发起针对与包括与有声读物文件的检测到轻击手势850c时的时间相关联的字词的句子的开始相关联的时间创建书签的过程。

在图8D中，电子设备600检测第二书签用户界面对象810c上的轻击手势850e。响应于检测到轻击手势850e，电子设备600在与第二书签用户界面对象810c的书签相对应的时间处(例如，在时间0:26处)引起有声读物文件的回放，如图8E所示。

在图8E中，电子设备600显示媒体回放用户界面604。所输出的音频606指示在时间0:26处输出与音频的语音相对应的字词“I”。因此，对第二书签用户界面对象810c的选择使得在音频的语音的结构分量(例如，句子或段落)的开始处输出音频。在一些实施方案中，对第二书签用户界面对象810c的选择使得电子设备600在音频的语音的结构分量的开始处发起输出，而不管发起书签的创建的轻击手势650c何时发生。换句话讲，电子设备600响应于对第二书签用户界面对象810c的选择而在与结构分量的开始相关联的时间处发起音频的回放，即使在与结构分量的中间相关联的时间处检测到轻击手势650c。

在结构分量的开始处发起音频的回放通过向用户提供与音频相关的附加上下文而有助于用户对音频的理解。例如，在句子的中间开始音频的回放可能对用户造成困惑，因为用户没有听到音频的整个上下文。另外，用户可在暂停或以其他方式不收听音频达延长的时间段(例如，一天、一周、一月)之后选择第二书签用户界面对象810c。因此，提供结构分量的开始的附加上下文可刷新用户的记忆并且使得用户能够更好地理解与第二书签用户界面对象810c的书签相对应的音频部分。

在图8E中，电子设备600检测内容表用户界面对象604j上的轻击手势850f。响应于检测到轻击手势850f，电子设备显示内容表用户界面804，如图8C所示。此外，电子设备600检测笔记选项卡804d上的轻击手势850g，如图8C所示。响应于检测到轻击手势850g，电子设备600显示笔记用户界面818，如图8F所示。在一些实施方案中，电子设备600响应于语音命令(例如，“嘿，助理，打开笔记”)而显示笔记用户界面818。

在图8F中，笔记用户界面818包括有声读物指示符818a、第一笔记用户界面对象818b和第二笔记用户界面对象818c。在一些实施方案中，电子设备600经由书签用户界面对象810b至810e中的一者上的用户输入(例如，轻击和保持手势)来使得笔记显示在笔记用户界面818中。响应于用户输入，电子设备600使得用户能够输入对应于有声读物文件中与书签用户界面对象810b至810e中所选择的一者相同的部分相对应的自定义笔记(例如，包括经由键盘和/或可选择选项输入的字母数字字符、表情字符、图像和/或视频的笔记)。在一些实施方案中，电子设备经由电子设备600检测并辨识为用于添加新笔记的命令的用户输入(例如，语音命令)来使得笔记显示在笔记用户界面818中。

在图8F中，第一笔记用户界面对象818b对应于有声读物文件的时间0:08。第一笔记用户界面对象818b包括时间戳820(例如，与有声读物文件中该笔记所涉及的时间相对应)、时间指示符822(例如，与创建该笔记的时间相对应，诸如“今天”)、文本指示符824(例如，与在有声读物文件中与时间戳820相关联的时间处的音频的语音相对应的文本)和笔记指示符826(例如，由用户输入的文本、图像和/或视频)。

类似于书签，用户可能希望收听与笔记用户界面818中的笔记相关联的音频。因此，电子设备600检测第一笔记用户界面对象818b上的轻击手势850h，如图8F所示。响应于轻击手势850h，电子设备600在与第一笔记用户界面对象818b相关联的时间(例如，时间0:08)处引起有声读物的音频输出。

在图8G中，电子设备600使得音频在与第一笔记用户界面对象818b相关联的时间处被回放。图8G的所输出的音频606示出了与在与第一笔记用户界面对象818b相关联的时间处的音频的语音相对应的文本(例如，“An inspiration to many,Mom always saw thebest in others.”)。在一些实施方案中，电子设备600在音频的语音的结构分量的开始处发起音频输出。换句话讲，即使当与第一笔记用户界面对象818b相关联的笔记在音频的语音处于结构分量的中间时被创建时，电子设备600也在结构分量的开始处发起音频输出。如上所述，在结构分量的开始处发起音频输出可有助于用户对与第一笔记用户界面对象818b相关的音频的理解。

在图8G中，电子设备600检测媒体回放用户界面604上的用户输入850i(例如，向上轻扫手势)。在一些实施方案中，用户输入850i在媒体回放用户界面604的滑块604k上。在一些实施方案中，在媒体回放用户界面604上的任何位置处接收用户输入850i。响应于检测到用户输入850i，电子设备600发起用于创建书签的过程。

在图8H中，响应于检测到用户输入850i，电子设备600显示通知828，该通知指示已经在有声读物文件的检测到用户输入850i时的时间(例如，时间0:08)处发起用于创建书签的过程。在一些实施方案中，电子设备600在预先确定的时间段(例如，1秒、5秒)之后停止显示通知828。在一些实施方案中，电子设备600响应于媒体回放用户界面604上的用户输入而停止显示通知828。

在一些实施方案中，通知828包括撤销用户界面对象828a，如图8H所示。响应于检测到撤销用户界面对象828a上的用户输入(例如，轻击手势)，电子设备600终止用于创建书签的过程，并且不向书签用户界面810添加新的书签用户界面对象。因此，不经意地输入用户输入850i的用户可取消书签的创建，从而防止并非用户预期的书签用户界面对象被包括在书签用户界面810中。在撤销用户界面对象828a上不存在用户输入的情况下，电子设备600创建书签并且在有声读物文件的检测到用户输入850i时的时间(例如，时间0:08)处向书签用户界面810添加书签用户界面对象。

现在转到图8I，电子设备600还可响应于语音命令而发起用于创建书签的过程。在图8I中，电子设备检测语音命令850j(例如，“嘿，助理，添加书签”)。响应于检测到语音命令850j，电子设备600在媒体回放用户界面604上显示通知828，该通知指示电子设备600检测到语音命令850j并且发起用于创建书签的过程。如上所述，在一些实施方案中，通知828包括撤销用户界面对象828a，其在被选择时使得电子设备600终止书签的创建。

图9是示出了根据一些实施方案的用于使用电子设备来管理音频文件的书签的方法的流程图。方法900在具有显示生成部件和一个或多个输入设备的计算机系统(例如，100、300、500、600)处执行。方法900中的一些操作任选地被组合，一些操作的次序任选地被改变，并且一些操作任选地被省略。

如下所述，方法900提供了用于管理音频文件的书签的直观方式。该方法减轻了用户访问和/或查找音频文件的特定部分的认知负担，从而创建了更有效的人机界面。对于电池驱动的计算设备，使得用户能够更快且更有效地访问音频文件的特定部分节省了功率并且增加了电池两次充电之间的时间间隔。

在方法900中，计算机系统(例如，600)(例如，智能电话；平板电脑；个人计算机；电子文档阅读器)与显示生成部件(例如，602)(例如，集成显示器、(例如，无线地)连接的显示器)和一个或多个输入设备(例如，触敏表面(例如，触摸屏)；鼠标)通信。计算机系统(例如，600)经由显示生成部件显示(902)媒体回放界面(例如，604)(例如，有声读物回放应用程序的界面)(例如，其包括一组一个或多个媒体回放控制用户界面对象)。

在媒体回放界面(例如，604)被配置为控制第一媒体项(904)(例如，有声读物；语音记录)的回放时，第一媒体项包括音频内容，该音频内容包括语音(例如，记录的人类语音；合成语音)，计算机系统(例如，600)经由显示生成部件(例如，602)显示(906)可选择的回放书签指示符(例如，810b、810c、810d和/或810e)。在媒体回放界面被配置为控制第一媒体项的回放时(904)，计算机系统(例如，600)经由所述一个或多个输入设备检测(908)与可选择的回放书签指示符(例如，810b、810c、810d和/或810e)相对应的第一用户输入(例如，850e)。在一些实施方案中，可选择的回放书签指示符(例如，810b、810c、810d和/或810e)是多个可选择的回放位置书签指示符中的一者。

响应于检测到第一用户输入(例如，850e)，计算机系统(例如，600)从第一回放时间(在第一媒体项的总回放时间内以小时、分钟和/或秒测量的时间)输出第一媒体项的音频内容，该音频内容对应于(例如，匹配)在第一类型的语法结构(例如，句子；段落)的第一实例的开始处的语音。第一类型的语法结构包括多个字词。在一些实施方案中，输出音频内容包括在没有音频正被输出时发起音频内容的输出。在一些实施方案中，输出音频内容包括在音频已正在被输出时跳跃到第一回放时间。

从与在语法结构的第一实例的开始处的语音相对应的第一回放时间输出第一媒体项的音频内容向用户提供了改进的音频反馈。例如，语法结构的第一实例的开始使得用户能够获得针对语法结构的剩余部分的附加上下文。提供改进的音频反馈增强了设备的可操作性，并且使用户-设备界面更有效(例如，通过帮助用户提供合适的输入并减少操作设备/与设备进行交互时的用户错误)，这又通过使用户能够更快速且有效地使用设备而减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，在计算机系统(例如，600)显示可选择的回放书签指示符(例如，810b、810c、810d和/或810e)之前并且在计算机系统(例如，600)在第二回放时间处输出第一媒体项的音频内容时或在媒体回放界面(例如，604)被配置为在第二回放时间处输出第一媒体项的音频内容时(例如，在回放暂停在第二回放时间时)，计算机系统(例如，600)经由所述一个或多个输入设备检测第二用户输入(例如，与用于创建书签的请求相对应的输入)。响应于检测到第二用户输入，计算机系统(例如，600)创建与可选择的回放书签指示符(例如，810b、810c、810d和/或810e)相对应的回放书签。第二回放时间不同于第一回放时间。在一些实施方案中，第二回放时间与作为第一类型的语法结构的第一实例除了开始之外的一部分的语音相对应。

在一些实施方案中，第二用户输入包括轻弹手势(例如，850i)(例如，接触之后进行接触的快速移动和抬离)。在一些实施方案中，第二用户输入包括对可选择的书签创建用户界面对象的选择。

响应于检测到轻弹手势而创建回放书签减少了用户所需的输入的数量。减少所需的输入的数量增强了设备的可操作性，并且使用户-设备界面更有效(例如，通过帮助用户提供合适的输入并减少操作设备/与设备进行交互时的用户错误)，这又通过使用户能够更快速且有效地使用设备而减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，第一用户输入是由与计算机系统(例如，600)连接的一个或多个麦克风检测的语音输入(例如，口头命令)。

在一些实施方案中，计算机系统(例如，600)通过显示与第一回放时间相对应的文本(例如，816)(例如，在第一回放时间处；在第一回放时间处开始的句子的文本)来显示可选择的回放书签指示符(例如，810b、810c、810d和/或810e)。

显示具有与第一回放时间相对应的文本的可选择的回放书签指示符向用户提供了改进的视觉反馈。例如，用户可容易地查看文本并确定他们正在寻找哪个书签，从而减少用户搜索特定书签所花费的时间。提供改进的视觉反馈增强了设备的可操作性，并且使用户-设备界面更有效(例如，通过帮助用户提供合适的输入并减少操作设备/与设备进行交互时的用户错误)，另外，通过使得用户能够更快速且有效地使用设备，这还可以降低电力使用并延长设备的电池寿命。

在一些实施方案中，计算机系统(例如，600)经由所述一个或多个输入设备检测第三用户输入，其中第三用户输入是由与计算机系统连接的一个或多个麦克风检测的语音输入(例如，口头命令)。响应于检测到第三用户输入，计算机系统(例如，600)创建与可选择的回放书签指示符(例如，810b、810c、810d和/或810e)相对应的笔记(例如，文本串)。

在一些实施方案中，可选择的回放书签指示符(例如，810b、810c、810d和/或810e)被显示在媒体回放界面(例如，604)的第一部分(例如，810)中。另外，计算机系统(例如，600)经由显示生成部件(例如，602)显示包括与第一媒体项相对应的用户输入文本(例如，826)的笔记用户界面对象(例如，818b和/或818c)。笔记用户界面对象(例如，818b和/或818c)被显示在媒体回放界面(例如，604)的与媒体回放界面(例如，604)的第一部分(例如，810)在视觉上不同的第二部分(例如，818)中(例如，在媒体回放界面的不同选项卡或不同界面页面或屏幕中)。

在一些实施方案中，计算机系统(例如，600)经由所述一个或多个输入设备检测与笔记用户界面对象(例如，818b和/或818c)相对应的第四用户输入(例如，850h)。响应于检测到第四用户输入(例如，850h)，计算机系统(例如，600)从第三回放时间(在第一媒体项的总回放时间内以小时、分钟和/或秒测量的时间)输出第一媒体项的音频内容，该音频内容对应于(例如，匹配)在第二类型的语法结构(例如，句子；段落)(例如，其不同于第一类型；其与第一类型相同)的第一实例的开始处的语音。第二类型的语法结构包括多个字词。在一些实施方案中，输出音频内容包括在没有音频正被输出时发起音频内容的输出。在一些实施方案中，输出音频内容包括在音频已正在被输出时跳跃到第三回放时间。

在一些实施方案中，第一媒体项不包括与音频内容的语音相对应的预先生成的文本数据。在一些实施方案中，第一媒体项在计算机系统(例如，600)处被接收(例如，被下载)，而没有与包括在媒体项中的音频内容的语音相对应的文本数据，或者文本数据没有与媒体项一起被接收。在一些实施方案中，使用一个或多个语音转文本功能直接从第一媒体项的音频内容确定第一文本(例如，生成第一文本以供显示)。

需注意，上文相对于方法900(例如，图9)所述的过程的详情也以类似方式适用于下文/上文所述的方法。例如，方法700和1100任选地包括上文参考方法900所述的各种方法的一个或多个特征。

图10A至图10E示出了根据一些实施方案的用于搜索与音频文件的语音相对应的文本的示例性用户界面。些附图中的用户界面用于示出下文所述的过程，这些过程包括图11中的过程。

图10A示出了具有显示器602(例如，触摸屏)的电子设备600(例如，智能电话)。在图10A中，电子设备600在显示器602上显示与电子设备600的媒体应用程序(例如，书籍应用程序、有声读物应用程序)相关联的媒体回放用户界面604。

电子设备600的用户可能希望搜索被配置为经由媒体回放用户界面604回放的音频文件的特定部分。例如，用户可能希望在音频文件中包括特定对话和/或歌词的特定部分处进行查找并引起音频文件的回放。媒体回放用户界面604包括有助于用户经由对与音频文件相关联的音频的语音的文本的搜索来找到并引起回放音频文件的特定部分的能力的特征。

在一些实施方案中，电子设备600可访问的音频文件不包括与音频文件的语音相对应的预先生成的文本数据。换句话讲，音频文件不包括元数据、嵌入数据和/或包括语音的文本的任何相关联数据。因此，电子设备600(或与电子设备600通信的外部设备)执行音频文件的语音识别(例如，转录)以生成与音频文件中的语音相对应的文本。在一些实施方案中，实时地(例如，在电子设备600输出音频文件的音频时)、在特定音频文件被选择用于经由媒体回放用户界面604进行控制时和/或在音频文件被存储在电子设备600上(例如，在电子设备600的存储器中和/或在云中)时执行语音识别。

在图10A中，媒体回放用户界面604控制有声读物文件(例如，与名称为“TheAutobiography of John Appleseed”的有声读物相对应的有声读物文件)的音频的回放。在图10A中，媒体回放用户界面604包括有声读物指示符604a(例如，与有声读物文件相关联的有声读物的书籍封面的图像、识别有声读物文件的文本和/或有声读物的另一视觉指示)、正在播放指示符604b(例如，指示所选择的有声读物文件(例如，当前播放的有声读物文件)的章节或部分的文本和/或指示所选择的有声读物文件的标题的文本)、设置用户界面对象604c、刷动条604d、音频控制用户界面对象604e、音量控制用户界面对象604f、音频速度用户界面对象604g、睡眠设置用户界面对象604h、共享音频用户界面对象604i、内容表用户界面对象604j和/或搜索用户界面对象604o。

在图10A中，电子设备600检测搜索用户界面对象604o上的轻击手势1050a。响应于检测到搜索用户界面对象604o上的轻击手势1050a，电子设备600显示搜索用户界面1002，如图10B所示。

在图10B中，搜索用户界面1002包括搜索栏1002a和键盘1002b。在图10B中，电子设备600检测搜索条1002a上的轻击手势1050b。响应于检测到轻击手势1050b，电子设备600使得用户能够将搜索词或文本输入到搜索栏1002a中。例如，在检测到轻击手势1050b之后，电子设备600检测键盘1002b上的一个或多个用户输入(例如，轻击手势和/或轻扫手势)并且在搜索栏1002a中显示与在键盘1002b上选择的字符相对应的文本。

在图10C中，电子设备600显示搜索词1002c(例如，“Joe”)。因此，在检测到轻击手势1050b之后，电子设备600检测键盘1002b上对应于字符“J”、“O”和“E”的用户输入。

另外，在图10C中，电子设备600在搜索结果区域1004中显示与搜索词1002c相关联的搜索结果。搜索结果区域1004包括第一结果用户界面对象1004a、第二结果用户界面对象1004b、第三结果用户界面对象1004c、第四结果用户界面对象1004d和第五结果用户界面对象1004e(例如，第五结果用户界面对象1004e的局部视图)。在搜索结果区域1004中显示的搜索结果中的每个搜索结果包括搜索词1002c。此外，每个结果用户界面对象1004a至1004e将搜索词1002c强调为加粗文本。在每个结果用户界面对象1004a至1004e中强调搜索词1002c使得用户能够快速地在搜索结果内识别搜索词1002c并且确定哪个搜索结果对应于有声读物文件中用户正在寻找的期望部分。

在一些实施方案中，电子设备600使用经由语音识别生成的文本来执行对应于有声读物文件的音频的语音的文本的搜索。因此，电子设备600将搜索词1002c与对应于有声读物文件的音频的语音的文本进行比较，以确定由结果用户界面对象1004a至1004e表示的搜索结果。在一些实施方案中，电子设备600使得响应于检测到轻击手势1050b和/或响应于检测到键盘1002b上的第一用户输入而执行语音识别。在一些实施方案中，随着电子设备600在键盘1002b上检测到附加的用户输入，电子设备600更新由结果用户界面对象表示的搜索结果。

在图10C中，结果用户界面对象1004a至1004e包括使用户能够快速识别哪个搜索结果对应于有声读物文件的期望部分的附加信息。在图10C中，结果用户界面对象1004a至1004e各自包括时间指示符1006(例如，与搜索词的音频输出相关联的时间和/或与包括搜索词的结构分量(例如，句子或段落)的开始相关联的时间)和/或部分指示符1008(例如，指示有声读物文件中包括搜索词的章节和/或节段的文本)。在一些实施方案中，时间指示符1006包括与有声读物文件的输出与音频的语音相对应的搜索词1002c时的一部分相关联的时间。在一些实施方案中，时间指示符包括与有声读物文件的输出包括与音频的语音相对应的搜索词1002c的结构分量(例如，句子或段落)的开始时的一部分相关联的时间。时间指示符1006向用户提供关于搜索词1002c在有声读物文件中何时出现(例如，具体时间或大致时间)的指示。另外，部分指示符1008向用户提供关于搜索词1002c在有声读物文件中出现的部分(例如，章节和/或节段)的指示。

此外，结果用户界面对象1004a至1004e包括除了搜索词1002c之外的附随文本1010。随附文本1010包括与在有声读物文件的与搜索词1002c相关联的时间(例如，有声读物文件的由电子设备输出与音频的语音相对应的搜索词1002c时的时间)附近的音频的语音相对应的文本(例如，字词)。因此，随附文本1010包括在有声读物文件的音频的语音中在搜索词1002c之前和/或之后的字词。随附文本1010可因此显示搜索词1002c的附加上下文，使得用户可选择匹配有声读物文件中用户正在搜索的部分的搜索结果(例如，结果用户界面对象1004a至1004e中的一者)。

在一些实施方案中，随附文本1010包括具有搜索词1002c的结构分量(例如，句子)的至少一个末端(例如，开始和/或结尾)。在图10C中，第一结果用户界面对象1004a、第二结果用户界面对象1004b、第三结果用户界面对象1004c和第五结果用户界面对象1004e包括具有包括搜索词1002c的结构分量(例如，句子)的开始的随附文本1010。在一些实施方案中，结果用户界面对象1004a至1004e包括具有搜索词1002c的结构分量的至少一个末端，以及搜索词1002c和与有声读物文件的音频的语音相对应的附加文本。与有声读物文件的音频的语音相对应的附加文本可包括在结果用户界面对象1004a至1004e的预先确定的大小内适配的尽可能多的字词。另外，在图10C中，第四结果用户界面对象1002d包括包含搜索词1002c的结构分量(例如，句子)的结尾。因此，在一些实施方案中，电子设备600基于搜索词1002c被包括在结构分量中的地方(例如，朝向结构分量的开始一半或朝向结构分量的结尾一半)来显示包含具有搜索词1002c的结构分量的开始和/或具有搜索词1002c的结构分量的结尾的附随文本1010。在一些实施方案中，附随文本1010不包括结构分量的末端。

在一些实施方案中，搜索用户界面1002是可滚动的(例如，经由用户输入)，使得电子设备600被配置为响应于用户输入(例如，轻扫手势)而显示附加的结果用户界面对象。在一些实施方案中，搜索用户界面1002包括针对搜索词1002c的所有实例的结果用户界面对象，但是在给定时间显示预先确定量的结果用户界面对象。因此，电子设备600响应于用户输入(例如，滚动手势)而显示附加的结果用户界面对象。在一些实施方案中，电子设备600以时间顺序(例如，以与有声读物文件的搜索词1002c和/或包括与音频的语音相对应的搜索词1002c的结构分量被配置为被输出时的时间相关联的时间顺序)显示结果用户界面对象。

在一些实施方案中，电子设备600检测结果用户界面对象1004a至1004e中的一者上的用户输入(例如，轻击和保持手势)。响应于检测到用户输入，电子设备600发起为由所选择的用户界面对象表示的搜索结果创建书签的过程，如上文参考图8A至图8I所讨论的。

在图10C中，电子设备600检测第二结果用户界面对象1004b上的轻击手势1050c。响应于检测到第二结果用户界面对象1004b上的轻击手势1050c，电子设备600使得音频被输出，如图10D所示。

在图10D中，所输出的音频606包括与由电子设备600输出(例如，经由电子设备600的内部扬声器和/或经由与电子设备600通信的外部扬声器输出)的音频的语音相对应的文本。如图10D所示，所输出的音频606强调在包括搜索词1002c(例如，“Joe”)的结构分量(例如，句子)的开始处的字词“After”。因此，响应于检测到轻击手势1050c，电子设备600使得音频输出在包括搜索词1002c的结构分量的开始处开始。换句话讲，在一些实施方案中，电子设备600不使得音频输出在有声读物文件的搜索词1002c被配置为被输出时的时间处开始。在包括搜索词1002c的结构分量的开始处发起音频输出通过向用户提供搜索词1002c的附加上下文(例如，包括搜索词1002c的整个句子)而有助于用户对音频的理解。

在一些实施方案中，电子设备600响应于检测到语音命令而显示搜索用户界面1002以及搜索栏1002a中的搜索词1002c。在图10E中，电子设备600检测语音命令1050d(例如，“嘿，助理，在the Autobiography of John Appleseed中搜索‘Joe’”)。响应于检测到语音命令1050d，电子设备600显示搜索用户界面1002、搜索栏1002a中的搜索词1002c以及对应于搜索词1002c的结果用户界面对象1004a至1004e。因此，电子设备600被配置为响应于检测到来自键盘1002b的输入以及语音命令1050d两者而搜索有声读物文件。

图11是示出了根据一些实施方案的用于使用电子设备来搜索与音频文件的语音相对应的文本的方法的流程图。方法1100在具有显示生成部件和一个或多个输入设备的计算机系统(例如，100、300、500、600)处执行。方法1100中的一些操作任选地被组合，一些操作的次序任选地被改变，并且一些操作任选地被省略。

如下所述，方法1100提供了用于搜索与音频文件的语音相对应的文本的直观方式。该方法减轻了用户访问和/或查找音频文件的特定部分的认知负担，从而创建了更有效的人机界面。对于电池驱动的计算设备，使得用户能够更快且更有效地访问音频文件的特定部分节省了功率并且增加了电池两次充电之间的时间间隔。

在方法1100中，计算机系统(例如，600)(例如，智能电话；平板电脑；个人计算机；电子文档阅读器)与显示生成部件(例如，602)(例如，集成显示器、(例如，无线地)连接的显示器)和一个或多个输入设备(例如，触敏表面(例如，触摸屏)；鼠标)通信。计算机系统(例如，600)经由显示生成部件(例如，602)显示(1102)媒体回放应用程序的搜索界面(例如，1002)(例如，有声读物回放应用程序的界面)(例如，其包括一组一个或多个媒体回放控制用户界面对象)。

在媒体回放应用程序被配置为控制第一媒体项(1104)(例如，有声读物；语音记录)的回放时，第一媒体项包括音频内容，该音频内容包括语音(例如，记录的人类语音；合成语音)，计算机系统(例如，600)经由所述一个或多个输入设备检测(1106)第一用户输入(例如，1050b)(例如，键盘输入；经由语音转文本处理的语音输入)，其包括第一文本搜索串(例如，1002c)(例如，单个字词；多个字词(例如，短语))。

在检测到第一用户输入(例如，1050b)之后(例如，并且响应于检测到第一用户输入)，计算机系统(例如，600)显示(1108)一个或多个搜索结果(例如，1004a、1004b、1004c、1004d和/或1004e)，所述一个或多个搜索结果包括与第一媒体项的音频内容的语音中匹配(例如，包括)第一文本搜索串(例如，1002c)的第一部分相对应的第一搜索结果(例如，1004b)。

使得用户能够搜索匹配第一文本搜索串的音频内容的语音减少了用户访问音频内容的特定部分所需的输入的数量。例如，用户可通过利用第一文本搜索串进行搜索来容易地找到音频内容的特定部分，而不是尝试经由跳跃来定位音频内容的一部分。减少访问音频内容的特定部分所需的输入的数量增强了设备的可操作性，并且使用户-设备界面更有效(例如，通过帮助用户提供合适的输入并减少操作设备/与设备进行交互时的用户错误)，这又通过使用户能够更快速且有效地使用设备而减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，计算机系统(例如，600)经由所述一个或多个输入设备检测与第一搜索结果(例如，1004b)相对应的第二用户输入(例如，1050c)。响应于检测到第二用户输入(例如，1050c)，计算机系统(例如，600)从与第一媒体项的音频内容的语音的第一部分相对应的第一回放时间输出第一媒体项的音频内容。在一些实施方案中，输出音频内容包括在没有音频正被输出时发起音频内容的输出。在一些实施方案中，输出音频内容包括在音频已正在被输出时跳跃到第一回放时间。

在一些实施方案中，第一回放时间与在第一类型的语法结构(例如，句子；段落)的第一实例的开始处的语音相对应。第一类型的语法结构包括多个字词。第一文本搜索串(例如，1002c)匹配第一类型的语法结构的第一实例中的一个或多个字词(例如，匹配句子中的一个或多个字词)。

从与在语法结构的第一实例的开始处的语音的第一部分相对应的第一回放时间输出第一媒体项的音频内容向用户提供了改进的音频反馈。例如，语法结构的第一实例的开始使得用户能够获得针对语法结构的剩余部分的附加上下文。提供改进的音频反馈增强了设备的可操作性，并且使用户-设备界面更有效(例如，通过帮助用户提供合适的输入并减少操作设备/与设备进行交互时的用户错误)，这又通过使用户能够更快速且有效地使用设备而减少了电力使用并且延长了设备的电池寿命。

在一些实施方案中，第一搜索结果(例如，1004b)包括第一类型的语法结构的第一实例的至少一部分的文本表示(例如，来自所述至少一部分的文本)，其包括第一类型的语法结构的第一实例中的所述一个或多个字词(例如，1002c)。第一类型的语法结构的第一实例中的所述一个或多个字词(例如，1002c)相对于文本表示中不匹配第一文本搜索串(例如，1002c)的字词(例如，1010)在视觉上被强调(例如，加粗、加下划线)。

显示语法结构的第一实例的至少一部分的文本表示并且在语法结构的第一实例中强调所述一个或多个字词提供了改进的视觉反馈。例如，用户可以快速地识别匹配第一文本搜索串的所述一个或多个字词并且还可以识别音频内容中用户正在搜索的特定部分。提供改进的视觉反馈增强了设备的可操作性，并且使用户-设备界面更有效(例如，通过帮助用户提供合适的输入并减少操作设备/与设备进行交互时的用户错误)，另外，通过使得用户能够更快速且有效地使用设备，这还可以降低电力使用并延长设备的电池寿命。

在一些实施方案中，第一类型的语法结构的第一实例的所述至少一部分包括第一类型的语法结构的第一实例的至少开始或至少结尾(例如，句子的开始或结尾)。

在一些实施方案中，第一搜索结果(例如，1004b)包括在第一媒体项内的位置的指示(例如，1006和/或1008)(例如，时间戳；有声读物的章节标识符)，其与第一媒体项的音频内容的语音中匹配第一文本搜索串(例如，1002c)的第一部分相对应。

在一些实施方案中，位置的指示是第一时间戳(例如，1006)(例如，以小时、分钟和/或秒为单位)，其对应于在第二类型的语法结构(例如，句子；段落)(例如，其不同于第一类型；其与第一类型相同)的第一实例的开始处的语音，该第一实例包括第一文本串(例如，1002c)。在一些实施方案中，时间戳(例如，1006)是与音频中包括文本的语音的句子相关联的开始时间。

在一些实施方案中，位置的指示是第二时间戳(例如，1006)(例如，以小时、分钟和/或秒为单位)，其对应于匹配第一文本串(例如，1002c)的语音。在一些实施方案中，时间戳是与音频中的语音的文本相关联的时间。

在一些实施方案中，所述一个或多个搜索结果(例如，1004a、1004b、1004c、1004d和/或1004e)包括针对第一文本串(例如，1002c)在第一媒体项的音频内容的语音中的所有所识别的(例如，经由语音转文本分析所识别的)出现的结果。在一些实施方案中，最初可显示一定数量的结果，并且这些结果可被滚动(例如，经由轻扫手势)以显示附加结果。在一些实施方案中，相对于音频的回放按时间顺序排序搜索结果。

在一些实施方案中，计算机系统(例如，600)经由所述一个或多个输入设备检测包括与第一搜索结果(例如，1004b)相对应的输入的第一组一个或多个输入。响应于检测到第一组一个或多个输入，计算机系统(例如，600)创建回放书签，该回放书签在被激活时(例如，经由选择对应的书签指示)从与第一媒体项的音频内容的语音的第一部分相对应的第一回放时间引起第一媒体项的音频内容的输出。

需注意，上文相对于方法1100所述的过程(例如，图11)的详情也以类似方式适用于下文所述的方法。例如，方法700和900任选地包括上文参考方法1100所述的各种方法的一个或多个特征。

出于解释的目的，前面的描述是通过参考具体实施方案来描述的。然而，上面的例示性论述并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容，很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用程序。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预期的特定用途的各种修改的各种实施方案。

虽然参照附图对本公开以及示例进行了全面的描述，但应当注意，各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解，此类变化和修改被认为被包括在由权利要求书所限定的本公开和示例的范围内。

如上所述，本发明技术的一个方面在于收集和使用得自各种来源的数据以改善音频内容的管理。本公开设想，在一些实例中，该所收集的数据可包括个人信息数据。此类个人信息数据可包括电子邮件地址和/或支付信息。

本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如，个人信息数据可用于访问音频内容。因此，使用此类个人信息数据使得用户能够更好地管理音频内容。此外，本公开还预期个人信息数据有益于用户的其他用途。

本公开设想负责采集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地，此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。此类政策应该能被用户方便地访问，并应随着数据的采集和/或使用变化而被更新。来自用户的个人信息应当被收集用于实体的合法且合理的用途，并且不在这些合法使用之外共享或出售。此外，应在收到用户知情同意后进行此类采集/共享。此外，此类实体应考虑采取任何必要步骤，保卫和保障对此类个人信息数据的访问，并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外，这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。另外，应当调整政策和实践，以便采集和/或访问的特定类型的个人信息数据，并适用于包括管辖范围的具体考虑的适用法律和标准。例如，在美国，对某些健康数据的收集或获取可能受联邦和/或州法律的管辖，诸如健康保险流通和责任法案(HIPAA)；而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。因此，在每个国家应为不同的个人数据类型保持不同的隐私实践。

不管前述情况如何，本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件，以防止或阻止对此类个人信息数据的访问。例如，就共享音频内容而言，本发明技术可被配置为在注册服务期间或者其后的任何时间允许用户选择“选择加入”或“选择退出”参与对个人信息数据的收集。除了提供“选择加入”和“选择退出”选项外，本公开还设想提供与访问或使用个人信息相关的通知。例如，可在下载应用时向用户通知其个人信息数据将被访问，然后就在个人信息数据被应用访问之前再次提醒用户。

此外，本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据，通过限制数据收集和删除数据可最小化风险。此外，并且当适用时，包括在某些健康相关应用程序中，数据去标识可用于保护用户的隐私。可在适当时通过移除特定标识符(例如，出生日期等)、控制所存储数据的量或特异性(例如，在城市级别而不是在地址级别收集位置数据)、控制数据如何被存储(例如，在用户之间聚合数据)、和/或其他方法来促进去标识。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案，但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即，本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。

Claims

1.一种方法，所述方法包括：

在与显示生成部件和一个或多个输入设备通信的计算机系统处：

经由所述显示生成部件显示媒体回放界面，所述媒体回放界面包括一组一个或多个媒体回放控制用户界面对象，其中所述一组一个或多个媒体回放控制用户界面对象包括可选择的回放位置指示符；以及

在所述媒体回放界面被配置为控制第一媒体项的回放时，

其中所述第一媒体项包括音频内容，所述音频内容包括语音：

经由所述一个或多个输入设备检测与所述可选择的回放位置指示符相对应的第一输入；以及

响应于检测到所述第一输入：

将所述可选择的回放位置指示符从与所述第一媒体项的第一回放时间相对应的第一位置移动到与所述第一媒体项的第二回放时间相对应的第二位置；以及

经由所述显示生成部件显示第一文本，所述第一文本表示所述第一媒体项的所述音频内容中与所述第二回放时间相对应的语音。

2.根据权利要求1所述的方法，其中所述显示表示所述第一媒体项的所述音频内容的语音的所述第一文本包括将所述第一文本覆盖在所述媒体回放界面的一个或多个图形元素上。

3.根据权利要求1至2中任一项所述的方法，其中所述第一文本包括与所述第二回放时间相对应的第一类型的语法结构的全部字词。

4.根据权利要求3所述的方法，其中所述第一文本是所述第一类型的所述语法结构的第一实例，所述方法还包括：

在所述可选择的回放位置指示符被显示在所述第二位置处时并且在所述第一文本被显示时，经由所述一个或多个输入设备检测与所述可选择的回放位置指示符相对应的第二用户输入；以及

响应于检测到所述第二用户输入：

将所述可选择的回放位置指示符从所述第二位置移动到与所述第一媒体项的第三回放时间相对应的第三位置，所述第三回放时间不与包括在所述第一类型的所述语法结构的所述第一实例中的语音相对应；以及

经由所述显示生成部件显示表示所述第一媒体项的所述音频内容的语音的第二文本，所述第二文本包括所述第一类型的所述语法结构的第二实例的全部字词，其中在包括在所述音频内容中的所述语音中，所述第二实例与所述第一实例相邻。

5.根据权利要求1至2中任一项所述的方法，其中所述第一文本被显示为表示所述第一媒体项的所述音频内容中与在所述第一回放时间与所述第二回放时间之间的时段相对应的语音的滚动文本集合的一部分。

6.根据权利要求1至5中任一项所述的方法，其中显示所述第一文本包括：

根据确定所述媒体回放用户界面当前被配置为以第一方式显示表示所述音频内容的语音的文本，将所述第一文本显示为与所述第二回放时间相对应的第二类型的语法结构的多个字词；以及

根据确定所述媒体回放用户界面当前被配置为以第二方式显示表示所述音频内容的语音的文本，将所述第一文本显示为表示所述第一媒体项的所述音频内容中与在所述第一回放时间与所述第二回放时间之间的所述时段相对应的语音的滚动文本集合的一部分。

7.根据权利要求1至6中任一项所述的方法，其中所述第一用户输入包括所述可选择的回放位置指示符上的触摸和保持手势的移动。

8.根据权利要求1至7中任一项所述的方法，还包括：

在所述可选择的回放位置指示符被显示在所述第二位置处时并且在所述第一文本被显示时，经由所述一个或多个输入设备检测与所述可选择的回放位置指示符相对应的第四用户输入；以及

响应于所述第四用户输入：

将所述可选择的回放位置指示符移动到与所述第一媒体项的第四回放时间相对应的第四位置；

根据确定所述第四回放时间在所述第二回放时间之前，显示表示在由所述第一文本表示的所述第一媒体项的所述音频内容的所述语音之前的所述第一媒体项的所述音频内容的语音的第三文本；以及

根据确定所述第四回放时间在所述第二回放时间之后，显示表示在由所述第一文本表示的所述第一媒体项的所述音频内容的所述语音之后的所述第一媒体项的所述音频内容的语音的第四文本。

9.根据权利要求1至8中任一项所述的方法，其中所述第一用户输入包括持续的输入分量，所述方法还包括：

在显示所述第一文本时，检测所述持续的输入分量已停止；以及

响应于检测到所述持续的输入分量已停止，停止显示所述第一文本。

10.根据权利要求1至9中任一项所述的方法，其中显示所述第一文本包括显示所述第二回放时间的指示。

11.根据权利要求1至10中任一项所述的方法，其中所述第一媒体项不包括与所述音频内容的语音相对应的预先生成的文本数据。

12.根据权利要求1至11中任一项所述的方法，还包括：

在输出所述第一媒体项的音频内容的第一部分时，其中所述音频内容的第一部分包括作为第三类型的语法结构的第一实例的一部分的语音，经由所述一个或多个输入设备检测第五用户输入；

响应于所述第五用户输入：

根据确定所述第三类型的所述语法结构的第二实例在所述第一媒体项的第五回放时间处开始，其中所述第三类型的所述语法结构的所述第二实例在包括在所述音频内容中的所述语音中与所述第三类型的所述语法结构的所述第一实例相邻，输出所述第一媒体项的所述音频内容中在所述第五回放时间处开始的第二部分；以及

根据确定所述第三类型的所述语法结构的所述第二实例在所述第一媒体项的第六回放时间处开始，输出所述第一媒体项的所述音频内容中在所述第六回放时间处开始的第三部分。

13.根据权利要求1至12中任一项所述的方法，还包括：

在输出包括作为第四类型的语法结构的第一实例的一部分的语音的所述第一媒体的音频内容时，经由所述一个或多个输入设备检测第六用户输入；

响应于所述第六用户输入，暂停所述第一媒体的所述音频内容的输出；

在暂停所述第一媒体的所述音频内容的输出之后，经由所述一个或多个输入设备检测第七用户输入；

响应于检测到所述第七输入，在第七回放时间处恢复所述第一媒体项的所述音频内容的输出，所述音频内容包括在所述第四类型的所述语法结构的所述第一实例的开始处的语音。

14.根据权利要求12至13中任一项所述的方法，其中所述第三类型的所述语法结构是用户可选择类型的语法结构。

15.根据权利要求12至14中任一项所述的方法，其中所述第三类型的所述语法结构是句子或段落。

16.根据权利要求12至15中任一项所述的方法，其中所述媒体回放界面包括所述第一媒体项的图形表示，并且其中所述第五用户输入是与所述第一媒体项的所述图形表示相对应的轻扫手势。

17.根据权利要求12至15中任一项所述的方法，其中所述第五用户输入是由与所述计算机系统连接的一个或多个麦克风检测的语音输入。

18.一种存储一个或多个程序的非暂态计算机可读存储介质，所述一个或多个程序被配置为由具有显示生成部件和一个或多个输入设备的计算机系统的一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至17中任一项所述的方法的指令。

19.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；

一个或多个处理器；和

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求1至17中任一项所述的方法的指令。

20.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；和

用于执行根据权利要求1至17中任一项所述的方法的装置。

21.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由与显示生成部件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

在所述媒体回放界面被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：

响应于检测到所述第一输入：

22.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；

一个或多个处理器；和

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

响应于检测到所述第一输入：

23.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；

用于经由所述显示生成部件显示媒体回放界面的装置，所述媒体回放界面包括一组一个或多个媒体回放控制用户界面对象，其中所述一组一个或多个媒体回放控制用户界面对象包括可选择的回放位置指示符；以及

用于经由所述一个或多个输入设备检测与所述可选择的回放位置指示符相对应的第一输入的装置；以及

响应于检测到所述第一输入：

用于将所述可选择的回放位置指示符从与所述第一媒体项的第一回放时间相对应的第一位置移动到与所述第一媒体项的第二回放时间相对应的第二位置的装置；和

用于经由所述显示生成部件显示第一文本的装置，所述第一文本表示所述第一媒体项的所述音频内容中与所述第二回放时间相对应的语音。

24.一种方法，所述方法包括：

经由所述显示生成部件显示媒体回放界面；

在所述媒体回放界面被配置为控制第一媒体项的回放时，

经由所述显示生成部件显示可选择的回放书签指示符；

经由所述一个或多个输入设备检测与所述可选择的回放书签指示符相对应的第一用户输入；以及

响应于检测到所述第一用户输入，从与在第一类型的语法结构的第一实例的开始处的语音相对应的第一回放时间输出所述第一媒体项的音频内容，其中所述第一类型的所述语法结构包括多个字词。

25.根据权利要求24所述的方法，还包括：

在显示所述可选择的回放书签指示符之前并且在第二回放时间处输出所述第一媒体项的音频内容时或在所述媒体回放界面被配置为在所述第二回放时间处输出所述第一媒体项的音频内容时：

经由所述一个或多个输入设备检测第二用户输入；以及

响应于检测到所述第二用户输入，创建与所述可选择的回放书签指示符相对应的回放书签；

其中所述第二回放时间不同于所述第一回放时间。

26.根据权利要求25所述的方法，其中所述第二用户输入包括轻弹手势。

27.根据权利要求24至26中任一项所述的方法，其中所述第一用户输入是由与所述计算机系统连接的一个或多个麦克风检测的语音输入。

28.根据权利要求24至27中任一项所述的方法，其中显示所述可选择的回放书签指示符包括显示与所述第一回放时间相对应的文本。

29.根据权利要求24至28中任一项所述的方法，还包括：

经由所述一个或多个输入设备检测第三用户输入，其中所述第三用户输入是由与所述计算机系统连接的一个或多个麦克风检测的语音输入；以及

响应于检测到所述第三用户输入，创建与所述可选择的回放书签指示符相对应的笔记。

30.根据权利要求24至29中任一项所述的方法，其中所述可选择的回放书签指示符被显示在所述媒体回放界面的第一部分中，所述方法还包括：

经由所述显示生成部件显示包括与所述第一媒体项相对应的用户输入文本的笔记用户界面对象，其中所述笔记用户界面对象被显示在所述媒体回放界面的与所述媒体回放界面的所述第一部分在视觉上不同的第二部分中。

31.根据权利要求30所述的方法，所述方法还包括：

经由所述一个或多个输入设备检测与所述笔记用户界面对象相对应的第四用户输入；

响应于检测到所述第四用户输入，从与在第二类型的语法结构的第一实例的开始处的语音相对应的第三回放时间输出所述第一媒体项的音频内容，其中所述第二类型的所述语法结构包括多个字词。

32.根据权利要求24至31中任一项所述的方法，其中所述第一媒体项不包括与所述音频内容的语音相对应的预先生成的文本数据。

33.一种存储一个或多个程序的非暂态计算机可读存储介质，所述一个或多个程序被配置为由具有显示生成部件和一个或多个输入设备的计算机系统的一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求24至32中任一项所述的方法的指令。

34.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；

一个或多个处理器；和

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求24至32中任一项所述的方法的指令。

35.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；和

用于执行根据权利要求24至32中任一项所述的方法的装置。

36.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由与显示生成部件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

经由所述显示生成部件显示媒体回放界面；

经由所述显示生成部件显示可选择的回放书签指示符；

37.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；

一个或多个处理器；和

经由所述显示生成部件显示媒体回放界面；

在所述媒体回放界面被配置为控制第一媒体项的回放时，

经由所述显示生成部件显示可选择的回放书签指示符；

38.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；

用于经由所述显示生成部件显示媒体回放界面的装置；

用于经由所述显示生成部件显示可选择的回放书签指示符的装置；

用于经由所述一个或多个输入设备检测与所述可选择的回放书签指示符相对应的第一用户输入的装置；以及

响应于检测到所述第一用户输入，用于从与在第一类型的语法结构的第一实例的开始处的语音相对应的第一回放时间输出所述第一媒体项的音频内容的装置，其中所述第一类型的所述语法结构包括多个字词。

39.一种方法，所述方法包括：

经由所述显示生成部件显示媒体回放应用程序的搜索界面；以及

在所述媒体回放应用程序被配置为控制第一媒体项的回放时，其中所述第一媒体项包括音频内容，所述音频内容包括语音：

经由所述一个或多个输入设备检测包括第一文本搜索串的第一用户输入；以及

在检测到所述第一用户输入之后，显示包括第一搜索结果的一个或多个搜索结果，所述第一搜索结果与所述第一媒体项的所述音频内容的语音中匹配所述第一文本搜索串的第一部分相对应。

40.根据权利要求39所述的方法，还包括：

经由所述一个或多个输入设备检测与所述第一搜索结果相对应的第二用户输入；以及

响应于检测到所述第二用户输入，从与所述第一媒体项的所述音频内容的语音的所述第一部分相对应的第一回放时间输出所述第一媒体项的音频内容。

41.根据权利要求40所述的方法，其中：

所述第一回放时间与在第一类型的语法结构的第一实例的开始处的语音相对应；

所述第一类型的所述语法结构包括多个字词；并且

所述第一文本搜索串匹配所述第一类型的所述语法结构的所述第一实例中的一个或多个字词。

42.根据权利要求41所述的方法，其中：

所述第一搜索结果包括所述第一类型的所述语法结构的所述第一实例的至少一部分的文本表示，所述文本表示包括所述第一类型的所述语法结构的所述第一实例中的所述一个或多个字词；并且

所述第一类型的所述语法结构的所述第一实例中的所述一个或多个字词相对于所述文本表示中不匹配所述第一文本搜索串的字词在视觉上被强调。

43.根据权利要求42所述的方法，其中所述第一类型的所述语法结构的所述第一实例的所述至少一部分包括所述第一类型的所述语法结构的所述第一实例的至少开始或至少结尾。

44.根据权利要求39至43中任一项所述的方法，其中所述第一搜索结果包括在所述第一媒体项内的位置的指示，所述位置与所述第一媒体项的所述音频内容的语音中匹配所述第一文本搜索串的所述第一部分相对应。

45.根据权利要求44所述的方法，其中所述位置的所述指示是第一时间戳，所述第一时间戳与在第二类型的语法结构的第一实例的开始处的语音相对应，所述第一实例包括所述第一文本串。

46.根据权利要求44所述的方法，其中所述位置的所述指示是与匹配所述第一文本串的语音相对应的第二时间戳。

47.根据权利要求39至46中任一项所述的方法，其中所述一个或多个搜索结果包括针对所述第一文本串在所述第一媒体项的所述音频内容的所述语音中的所有所识别的出现的结果。

48.根据权利要求39至47中任一项所述的方法，还包括：

经由所述一个或多个输入设备检测包括与所述第一搜索结果相对应的输入的第一组一个或多个输入；

响应于检测到所述第一组一个或多个输入，创建回放书签，所述回放书签在被激活时使得从与所述第一媒体项的音频内容的语音的所述第一部分相对应的第一回放时间输出所述第一媒体项的所述音频内容。

49.根据权利要求39至48中任一项所述的方法，其中所述第一用户输入是由与所述计算机系统连接的一个或多个麦克风检测的语音输入。

50.根据权利要求39至49中任一项所述的方法，其中所述第一媒体项不包括与所述音频内容的语音相对应的预先生成的文本数据。

51.一种存储一个或多个程序的非暂态计算机可读存储介质，所述一个或多个程序被配置为由具有显示生成部件和一个或多个输入设备的计算机系统的一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求39至50中任一项所述的方法的指令。

52.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；

一个或多个处理器；和

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求39至50中任一项所述的方法的指令。

53.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；和

用于执行根据权利要求39至50中任一项所述的方法的装置。

54.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储被配置为由与显示生成部件和一个或多个输入设备通信的计算机系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于以下操作的指令：

55.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；

一个或多个处理器；和

56.一种计算机系统，所述计算机系统包括：

显示生成部件；

一个或多个输入设备；

用于经由所述显示生成部件显示媒体回放应用程序的搜索界面的装置；以及

用于经由所述一个或多个输入设备检测包括第一文本搜索串的第一用户输入的装置；和

在检测到所述第一用户输入之后，用于显示包括第一搜索结果的一个或多个搜索结果的装置，所述第一搜索结果与所述第一媒体项的所述音频内容的语音中匹配所述第一文本搜索串的第一部分相对应。