CN103703431A

CN103703431A - 自动创建文本数据与音频数据之间的映射

Info

Publication number: CN103703431A
Application number: CN201280036281.5A
Authority: CN
Inventors: 曹翔; A·C·坎尼斯特拉罗; G·S·罗宾; C·M·多尔蒂; M·B·哈杰; R·沃尔什
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2011-06-03
Filing date: 2012-06-04
Publication date: 2014-04-02
Anticipated expiration: 2032-06-04
Also published as: KR101622015B1; KR101324910B1; US10672399B2; AU2012261818A1; AU2012261818B2; AU2016202974B2; US20120310649A1; KR20120135137A; JP2014519058A; AU2016202974A1; US20120310642A1; CN103703431B; KR101674851B1; KR101700076B1; KR20160036077A; EP2593846A4; KR20140027421A; EP2593846A1; KR20150085115A; WO2012167276A1

Abstract

提供了一种用于创建映射的技术，该映射将音频数据(例如，音频书)中的位置映射到文本数据(例如，电子书)中对应的位置。提供了一种用于使用音频数据与文本数据之间映射的技术，无论该映射是自动还是手动创建的。映射可以用于书签切换，其中在数字作品的一个版本(例如，电子书)中建立的书签用于标识该作品的另一版本(例如，音频书)中的对应位置。备选地，映射可以用于播放对应于用户选择的文本的音频。备选地，映射可以用于响应于对应于文本的音频被播放自动突出显示该文本。备选地，映射可以用于确定一个媒体上下文中创建的注释将在另一媒体上下文中消费的位置。

Description

自动创建文本数据与音频数据之间的映射

技术领域

本发明涉及通过分析音频数据以检测其中反映的词语并且将所述词语与文档中的词语进行比较来自动创建文本数据与音频数据之间的映射。

发明内容

根据某些实施方式，提供了一种方法，该方法包括：接收反映针对其而存在文本版本的作品的可听版本的音频数据；执行对音频数据的语音至文本分析，以生成针对音频数据的部分的文本；并且基于针对音频数据的部分而生成的文本，生成音频数据中的多个音频位置与作品的文本版本中对应的多个文本位置之间的映射。该方法由一个或多个计算设备执行。

在某些实施方式中，生成针对音频数据的部分的文本包括：至少部分地基于作品的文本上下文生成针对音频数据的部分的文本。在某些实施方式中，至少部分地基于作品的文本上下文生成针对音频数据的部分的文本包括至少部分地基于在作品的文本版本中使用的语法的一个或多个规则生成文本。在某些实施方式中，至少部分地基于作品的文本上下文生成针对音频数据的部分的文本包括基于哪些词语在作品的文本版本或其子集中，来限制所述部分可以被转译成哪些词语。在某些实施方式中，基于哪些词语在作品的文本版本中来限制所述部分可以被转译成哪些词语包括针对音频数据的给定部分，标识作品的文本版本中对应于给定部分的子部分，并且仅将词语限制为作品的文本版本的子部分中的那些词语。在某些实施方式中，标识作品的文本版本中的子部分包括维持作品的文本版本中与音频数据中的语音至文本分析的当前音频位置相对应的当前文本位置；并且作品的文本版本的子部分是与当前文本位置相关联的部分。

在某些实施方式中，所述部分包括对应于个体词语的部分，并且映射将对应于个体词语的部分的位置映射到作品的文本版本中的个体词语。在某些实施方式中，所述部分包括对应于个体语句的部分，并且映射将对应于个体语句的部分的位置映射到作品的文本版本中的个体语句。在某些实施方式中，所述部分包括对应于固定量的数据的部分，并且映射将对应于固定量的数据的部分映射到作品的文本版本中的对应位置。

在某些实施方式中，生成映射包括：(1)将锚点嵌入音频数据中；(2)将锚点嵌入作品的文本版本中；或者(3)将映射存储在与音频数据或作品的文本版本相关联存储的媒体覆盖(mediaoverlay)中。

在某些实施方式中，多个文本位置的一个或多个位置中的每个位置指示作品的文本版本中的相对位置。在某些实施方式中，多个文本位置中的一个文本位置指示作品的文本版本中的相对位置，并且多个文本位置中的另一文本位置指示距该相对位置的绝对位置。在某些实施方式中，多个文本位置的一个或多个位置中的每个位置指示作品的文本版本内的锚点。

根据某些实施方式，提供了一种方法，该方法包括：接收作品的文本版本；执行对该文本版本的文本至语音分析以生成第一音频数据；基于该第一音频数据和文本版本，生成该第一音频数据中的第一多个音频位置与作品的文本版本中对应的多个文本位置之间的第一映射；接收反映针对其而存在文本版本的作品的可听版本的第二音频数据；并且基于(1)第一音频数据与第二音频数据之间的比较以及(2)第一映射，生成第二音频数据中的第二多个音频位置与作品的文本版本中的多个文本位置之间的第二映射。该方法由一个或多个计算设备执行。

根据某些实施方式，提供了一种方法，该方法包括接收音频输入；执行对该音频输入的语音至文本分析，以生成针对该音频输入的部分的文本；确定针对该音频输入的部分而生成的文本是否与当前显示的文本匹配；以及响应于确定该文本与当前显示的文本匹配，使得当前显示的文本被突出显示。该方法由一个或多个计算设备执行。

根据某些实施方式，提供了一种电子设备，该电子设备包括音频数据接收单元，被配置用于接收反映针对其而存在文本版本的作品的可听版本的音频数据。该电子设备还包括耦合至该音频数据接收单元的处理单元。该处理单元被配置为：执行对音频数据的语音至文本分析以生成针对音频数据的部分的文本；并且基于针对音频数据的部分而生成的文本，生成音频数据中的多个音频位置与作品的文本版本中对应的多个文本位置之间的映射。

根据某些实施方式，提供了一种电子设备，该电子设备包括文本接收单元，被配置用于接收作品的文本版本。该电子设备还包括耦合至该文本接收单元的处理单元，该处理单元被配置为：执行对该文本版本的文本至语音分析，以生成第一音频数据；并且基于第一音频数据和文本版本，生成第一音频数据中的第一多个音频位置与作品的文本版本中对应的多个文本位置之间的第一映射。该电子设备还包括音频数据接收单元，被配置用于接收反映针对其而存在文本版本的作品的可听版本的第二音频数据。该处理单元进一步被配置为基于(1)第一音频数据与第二音频数据之间的比较以及(2)第一映射，生成第二音频数据中的第二多个音频位置与作品的文本版本中的多个文本位置之间的第二映射。

根据某些实施方式，提供了一种电子设备，该电子设备包括音频接收单元，被配置用于接收音频输入。该电子设备还包括耦合至该音频接收单元的处理单元。该处理单元被配置为执行对该音频输入的语音至文本分析，以生成针对该音频输入的部分的文本；确定针对该音频输入的部分而生成的文本是否与当前显示的文本匹配；以及响应于确定该文本与当前显示的文本匹配，使得当前显示的文本被突出显示。

根据某些实施方式，提供了一种方法，该方法包括：获取指示作品的文本版本内的指定位置的位置数据；检查作品的音频版本中的多个音频位置与作品的文本版本中对应的多个文本位置之间的映射以用于：确定多个文本位置中对应于指定位置的特定文本位置，并且基于该特定文本位置，确定多个音频位置中对应于特定文本位置的特定音频位置。该方法包括向媒体播放器提供基于特定文本位置而确定的特定音频位置，以使得媒体播放器将特定音频位置建立为音频数据的当前回放位置。该方法由一个或多个计算设备执行。

在某些实施方式中，获取包括服务器通过网络从第一设备接收位置数据；检查与提供由服务器执行；以及提供包括服务器向执行媒体播放器的第二设备发送特定音频位置。在某些实施方式中，第二设备和第一设备是相同设备。在某些实施方式中，获取、检查与提供由被配置为显示作品的文本版本以及执行媒体播放器的计算设备执行。在某些实施方式中，方法进一步包括在被配置为显示作品的文本版本的设备处，确定位置数据而不需要来自设备的用户的输入。

在某些实施方式中，该方法进一步包括从用户接收输入；并且响应于接收到输入，基于该输入确定位置数据。在某些实施方式中，向媒体播放器提供特定音频位置包括：向媒体播放器提供特定音频位置以使得该媒体播放器处理开始于当前回放位置的音频数据，该处理使得媒体播放器从经处理的音频数据生成音频；并且使得所述媒体播放器处理所述音频数据是响应于接收到输入而执行的。

在某些实施方式中，输入选择作品的文本版本中的多个词语；指定位置是第一指定位置；位置数据还指示作品的文本版本内的、不同于第一指定位置的第二指定位置；检查进一步包括检查映射以用于：确定多个文本位置中对应于第二指定位置的第二特定文本位置，并且基于该第二特定文本位置，确定多个音频位置中对应于第二特定文本位置的第二特定音频位置；以及向媒体播放器提供特定音频位置包括向媒体播放器提供第二特定音频位置，以使得该媒体播放器在当前回放位置到达或接近第二特定音频位置时停止处理音频数据。

在某些实施方式中，该方法进一步包括：获取基于来自用户的输入的注释数据；与指定位置相关联地存储注释数据；以及使得关于该注释数据的信息被显示。在某些实施方式中，使得关于特定音频位置和注释数据的信息被显示包括：确定音频数据的当前回放位置何时处于或接近特定音频位置；以及响应于确定音频数据的当前回放位置处于或接近特定音频位置，使得关于注释数据的信息被显示。

在某些实施方式中，注释数据包括文本数据；以及使得关于注释数据的信息被显示包括显示该文本数据。在某些实施方式中，注释数据包括话音数据；以及使得关于注释数据的信息被显示包括处理该话音数据以生成音频。

根据某些实施方式，提供了一种电子设备，该电子设备包括位置数据获取单元，被配置用于获取指示作品的文本版本内的指定位置的位置数据。该电子设备还包括耦合至该位置数据获取单元的处理单元。该处理单元被配置为检查作品的音频版本中的多个音频位置与作品的文本版本中对应的多个文本位置之间的映射以用于：确定多个文本位置中对应于指定位置的特定文本位置，并且基于该特定文本位置，确定多个音频位置中对应于特定文本位置的特定音频位置；以及向媒体播放器提供基于特定文本位置而确定的特定音频位置，以使得媒体播放器将特定音频位置建立为音频数据的当前回放位置。

根据某些实施方式，提供了一种方法，该方法包括获取指示音频数据内的指定位置的位置数据；检查音频数据中的多个音频位置与作品的文本版本中对应的多个文本位置之间的映射以用于：确定多个音频位置中对应于指定位置的特定音频位置，并且基于该特定音频位置，确定多个文本位置中对应于该特定音频位置的特定文本位置；以及使得媒体播放器显示关于该特定文本位置的信息。该方法由一个或多个计算设备执行。

在某些实施方式中，获取包括服务器通过网络从第一设备接收位置数据；检查与使得由服务器执行；以及使得包括服务器向执行媒体播放器的第二设备发送特定文本位置。在某些实施方式中，第二设备和第一设备是相同设备。在某些实施方式中，获取、检查与使得由被配置为显示作品的文本版本以及执行媒体播放器的计算设备执行。在某些实施方式中，该方法进一步包括在被配置为处理音频数据的设备处，确定位置数据而不需要来自设备的用户的输入。

在某些实施方式中，该方法进一步包括：从用户接收输入；并且响应于接收到输入，基于该输入确定位置数据。在某些实施方式中，使得包括使得媒体播放器显示作品的文本版本中对应于该特定文本位置的一部分；以及使得媒体播放器显示作品的文本版本的一部分是响应于接收到该输入而被执行的。

在某些实施方式中，输入选择音频数据的节段；指定位置是第一指定位置；位置数据还指示音频数据内的、不同于该第一指定位置的第二指定位置；检查进一步包括检查映射以用于：确定多个音频位置中对应于第二指定位置的第二特定音频位置，并且基于该第二特定音频位置，确定多个文本位置中对应于该第二特定音频位置的第二特定文本位置；以及使得媒体播放器显示关于特定文本位置的信息进一步包括使得媒体播放器显示关于该第二特定文本位置的信息。

在某些实施方式中，指定位置对应于音频数据中的当前回放位置；使得在指定位置处的音频数据被处理并且生成音频时被执行；以及使得包括使得第二媒体播放器突出显示作品的文本版本内的特定文本位置处或附近的文本。

在某些实施方式中，该方法进一步包括：获取基于来自用户的输入的注释数据；与指定位置相关联地存储注释数据；以及使得关于该注释数据的信息被显示。在某些实施方式中，使得关于特定音频位置和注释数据的信息被显示包括：确定作品的文本版本中对应于特定文本位置的一部分何时被显示；以及响应于确定作品的文本版本中对应于特定文本位置的一部分被显示，使得关于注释数据的信息被显示。

在某些实施方式中，注释数据包括文本数据；以及使得关于注释数据的信息被显示包括使得该文本数据被显示。在某些实施方式中，注释数据包括话音数据；以及使得关于注释数据的信息被显示包括使得该话音数据被处理以生成音频。

根据某些实施方式，提供了一种方法，该方法包括在作品的音频版本的回放期间：获取指示音频版本内的指定位置的位置数据，并且基于该指定位置确定作品的文本版本中与暂停数据相关联的特定文本位置，所述暂停数据指示何时暂停音频版本的回放；以及响应于确定特定文本位置与暂停数据相关联，暂停音频版本的回放。该方法由一个或多个计算设备执行。

在某些实施方式中，暂停数据在作品的文本版本内。在某些实施方式中，确定特定文本位置包括：检查音频数据中的多个音频位置与作品的文本版本中对应的多个文本位置之间的映射以用于：确定多个音频位置中对应于指定位置的特定音频位置，并且基于该特定音频位置，确定多个文本位置中对应于特定音频位置的特定文本位置。

在某些实施方式中，暂停数据对应于在作品的文本版本中反映的页面的结束。在某些实施方式中，暂停数据对应于作品的文本版本内的、紧邻不包括文本的图片之前的位置。

在某些实施方式中，该方法进一步包括响应于接收到用户输入而继续音频版本的回放。在某些实施方式中，该方法进一步包括响应于自音频版本的回放被暂停起特定时间量的流逝继续音频版本的回放。

根据某些实施方式，提供了一种方法，该方法包括在作品的音频版本的回放期间：获取指示音频版本内的指定位置的位置数据，以及基于该指定位置确定作品的文本版本中与页面结束数据相关联的特定文本位置，所述页面结束数据指示在所述作品的文本版本中反映的第一页面的结束；以及响应于确定特定文本位置与页面结束数据相关联，自动使得第一页面停止被显示并且使得第一页面之后的第二页面被显示。该方法由一个或多个计算设备执行。

在某些实施方式中，该方法进一步包括检查音频数据中的多个音频位置与作品的文本版本中对应的多个文本位置之间的映射以用于：确定多个音频位置中对应于指定位置的特定音频位置以及基于该特定音频位置，确定多个文本位置中对应于特定音频位置的特定文本位置。

根据某些实施方式，提供了一种电子设备，该电子设备包括位置获取单元，被配置用于获取指示音频数据内的指定位置的位置数据。该电子设备还包括耦合至该位置获取单元的处理单元。该处理单元被配置为：检查音频数据中的多个音频位置与作品的文本版本中对应的多个文本位置之间的映射以用于：确定多个音频位置中对应于指定位置的特定音频位置，以及基于该特定音频位置，确定多个文本位置中对应于该特定音频位置的特定文本位置；以及使得媒体播放器显示关于特定文本位置的信息。

根据某些实施方式，提供了一种电子设备，该电子设备包括位置获取单元，被配置用于在作品的音频版本的回放期间获取指示音频版本内的指定位置的位置数据。该电子设备还包括耦合至该位置获取单元的处理单元，该处理单元被配置为在作品的音频版本的回放期间：基于该指定位置确定作品的文本版本中与页面结束数据相关联的特定文本位置，所述页面结束数据指示在作品的文本版本中反映的第一页面的结束；并且响应于确定特定文本位置与页面结束数据相关联，自动使得第一页面停止被显示并且使得第一页面之后的第二页面被显示。

根据某些实施方式，提供了一种方法，该方法包括在作品的第一版本被处理时，获取基于来自用户的输入的注释数据；存储将该注释数据与作品相关联的关联数据；以及在作品的第二版本被处理时，使得关于注释数据的信息被显示，其中第二版本与第一版本不同；以及其中该方法由一个或多个计算设备执行。

在某些实施方式中，获取包括确定指示作品的第一版本内的指定位置的位置数据；存储包括与作品相关联地存储的位置数据；指定位置对应于作品的第二版本内的特定位置；以及使得包括使得关于注释数据的信息与第二版本中的特定位置相关联地被显示。

在某些实施方式中，第一版本是作品的音频版本，并且第二版本是作品的文本版本；使得关于注释数据的信息被显示包括：确定作品的文本版本中对应于特定位置的一部分何时被显示；以及响应于确定作品的文本版本中对应于特定位置的一部分被播放，使得关于注释数据的信息被显示。在某些实施方式中，第一版本是作品的文本版本并且第二版本是作品的音频版本；使得关于注释数据的信息被显示包括：确定作品的音频版本中对应于该特定位置的一部分何时被播放；以及响应于确定作品的音频版本中对应于该特定位置的一部分被播放，使得关于注释数据的信息被显示。

在某些实施方式中，注释数据包括文本数据；以及使得关于注释数据的信息被显示包括使得文本数据被显示。在某些实施方式中，注释数据包括话音数据；以及使得关于注释数据的信息被显示包括使得话音数据被处理以生成音频。

根据某些实施方式，提供了一种电子设备，该电子设备包括注释获取单元，被配置用于在作品的第一版本被处理时，获取基于来自用户的输入的注释数据；以及耦合至该注释获取单元和关联数据存储单元的处理单元，该处理单元被配置用于：使得将该注释数据与作品相关联的关联数据被存储；以及在作品的第二版本被处理时，使得关于注释数据的信息被显示，其中第二版本与第一版本不同。

在某些实施方式中，提供了一种方法，该方法包括接收在作品的第一版本内建立第一书签的数据。该方法进一步包括检查作品的第一版本中的多个第一位置与作品的第二版本中对应的多个第二位置之间的映射以用于：确定多个第一位置中对应于第一书签的特定第一位置，以及基于该特定第一位置，确定多个第二位置中对应于该特定第一位置的特定第二位置；其中作品的第一版本与作品的第二版本不同。该方法进一步包括使得将特定第二位置建立为作品的第二版本内的第二书签的数据被存储；其中该方法由一个或多个计算设备执行。

在某些实施方式中，接收包括服务器通过网络从第一设备接收输入；检查由服务器执行；并且使得包括服务器向第二设备发送特定第二位置。在某些实施方式中，第一设备和第二设备是不同的设备。在某些实施方式中，作品的第一版本是作品的音频版本或作品的文本版本中的一个，并且作品的第二版本是音频版本或文本版本中的另一个。

根据某些实施方式，提供了一种电子设备，该电子设备包括数据接收单元，被配置用于接收在作品的第一版本内建立第一书签的数据。该电子设备还包括耦合至该数据接收单元的处理单元，该处理单元被配置用于：检查作品的第一版本中的多个第一位置与作品的第二版本中对应的多个第二位置之间的映射以用于：确定多个第一位置中对应于第一书签的特定第一位置，以及基于该特定第一位置，确定多个第二位置中对应于该特定第一位置的特定第二位置；其中作品的第一版本与作品的第二版本不同。该处理单元还被配置用于使得将特定第二位置建立为作品的第二版本内的第二书签的数据被存储。

根据某些实施方式，提供了一种方法，该方法包括使得作品的文本的一部分被设备显示；在该文本的一部分被显示时：在该设备处接收来自用户的音频输入。该方法进一步包括响应于接收到该音频输入：分析该音频输入以标识一个或多个词语；确定该一个或多个词语是否被映在该文本的一部分中；以及响应于确定该一个或多个词语反映在该文本的一部分中，使得可视指示被设备显示。在某些实施方式中，使得可视指示被显示包括使得对应于该一个或多个词语的文本数据被突出显示。

根据某些实施方式，提供了一种电子设备，该电子设备包括处理单元，被配置用于使得作品的文本的一部分被设备显示；以及音频接收单元，耦合至该处理单元并且被配置用于在该设备处接收来自用户的音频输入。该处理单元进一步被配置用于响应于在音频接收单元处接收到该音频输入：分析该音频输入以标识一个或多个词语；确定该一个或多个词语是否被反映在该文本的一部分中；以及响应于确定该一个或多个词语被反映在该文本的一部分中，使得可视指示被设备显示。

根据某些实施方式，提供了一种计算机可读存储介质，该计算机可读存储介质存储有供电子设备的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于执行任意上述方法的指令。根据某些实施方式，提供了一种电子设备，该电子设备包括用于执行任意上述方法的装置。在某些实施方式中，提供了一种电子设备，该电子设备包括一个或多个处理器以及存储有供该一个或多个处理器执行的一个或多个程序的存储器，该一个或多个程序包括用于执行任意上述方法的指令。在某些实施方式中，提供了用于在电子设备中使用的信息处理设备，该信息处理设备包括用于执行任意上述方法的装置。

背景技术

随着手持电子设备成本的增加以及对数字内容的大量需求，曾经在印刷媒体上出版的创作作品逐渐变成作为数字媒体可用。例如，数字书(也被称为“电子书”)连同被称为电子书阅读器(或“电子阅读器”)的专用手持电子设备逐渐变得流行。同样，其他手持设备(诸如平板计算机和智能手机)虽然没有单独设计为电子阅读器，但是其具有操作为电子阅读器的能力。

电子书被格式化的常用标准是EPUB标准(“电子出版物”的简称)，其作为国际数字出版论坛(IDPF)的免费开放电子书标准。EPUB文件使用XHTML1.1(或DTBook)来构建书的内容。版式和布局使用CSS的子集(被称为OPS样式表)执行。

针对某些已写作品，尤其是那些变得流行的作品，创建所述已写作品的音频版本。例如，创建名人(或具有动听嗓音的人)阅读已写作品的记录并且使其可供购买，无论是在线还是在实体店。

客户购买电子书以及该电子书的音频版本(或“音频书”)两者并非不常见。在某些情况下，用户阅读电子书的全部内容并且然后期望收听该音频书。在其他情况下，用户基于其周围环境在阅读与收听该书之间转变。例如，在从事运动或上下班驱车时，用户将倾向于收听书的音频版本。另一方面，在上床之前在沙发上休息时，用户将倾向于阅读书的电子书版本。遗憾地是，此类转变可能是痛苦的，这是因为用户必须回想起她停止在电子书的位置并且手动定位在音频书中的开始位置，反之亦然。即使用户清楚地回想起在该用户停止时书中正在发生的事情，此类转变可能仍然是痛苦的，这是因为知道正在发生的事情并不能使得找到电子书或音频书中对应于那些正在发生的事情的一部分变得容易。因此，在电子书与音频书之间切换可能非常耗时。

规范“EPUB Media Overlays3.0”定义了用于表示同步文本和音频出版物的SMIL(同步多媒体集成语言)、分组文档、EPUB样式表和EPUB内容文档的使用。出版物的预记录叙述可以被表示为一系列音频节段(clip)，每个音频节段对应于文本的一部分。组成预记录叙述的一系列音频节段中的每个单个音频节段通常表示单个短语或段落，但推断不出相对其他节段或文档文本的顺序。媒体覆盖通过使用SMIL标记将结构化音频叙述连结到EPUB内容文档中的其对应文本来解决此同步问题。媒体覆盖是SMIL3.0中允许这些节段的回放序列被定义的简化子集。

遗憾地是，创建媒体覆盖文件需要大量手动处理。因此，作品的音频版本与文本版本之间的映射的粒度非常粗糙。例如，媒体覆盖文件可以将电子书中每个段落的开始处与该书的音频版本中的对应位置相关联。媒体覆盖文件(尤其是针对小说的媒体覆盖文件)不包含以任意更细化级粒度(诸如基于逐词)的映射的原因是创建此类高粒度媒体覆盖文件可能花费无法计量的人力劳动时间。

本部分中描述的方法是可以购买的方法，但未必是先前已经构想或购买的方法。因此，除非另行指出，不应当仅凭借本部分的包含的内容就假设本部分中描述的任意方法属于现有技术。

附图说明

在附图中：

图1是根据本发明的一个实施方式描绘用于自动创建文本数据与音频数据之间的映射的过程的流程图；

图2是根据本发明的一个实施方式描绘在生成文本数据与音频数据之间的映射中涉及的音频至文本相关器的过程的框图；

图3是根据本发明的一个实施方式描绘用于使用这些情形中一个或多个情形中的映射的过程的流程图；

图4是根据本发明的一个实施方式可以用于实现某些这里所述过程的示例系统400的框图；

图5A至图5B是根据本发明的一个实施方式描绘用于书签切换的过程的流程图；

图6是根据本发明的一个实施方式描绘用于在作品的音频版本播放时使得来自该作品的文本版本中的文本被突出显示的过程的流程图；

图7是根据本发明的一个实施方式描绘用于响应于来自用户的音频输入突出显示被显示的文本的过程的流程图；

图8A至图8B是根据本发明的一个实施方式描绘用于将注释从一个媒体上下文转移到另一媒体上下文的过程的流程图；以及

图9是其上可以实现本发明的一个实施方式的计算机系统的框图。

图10至图18是根据某些实施方式的电子设备的功能框图。

具体实施方式

在以下描述中，出于解释的目的，阐述了若干具体细节以便提供对本发明的透彻理解。然而，应当理解，本发明可以不需要这些具体细节而被实践。在其他实例中，已知结构和设备以框图形式示出以便避免对本发明的不必要混淆。

自动生成音频至文本映射的概述

根据一种方法，映射被自动创建，其中映射将作品的音频版本(例如，音频书)内的位置与作品的文本版本(例如，电子书)中的对应位置映射。该映射通过对音频版本执行语音至文本分析以标识音频版本中反映的词语来创建。将所标识的词语与作品的文本版本中对应的词语匹配。该映射将所标的识词语的(音频版本内的)位置与该作品的文本版本中找到所标识词语的位置相关联。

音频版本格式

音频数据反映作品的文本版本(诸如书、网页、小册子、传单等)的文本的可听阅读。音频数据可以被存储在一个或多个音频文件中。该一个或多个音频文件可以为许多文件格式之一。音频文件格式的非限制示例包括AAC、MP3、WAV和PCM。

文本版本格式

类似地，音频数据被映射到的文本数据可以以许多文档文件格式之一存储。文档文件格式的非限制示例包括DOC、TXT、PDF、RTF、HTML、XHTML和EPUB。

典型的EPUB文档伴随有以下文档，该文档(a)列出了每个XHTML内容文档，并且(b)指示了XHTML内容文档的顺序。例如，如果书包括20个章节，则针对该书的EPUB文档可以具有20个不同的XHTML文档，针对每个章节一个XHTML文档。伴随EPUB文档的文件标识XHTML文档中与书中章节的顺序对应的顺序。因此，单个(逻辑)文档(EPUB文档或另一类型的文档)可以包括多个数据项或文件。

文本数据中反映的词语或字符可以为一种或多种语言。例如，文本数据的一部分可以是英语而文本数据的另一部分可以是法语。虽然这里提供的是英语词语的示例，但是本发明的各实施方式可以应用于其他语言，包括基于字符的语言。

映射中的音频位置和文本位置

如本文所述，映射包括映射记录集，其中每个映射记录将音频位置与文本位置相关联。

每个音频位置标识音频数据中的位置。音频位置可以指示音频数据内的绝对位置、音频数据内的相对位置或者绝对位置与相对位置的组合。作为绝对位置的示例，音频位置可以指示去往音频数据中的时间偏移(例如，指示4小时32分钟24秒的04：32：24)或者时间范围，如上文示例A中所示。作为相对位置的示例，音频位置可以指示章节号、段落号和行号。作为绝对位置和相对位置的组合的示例，音频位置可以指示章节号以及由该章节号指示的去往章节中的时间偏移。

类似地，每个文本位置指示文本数据(诸如作品的文本版本)中的位置。文本位置可以指示作品的文本版本内的绝对位置，作品的文本版本内的相对位置，或者绝对位置和相对位置的组合。作为绝对位置的示例，文本位置可以指示作品的文本版本中的字节偏移和／或作品的文本版本内的“锚点”。锚点是文本数据内标识文本的特定位置或部分的元数据。锚点可以与文本数据中向终端用户显示的文本分离存储或者可以存储在向终端用户显示的文本之中。例如，文本数据可以包括以下语句：“Why did the chicken<iname=“123”／>cross the road?”，其中“”是锚点。当将该语句向用户显示时，用户仅看到“Why did the chicken cross theroad?”类似地，相同的语句可以具有多个锚点如下：“<iname=“123”／>Whydidthe<iname=“126”／>chickencrossthe<iname=“129”／>road?”在此示例中，在语句中的每个词语之前存在锚点。

作为相对位置的示例，文本位置可以指示页面号、章节号、段落号和／或行号。作为绝对位置和相对位置的组合的示例，文本位置可以指示章节号以及该章节号指示的去往章节中的锚点。

在标题为“EPUB Media Overlays3.0”的规范中提供了如何表示文本位置和音频位置的示例，该规范定义了SMIL(同步多媒体集成语言)、EPUB样式表和EPUB内容文档的使用。将文本位置与音频位置相关联并且在规范中提供的关联的示例如下：

<par>

<／par>

示例A

在示例A中，“par”元素包括两个子元素：“text”元素和“audio”元素。文本元素包括标识XHTML文档内包含书的第一章节的内容的特定语句的属性“src”。音频元素包括标识包含书的第一章节的音频版本的音频文件的“src”属性，标识音频文件内音频节段开始位置的“clipBegin”属性，以及标识音频文件内音频节段结束位置的“clipEnd”属性。因此，音频文件中23秒至45秒对应于书中章节1的第一语句。

创建文本与音频之间的映射

根据一个实施方式，作品的文本版本与相同作品的音频版本之间的映射被自动生成。由于该映射是自动生成的，因此映射可以使用比实际使用手动文本至音频映射技术细化得多的粒度。每个自动生成的文本至音频映射包括多个映射记录，其中每个映射记录将文本版本中的文本位置与音频版本中的音频位置相关联。

图1是描绘了根据本发明的一个实施方式用于自动创建作品的文本版本与相同作品的音频版本之间的映射的过程100的流程图。在步骤110，语音至文本分析器接收反映作品的音频版本的音频数据。在步骤120，当语音至文本分析器执行音频数据的分析时，语音至文本分析器生成针对音频数据的部分的文本。在步骤130，基于针对音频数据的部分生成的文本，语音至文本分析器生成音频数据中的多个音频位置与作品的文本版本中对应的多个文本位置之间的映射。

步骤130可以包括语音至文本分析器将生成的文本与作品的文本版本中的文本进行比较，以确定所生成文本在作品的文本版本中所处的位置。针对在作品的文本版本中找到的生成的文本的每个部分，语音至文本分析器将(1)指示音频数据的对应部分在该音频数据内被找到的音频位置与(2)指示文本的该部分在作品的文本版本内被找到的文本位置相关联。

文本上下文

每个文档具有“文本上下文”。作品的文本版本的文本上下文包括作品的文本版本的内在特性(例如，书写作品的文本版本的语言、作品的文本版本使用的特定词语、作品的文本版本使用的语法和标点、作品的文本版本组织的方式等)，以及作品的外部特性(例如，创作该作品的时期、作品所属的流派、作品的作者等)。

不同的作品可以具有显著不同的文本上下文。例如，经典英国小说中使用的语法可能与现代诗的语法有很大差别。因此，虽然某个词语顺序可能遵循一个语法的规则，但相同词语顺序可能违反另一语法的规则。类似地，经典英国小说与现代诗两者中使用的语法可能不同于(或其中缺少)一个青少年向另一个青少年发送的文本消息中采用的语法。

如上文所述，这里描述的一个技术通过执行作品的音频版本的语音至文本转换来自动创建作品的音频版本与相同作品的文本版本之间细化粒度映射。在一个实施方式中，作品的文本上下文用于增加对作品的音频版本执行的语音至文本分析的准确性。例如，为了确定作品中采用的语法，语音至文本分析器(或另一过程)可以在执行语音至文本分析之前分析作品的文本版本。语音至文本分析器继而可以利用因此获取的语法信息来增加作品的音频版本的语音至文本分析的准确性。

代替或除了基于作品的文本版本自动确定作品的语法，用户可以提供标识遵循作品作者的一个或多个语法规则的输入。与所标识语法相关联的规则被输入至语音至文本分析器以用于在识别作品的音频版本中的词语方面辅助该分析器。

基于文本版本限制候选字典

通常，语音至文本分析器必须被配置或设计为识别英语中的几乎每个词语，并且可选地识别其他语言中的某些词语。因此，语音至文本分析器必须具有对大型词典的访问。在语音至文本操作期间语音至文本分析器可以从中选择词语的字典这里被称为语音至文本分析器的“候选字典”。典型候选字典中唯一词语(unique word)的数目近似500,000。

在一个实施方式中，当执行对作品的音频版本的语音至文本分析时考虑来自该作品的文本版本的文本。具体地，在一个实施方式中，在对作品的音频版本的语音至文本分析期间，由语音至文本分析器使用的候选字典局限于该作品的文本版本中词语的特定集合。换言之，在对作品的音频版本执行语音至文本操作期间那些被认为是“候选”的词语只是那些确实出现在该作品的文本版本中的词语。

通过将特定作品语音至文本转译中使用的候选字典限制为在该作品的文本版本中出现的那些词语，语音至文本操作可以被显著改进。例如，假设特定作品中唯一词语的数目是20,000。常规语音至文本分析器可能难于确定音频的特定部分对应于500,000词语候选字典中的哪些具体词语。然而，当仅考虑该作品的文本版本中的20,000个唯一词语时，音频的相同部分可能明确地对应于一个特定词语。因此，通过此类小得多的可能词语的字典，语音至文本分析器的准确性可以被显著提高。

基于当前位置限制候选字典

为了提高准确性，候选字典可能被局限于甚至比作品的文本版本中所有词语更少的词语。在一个实施方式中，候选字典被限制为那些在作品的文本版本的特定部分中找到的词语。例如，在作品的语音至文本转译期间，可以近似追踪转译操作相对于作品的文本版本的“当前转译位置”。例如，此类追踪可以通过将(a)目前为止在语音至文本操作期间已经生成的文本与(b)作品的文本版本进行比较来执行。

一旦当前转译位置被确定，候选字典可以基于当前转译位置被进一步局限。例如，在一个实施方式中，候选字典被限制于仅在作品的文本版本内当前转译位置之后出现的那些词语。因此，在当前转译位置之前找到的但其后没有找到的词语有效地从候选字典中移除。此类移除可以增加语音至文本分析器的准确性，这是由于候选字典越小，语音至文本分析器将音频数据的一部分转译成错误词语的可能性越小。

作为另一示例，在语音至文本分析之前，音频书和数字书可以被划分成若干节段或部分。音频书可以与音频部分映射相关联，并且数字书可以与文本部分映射相关联。例如，音频部分映射和文本部分映射可以标识每个章节开始或结束的位置。这些相应的映射可以由语音至文本分析器使用以限制候选字典。例如，如果语音至文本分析器基于音频部分映射确定该语音至文本分析器正在分析音频书的第四章节，则该语音至文本分析器使用文本部分映射来标识该数字书的第四章节并且将候选字典限制于该第四章节中找到的词语。

在一个相关实施方式中，语音至文本分析器采用随当前转译位置移动而移动的滑动窗口。当语音至文本分析器分析音频数据时，该语音至文本分析器移动“跨”作品的文本版本的滑动窗口。该滑动窗口指示作品的文本版本内的两个位置。例如，滑动窗口的边界可以是(a)进行当前转译位置的段落的开始以及(b)在在当前转译位置之后的第三段落的结束。候选字典被局限于仅在这两个位置之间出现的那些词语。

虽然上文给出了特定示例，但是窗口可以跨越作品的文本版本内的任意文本量。例如，窗口可以跨越绝对文本量，诸如60个字符。作为另一示例，窗口可以跨越作品的文本版本的相对文本量，诸如十个词语、文本的三“行”、2个语句或者文本的1“页”。在相对量情形下，语音至文本分析器可以使用作品的文本版本内的格式数据来确定作品的文本版本中的多少构成行或页。例如，作品的文本版本可以包括指示作品的文本版本的内容内页面开始或页面结束的页面指示符(例如，以HTML或XML标签的形式)。

在一个实施方式中，窗口的开始对应于当前转译位置。例如，语音至文本分析器维持指示作品的文本版本中最近匹配词语的当前文本位置，并且维持指示音频数据中最近标识词语的当前音频位置。除非叙述者(其声音被反映在该音频数据中)误读了作品的文本版本的文本，添加他／她自己的内容，或者在记录期间跳过了作品的文本版本的部分，否则语音至文本分析器在音频数据中检测到的下一词语(即，当前音频位置之后)最有可能是作品的文本版本中的下一词语(即，当前文本位置之后)。维持上述两个位置可以显著提高语音至文本转译的准确性。

使用音频至音频的相关性创建映射

在一个实施方式中，语音至文本生成器和音频至文本相关器用于自动创建作品的音频版本与作品的文本版本之间的映射。图2是描绘这些分析器和用于生成映射的数据的框图。作品的文本版本210(诸如EPUB文档)被输入至文本至语音生成器220。文本至语音生成器220可以以软件、硬件或硬件和软件的组合实现。无论以软件还是硬件实现，文本至语音生成器220可以在单个计算设备上实现或者可以分布在多个计算设备中。

文本至语音生成器220基于文档210生成音频数据230。在生成音频数据230期间，文本至语音生成器220(或未示出的另一部件)创建音频至文档映射240。音频至文档映射240将文档210内的多个文本位置映射到所生成的音频数据230内的对应音频位置。

例如，假设文本至语音生成器220针对位于文档210内的位置Y的词语生成音频数据。进一步假设针对该词语生成的音频数据位于音频数据230内的位置X处。为了反映文档210内该词语的位置与音频数据230中对应的音频的位置之间的相关性，可以在位置X与位置Y之间创建映射。

由于文本至语音生成器220知道当生成音频的词语或短语时对应的词语或短语出现在文档210中的位置，因此对应词语或短语之间的每个映射可以容易地被生成。

音频至文本相关器260接受生成的音频数据230、音频书250和音频至文档映射240作为输入。音频至文本相关器260执行两个主要步骤：音频至音频的相关性步骤和查找步骤。针对音频至音频的相关性步骤，音频至文本相关器260将生成的音频数据230与音频书250进行比较以确定音频数据230中的部分与音频书250中的部分之间的相关性。例如，音频至文本相关器260可以针对音频数据230中呈现的每个词语确定音频书250中对应的词语的位置。

出于建立相关性的目的，音频数据230被划分的粒度可以在各实现方式之间变化。例如，相关性可以建立在音频数据230中的每个词语与音频书250中的每个对应词语之间。备选地，相关性可以基于固定持续时间间隔(例如，针对每1分钟音频一个映射)建立。作为另一备选，相关性可以针对基于其他标准建立的音频的部分建立，诸如在段落或章节边界、显著停顿(例如，大于3秒钟的静音)或者基于音频书250中数据的其他位置(诸如，音频书250内的音频标记)。

在音频数据230的一部分与音频书250的一部分之间的相关性被标识之后，音频至文本相关器260使用音频至文档映射240来标识对应于生成的音频数据230内的音频位置的文本位置(映射240中所指示)。音频至文本相关器260继而将文本位置与音频书250内的音频位置相关联以创建文档至音频映射270中记录的映射。

例如，假设音频书250中(位于位置Z)的一部分匹配所生成的音频数据230中位于位置X处的一部分。基于将位置X与文档210中的位置Y相关的映射记录(在音频至文档映射240中)，文档至音频映射270中的映射记录可以被创建用于将音频书250中的位置Z与文档210内的位置Y相关。

音频至文本相关器260针对音频数据230的每个部分重复执行音频至音频的相关性步骤和查找步骤。因此，文档至音频映射270包括多个映射记录，每个映射记录将文档210内的位置映射到音频书250内的位置。

在一个实施方式中，针对音频数据230的每个部分的查找步骤紧随在针对音频的该部分的音频至音频的相关性之后。因此，可以在处理音频数据230的下一部分之前针对音频数据230的每个部分创建文档至音频映射270。备选地，可以在执行任意查找步骤之前，针对音频数据230的部分或所有部分执行音频至音频的相关性步骤。在建立了所有的音频至音频的相关性之后，针对所有部分的查找步骤可以批量执行。

映射粒度

映射具有若干属性，其中之一是映射的大小，其是指映射中映射记录的数目。映射的另一属性是映射的“粒度”。该映射的“粒度”是指映射中与数字作品的大小相关的映射记录的数目。因此，映射的粒度可以从一个数字作品向另一数字作品变化。例如，针对包括200“页”的数字书的第一映射包括仅针对该数字书中每个段落的映射记录。因此，第一映射可以包括1000个映射记录。另一方面，针对包括20页的数字“儿童”书的第二映射包括针对该儿童书中每个词语的映射记录。因此，该第二映射可以包括800个映射记录。虽然第一映射包括比第二映射更多的映射记录，但是第二映射的粒度比第一映射的粒度更细化。

在一个实施方式中，映射的粒度可以基于去往生成该映射的语音至文本分析器的输入决定。例如，用户可以在使得语音至文本分析器生成映射之前指定具体粒度。具体粒度的非限制示例包括：

-词语粒度(即，针对每个词语的关联)，

-语句粒度(即，针对每个语句的关联)，

-段落粒度(即，针对每个段落的关联)，

-10词语粒度(即，针对数字作品中每10个词语部分的映射)

-10秒粒度(即，针对音频每10秒的映射)

作为另一示例，用户可以指定数字作品的类型(例如，小说、儿童书、短故事)，并且语音至文本分析器(或另一过程)基于该作品的类型确定粒度。例如，儿童书可以与词语粒度相关联，而小说可以与语句粒度相关联。

映射的粒度甚至可以在同一数字作品内变化。例如，针对数字书头三个章节的映射可以具有语句粒度，而针对该数字书的剩余章节的映射具有词语粒度。

文本至音频转变期间的即时映射生成

在许多情况下，虽然音频至文本映射将在用户需要依赖该音频至文本映射之前生成，但是在一个实施方式中，音频至文本映射在用户开始在其设备上消耗音频数据和／或文本数据运行时或之后生成。例如，用户使用平板计算机读取数字书的文本版本。该平板计算机保持追踪数字书中平板计算机已经向用户显示的最近页面或部分。该最近页面或部分由“文本书签”标识。

稍后，用户选择播放该同一作品的音频书版本。回放设备可以是其上用户阅读数字书的同一平板计算机或另一设备。不考虑其上播放音频书的设备，获取文本书签，并且语音文本分析关于音频书的至少一部分来执行。在语音文本分析期间，生成“临时”映射记录用于建立生成文本与音频书中对应的位置之间的相关性。

一旦生成文本及相关性记录，文本至文本的比较用于确定对应于文本书签的所生成的文本。继而，临时映射记录用于标识对应于所生成的文本中与该文本书签对应的一部分的音频书中的一部分。音频书的回放继而从该位置开始。

音频书上执行语音至文本分析的一部分可以被限制为对应于文本书签的一部分。例如，音频部分映射可能已经存在，用于指示音频书开始和／或结束的某个部分。例如，音频部分映射可以指示每个章节的开始位置，一个或多个页面的开始位置等。此类音频部分映射可以有助于确定语音至文本分析的开始位置，使得不需要对整个音频书执行语音至文本分析。例如，如果文本书签指示数字书中第12章节的位置，并且与该音频数据相关联的音频部分映射标识音频数据中该第12章节的开始位置，继而不需要对该音频书头11个章节中的任意章节执行语音至文本分析。例如，音频数据可以由20个音频文件组成，针对每个章节一个音频文件。因此，只有对应于第12章节的音频文件是语音至文本分析器的输入。

音频至文本转变期间的即时映射生成

映射记录可以即时生成以促进音频至文本转变以及文本至音频转变。例如，假设用户正在使用智能电话收听音频书。该智能电话保持追踪音频书中正在播放的当前位置。该当前位置由“音频书签”标识。稍后，用户拿起平板计算机并且选择音频书的数字书版本来显示。平板计算机接收该音频书签(例如，从相对于该平板计算机和智能电话远程的中央服务器)，执行该音频书至少一部分的语音至文本分析，并且标识对应于该音频书文本版本中与该音频书签对应的文本部分的音频书中的一部分。该平板计算机继而开始显示该文本版本中所标识的部分。

音频书上执行语音至文本分析的一部分可以被限制为对应于音频书签的一部分。例如，在音频书中跨越该音频书中音频书签之前的一个或多个时间段(例如，秒)和／或该音频书中音频书签之后的一个或多个时间段的一部分上执行语音至文本分析。该部分上由语音至文本分析产生的文本与文本版本中的文本进行比较来定位所产生的文本中的一系列词语或短语匹配文本版本中文本的位置。

如果存在指示文本版本开始或结束的某个位置的文本部分映射并且音频书签可以用于标识该文本部分映射中的部分，则文本版本中的大部分不需要被分析以便定位所产生的文本中的一系列词语或短语匹配文本版本中文本的位置。例如，如果音频书签指示音频书第3章节中的位置并且与该数字书相关联的文本部分映射标识该第3章节在文本版本中开始的位置，则不需要对该音频书头两个章节中的任意章节或者该音频书第3章节之后的任意章节执行语音至文本分析。

音频至文本映射的使用概述

根据一个方法，映射(手动或自动创建)用于标识数字作品的音频版本(例如，音频书)中与该数字作品的文本版本(例如，电子书)中的位置对应的位置。例如，映射可以用于基于音频书中建立的“书签”来标识电子书中的位置。作为另一示例，映射可以用于在人们阅读的文本的音频记录正被播放时标识对应于该音频记录的所显示的文本，并且使得该标识的文本被突出显示。因此，当音频书正被播放时，电子书阅读器的用户可以进行跟随，这是由于电子书阅读器突出显示对应的文本。作为另一示例，映射可以用于标识音频数据中的位置，并且响应于从电子书选择所显示的文本的输入播放在该位置的音频。因此，用户可以选择电子书中的词语，此选择使得对应于该词语的音频被播放。作为另一示例，用户可以在“消费”(例如，阅读或收听)数字作品的一个版本(例如，电子书)时创建注释，并且使得该注释在用户消费该数字作品的另一版本(例如，音频书)时被消费。因此，用户可以在电子书的“页面”上做笔记，并且可以在收听该电子书的音频书时查看所述笔记。类似地，用户可以在收听音频书时做笔记，继而可以在阅读对应的电子书时查看该笔记。

图3是根据本发明的一个实施方式描述用于使用这些情形中一个或多个情形中的映射的过程的流程图。

在步骤310，获取指示第一媒体产品中指定位置的位置数据。该第一媒体产品可以是作品的文本版本，或者对应于该作品的文本版本的音频数据。此步骤可以由消费该第一媒体产品的设备(由用户操作)执行。备选地，该步骤可以由相对于消费该第一媒体产品的设备距离较远的服务器执行。因此，设备使用通信协议通过网络向服务器发送位置数据。

在步骤320，映射被检查用于确定对应于指定位置的第一媒体位置。类似地，此部分可以由消费第一媒体产品的设备或者相对于该设备距离较远的服务器执行。

在步骤330，确定对应于第一媒体位置并且在该映射中指示的第二媒体位置。例如，如果指定位置是音频“书签”，则第一媒体位置是映射中指示的音频位置，并且第二媒体位置是与该映射中音频位置相关联的文本位置。类似地，例如，如果指定位置是文本“书签”，则第一媒体位置是该映射中指示的文本位置，并且第二媒体位置是与该映射中文本位置相关联的音频位置。

在步骤340，第二媒体产品基于第二媒体位置进行处理。例如，如果第二媒体产品是音频数据，则第二媒体位置是音频位置并且被用作音频数据中的当前回放位置。作为另一示例，如果第二媒体产品是作品的文本版本，则第二媒体位置是文本位置并且用于确定显示作品的文本版本中的哪些部分。

下文提供了指定情形中使用过程300的示例。

架构概述

上文提到并且在下文详细描述的每个示例情形可以包括一个或多个计算设备。图4是根据本发明的一个实施方式可以用于实现某些这里所述过程的示例系统400的框图。系统400包括终端用户设备410、中间设备420和终端用户设备430。终端用户设备410和430的非限制示例包括台式计算机、膝上型计算机、智能电话、平板计算机和其他手持计算设备。

如图4所示，设备410存储数字媒体产品402并且执行文本媒体播放器412和音频媒体播放器414。文本媒体播放器412被配置为处理电子文本数据并且使得设备410显示文本(例如，在设备410的触摸屏上，未示出)。因此，如果数字媒体产品402是电子书，则文本媒体播放器412可以被配置为处理数字媒体产品402，只要数字媒体产品402是以文本媒体播放器412被配置能够处理的文本格式。设备410可以执行被配置为处理其他类型数据(诸如视频)的一个或多个其他媒体播放器(未示出)。

类似地，音频媒体播放器414被配置为处理音频数据，并且使得设备410生成音频(例如，经由设备410上的扬声器，未示出)。因此，如果数字媒体产品402是音频书，则音频媒体播放器414可以被配置为处理数字媒体产品402，只要数字媒体产品402是以音频媒体播放器414被配置能够处理的音频格式。无论产品402是电子书还是音频书，产品402可以包括多个文件，无论是音频文件还是文本文件。

设备430类似地存储数字媒体产品404并执行音频媒体播放器432，其被配置为处理音频数据并且使得设备430生成音频。设备430可以执行一个或多个其他媒体播放器(未示出)，其被配置为处理其他类型的媒体，诸如视频和文本。

中间设备420存储将音频数据中的音频位置映射到文本数据中的文本位置的映射406。例如，映射406可以将数字媒体产品404中的音频位置映射至数字媒体产品402中的文本位置。虽然没有在图4中示出，但是中间设备420可以存储多个映射，一个映射用于音频数据和文本数据的每个对应集。同样，中间设备420可以与未示出的许多终端用户设备交互。

同样，中间设备420可以存储用户可以经由其相应设备访问的数字媒体产品。因此，设备(例如，设备430)可以向中间设备420请求数字媒体产品，而不是存储数字媒体产品的本地拷贝。

附加地，中间设备420可以存储将用户的一个或多个设备与单个账户相关联的账户数据。因此，此类账户数据可以指示设备410和430被同一用户注册在同一账户下。中间设备420还可以存储将账户与特定用户拥有(或购买)的一个或多个数字媒体产品相关联的账户产品关联数据。因此，中间设备420可以通过确定账户产品关联数据是否指示设备430和特定数字媒体产品与该同一账户相关联来验证设备430可以访问该特定数字媒体产品。

虽然仅描绘了两个终端用户设备，但是终端用户可以拥有并操作消费数字媒体产品(诸如电子书或音频书)的更多或更少的设备。类似地，虽然仅描绘了单个中间设备420，但是拥有并操作中间设备420的实体可以操作多个设备，其中每个设备提供相同的服务或者可以一起操作来向终端用户设备410和430的用户提供服务。

中间设备420与终端用户设备410和430之间的通信可以经由网络440进行。网络440可以由在各计算设备之间提供数据交换的任意介质或机制实现。此类网络的示例包括但不限于诸如局域网(LAN)、广域网(WAN)、以太网或因特网、或者一个或多个陆地、卫星或无线链路之类的网络。该网络可以包括诸如上文所述网络的组合。网络可以根据传输控制协议(TCP)、用户数据报协议(UDP)和／或网际协议(IP)传输数据。

映射的存储位置

映射可以与生成该生成的文本数据和音频数据分开存储。例如，如图4所示，映射406与数字媒体产品402和404分开存储，即使映射406可以用于基于一个数字媒体产品中的媒体位置标识另一数字媒体产品中的媒体位置。事实上，映射406被存储在与分别存储数字媒体产品402和404分开的计算设备(中间设备420)上。

附加地或备选地，映射可以被存储为对应的文本数据的一部分。例如，映射406可以被存储在数字媒体产品402中。然而，虽然映射被存储为文本数据的一部分，但是该映射可以不向消费该文本数据的终端用户显示。附加地或备选地，映射可以被存储为音频数据的一部分。例如，映射406可以被存储在数字媒体产品404中。

书签切换

“书签切换”是指在数字作品的一个版本中建立指定位置(或者“书签”)，并且使用该书签找到该数字作品的另一版本中的对应位置。存在两类书签切换：文本至音频(TA)书签切换和音频至文本(AT)书签切换。TA书签切换包括使用电子书中建立的文本书签标识音频书中对应的音频位置。相反地，这里被称为AT书签切换的另一类书签切换包括使用音频书中建立的音频书签标识电子书中对应的文本位置。

文本至音频书签切换

图5A是根据本发明的一个实施方式描绘用于TA书签切换的过程500的流程图。图5A使用图4中所示系统400的元件进行描述。

在步骤502，文本媒体播放器412(例如，电子阅读器)确定数字媒体产品402(例如，电子书)中的文本书签。设备410向设备410的用户显示数字媒体产品402中的内容。

文本书签可以响应于用户的输入进行确定。例如，用户可以触摸设备410的触摸屏上的区域。设备410的显示器在该区域或该区域附近显示一个或多个词语。响应于输入，文本媒体播放器412确定最靠近该区域的一个或多个词语。文本媒体播放器412基于确定的一个或多个词语确定文本书签。

备选地，文本书签基于向用户显示的最后一个文本数据进行确定。例如，数字媒体产品402可以包括200个电子“页面”，并且页面110是显示的最后一个页面。文本媒体播放器412可以确定页面110是显示的最后一个页面。文本媒体播放器412可以将页面110建立为文本书签，或者可以将页面110开始处的点建立为文本书签，这是由于可能无法知道用户停止阅读的位置。安全的做法是假设用户最好阅读的是页面109上的最后一个语句，该语句可以在页面109或页面110上结束。因此，文本媒体播放器412可以将下一语句(其在页面110上开始)的开始处建立为文本书签。然而，如果映射的粒度是段落级，则文本媒体播放器412可以将页面109上最后一段的开始处建立为文本书签。类似地，如果映射的粒度是语句级，则文本媒体播放器412可以将包括页面110的章节的开始处建立为文本书签。

在步骤504，文本媒体播放器412通过网络440向中间设备420发送指示文本书签的数据。中间设备420可以存储与设备410和／或设备410的用户的账户相关联的文本书签。在步骤502之前，用户已经建立了中间设备420的操作者的账户。用户继而使用该操作者注册一个或多个设备(包括设备410)。该注册使得一个或多个设备中的每个设备与用户的账户相关联。

一个或多个因素可以使得文本媒体播放器412向中间设备420发送文本书签。此类因素可以包括退出(或关闭)文本媒体播放器412，由用户建立文本书签，或者当收听与针对其建立文本书签的作品的文本版本对应的音频书时由用户明确指示保持该文本书签用于使用。

如先前所指出，中间设备420具有对映射406的访问(例如，存储)，在此示例中，该映射406将数字媒体产品404中的多个音频位置与数字媒体产品402中的多个文本位置映射。

在步骤506，中间设备420检查映射406用于确定多个文本位置中对应于文本书签的特定文本位置。该文本书签可能没有准确地匹配映射406中的多个文本位置中的任意文本位置。然而，中间设备420可以选择最靠近该文本书签的文本位置。备选地，中间设备420可以选择紧邻该文本书签之前的文本位置，该文本位置可以是最靠近该文本书签的文本位置或者不是最靠近该文本书签的文本位置。例如，如果文本书签指示第5章节第3段第5个语句并且映射406中最靠近的文本位置是(1)第5章节第3段第1个语句，以及(2)第5章节第3段第6个语句，则选择文本位置(1)。

在步骤508，一旦映射中的特定文本位置被标识，则中间设备420确定映射406中对应于该特定文本位置的特定音频位置。

在步骤510，中间设备420向设备430发送该特定音频位置，其在此示例中不同于设备410。例如，设备410可以是平板计算机，而设备430可以是智能电话。在相关实施方式中，没有包括设备430。因此，中间设备420可以向设备410发送该特定音频位置。

步骤510可以被自动执行，即，响应于中间设备420确定该特定音频位置。备选地，步骤510(或步骤506)可以响应于从设备430接收设备430将要处理数字媒体产品404的指示而执行。该指示可以是针对与文本书签对应的音频位置的请求。

在步骤512，音频媒体播放器432将特定音频位置建立为数字媒体产品404中音频数据的当前回放位置。此建立操作可以响应于从中间设备420接收特定音频位置而执行。因为当前回放位置变成特定音频位置，因此音频媒体播放器432不要求播放音频数据中特定音频位置之前的任意音频。例如，如果特定音频位置指示2：56：03(2小时，56分，3秒)，则音频媒体播放器432将该音频数据中的该时间建立为当前回放位置。因此，如果设备430的用户选择设备430上的“播放”按钮(图形的或物理的)，则音频媒体播放器430开始处理在2：56：03标记的音频数据。

在一个备选实施方式中，设备410存储映射406(或其拷贝)。因此，代替步骤504-508，文本媒体播放器412检查映射406以确定多个文本位置中对应于文本书签的特定文本位置。继而，文本媒体播放器412确定映射406中对应于特定文本位置的特定音频位置。文本媒体播放器412继而可以使得该特定音频位置被发送至中间设备420以允许设备430获取该特定音频位置，并且将音频数据中的当前播放位置建立成特定音频位置。文本媒体播放器412还可以使得特定文本位置(或文本书签)被发送至中间设备420以允许设备410(或其他设备，未示出)稍后获取该特定文本位置以允许在其他设备上执行的另一文本媒体播放器显示数字媒体产品402的另一拷贝的一部分(例如，一页)，其中该部分对应于特定文本位置。

在另一备选实施方式中，不包括中间设备420和设备430。因此，不执行步骤504和510。因此，设备410执行图5A中的所有其他步骤，包括步骤506和508。

音频至文本书签切换

图5B是根据本发明的一个实施方式描绘用于AT书签切换的过程550的流程图。类似于图5A，图5B使用图4中所示系统400的元件进行描述。

在步骤552，音频媒体播放器432确定数字媒体产品404(例如，音频书)中的音频书签。

音频书签可以响应于来自用户的输入而确定。例如，用户可以例如通过选择设备430的触摸屏上显示的“停止”按钮来停止音频数据的回放。音频媒体播放器432确定数字媒体产品404的音频数据中对应于回放停止的位置。因此，音频书签可以简单地作为用户停止收听从数字媒体产品404生成的音频的最后位置。附件地或备选地，用户可以选择设备430触摸屏上的一个或多个图形按钮以将数字媒体产品404中的特定位置建立为音频书签。例如，设备430显示对应于数字媒体产品404中音频数据长度的时间轴。用户可以选择该时间轴上的位置，继而提供由音频媒体播放器432用于建立音频书签的一个或多个附加输入。

在步骤554，设备430通过网络440向中间设备420发送指示音频书签的数据。该中间设备420可以存储与设备430和／或设备430的用户的账户相关联的音频书签。在步骤552之前，用户建立了中间设备420的操作者的账户。用户继而使用该操作者注册一个或多个设备(包括设备430)。该注册使得一个或多个设备中的每个设备与用户的账户相关联。

中间设备420还具有对映射406的访问(例如，存储)。映射406将数字媒体产品404的音频数据中的多个音频位置与数字媒体产品402的文本数据中的多个文本位置映射。

一个或多个因素可以使得音频媒体播放器432向中间设备420发送音频书签。此类因素可以包括退出(或关闭)音频媒体播放器432，由用户建立音频书签，或者当显示与针对其建立音频书签的数字媒体产品404对应的作品的文本版本的部分(反映在数字媒体产品402中)时由用户明确指示保持该音频书签用于使用。

在步骤556，中间设备420检查映射406以确定多个音频位置中对应于音频书签的特定音频位置。该音频书签可能没有准确地匹配映射406中的多个音频位置中的任意音频位置。然而，中间设备420可以选择最靠近该音频书签的音频位置。备选地，中间设备420可以选择紧邻该音频书签之前的音频位置，该音频位置可以是最靠近该音频书签的音频位置或者不是最靠近该音频书签的音频位置。例如，如果音频书签指示02：43：19(或2小时，43分，19秒)并且映射406中最靠近的音频位置是(1)02：41：07，以及(2)02：43：56，则选择音频位置(1)，即便音频位置(2)最靠近该音频书签。

在步骤558，一旦映射中的特定音频位置被标识，则中间设备420确定映射406中对应于该特定音频位置的特定文本位置。

在步骤560，中间设备420向设备410发送该特定文本位置，其在此示例中不同于设备430。例如，设备410可以是平板计算机，而设备430可以是智能电话，其被配置为处理音频数据并生成可听声音。

步骤560可以被自动执行，即，响应于中间设备420确定该特定文本位置。备选地，步骤560(或步骤556)可以响应于从设备410接收设备410将要处理数字媒体产品402的指示而执行。该指示可以是针对与音频书签对应的文本位置的请求。

在步骤562，文本媒体播放器412显示关于特定文本位置的信息。步骤562可以响应于从中间设备420接收该特定文本位置而执行。设备410不要求显示数字媒体产品402中反映的作品的文本版本中特定文本位置之前的任意内容。例如，如果特定文本位置指示第3章节第2段第4个语句，则设备410显示包括该语句的页面。文本媒体播放器412可以使得标记显示在页面的特定文本位置，用于可视地向设备410的用户指示从页面中的什么位置开始阅读。因此，用户能够立即从与音频书中叙述者说出的最后词语对应的位置开始阅读该作品的文本版本。

在一个备选实施方式中，设备410存储映射406。因此，代替步骤556-560，在步骤554之后(其中设备430向中间设备420发送指示音频书签的数据)，中间设备420向设备410发送该音频书签。继而，文本媒体播放器412检查映射406以确定多个音频位置中对应于该音频书签的特定音频位置。继而，文本媒体播放器412确定映射406中对应于特定音频位置的特定文本位置。如上所述，该备选处理继而前进至步骤562。

在另一备选实施方式中，不包括中间设备420。因此，不执行步骤554和560。因此，设备430执行图5B中的所有其他步骤，包括步骤556和558。

响应于播放音频突出显示文本

在一个实施方式中，当播放对应于作品的文本版本的音频数据时，该作品的文本版本一部分中的文本被突出显示或“点亮”。如先前所指出，音频数据是作品的文本版本的音频版本，并且可以反映由人类用户对文本版本中文本的阅读。如这里所使用的，“突出显示”文本是指媒体播放器(例如，“电子阅读器”)视觉上将该文本与同该突出显示的文本同时显示的其他文本区分。突出显示文本可以包括改变文本的字体，改变文本的字形(例如，斜体、黑体、下划线)，改变文本的大小，改变文本的颜色，改变文本的背景颜色，或者创建与该文本相关联的动画。创建动画的一个示例为使得文本(或该文本的背景)闪烁或者改变颜色。创建动画的另一示例是创建在该文本的上面、下面或周围出现的图形。例如，响应于媒体播放器检测并播放词语“烤箱”，该媒体播放器在显示文本中的词语“烤箱”上显示烤箱图像。动画的另一示例是弹跳球，其当播放的音频数据中检测到文本的一部分(例如，词语、音节或字母)时，在该部分上“弹跳”。

图6是根据本发明的一个实施方式描绘用于在作品的音频版本播放时使得该作品的文本版本中的文本被突出显示的过程600的流程图。

在步骤610，确定音频版本的音频数据的当前回放位置(其不断地改变)。该步骤可以由在用户设备上执行的媒体播放器执行。该媒体播放器处理该音频数据以为用户生成音频。

在步骤620，基于当前回放位置，标识映射中的映射记录。当前回放位置可以匹配或近乎匹配该映射记录中标识的音频位置。

如果媒体播放器具有对映射的访问，则步骤620可以由该媒体播放器执行，其中该映射将音频数据中多个音频位置与该作品的文本版本中多个文本位置映射。备选地，步骤620可以由用户设备上执行的另一过程或者通过网络从该用户设备接收当前回放位置的服务器执行。

在步骤630，标识映射记录中标识的文本位置。

在步骤640，使得作品的文本版本中对应于该文本位置的一部分被突出显示。该步骤可以由媒体播放器或者在用户设备上执行的另一软件应用来执行。如果服务器执行查找步骤(620和630)，则步骤640可以进一步包括服务器向用户设备发送文本位置。作为响应，媒体播放器或另一软件应用接受该文本位置作为输入并且使得对应的文本被突出显示。

在另一实施方式中，映射中由媒体播放器标识的不同文本位置与不同类型的突出显示相关联。例如，映射中的一个文本位置可以与字体颜色从黑色到红色的改变相关联，而映射中的另一文本位置可以与动画(诸如示出一张吐司“弹”出烤箱的烤箱图形)。因此，映射中的每个映射记录可以包括指示由对应文本位置标识的文本如何被突出显示的“突出显示数据”。因此，针对映射中媒体播放器标识并且包括突出显示数据的每个映射记录，媒体播放器使用该突出显示数据确定如何突出显示文本。如果映射记录不包括突出显示数据，则媒体播放器可以不突出显示该对应的文本。备选地，如果映射中的映射记录不包括突出显示数据，则媒体播放器使用“缺省”突出显示技术(例如，加粗文本)来突出显示文本。

基于音频输入突出显示文本

图7是根据本发明的一个实施方式描绘用于响应于用户的音频输入突出显示被显示的文本的过程700的流程图。在此实施方式中，不要求映射。音频输入用于突出显示同时向用户显示的作品的文本版本的一部分中的文本。

在步骤710，接收音频输入。该音频输入可以基于用户大声阅读作品的文本版本中的文本。该音频输入可以由显示文本版本的一部分的设备接收。该设备可以向用户提示大声阅读词语、短语或整个语句。该提示可以是视觉上或听觉上的。作为视觉提示的一个示例，在设备显示下划线语句时或仅在其之前，设备可以使得以下文本被显示：“请阅读下划线文本”。作为听觉提示的一个示例，设备可以使得计算机生成的话音阅读“请阅读下划线文本”，或者使得预记录的人类话音被播放，其中预记录的人类话音提供相同指令。

在步骤720，对音频输入执行语音至文本分析以检测音频输入中反映的一个或多个词语。

在步骤730，针对音频输入中反映的每个检测到的词语，将该检测到的词语与特定词语集合相比较。该特定词语集合可以是计算设备(例如，电子阅读器)当前显示的所有词语。备选地，特定词语集合可以是向用户提示阅读的所有词语。

在步骤740，针对匹配特定集合中词语的每个检测到的词语，设备使得该匹配词语突出显示。

过程700中描绘的步骤可以由显示作品的文本版本中文本的单个计算设备执行。备选地，过程700中描绘的步骤可以由与显示文本版本中文本的计算设备不同的一个或多个计算设备执行。例如，步骤710中来自用户的音频输入可以通过网络从用户的设备向执行语音至文本分析的网络服务器发送。该网络服务器继而可以向用户设备发送突出现实的数据以使得用户设备突出显示适当的文本。

响应于文本选择播放音频

在一个实施方式中，显示作品的文本版本的部分的媒体播放器的用户可以选择所显示文本的部分，并且使得对应的音频被播放。例如，如果数字书中显示的词语是“donut”并且用户选择了该词语(例如，通过触摸媒体播放器触摸屏上显示该词语的一部分)，则“donut”的音频可以被播放。

将作品的文本版本中的文本位置与音频数据中的音频位置映射的映射用于标识音频数据中对应于该选定文本的一部分。用户可以选择单个词语、短语、甚至一个或多个语句。响应于选择所显示的文本的一部分的输入，媒体播放器可以标识一个或多个文本位置。例如，媒体播放器可以标识对应于选定部分的单个文本位置，即使该选定部分包括多个行或语句。所标识的文本位置可以对应于选定部分的开始。作为另一示例，媒体播放器可以标识对应于选定部分开始的第一文本位置以及对应于选定部分结束的第二文本位置。

媒体播放器使用所标识的文本位置查找映射中的映射记录，其指示最靠近(或在前最靠近)所标识的文本位置的文本位置。媒体播放器使用映射记录中指示的音频位置来标识音频数据中开始处理该音频数据的位置以便生成音频。如果只标识了单个文本位置，则可以只播放该音频位置处或附近的词语或声音。因此，在播放词语或声音之后，媒体播放器停止播放更多的音频。备选地，媒体播放器开始在该音频位处或附近播放并且不停止播放该音频位置后的音频，直到(a)到达该音频数据的结束，(b)来自用户的进一步输入(例如，“停止”按钮的选择)，或者(c)音频数据中预先设计的停止点(例如，要求进一步输入来进行的页面或章节中的结束)。

如果媒体播放器基于选定部分标识了两个文本位置，则两个音频位置被标识并且可以用于标识开始播放以及停止播放对应音频的位置。

在一个实施方式中，由音频位置标识的音频数据可以被缓慢(即，以缓慢的回放速度)或连续播放而不超前音频数据中的当前回放位置。例如，如果平板计算机的用户通过使用其手指触摸该平板计算机的触摸屏选择所显示的词语“two”并且连续触摸该显示的词语(即，不抬起其手指并且不移动其手指至另一显示的词语)，则平板计算机播放对应的音频，从而创建由阅读词语“twoooooooooooooooo”反映的声音。

在类似实施方式中，用户拖拽其手指跨过媒体播放器触摸屏上显示的文本的速度使得对应的音频被以相同或相似速度播放。例如，用户选择所显示的词语“donut”中的字母“d”，然后缓慢地移动其手指跨过所显示的词语。响应于此输入，媒体播放器标识对应的音频数据(使用映射)，并且以用户移动其手指的相同速度播放对应的音频。因此，媒体播放器创建听上去如同作品的文本版本的文本的阅读器对词语“donut”发音如“dooooooonnnnnnuuuuuut”的音频。

在类似实施方式中，用户“触摸”触摸屏上显示的词语的时间指示播放该词语音频版本的快慢。例如，用户手指对所显示的词语的快速叩击使得对应音频以正常速度播放，而用户保持其手指按下所选定的词语大于1秒钟使得对应的音频以1／2正常速度播放。

转移用户注释

在一个实施方式中，用户开始对数字作品的一个媒体版本(例如，音频)创建注释，并且使得该注释与该数字作品的另一媒体版本(例如，文本)相关联。因此，当注释可以在一类媒体的上下文中创建时，该注释可以在另一类媒体的上下文中被消费。其中注释被创建或消费的“上下文”是指当创建或消费发生时正在显示的文本或播放的音频。

虽然以下示例包括在创建注释时确定音频中的位置或文本位置，但是本发明的某些实施方式不受此限制。例如，在音频上下文中创建注释时音频文件中的当前回放位置不在消费文本上下文中的注释时使用。相反，注释的指示可以在对应的文本版本的开始或结束处或者对应的文本版本的每个“页面”上由设备显示。作为另一示例，在文本上下文中创建注释时显示的文本不在消耗音频上下文中的注释时使用。相反，注释的指示可以在对应的音频版本的开始或结束处或者在对应的音频版本被播放时不断地由设备显示。对于视觉指示的附加或备选，可以播放注释的听觉指示。例如，“蜂鸣声”与音频轨道同时播放，通过此方式该蜂鸣声与音频轨道均可以被听到。

图8A至图8B是根据本发明的一个实施方式描绘用于将注释从一个媒体上下文转移到另一媒体上下文的过程的流程图。具体地，图8A是描绘用于创建“文本”上下文中的注释并且消费“音频”上下文中的注释的过程800的流程图，而图8B是描绘用于创建“音频”上下文中的注释并且消费“文本”上下文中的注释的过程850的流程图。注释的创建和消费可以发生在同一计算设备(例如，设备410)或者单独计算设备(例如，设备410和430)上。图8A描述了其中注释在设备410上创建并且消费的情形，而图8B描述了其中注释在设备410上创建并且稍后在设备430上消费的情形。

在图8A的步骤802，在设备410上执行的文本媒体播放器412使得来自数字媒体产品402的文本被显示。

在步骤804，文本媒体播放器412确定数字媒体产品402中反映的作品的文本版本中的文本位置。该文本位置最终与注释相关联存储。文本位置可以通过各种方式确定。例如，文本媒体播放器412可以接收选择所显示的文本中文本位置的输入。该输入可以是用户触摸设备410的触摸屏(显示文本)一段时间。该输入可以选择特定词语、多个词语、页面的开始或结束、语句之前或之后等。输入还可以包括首先选择按钮，该按钮使得文本媒体播放器412变为其中注释可以被创建并且与文本位置相关联的“创建注释”模式。

作为确定文本位置的另一示例，文本媒体播放器412基于(数字媒体产品402中反映的)作品的文本版本正被显示的部分自动(不需要用户输入)确定文本位置。例如，如果设备410正显示作品的文本版本的页面20，则注释将与页面20相关联。

在步骤806，文本媒体播放器412接收选择可以在触摸屏上显示的“创建注释”按钮的输入。此按钮可以响应于步骤804中选择文本位置的输入而显示，其中例如用户对触摸屏触摸一段时间(诸如一秒钟)。

虽然步骤804被描绘为在步骤806之前发生，备选地，“创建注释”按钮的选择可以在确定文本位置之前发生。

在步骤808，文本媒体播放器412接收用于创建注释数据的输入。该输入可以是话音数据(诸如用户向设备410的麦克风说出)或者文本数据(诸如用户选择键盘上的按键，无论是物理的或图形的)。如果注释数据是话音数据，则文本媒体播放器412(或另一过程)可以对该话音数据执行语音至文本分析以创建该话音数据的文本版本。

在步骤810，文本媒体播放器412将注释数据与文本位置相关联存储。文本媒体播放器412使用映射(例如，映射406的拷贝)标识映射中最靠近该文本位置的特定文本位置。继而，使用映射，文本媒体播放器标识对应于特定文本位置的音频位置。

步骤810的备选，文本媒体播放器412通过网络440向中间设备420发送注释数据和文本位置。作为响应，中间设备420将该注释数据与文本位置相关联存储。中间设备420使用映射(例如，映射406)标识映射406中最靠近该文本位置的特定文本位置。继而，使用映射406，中间设备420标识对应于特定文本位置的音频位置。中间设备420通过网络440向设备410发送所标识的音频位置。中间设备420可以响应于设备410对某个音频数据和／或与某个音频数据相关联的注释的请求发送所标识的音频位置。例如，响应于对“双城记”音频书版本的请求，中间设备420确定是否存在与该音频书相关联的任意注释数据，并且如果存在，则向设备410发送该注释数据。

步骤810还可以包括存储指示注释何时被创建的日期和／或时间信息。在音频上下文中消费该注释时，此信息可以稍后显示。

在步骤812，音频媒体播放器414通过处理数字媒体产品404的音频数据来播放音频，其在此示例中(虽然未示出)，可以存储在设备410上或者可以通过网络440从中间设备420流传输至设备410。

在步骤814，音频媒体播放器414确定音频数据中当前回放位置何时匹配或近乎匹配使用映射406在步骤810中标识的音频位置。备选地，音频媒体播放器414可以使得指示注释可获取的数据被显示，如步骤812中所指示，不需要考虑该当前回放位置所处的位置以及不需要播放任意音频。换言之，步骤812是不必要的。例如，用户可以开始音频媒体播放器414并且使得音频媒体播放器414加载数字媒体产品404的音频数据。音频媒体播放器414确定该注释数据与该音频数据相关联。音频媒体播放器414使得关于音频数据的信息(例如，题目、艺术家、流派、长度等)被显示，而不需要生成与该音频数据相关联的任何音频。该信息可以包括对该注释数据以及关于音频数据中与该注释数据相关联的位置的信息的引用，其中该位置对应于步骤810中标识的音频位置。

在步骤816，音频媒体播放器414消费注释数据。如果该注释数据是话音数据，则消费该注释数据可以包括处理该话音数据以生成音频或者将该话音数据转换成文本数据并且显示该文本数据。如果注释数据是文本数据，则消费该注释数据可以包括例如在显示播放的音频数据的属性的GUI的侧板中或者与该GUI分开出现的新窗口中显示该文本数据。属性的非限制性示例包括音频数据的时间长度，当前回放位置，其可以指示音频数据中的绝对位置(例如，时间偏移)或者音频数据中的相对位置(例如，章节或部分号)，音频数据的波形，以及数字作品的标题。

图8B描绘了先前指出的情形，其中注释在设备430上创建并且稍后在设备410上消费。

在步骤852，音频媒体播放器432处理来自数字媒体产品404的音频数据以播放音频。

在步骤854，音频媒体播放器432确定音频数据中的音频位置。该音频位置最终与注释相关联存储。该音频位置可以通过多种方式确定。例如，音频媒体播放器432可以接收选择音频数据中音频位置的输入。该输入可以是用户触摸设备430的触摸屏(显示音频数据的属性)一段时间。该输入可以选择反映音频数据的长度的时间轴中的绝对位置或者音频数据中的相对位置，诸如章节号和段落号。该输入还可以包括首先选择按钮，该按钮使得音频媒体播放器432变为其中注释可以被创建并且与音频位置相关联的“创建注释”模式。

作为确定音频位置的另一示例，音频媒体播放器432基于音频数据中正被处理的部分自动(不需要用户输入)确定音频位置。例如，如果音频媒体播放器432正在处理音频数据中对应于反映在数字媒体产品404中的数字作品的章节20的一部分，则音频媒体播放器432确定该音频位置至少在章节20中的某个位置。

在步骤856，音频媒体播放器432接收选择可以在设备430的触摸屏上显示的“创建注释”按钮的输入。此按钮可以响应于步骤854中选择音频位置的输入而被显示，其中例如用户连续触敏该触摸屏一段时间，诸如一秒钟。

虽然步骤854被描绘为发生在步骤856之前，但是备选地，选择“创建注释”按钮可以在确定音频位置之前。

在步骤858，第一媒体播放器接收用于创建注释数据的输入，类似于步骤808。

在步骤860，音频媒体播放器432将注释数据与该音频位置相关联存储。音频媒体播放器432使用映射(例如，映射406)标识映射中最靠近步骤854中确定的音频位置的特定音频位置。继而，使用该映射，音频媒体播放器432标识对应于特定音频位置的文本位置。

对步骤860的备选，音频媒体播放器432通过网络400向中间设备420发送注释数据和音频位置。作为响应，中间设备420将注释数据与音频位置相关联存储。中间设备420使用映射406标识映射中最靠近步骤854中确定的音频位置的特定音频位置。因此，适应映射406，中间设备420标识对应于该特定音频位置的文本位置。中间设备420通过网络440向设备410发送标识的文本位置。中间设备420可以响应于设备410对某个文本数据和／或与某个文本数据相关联的注释的请求发送标识的文本位置。例如，响应于对“愤怒的葡萄”数字书的请求，中间设备420确定是否存在与该数字书相关联的注释数据，并且如果存在，则向设备430发送该注释数据。

步骤860还可以包括存储指示注释何时被创建的日期和／或时间信息。在文本上下文中消费该注释时，此信息可以稍后显示。

在步骤862，设备410显示与数字媒体产品402相关联的文本数据，其是数字媒体产品404的文本版本。设备410基于数字媒体产品402的本地存储拷贝显示数字媒体产品402的文本数据，或者如果本地存储拷贝不存在，则可以在文本数据从中间设备420流传输时显示该文本数据。

在步骤864，设备410确定作品(反映在数字媒体产品402中)的文本版本中包括文本位置(在步骤860中标识)的一部分何时被显示。备选地，设备410可以显示指示注释可获取的数据，不需要考虑作品的文本版本中被显示的部分(如果有的话)。

在步骤866，文本媒体播放器412消费注释数据。如果该注释数据是话音数据，则消费该注释数据可以包括显示该话音数据或将该话音数据转换成文本数据并且显示该文本数据。如果注释数据是文本数据，则消费该注释数据可以包括例如在显示作品的文本版本的一部分的GUI的侧板中或者与该GUI分开出现的新窗口中显示该文本数据。

大声阅读特征

如上文所述，媒体播放器的用户可以查看作品的文本版本同时收听该作品的音频版本。此情形在这里被称为“大声阅读”情形。当媒体播放器当前显示作品的文本版本的一部分并且播放作品的音频版本的一部分时，媒体播放器被认为是处于“大声阅读模式”。

在一个实施方式中，媒体播放器视觉上指示该媒体播放器是否处于大声阅读模式。处于大声阅读模式的视觉指示可以是出现在媒体播放器屏幕上某个位置的图标或图形。例如，在叙述者“角色”的图像由媒体播放器显示并且在媒体播放器处于大声阅读模式时在由媒体播放器显示的每个页面上进行动画。

当媒体播放器处于大声阅读模式时，用户可以选择经由媒体播放器提供并且与该此情形相关联的多个设置。

处于大声阅读模式的设置的一个示例是动画页面翻动设置。如果媒体播放器在动画页面翻动设置下操作，则当音频数据中当前回放位置对应于由媒体播放器显示的页面的结束时，页面自动“翻动”，即不需要用户输入。“翻动”数字页面包括停止显示第一页面并且显示该第一页面后的第二页面。此“翻动”可以包括显示使得出现第一页面是正在翻动的实际页面的图形。因此，在自动页面翻动设置下，媒体播放器确定音频数据的当前回放位置何时对应于所显示的页面上的最后一个词语。此确定可能通过使用映射将当前音频位置转译成当前文本位置进行，如这里所述，该映射存储在媒体播放器上或者远离媒体播放器的服务器上。

处于大声阅读模式的设置的一个示例是页面结束设置。如果媒体播放器在页面结束设置下操作，则媒体播放器检测音频数据的当前回放位置何时对应于该媒体播放器显示的页面结束处的文本。响应于该检测，媒体播放器使得音频数据的回放停止。只有来自媒体播放器的用户的输入使得该媒体播放器继续处理该音频数据。同样，该输入可以使得媒体播放器“翻动”页面。此输入可以是话音输入或者经由媒体播放器的触摸屏的输入。

处于大声阅读模式的设置的一个示例是书控制设置。如果媒体播放器在该书控制设置下操作，则与作品的文本版本相关联的数据(例如，元数据)用于控制对应音频数据的回放。因此，某些数据(诸如，文本数据或映射中的标签)指示何时暂停或停止音频数据的回放，而不考虑页面位置。例如，儿童书的文本版本可能具有多个对象图片的页面，其中之一是苹果。该儿童书的音频版本可能会问“你能找到苹果吗?”，并且文本版本中对应于该问句结束的一部分具有指示何时暂停音频回放的标签(或其他数据)。媒体播放器读取该标签，并且作为响应，暂停回放直到来自用户的附加输入，诸如用户选择媒体播放器触摸屏上所显示的苹果。备选地，与音频版本和文本版本相关联的映射可以包括指示何时暂停音频的暂停数据。因此，在媒体播放器检测暂停数据而音频版本的当前回放位置正在改变时，媒体播放器暂停该回放直到用户提供输入，诸如叩击触摸屏上所显示的苹果。一旦用户提供了请求的输入，则恢复音频版本的回放。

自动暂停音频数据的回放

在某些情形(不同于如上文所述处于结束页面设置的页面结束处)，当作品的文本版本的一部分正被显示时，自动暂停该作品的音频版本的回放可能是有益的。例如，针对某些作品，文本版本包含图片。具体地，作品的文本版本的页面可以包括只有图片而不具有任意文本，或者可以包括图片和文本而文本版本中的其他页面不包括任意图片。在此情形下，停止播放作品的音频版本以允许用户安静地分析该图片可能是有益的。

在一个实施方式中，作品的文本版本包括指示作品的音频版本的回放何时应当被停止的“暂停标签”。例如，暂停标签可以在文本版本中的图片之前或者可以紧接在文本版本中问句之后。因此，暂停标签可以对应于作品的文本版本中的特定文本位置。媒体播放器(或远程服务器)基于映射确定作品的音频版本的当前回放何时对应于特定文本版本。响应于该确定，媒体播放器暂停音频数据的回放。该暂停可以是预先确定的(诸如三秒钟)，在这之后媒体播放器自动开始再次播放该音频数据(即，不需要进一步的用户输入)。备选地，用于暂停的时间量可以基于暂停标签本身中的信息或者文本版本元数据中的信息确定，其中所述信息指示时间量(诸如，五秒钟)，在这之后媒体播放器自动再次从媒体播放器停止回放处播放该音频数据。备选地，媒体播放器接收使得该媒体播放器在其暂停回放之后继续播放作品的音频版本的用户输入。该用户输入可以要求继续回放或者可以用于缩短暂停时间。

在相关实施方式中，与作品的音频版本和文本版本相关联的映射可以包括指示音频版本中暂停某个时间量或者直到接收用户输入的位置的暂停数据。例如，当媒体播放器处理作品的音频版本时，该媒体播放器保持追踪音频版本中的当前回放位置。当该当前回放位置在映射中对应于与暂停数据相关联的音频位置时，媒体播放器暂停音频数据的回放。

硬件概述

根据一个实施方式，这里所述技术由一个或多个专用计算设备实现。该专用计算设备可以被硬连线以执行所述技术，或者可以包括数字电子设备，诸如被持续编程用于执行所述技术的一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA)，或者可以包括编程用于依照固件、存储器、其他存储或组合中的程序指令执行所述技术的一个或多个通用硬件处理器。此类专用计算设备还可以将定制硬连线逻辑、ASIC或FPGA与定制编程组合以完成所述技术。专用计算设备可以是台式计算机系统、便携式计算机系统、手持设备、联网设备或并入硬连线和／或程序逻辑以实现所述技术的任意其他设备。

例如，图9是其上可以实现本发明的一个实施方式的计算机系统900的框图。计算机系统900包括用于通信信息的总线902或其他通信机制，以及与总线902耦合用于处理信息的硬件处理器904。硬件处理器904例如可以是通用微处理器。

计算机系统900还包括耦合至总线902用于存储供处理器904执行的指令和信息的主存储器906，诸如随机访问存储器(RAM)或其他动态存储设备。主存储器906还可以用于存储在供处理器904执行的指令的执行期间的临时变量或其他中间信息。此类指令在被存储至处理器904可访问的非瞬态存储介质中时，使得计算机系统900呈现为定制用于执行指令中指定的操作的专用机器。

计算机系统900进一步包括耦合至总线902用于为处理器904存储静态信息和指令的只读存储器(ROM)908或其他静态存储设备。存储设备910(诸如磁盘或光盘)被提供并且耦合至总线902用于存储信息和指令。

计算机系统900可以经由总线902耦合至显示器912(诸如阴极射线管(CRT))用于向计算机用户显示信息。包括字母数字和其他按键的输入设备914被耦合至总线902用于向处理器904通信信息和命令选择。另一类用户输入设备是光标控件916，诸如用于向处理器904通信方向信息和命令选择并且用于控制显示器912上的光标移动的鼠标、追踪球或光标方向键。此输入设备通常具有两个轴(第一轴(例如，x)和第二轴(例如，y))中的两个自由度，允许设备指定平面中的位置。

计算机系统900可以使用定制硬件逻辑、一个或多个ASIC或FPGA、固件和／或程序逻辑来实现这里所述的技术，其与计算机系统组合使得或编程计算机系统900成为专用机器。根据一个实施方式，这里的技术响应于处理器904执行主存储器906中包含的一个或多个指令的一个或多个序列由计算机系统900执行。此类指令可以从另一存储介质(诸如存储设备910)读取至主存储器906。主存储器906中包含的指令序列的执行使得处理器904执行这里所述的处理步骤。在备选实施方式中，硬连线电路可以代替软件指令或与其组合使用。

这里使用的术语“存储介质”是指存储使得机器以特定方式操作的数据和／或指令的任意非瞬态介质。此类存储介质可以包括非易失性介质和／或易失性介质。非易失性介质例如包括光盘或磁盘，诸如存储设备910。易失性介质包括动态存储器，诸如主存储器906。存储介质的常见形式例如包括软盘、软性盘、硬盘、固态驱动器、磁带、或任意其他磁数据存储介质、CD-ROM、任意其他光数据存储介质、具有孔图案的任意物理介质、RAM、PROM、和EPROM、FLASH-EPROM、NVRAM、任意其他存储器芯片或卡盘。

存储介质具有不同的形式但是可以结合传输介质使用。传输介质参与在存储介质之间传输信息。例如，传输介质包括同轴电缆、铜线和光纤，包括包含总线902的线。传输介质还可以采用声波或光波的形式，诸如在无线电波和红外线数据通信期间生成的波。

在承载一个或多个指令的一个或多个序列至处理器904用于执行的过程中包括各种形式的介质。例如，指令可以最初承载在远程计算机的磁盘或固态驱动器上。远程计算机可以将指令加载至其动态存储器并且使用调制解调器通过电话线发送该指令。计算机系统900的本地调制解调器可以接收电话线上的数据并且使用红外线发射器将该数据转换成红外线信号。红外线检测器可以接收红外线信号中承载的数据，并且适当的电路可以将数据置于总线902上。总线902将该数据承载至主存储器906，从中处理器904获取并执行指令。由主存储器906接收的指令可以在由处理器904执行之前或之后选择性地存储在存储设备910上。

计算机系统900还包括耦合至总线902的通信接口918。通信接口918提供耦合至与本地网络922连接的网络链路920的双向数据通信。例如，通信接口918可以是综合数据业务网(ISDN)卡、电缆调制解调器、卫星调制解调器、或者用于向对应类型的电话线提供数据通信连接的调制解调器。作为另一示例，通信接口918可以是局域网(LAN)卡用于向可兼容LAN提供数据通信连接。还可以实现无线链路。在任意此类实现方式中，通信接口918发送并接收承载表示各种类型信息的数字数据流的电信号、电磁信号或光信号。

网络链路920通常通过一个或多个网络向其他数据设备提供数据通信。例如，网络链路920可以通过本地网络922向主机计算机924或者由因特网服务提供商(ISP)926运营的数据设备提供连接。ISP926反过来通过现在通常被称为“因特网”928的世界范围分组数据通信网络提供数据通信服务。本地网络922和因特网928均使用承载数字数据流的电信号、电磁信号或光信号。通过各种网络的信号以及网络链路920上通过通信接口918的信号(其承载来往于计算机系统900的数字数据)是传输介质的示例形式。

计算机系统900可以通过网络、网络链路920和通信接口918发送消息并接收数据(包括程序代码)。在因特网示例中，服务器930可以通过因特网928、ISP926、本地网络922和通信接口918传输对应用程序的请求代码。

该接收到的代码可以在其被接收时由处理器904执行，和／或存储至存储系统910或其他非易失性存储用于稍后执行。

根据某些实施方式，图10至图15示出了根据上文所述发明的原理的电子设备1000-1500的功能框图。设备的功能框图可以通过硬件、软件或硬件和软件的组合来实现以实行本发明的原理。本领域技术人员应当理解图10至图15中描述的功能块可以组合或分成子块以实现上文所述本发明的原理。因此，这里的描述可以支持这里所述功能块的任意可能的组合或分离或进一步限定。

如图10所示，电子设备1000包括音频数据接收单元1002，被配置为接收反映针对其而存在文本版本的作品的音频版本的音频数据。电子设备1000还包括耦合至该音频数据接收单元1002的处理单元1006。在某些实施方式中，处理单元1006包括语音至文本单元1008和映射单元1010。

处理单元1006被配置为执行对音频数据的语音至文本分析以生成针对音频数据部分的文本(例如，通过语音至文本单元1008)；以及基于针对音频数据的部分生成的文本，生成音频数据中多个音频位置与作品的文本版本中对应的多个文本位置之间的映射(例如，通过映射单元1010)。

如图11所示，电子设备1100包括文本接收单元1102，被配置为接收作品的文本版本。电子设备1100还包括音频数据接收单元1104，被配置为接收反映针对其而存在文本版本的作品的音频版本的第二音频数据。该电子设备1100还包括耦合至该文本接收单元1102的处理单元1106。在某些实施方式中，处理单元1106包括文本至语音单元1108和映射单元1110。

处理单元1106被配置为执行对文本版本的文本至语音分析以生成第一音频数据(例如，通过文本至语音单元1108)；并且基于该第一音频数据和文本版本，生成第一音频数据中第一多个音频位置与作品的文本版本中对应的多个文本位置之间的第一映射(例如，通过映射单元1110)。处理单元1106进一步被配置为基于(1)第一音频数据与第二音频数据之间的比较以及(2)第一映射，生成第二音频数据中第二多个音频位置与作品的文本版本中多个文本位置之间的第二映射(例如，通过映射单元1110)。

如图12所示，电子设备1200包括音频接收单元1202，被配置为接收音频输入。该电子设备1200还包括耦合至该音频接收单元1202的处理单元1206。在某些实施方式中，处理单元1206包括语音至文本单元1208、文本匹配单元1209和显示器控制单元1210。

处理单元1206被配置为执行对音频输入的语音至文本分析以生成针对音频输入的部分的文本(例如，通过语音至文本单元1208)；确定针对音频输入部分生成的文本是否匹配当前显示的文本(例如，通过文本匹配单元1209)；以及响应于确定所述文本匹配当前显示的文本，使得当前显示的文本突出显示(例如，通过显示器控制单元1210)。

如图13所示，电子设备1300包括位置数据获取单元1302，被配置为获取指示作品的文本版本中指定位置的位置数据。该电子设备1300还包括耦合至该位置数据获取单元1302的处理单元1306。在某些实施方式中，处理单元1306包括映射检查单元1308。

处理单元1306被配置为检查作品的音频版本中多个音频位置与作品的文本版本中对应的多个文本位置之间的映射(例如，通过映射检查单元1308)：确定多个文本位置中对应于指定位置的特定文本位置，并且基于该特定文本位置确定多个音频位置中对应于该特定文本位置的特定音频位置。处理单元1306还被配置为向媒体播放器提供基于特定文本位置确定的特定音频位置以使得媒体播放器将该特定音频位置建立为音频数据的当前回放位置。

如图14所示，电子设备1400包括位置获取单元1402，被配置为获取指示音频数据中指定位置的位置数据。该电子设备还包括耦合至该位置获取单元1402的处理单元1406。在某些实施方式中，处理单元1406包括映射检查单元1408和显示器控制单元1410。

处理单元1406被配置为检查音频数据中多个音频位置与作品的文本版本中对应的多个文本位置之间的映射(例如，通过映射检查单元1408)：确定多个音频位置中对应于指定位置的特定音频位置，并且基于该特定音频位置确定多个文本位置中对应于该特定音频位置的特定文本位置。处理单元1406还被配置为使得媒体播放器显示关于该特定文本位置的信息(例如，通过显示器控制单元1410)。

如图15所示，电子设备1500包括位置获取单元1502，被配置为获取在作品的音频版本的回放期间指示该音频版本中指定位置的位置数据。该电子设备1500还包括耦合至该位置获取单元1502的处理单元1506。在某些实施方式中，该处理单元1506包括文本位置确定单元1508和显示器控制单元1510。

处理单元1506被配置为在作品的音频版本的回放期间：基于指定位置确定作品的文本版本中与页面结束数据相关联的特定文本位置(例如，通过文本位置确定单元1508)，页面结束数据指示在作品的文本版本中反映的第一页面的结束；以及响应于确定该特定文本位置与页面结束数据相关联，自动使得第一页面停止显示并且使得该第一页面后的第二页面被显示(例如，通过显示器控制单元1510)。

如图16所示，电子设备1600包括注释获取单元1602，被配置为在作品的第一版本被处理时获取基于来自用户的输入的注释数据。该电子设备1600还包括关联数据存储单元1603。该电子设备1600还包括耦合至该注释获取单元1602和关联数据存储单元1603的处理单元1606。在某些实施方式中，处理单元1606包括显示器控制单元1610。

处理单元1606被配置为使得将注释数据与作品相关联的关联数据被存储(例如，在关联数据存储单元1603中)；以及当作品的第二版本被处理时，使得关于注释数据的信息被显示(例如，通过显示器控制单元1610)，其中第二版本与第一版本不同。

如图17所示，电子设备1700包括数据接收单元1702，被配置为接收建立作品第一版本中第一书签的数据。电子设备1700还包括位置数据存储单元1703。电子设备1700还包括耦合至数据接收单元1702和位置数据存储单元1703的处理单元1706。在某些实施方式中，处理单元1706包括映射检查单元1708。

处理单元1706被配置为检查作品的第一版本中多个第一位置与作品的第二版本中对应的多个第二位置之间的映射(例如，通过映射检查单元1708)用于：确定多个第一位置中对应于第一书签的特定第一位置，并且基于该特定第一位置，确定多个第二位置中对应于该特定第一位置的特定第二位置，其中作品的第一版本与作品的第二版本不同；使得将该特定第二位置建立为作品的第二版本中的第二书签的数据被存储(例如，在位置数据存储单元1703中)。

如图18所示，电子设备1800包括音频接收单元1802，被配置为在设备接收来自用户的音频输入。电子设备1800还包括耦合至该音频接收单元1802的处理单元1806。在某些实施方式中，处理单元1806包括词语分析单元1808和显示器控制单元1810。

处理单元1806被配置为使得作品的文本的一部分被设备显示(例如，通过显示器控制单元1810)；以及响应于在音频接收单元接收音频输入：分析该音频输入以标识一个或多个词语(例如，通过词语分析单元1808)；确定一个或多个词语是否被反映在文本的该部分中(例如，通过词语分析单元1808)；以及响应于确定该一个或多个词语反映在文本的该部分中，使得视觉指示由设备显示(例如，通过显示器控制单元1810)。

在之前说明书中，本发明的各实施方式已经参考可以在实现方式之间变化的若干特定细节进行了描述。因此，本说明书和附图被认为是说明性而不是限制性。本发明范围内的独有指示(即申请人期望的本发明的范围)是以包括任意随后修正的特定形式随本申请发布的权利要求集合的文字等效范围。

Claims

1.一种方法，包括：

接收反映针对其而存在文本版本的作品的可听版本的音频数据；

执行对所述音频数据的语音至文本分析，以生成针对所述音频数据的部分的文本；以及

基于针对所述音频数据的所述部分而生成的所述文本，生成所述音频数据中的多个音频位置与所述作品的文本版本中对应的多个文本位置之间的映射；

其中所述方法由一个或多个计算设备执行。

2.根据权利要求1所述的方法，其中生成针对所述音频数据的部分的文本包括：至少部分地基于所述作品的文本上下文生成针对所述音频数据的部分的文本。

3.根据权利要求2所述的方法，其中至少部分地基于所述作品的文本上下文生成针对所述音频数据的部分的文本包括：至少部分地基于在所述作品的所述文本版本中使用的语法的一个或多个规则生成文本。

4.根据权利要求2所述的方法，其中至少部分地基于所述作品的文本上下文生成针对所述音频数据的部分的文本包括：基于哪些词语在所述作品的所述文本版本或其子集中，来限制所述部分能够被转译成哪些词语。

5.根据权利要求4所述的方法，其中基于哪些词语在所述作品的所述文本版本中来限制所述部分能够被转译成哪些词语包括：针对所述音频数据的给定部分，标识所述作品的所述文本版本中对应于所述给定部分的子部分，并且仅将所述词语限制为所述作品的所述文本版本的所述子部分中的那些词语。

6.根据权利要求5所述的方法，其中：

标识所述作品的所述文本版本中的所述子部分包括：维持所述作品的所述文本版本中与所述音频数据中的所述语音至文本分析的当前音频位置相对应的当前文本位置；并且

所述作品的所述文本版本的所述子部分是与所述当前文本位置相关联的部分。

7.根据权利要求1-6中任意一项所述的方法，其中所述部分包括对应于个体词语的部分，并且所述映射将对应于个体词语的所述部分的位置映射到所述作品的所述文本版本中的个体词语。

8.根据权利要求1-6中任意一项所述的方法，其中所述部分包括对应于个体语句的部分，并且所述映射将对应于个体语句的所述部分的位置映射到所述作品的所述文本版本中的个体语句。

9.根据权利要求1-6中任意一项所述的方法，其中所述部分包括对应于固定量的数据的部分，并且所述映射将对应于固定量的数据的所述部分的位置映射到所述作品的所述文本版本中的对应位置。

10.根据权利要求1-9中任意一项所述的方法，其中生成所述映射包括：(1)将锚点嵌入所述音频数据中；(2)将锚点嵌入所述作品的所述文本版本中；或者(3)将所述映射存储在与所述音频数据或所述作品的所述文本版本相关联存储的媒体覆盖中。

11.根据权利要求1-10中任意一项所述的方法，其中所述多个文本位置的一个或多个位置中的每个位置指示所述作品的所述文本版本中的相对位置。

12.根据权利要求1-10中任意一项所述的方法，其中所述多个文本位置中的一个文本位置指示所述作品的所述文本版本中的相对位置，并且所述多个文本位置中的另一文本位置指示距所述相对位置的绝对位置。

13.根据权利要求1-10中任意一项所述的方法，其中所述多个文本位置的一个或多个位置中的每个位置指示所述作品的所述文本版本内的锚点。

14.一种方法，包括：

接收作品的文本版本；

执行对所述文本版本的文本至语音分析以生成第一音频数据；

基于所述第一音频数据和所述文本版本，生成所述第一音频数据中的第一多个音频位置与所述作品的所述文本版本中对应的多个文本位置之间的第一映射；

接收反映针对其而存在所述文本版本的所述作品的可听版本的第二音频数据；以及

基于(1)所述第一音频数据与所述第二音频数据之间的比较以及(2)所述第一映射，生成所述第二音频数据中的第二多个音频位置与所述作品的所述文本版本中的所述多个文本位置之间的第二映射；

其中所述方法由一个或多个计算设备执行。

15.一种方法，包括：

接收音频输入；

执行对所述音频输入的语音至文本分析，以生成针对所述音频输入的部分的文本；

确定针对所述音频输入的部分而生成的所述文本是否与当前显示的文本匹配；以及

响应于确定所述文本与当前显示的文本匹配，使得所述当前显示的文本被突出显示；

其中所述方法由一个或多个计算设备执行。

16.一种电子设备，包括：

音频数据接收单元，被配置用于接收反映针对其而存在文本版本的作品的可听版本的音频数据；以及

耦合至所述音频数据接收单元的处理单元，所述处理单元被配置为：

基于针对所述音频数据的所述部分而生成的所述文本，生成所述音频数据中的多个音频位置与所述作品的所述文本版本中

对应的多个文本位置之间的映射。

17.一种电子设备，包括：

文本接收单元，被配置用于接收作品的文本版本；以及

耦合至所述文本接收单元的处理单元，所述处理单元被配置为：

执行对所述文本版本的文本至语音分析，以生成第一音频数据；以及

基于所述第一音频数据和所述文本版本，生成所述第一音频数据中的第一多个音频位置与所述作品的所述文本版本中对应的多个文本位置之间的映射；

音频数据接收单元，被配置用于接收反映针对其而存在所述文本版本的所述作品的可听版本的第二音频数据；

所述处理单元进一步被配置为：基于(1)所述第一音频数据与所述第二音频数据之间的比较以及(2)所述第一映射，生成所述第二音频数据中的第二多个音频位置与所述作品的所述文本版本中的所述多个文本位置之间的第二映射。

18.一种电子设备，包括：

音频接收单元，被配置用于接收音频输入；以及

耦合至所述音频接收单元的处理单元，所述处理单元被配置为：

响应于确定所述文本与当前显示的文本匹配，使得所述当前显示的文本被突出显示。

19.一种电子设备，包括一个或多个处理器以及存储有供所述一个或多个处理器执行的一个或多个程序的存储器，所述一个或多个程序包括用于执行权利要求1-15中任意一项所述的方法的指令。

20.一种计算机可读存储介质，存储有供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行权利要求1-15中任意一项所述的方法的指令。

21.一种电子设备，包括用于执行权利要求1-15中任意一项所述的方法的装置。

22.一种用于电子设备中的信息处理设备，包括用于执行权利要求1-15中任意一项所述的方法的装置。

23.一种方法，包括：

获取指示作品的文本版本内的指定位置的位置数据；

检查所述作品的音频版本中的多个音频位置与所述作品的所述文本版本中对应的多个文本位置之间的映射以用于：

确定所述多个文本位置中对应于所述指定位置的特定文本位置，以及

基于所述特定文本位置，确定所述多个音频位置中对应于所述特定文本位置的特定音频位置；

向媒体播放器提供基于所述特定文本位置而确定的所述特定音频位置，以使得所述媒体播放器将所述特定音频位置建立为所述音频数据的当前回放位置；

其中所述方法由一个或多个计算设备执行。

24.根据权利要求23所述的方法，其中：

获取包括服务器通过网络从第一设备接收所述位置数据；

检查与提供由所述服务器执行；以及

提供包括所述服务器向执行所述媒体播放器的第二设备发送所述特定音频位置。

25.根据权利要求24所述的方法，其中所述第二设备和所述第一设备是相同设备。

26.根据权利要求23所述的方法，其中获取、检查与提供由被配置为显示所述作品的所述文本版本以及执行所述媒体播放器的计算设备执行。

27.根据权利要求23所述的方法，进一步包括：在被配置为显示所述作品的所述文本版本的设备处，确定所述位置数据而不需要来自所述设备的用户的输入。

28.根据权利要求23-27中任意一项所述的方法，进一步包括：

从用户接收输入；以及

响应于接收到所述输入，基于所述输入确定所述位置数据。

29.根据权利要求28所述的方法，其中：

向所述媒体播放器提供所述特定音频位置包括：向所述媒体播放器提供所述特定音频位置以使得所述媒体播放器处理开始于所述当前回放位置的所述音频数据，所述处理使得所述媒体播放器从经处理的所述音频数据生成音频；并且

使得所述媒体播放器处理所述音频数据是响应于接收到所述输入而执行的。

30.根据权利要求29所述的方法，其中：

所述输入选择所述作品的所述文本版本中的多个词语；

所述指定位置是第一指定位置；

所述位置数据还指示所述作品的所述文本版本内的、不同于所述第一指定位置的第二指定位置；

检查进一步包括检查所述映射以用于：

确定所述多个文本位置中对应于所述第二指定位置的第二特定文本位置，以及

基于所述第二特定文本位置，确定所述多个音频位置中对应于所述第二特定文本位置的第二特定音频位置；以及

向所述媒体播放器提供所述特定音频位置包括：向所述媒体播放器提供所述第二特定音频位置，以使得所述媒体播放器在所述当前回放位置到达或接近所述第二特定音频位置时停止处理所述音频数据。

31.根据权利要求23-30中任意一项所述的方法，进一步包括：

获取基于来自用户的输入的注释数据；

与所述指定位置相关联地存储所述注释数据；以及

使得关于所述注释数据的信息被显示。

32.根据权利要求31所述的方法，其中使得关于所述特定音频位置和所述注释数据的信息被显示包括：

确定所述音频数据的当前回放位置何时处于或接近所述特定音频位置；以及

响应于确定所述音频数据的所述当前回放位置处于或接近所述特定音频位置，使得关于所述注释数据的信息被显示。

33.根据权利要求31-32中任意一项所述的方法，其中：

所述注释数据包括文本数据；以及

使得关于所述注释数据的信息被显示包括显示所述文本数据。

34.根据权利要求31-33中任意一项所述的方法，其中：

所述注释数据包括话音数据；以及

使得关于所述注释数据的信息被显示包括处理所述话音数据以生成音频。

35.一种电子设备，包括一个或多个处理器以及存储有供所述一个或多个处理器执行的一个或多个程序的存储器，所述一个或多个程序包括用于执行权利要求23-34中任意一项所述的方法的指令。

36.一种计算机可读存储介质，存储有供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行权利要求23-34中任意一项所述的方法的指令。

37.一种电子设备，包括用于执行权利要求23-34中任意一项所述的方法的装置。

38.一种用于电子设备中的信息处理设备，包括用于执行权利要求23-34中任意一项所述的方法的装置。

39.一种电子设备，包括：

位置数据获取单元，被配置用于获取指示作品的文本版本内的指定位置的位置数据；以及

耦合至所述位置数据获取单元的处理单元，所述处理单元被配置为：

检查所述作品的音频版本中的多个音频位置与所述作品的文本版本中对应的多个文本位置之间的映射以用于：

向媒体播放器提供基于所述特定文本位置而确定的所述特定音频位置，以使得所述媒体播放器将所述特定音频位置建立为所述音频数据的当前回放位置。

40.一种方法，包括：

获取指示音频数据内的指定位置的位置数据；

检查所述音频数据中的多个音频位置与作品的文本版本中对应的多个文本位置之间的映射以用于：

确定所述多个音频位置中对应于所述指定位置的特定音频位置，以及

基于所述特定音频位置，确定所述多个文本位置中对应于所述特定音频位置的特定文本位置；

使得媒体播放器显示关于所述特定文本位置的信息；

其中所述方法由一个或多个计算设备执行。

41.根据权利要求40所述的方法，其中：

获取包括服务器通过网络从第一设备接收所述位置数据；

检查与使得由所述服务器执行；

使得包括所述服务器向执行所述媒体播放器的第二设备发送所述特定文本位置。

42.根据权利要求41所述的方法，其中所述第二设备和所述第一设备是相同设备。

43.根据权利要求40所述的方法，其中获取、检查与使得由被配置为显示所述作品的所述文本版本以及执行所述媒体播放器的计算设备执行。

44.根据权利要求40所述的方法，进一步包括在被配置为处理所述音频数据的设备处，确定所述位置数据而不需要来自所述设备的用户的输入。

45.根据权利要求40-44中任意一项所述的方法，进一步包括：

从用户接收输入；以及

响应于接收到所述输入，基于所述输入确定所述位置数据。

46.根据权利要求45所述的方法，其中：

使得包括使得所述媒体播放器显示所述作品的文本版本中对应于所述特定文本位置的一部分；以及

使得所述媒体播放器显示所述作品的所述文本版本的所述一部分是响应于接收到所述输入而被执行的。

47.根据权利要求46所述的方法，其中：

所述输入选择所述音频数据的节段；

所述指定位置是第一指定位置；

所述位置数据还指示所述音频数据内的、不同于所述第一指定位置的第二指定位置；

检查进一步包括检查所述映射以用于：

确定所述多个音频位置中对应于所述第二指定位置的第二特定音频位置，以及基于所述第二特定音频位置，确定所述多个文本位置中对应于所述第二特定音频位置的第二特定文本位置；

使得媒体播放器显示关于所述特定文本位置的信息进一步包括使得所述媒体播放器显示关于所述第二特定文本位置的信息。

48.根据权利要求40-47中任意一项所述的方法，其中：

所述指定位置对应于所述音频数据中的当前回放位置；

使得在所述指定位置处的所述音频数据被处理并且生成音频时被执行；

使得包括使得第二媒体播放器突出显示所述作品的文本版本内的特定文本位置处或附近的文本。

49.根据权利要求40-48中任意一项所述的方法，进一步包括：

获取基于来自用户的输入的注释数据；

与所述指定位置相关联地存储所述注释数据；以及

使得关于所述注释数据的信息被显示。

50.根据权利要求49所述的方法，其中使得关于所述注释数据的信息被显示包括：

确定所述作品的所述文本版本中对应于所述特定文本位置的一部分何时被显示；以及

响应于确定所述作品的所述文本版本中对应于所述特定文本位置的一部分被显示，使得关于所述注释数据的信息被显示。

51.根据权利要求49-50中任意一项所述的方法，其中：

所述注释数据包括文本数据；以及

使得关于所述注释数据的信息被显示包括使得所述文本数据被显示。

52.根据权利要求49-51中任意一项所述的方法，其中：

所述注释数据包括话音数据；以及

使得关于所述注释数据的信息被显示包括使得所述话音数据被处理以生成音频。

53.一种方法，包括：

在作品的音频版本的回放期间：

获取指示所述音频版本内的指定位置的位置数据，以及

基于所述指定位置确定所述作品的文本版本中与暂停数据相关联的特定文本位置，所述暂停数据指示何时暂停所述音频版本的回放；以及

响应于确定所述特定文本位置与暂停数据相关联，暂停所述音频版本的回放；

其中所述方法由一个或多个计算设备执行。

54.根据权利要求53所述的方法，其中所述暂停数据在所述作品的所述文本版本内。

55.根据权利要求53-54中任意一项所述的方法，其中确定所述特定文本位置包括：

基于所述特定音频位置，确定所述多个文本位置中对应于所述特定音频位置的所述特定文本位置。

56.根据权利要求53-55中任意一项所述的方法，其中所述暂停数据对应于在所述作品的所述文本版本中反映的页面的结束。

57.根据权利要求53-55中任意一项所述的方法，其中所述暂停数据对应于所述作品的文本版本内的、紧邻不包括文本的图片之前的位置。

58.根据权利要求53-57中任意一项所述的方法，进一步包括：响应于接收到用户输入而继续所述音频版本的回放。

59.根据权利要求53-57中任意一项所述的方法，进一步包括：响应于自所述音频版本的回放被暂停起特定时间量的流逝而继续所述音频版本的回放。

60.一种方法，包括：

在作品的音频版本的回放期间：

获取指示所述音频版本内的指定位置的位置数据，以及

基于所述指定位置确定所述作品的文本版本中与页面结束数据相关联的特定文本位置，所述页面结束数据指示在所述作品的文本版本中反映的第一页面的结束；以及

响应于确定所述特定文本位置与所述页面结束数据相关联，自动使得所述第一页面停止被显示并且使得所述第一页面之后的第二页面被显示；

其中所述方法由一个或多个计算设备执行。

61.根据权利要求60所述的方法，其中确定所述特定文本位置包括：

基于所述特定音频位置，确定所述多个文本位置中对应于所述特定音频位置的特定文本位置。

62.一种电子设备，包括一个或多个处理器以及存储有供所述一个或多个处理器执行的一个或多个程序的存储器，所述一个或多个程序包括用于执行权利要求40-61中任意一项所述的方法的指令。

63.一种计算机可读存储介质，存储有供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行权利要求40-61中任意一项所述的方法的指令。

64.一种电子设备，包括用于执行权利要求40-61中任意一项所述的方法的装置。

65.一种用于电子设备中的信息处理设备，包括用于执行权利要求40-61中任意一项所述的方法的装置。

66.一种电子设备，包括：

位置获取单元，被配置用于获取指示音频数据内的指定位置的位置数据；以及

耦合至所述位置获取单元的处理单元，所述处理单元被配置为：

基于所述特定音频位置，确定所述多个文本位置中对应于所述特定音频位置的特定文本位置；使得媒体播放器显示关于所述特定文本位置的信息。

67.一种电子设备，包括：

位置获取单元，被配置用于在作品的音频版本的回放期间获取指示所述音频版本内的指定位置的位置数据；以及

耦合至所述位置获取单元的处理单元，所述处理单元被配置为在作品的音频版本的回放期间：

基于所述指定位置确定所述作品的文本版本中与页面结束数据相关联的特定文本位置，所述页面结束数据指示在所述作品的所述文本版本中反映的第一页面的结束；以及

响应于确定所述特定文本位置与所述页面结束数据相关联，自动使得所述第一页面停止被显示并且使得所述第一页面之后的第二页面被显示。

68.一种方法，包括：

在作品的第一版本被处理时，获取基于来自用户的输入的注释数据；

存储将所述注释数据与所述作品相关联的关联数据；以及

在所述作品的第二版本被处理时，使得关于所述注释数据的信息被显示，其中所述第二版本与所述第一版本不同；

其中所述方法由一个或多个计算设备执行。

69.根据权利要求68所述的方法，其中：

获取包括确定指示所述作品的所述第一版本内的指定位置的位置数据；

存储包括与所述作品相关联地存储所述位置数据；

所述指定位置对应于所述作品的所述第二版本内的特定位置；以及

使得包括使得关于所述注释数据的所述信息与所述第二版本中的所述特定位置相关联地被显示。

70.根据权利要求69所述的方法，其中：

所述第一版本是所述作品的音频版本，并且所述第二版本是所述作品的文本版本；

使得关于所述注释数据的信息被显示包括：

确定所述作品的所述文本版本中对应于所述特定位置的一部分何时被显示；以及

响应于确定所述作品的所述文本版本中对应于所述特定位置的一部分被显示，使得关于所述注释数据的信息被显示。

71.根据权利要求69所述的方法，其中：

所述第一版本是所述作品的文本版本，并且所述第二版本是所述作品的音频版本；

使得关于所述注释数据的信息被显示包括：

确定所述作品的所述音频版本中对应于所述特定位置的一部分何时被播放；以及

响应于确定所述作品的所述音频版本中对应于所述特定位置的一部分被播放，使得关于所述注释数据的信息被显示。

72.根据权利要求68-71中任意一项所述的方法，其中：

所述注释数据包括文本数据；以及

73.根据权利要求68-71中任意一项所述的方法，其中：

所述注释数据包括话音数据；以及

74.一种电子设备，包括一个或多个处理器以及存储有供所述一个或多个处理器执行的一个或多个程序的存储器，所述一个或多个程序包括用于执行权利要求68-73中任意一项所述的方法的指令。

75.一种计算机可读存储介质，存储有供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行权利要求68-73中任意一项所述的方法的指令。

76.一种电子设备，包括用于执行权利要求68-73中任意一项所述的方法的装置。

77.一种用于电子设备中的信息处理设备，包括用于执行权利要求68-73中任意一项所述的方法的装置。

78.一种电子设备，包括：

注释获取单元，被配置用于在作品的第一版本被处理时，获取基于来自用户的输入的注释数据；以及

耦合至所述注释获取单元和关联数据存储单元的处理单元，所述处理单元被配置用于：

使得将所述注释数据与所述作品相关联的关联数据被存储；以及

在所述作品的第二版本被处理时，使得关于所述注释数据的信息被显示，其中所述第二版本与所述第一版本不同。

79.一种方法，包括：

接收在作品的第一版本内建立第一书签的数据；

检查所述作品的所述第一版本中的多个第一位置与所述作品的第二版本中对应的多个第二位置之间的映射以用于：

确定所述多个第一位置中对应于所述第一书签的特定第一位置，以及

基于所述特定第一位置，确定所述多个第二位置中对应于所述特定第一位置的特定第二位置；

其中所述作品的所述第一版本与所述作品的所述第二版本不同；

使得将所述特定第二位置建立为所述作品的所述第二版本内的第二书签的数据被存储；

其中所述方法由一个或多个计算设备执行。

80.根据权利要求79所述的方法，其中：

接收包括服务器通过网络从第一设备接收输入；

检查由所述服务器执行；并且

使得包括所述服务器向第二设备发送所述特定第二位置。

81.根据权利要求80所述的方法，其中所述第一设备和所述第二设备是不同的设备。

82.根据权利要求78-81中任意一项所述的方法，其中所述作品的所述第一版本是所述作品的音频版本或所述作品的文本版本中的一个，并且所述作品的所述第二版本是所述音频版本或所述文本版本中的另一个。

83.一种电子设备，包括一个或多个处理器以及存储有供所述一个或多个处理器执行的一个或多个程序的存储器，所述一个或多个程序包括用于执行权利要求79-82中任意一项所述的方法的指令。

84.一种计算机可读存储介质，存储有供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行权利要求79-82中任意一项所述的方法的指令。

85.一种电子设备，包括用于执行权利要求79-82中任意一项所述的方法的装置。

86.一种用于电子设备中的信息处理设备，包括用于执行权利要求79-82中任意一项所述的方法的装置。

87.一种电子设备，包括：

数据接收单元，被配置用于接收在作品的第一版本内建立第一书签的数据；以及

耦合至所述数据接收单元的处理单元，所述处理单元被配置用于：

其中所述作品的所述第一版本与所述作品的所述第二版本不同；以及

使得将所述特定第二位置建立为所述作品的所述第二版本内的第二书签的数据被存储。

88.一种方法，包括：

使得作品的文本的一部分被设备显示；

在所述文本的一部分被显示时：

在所述设备处接收来自用户的音频输入；

响应于接收到所述音频输入：

分析所述音频输入以标识一个或多个词语；

确定所述一个或多个词语是否被反映在所述文本的一部分中；以及

响应于确定所述一个或多个词语被反映在所述文本的所述一部分中，使得可视指示被所述设备显示。

89.根据权利要求88所述的方法，其中使得所述可视指示被显示包括使得对应于所述一个或多个词语的文本数据被突出显示。

90.一种电子设备，包括一个或多个处理器以及存储有供所述一个或多个处理器执行的一个或多个程序的存储器，所述一个或多个程序包括用于执行权利要求88-89中任意一项所述的方法的指令。

91.一种计算机可读存储介质，存储有供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行权利要求88-89中任意一项所述的方法的指令。

92.一种电子设备，包括用于执行权利要求88-89中任意一项所述的方法的装置。

93.一种用于电子设备中的信息处理设备，包括用于执行权利要求88-89中任意一项所述的方法的装置。

94.一种电子设备，包括：

处理单元，被配置用于使得作品的文本的一部分被设备显示；

音频接收单元，耦合至所述处理单元，并且被配置用于在所述设备处接收来自用户的音频输入；以及

所述处理单元进一步被配置用于响应于在所述音频接收单元处接收到所述音频输入：

分析所述音频输入以标识一个或多个词语；

确定所述一个或多个词语是否被反映在所述文本的一部分中；