CN102937959A

CN102937959A - 自动创建文本数据与音频数据之间的映射

Info

Publication number: CN102937959A
Application number: CN2012103062689A
Authority: CN
Inventors: 曹翔; A·C·坎尼斯特拉罗; G·S·罗宾; C·M·道格赫蒂
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2011-06-03
Filing date: 2012-06-04
Publication date: 2013-02-20
Also published as: JP2014132345A; JP2013008357A; TW201312548A; JP5463385B2; TWI488174B

Abstract

提供了用于创建将诸如音频书的音频数据中的位置映射到诸如电子书的文本数据中的对应位置的映射的技术。提供了用于采用音频数据与文本数据之间的映射而无论该映射是自动创建还是手动创建的技术。映射可用于书签切换，其中使用在数字作品的诸如电子书的一个版本中建立的书签来标识该数字作品的诸如音频书的另一版本的对应位置。可选地，该映射可用于播放对应于用户选择的文本的音频。可选地，该映射可用于响应于与在播放的文本相对应的音频而自动地突出显示文本。可选地，该映射可用于确定在诸如音频的一个媒体环境中所创建的注释将在诸如文本的另一媒体环境中何处被使用。

Description

自动创建文本数据与音频数据之间的映射

技术领域

本发明涉及通过分析音频数据以检查其中所反映的词并将那些词与文档中的词进行比较来自动创建文本数据和音频数据之间的映射。

背景技术

随着手持式电子设备成本的降低与对数字内容的大量需求，曾经发表在印刷媒体上创造性作品日益用于数字媒体。例如，随着称为电子书阅读器(或者“电子阅读器”)的专用手持式电子设备一起，数字图书(也称“电子书”)也日益流行。另外，诸如平板计算机和智能手机的其它手持式设备尽管不是单独作为电子阅读器设计的，但是也具有作为电子阅读器操作的功能。

格式化电子书的一种公共标准是EPUB标准(“电子出版物”的简称)，其为国际数字出版论坛(IDPF)的免费开放的电子书标准。EPUB文件使用XHTML1.1(或者DTBook)来构建书的内容。样式和布局使用被称为OPS样式表的CSS子集来实现。

对于一些书面作品，特别是那些流行的作品，创建该书面作品的音频版本。例如，阅读书面作品的名人(或嗓音悦耳的人)的录音被创建并可在线或在实体店购买。

购买电子书和电子书的音频版本(或“音频书”)两者对使用者来说是不常见的。在一些情况下，用户阅读完整的一本电子书且然后期望聆听音频书。在其它一些情况下，基于用户的环境，用户在看书和听书之间转换。例如，在参加运动或者在上下班开车时，用户将倾向于聆听书的音频版本。另一方面，睡前懒洋洋地躺在沙发椅上时，用户将倾向于阅读书的电子书版本。不幸的是，这样的转换可能是令人不快的，因为用户必须记住她在电子书中停在哪里并且在音频书中手动定位从哪里开始，反之亦然。即使用户清楚记得书本中用户退出处发生了什么，这样的转换仍然是令人不快的，因为知道发生了什么未必容易找到电子书或音频书中对应于那些发生事件的部分。因此，在电子书和音频书之间转换是非常耗时的。

规范“EPUB媒体覆盖(Media Overlays)3.0”定义了SML(同步多媒体集成语言)、包文档、EPUB样式表以及用于表示同步文本与音频出版物的EPUB内容文档的使用。出版物的预先录制的讲述可以表示为一系列音频剪辑，每个剪辑对应于文本的一部分。构成预先录制的讲述的一系列音频剪辑中的每单个音频剪辑通常代表单个短语或段落，但是无法推知相对于其它剪辑或文档的文本的顺序。媒体覆盖通过使用SMIL置标(markup)在EPUB内容文档中将构建的音频讲述联系到其对应的文本来解决同步问题。媒体覆盖是SMIL3.0的简化子集，其允许定义这些剪辑的回放顺序。

不幸的是，创建媒体覆盖文件很大程度上是手动处理。因此，作品的音频和文本版本之间的映射的粒度是非常粗的。例如，媒体覆盖文件可以将电子书中每段的开始关联至书的音频版本中的对应位置。媒体覆盖文件特别是对于小说不包含任何精细粒度级别的(例如，逐词的)映射的原因在于，创建如此高粒度的媒体覆盖文件可能在人力劳动上花费无法计数的时间。

本部分描述的方法是可以实施的方法，但不一定是在之前已经设想或者实施的方法。因此，除非另行指出，否则不应仅仅由于包括在本部分中就假定本部分中描述的任一种方法为现有技术。

发明内容

根据一些实施例，提供了一种方法，其包括：接收反映存在文本版本的作品的音频版本的音频数据；对所述音频数据执行语音至文本分析以生成用于部分所述音频数据的文本；并且基于所生成的用于部分所述音频数据的文本，生成所述音频数据中的多个音频位置与作品的文本版本中对应的多个文本位置之间的映射。该方法由一个或多个计算设备执行。

在一些实施例中，生成用于部分所述音频数据的文本包括：至少部分地基于作品的文本上下文生成用于部分所述音频数据的文本。在一些实施例中，至少部分地基于作品的文本上下文生成用于部分所述音频数据的文本包括：至少部分地基于作品的文本版本中所用的一个或多个语法规则生成文本。在一些实施例中，至少部分地基于作品的文本上下文生成用于部分所述音频数据的文本包括，基于哪些词处于作品的文本版本或其子集中而限制所述部分可被转换到哪些词。在一些实施例中，基于哪些词处于作品的文本版本中而限制所述部分可被转换到哪些词包括，对于所述音频数据的给定部分，标识作品的文本版本中对应于所述给定部分的子节，并且将所述词限于作品的文本版的所述子节中的那些词。在一些实施例中，标识作品的文本版本的子节包括：保持作品的文本版本中的当前文本位置，该当前文本位置对应于音频数据中语音至文本分析的当前音频位置；并且作品的文本版本的子节是与当前文本位置相关联的节。

在一些实施例中，所述部分包括对应于单独词的部分，并且所述映射将对应于单独词的部分的位置映射至作品的文本版本中的单独词。在一些实施例中，所述部分包括对应于单独句子的部分，并且所述映射将对应于单独句子的部分的位置映射至作品的文本版本中的单独句子。在一些实施例中，所述部分包括对应于固定数据量的部分，并且所述映射将对应于固定数据量的部分的位置映射至作品的文本版本中的对应位置。

在一些实施例中，生成映射包括：(1)在音频数据中嵌入锚点；(2)在作品的文本版本中嵌入锚点；或者(3)在媒体覆盖中存储所述映射，该映射与音频数据或者作品的文本版本相关联地存储。

在一些实施例中，多个文本位置中的一个或者多个文本位置中的每一个指示作品的文本版本中的相对位置。在一些实施例中，多个文本位置中的一个文本位置指示作品的文本版本中的相对位置，而多个文本位置中的另一文本位置指示对于所述相对位置的绝对位置。在一些实施例中，多个文本位置中的一个或者多个文本位置中的每一个指示作品的文本版本中的锚点。

根据一些实施例，提供了一种方法，其包括：接收作品的文本版本；对所述文本版本执行文本到语音分析以生成第一音频数据；基于所述第一音频数据和文本版本，生成所述第一音频数据中的第一多个音频位置与作品的文本版本中的对应多个文本位置间的第一映射；接收反映了存在文本版本的作品的音频版本的第二音频数据；并且基于(1)第一音频数据和第二音频数据的比较以及(2)第一映射，生成第二音频数据中的第二多个音频位置和作品的文本版本中多个文本位置间的第二映射。该方法由一个或者多个计算设备执行。

根据一些实施例，提供了一种方法，其包括：接收音频输入；对音频输入执行语音到文本分析，以生成用于音频输入的部分的文本；确定所生成的用于音频输入的部分的文本是否与当前显示的文本匹配；以及响应于确定所生成的文本与当前显示的文本匹配，使得当前显示的文本被突出显示。该方法由一个或者多个计算设备执行。

根据一些实施例，提供一种电子设备，其包括音频数据接收单元，该音频数据接收单元配置用于接收反映存在文本版本的作品的音频版本的音频数据。该电子设备还包括耦接至该音频数据接收单元的处理单元。该处理单元被配置以：对音频数据执行语音到文本分析，以生成用于音频数据的部分的文本；并且基于所生成的用于音频数据的部分的文本，生成音频数据中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射。

根据一些实施例，提供一种电子设备，其包括配置以接收作品的文本版本的文本接收单元。该电子设备还包括耦接至该文本接收单元的处理单元。该处理单元配置以：对该文本版本执行文本到语音分析，以生成第一音频数据；并基于该第一音频数据和文本版本，生成第一音频数据中的第一多个音频位置与作品的文本版本中的对应多个文本位置之间的第一映射。该电子设备还包括音频数据接收单元，该音频数据接收单元配置以接收反映存在文本版本的作品的音频版本的第二音频数据。该处理单元进一步配置以，基于(1)第一音频数据与第二音频数据的比较以及(2)第一映射，生成第二音频数据中的第二多个音频位置与作品的文本版本中的多个文本位置之间的第二映射。

根据一些实施例，提供一种电子设备，其包括配置以接收音频输入的音频接收单元。该电子设备还包括耦接至该音频接收单元的处理单元。该处理单元配置以对该音频输入执行语音到文本分析，以生成用于音频输入的部分的文本；确定所生成的用于音频输入的部分的文本是否与当前显示的文本匹配；并且响应于确定所生成的文本与当前显示的文本匹配，使得当前显示的文本被突出显示。

根据一些实施例，提供了一种方法，其包括获取指示作品的文本版本中的指定位置的位置数据；检查作品的音频版本中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射，从而：确定多个文本位置中对应于指定位置的特定文本位置，并基于该特定文本位置，确定多个音频位置中对应于该特定文本位置的特定音频位置。该方法包括将基于该特定文本位置而确定的特定音频位置提供至媒体播放器，以使得该媒体播放器确立该特定音频位置作为该音频数据的当前回放位置。该方法由一个或者多个计算设备执行。

在一些实施例中，获取包括服务器通过网络从第一设备接收位置数据；检查和提供由服务器执行；而提供包括服务器将特定音频位置发送至实现媒体播放器的第二设备。在一些实施例中，该第二设备和第一设备是同一设备。在一些实施例中，获取、检查和提供是由配置用以显示作品的文本版本并实现媒体播放器的计算设备来执行。在一些实施例中，该方法进一步包括在配置用以显示作品的文本版本的设备处确定位置数据而无需设备用户进行输入。

在一些实施例中，该方法进一步包括：接收用户输入；以及响应于接收到该输入，基于该输入确定位置数据。在一些实施例中，将特定音频位置提供至媒体播放器包括：将该特定音频位置提供至该媒体播放器，以使得该媒体播放器从当前回放位置开始处理音频数据，这使得媒体播放器从所处理的音频数据生成音频；并且使媒体播放器处理音频数据是响应于接收该输入而执行。

在一些实施例中，该输入在作品的文本版本中选择多个词；该指定位置是第一指定位置；该位置数据还指示作品的文本版本中的与第一指定位置不同的第二指定位置；检查进一步包括检查所述映射以：确定多个文本位置中对应于该第二指定位置的第二特定文本位置，并且基于该第二特定文本位置，确定多个音频位置中对应于第二特定文本位置的第二特定音频位置；以及将该特定音频位置提供至媒体播放器包括，将该第二特定音频位置提供至媒体播放器，以使得该媒体播放器在当前回放位置到达或者接近该第二特定音频位置时，停止处理该音频数据。

在一些实施例中，该方法进一步包括获取基于用户输入的注释数据；与指定位置相关联地存储注释数据；以及使得显示关于注释数据的信息。在一些实施例中，使得显示关于特定音频位置和注释数据的信息包括：确定何时音频数据的当前回放位置处于或者接近该特定音频位置；以及响应于确定音频数据的当前回放位置处于或者接近该特定音频位置，使得显示关于注释数据的信息。

在一些实施例中，该注释数据包括文本数据；并且使得显示关于注释数据的信息包括显示文本数据。在一些实施例中，该注释数据包括声音数据；并且使得显示关于注释数据的信息包括处理声音数据以生成音频。

根据一些实施例，提供了一种电子设备，其包括位置数据获取单元，该位置数据获取单元配置以获取指示作品的文本版本中的指定位置的位置数据。该电子设备还包括耦接至位置数据获取单元的处理单元。该处理单元配置以检查作品的音频版本中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射以：确定多个文本位置中对应于指定位置的特定文本位置，并基于该特定文本位置，确定多个音频位置中对应于该特定文本位置的特定音频位置；以及将基于该特定文本位置而确定的该特定音频位置提供至媒体播放器，以使得该媒体播放器确立该特定音频位置作为音频数据的当前回放位置。

根据一些实施例，提供了一种方法，其包括获取指示音频数据内指定位置的位置数据；检查音频数据中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射，以：确定多个音频位置中对应于指定位置的特定音频位置，并基于该特定音频位置，确定多个文本位置中对应于该特定音频位置的特定文本位置；以及使得媒体播放器显示关于该特定文本位置的信息。该方法由一个或者多个计算设备执行。

在一些实施例中，获取包括服务器通过网络接收来自第一设备的位置数据；检查和使得显示由服务器来执行；并且使得显示包括服务器将该特定文本位置发送至实现该媒体播放器的第二设备。在一些实施例中，该第二设备和第一设备是同一设备。在一些实施例中，获取、检查与使得显示由配置用以显示作品的文本版本并实现媒体播放器的计算设备执行。在一些实施例中，该方法进一步包括在配置以处理音频数据的设备处确定位置数据而无需设备用户进行输入。

在一些实施例中，该方法进一步包括：接收用户输入；并响应于接收到输入，基于该输入确定位置数据。在一些实施例中，使得显示包括使媒体播放器显示作品的文本版本的对应于该特定文本位置的部分；并且使媒体播放器显示作品的文本版本的部分是响应于接收到输入而执行的。

在一些实施例中，该输入选择该音频数据的片段；该指定位置是第一指定位置；该位置数据还指示音频数据内不同于该第一指定位置的第二指定位置；检查进一步包括检查该映射以：确定多个音频位置中对应于该第二指定位置的第二特定音频位置，并基于该第二特定音频位置，确定多个文本位置中对应于该第二特定音频位置的第二特定文本位置；并使得媒体播放器显示关于该特定文本位置的信息进一步包括使该媒体播放器显示关于该第二特定文本位置的信息。

在一些实施例中，该指定位置对应于音频数据中的当前回放位置；使得显示在位于指定位置的音频数据被处理并生成音频时执行；并且使得显示包括使第二媒体播放器突出显示作品的文本版本中处于或接近该特定文本位置的文本。

在一些实施例中，该方法进一步包括：获取基于用户输入的注释数据；将注释数据与指定位置相关联地存储；并且使得显示关于注释数据的信息。在一些实施例中，使得显示关于注释数据的信息包括：确定何时显示作品的文本版本中对应于特定文本位置的部分；并且响应于确定显示作品的文本版本中对应于特定文本位置的部分，使得显示关于注释数据的信息。

在一些实施例中，该注释数据包括文本数据；并且使得显示关于注释数据的信息包括使得显示该文本数据。在一些实施例中，该注释数据包括语音数据；并且使得显示关于注释数据的信息包括使得处理语音数据以生成音频。

根据一些实施例中，提供了一种方法，其包括，在作品的音频版本回放期间：获取指示该音频版本内的指定位置的位置数据，并且基于该指定位置确定作品的文本版本中的特定文本位置，该特定文本位置与指示何时暂停回放音频版本的暂停数据相关联；以及响应于确定该特定文本位置与暂停数据相关联，暂停对音频版本的回放。该方法由一个或者多个计算设备执行。

在一些实施例中，该暂停数据位于作品的文本版本中。在一些实施例中，确定该特定文本位置包括：检查音频数据中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射，以：确定多个音频位置中对应于该指定位置的特定音频位置，并且基于该特定音频位置，确定多个文本位置中对应于该特定音频位置的特定文本位置。

在一些实施例中，该暂停数据对应于作品的文本版本中反映的页面的结尾。在一些实施例中，该暂停数据对应于作品的文本版本中的紧接在不包括文本的图片之前的位置。

在一些实施例中，该方法进一步包括响应于接收用户输入而继续回放音频版本。在一些实施例中，该方法进一步包括响应于自暂停回放音频版本起经过特定时间量而继续回放音频版本。

根据一些实施例，提供了一种方法，其包括，在作品的音频版本回放期间：获取指示该音频版本中的指定位置的位置数据，并基于该指定位置，确定作品的文本版本中的特定文本位置，该特定文本位置与指示作品的文本版本中反映的第一页面的结尾的页尾数据相关联；以及响应于确定该特定文本位置与页尾数据相关联，自动使得停止显示第一页面并且使得显示在第一页面之后的第二页面。该方法由一个或者多个计算设备执行。

在一些实施例中，该方法进一步包括检查音频数据中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射，以：确定多个音频位置中对应于该指定位置的特定音频位置，并基于该特定音频位置，确定多个文本位置中对应于该特定音频位置的特定文本位置。

根据一些实施例，提供了一种电子设备，其包括位置获取单元，该位置获取单元配置用以获取指示音频数据内的指定位置的位置数据。该电子设备还包括耦接至位置获取单元的处理单元。该处理单元被配置用以：检查音频数据中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射，以：确定多个音频位置中对应于该指定位置的特定音频位置，并且基于该特定音频位置，确定多个文本位置中对应于该特定音频位置的特定文本位置；并且使得媒体播放器显示关于该特定文本位置的信息。

根据一些实施例，提供了一种电子设备，其包括位置获取单元，该位置获取单元配置用以在作品的音频版本回放期间获取指示音频版本内的指定位置的位置数据。该电子设备还包括耦接至位置获取单元的处理单元，该处理单元被配置用以在作品的音频版本回放期间：基于该指定位置确定作品的文本版本中的特定文本位置，该特定文本位置与指示作品的文本版本中反映的第一页面的结尾的页尾数据相关联；以及响应于确定特定文本位置与页尾数据相关联，自动使得停止显示第一页面并使得显示在第一页面之后的第二页面。

根据一些实施例，提供了一种计算机可读存储介质，该计算机可读存储介质存储由电子设备的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于执行任一上述方法的指令。根据一些实施例，提供了一种电子设备，其包括用于执行任一上述方法的装置。在一些实施例中，提供了一种电子设备，其包括一个或多个处理器以及用于存储由一个或多个处理器执行的一个或多个程序的存储器，该一个或多个程序包括用于执行任一上述方法的指令。在一些实施例中，提供在电子设备中使用的信息处理设备，该信息处理设备包括用于执行任一上述方法的装置。

附图说明

在附图中：

图1是示出根据本发明实施例的用于自动创建文本数据与音频数据之间的映射的处理的流程图；

图2是示出根据本发明实施例的在生成文本数据与音频数据之间的映射中涉及音频到文本相关器的处理的框图；

图3是示出根据本发明实施例的用于在一个或多个这些情景中使用映射的处理的流程图；

图4是根据本发明实施例的用于实现本文描述的某些处理的示例性系统400的框图；

图5A-B是示出根据本发明实施例的用于书签切换的处理的流程图；

图6是示出根据本发明实施例的用于在播放作品的音频版本时使作品的文本版本中的文本被突出显示的处理的流程图；

图7是示出根据本发明实施例的用于响应于用户的音频输入而突出显示文本的处理的流程图；

图8A-B是示出根据本发明实施例的用于将注释从一个媒体上下文转移至另一个媒体上下文的处理的流程图；以及

图9是例示可以实现本发明的实施例的计算机系统的框图；

图10-15是根据一些实施例的电子设备的功能性框图。

具体实施方式

在下面描述中，出于解释的目的，给出了众多具体细节以提供对本发明的透彻理解。然而，显然本发明可以不用这些具体细节而实现。在其它示例中，公知的结构和设备以框图形式显示，以避免不必要地使本发明含混不清。

对自动生成音频到文本映射的概述

根据一种方法，自动创建如下映射，该映射将作品的音频版本(例如，音频书)内的位置与该作品的文本版本(例如，电子书)中的对应位置相映射。通过对音频版本执行语音到文本分析以标识音频版本中反映的词，从而创建映射。被标识的词与作品的文本版本中对应的词相匹配。该映射将被标识词(在音频版本内)的位置与作品的文本版本中查找到被标识词的位置相关联。

音频版本格式

音频数据反映诸如书、网页、小册子、传单等的作品的文本版本的文本的可听阅读。音频数据可以存储在一个或多个音频文件中。一个或多个音频文件可以采用多个文件格式之一。音频文件格式的非限制性示例包括ACC、MP3、WAV和PCM。

文本版本格式

类似地，音频数据被映射至的文本数据可以采用多个文档文件格式之一存储。文档文件格式的非限制性示例包括DOC、TXT、PDF、RTF、HTML、XHTML和EPUB。

典型的EPUB文档伴以如下文件，该文件(a)列举每个XHTML内容文档，并且(b)指示XHTML内容文档的顺序。例如，如果一本书包括20章，则那本书的EPUB文档有20个不同的XHTML文档，每章一个文档。伴随该EPUB文档的文件标识这些XHTML文档的顺序，其对应于该书中的章的顺序。因此，单个(逻辑)文档(EPUB文档或另一类型的文档)可以包括多个数据项或文件。

文本数据中反映的词或字符可以采用一种或者多种语言。例如，文本数据的一部分可以是英语而该文本数据的另一部分可以是法语。虽然本文提供英语单词的示例，但本发明的实施例可以应用于其它语言，包括基于字符的语言。

映射中的音频和文本位置

如本文所述，映射包括一组映射记录，其中每个映射记录将一音频位置与一文本位置相关联。

每个音频位置标识音频数据中的一个位置。音频位置可以表示音频数据内的绝对位置、音频数据内的相对位置、或者绝对位置和相对位置的组合。作为绝对位置的示例，音频位置可以表示到音频数据的时间偏移量(例如，04:32:24表示4小时32分钟24秒)，或者如上例A中所表示的时间范围。作为相对位置的示例，音频位置可以表示章号、段号和行号。作为绝对位置和相对位置组合的示例，音频位置可以表示章号和到该章号所表示的章的时间偏移量。

类似地，每个文本位置标识诸如作品的文本版本的文本数据中的一个位置。文本位置可以表示作品的文本版本内的绝对位置、作品的文本版本内的相对位置、或者绝对位置和相对位置的组合。作为绝对位置的示例，文本位置可以表示到作品的文本版本的字节偏移量和/或作品的文本版本内的“锚点”。锚点是文本数据中的元数据，其标识文本的特定位置或部分。锚点可以与被显示给终端用户的文本数据中的文本分开存储，或者可以被存储在显示给终端用户的文本之中。例如，文本数据可以包括以下句子：“Why did the chicken<iname＝“123”/>cross the road？”，其中是锚点。当句子向用户显示时，该用户仅看见“Why did the chicken cross the road？”。类似的，同一句子可以有多个锚点，如下：“Whydid<iname＝“125”/>thechickencross<iname＝“128”/>theroad？”。在这个示例中，句子里每个词之前都有一锚点。

作为相对位置的示例，文本位置可以表示页号、章号、段号和/或行号。作为绝对位置和相对位置组合的示例，文本位置可以表示章号和到该章号所表示的章的锚点。

在题为“EPUB媒体覆盖3.0”的规范中提供了如何表示文本位置和音频位置的示例，该规范定义了SMIL(同步多媒体集成语言)、EPUB样式表和EPUB内容文档的使用。在规范中提供的将文本位置与音频位置相关联的一个关联示例如下：

例A

在例A中，元素“par”包含两个子元素：“text(文本)”元素和“audio(音频)”元素。该text元素包括属性“src”，其标识包含一本书的第一章的内容的XHTML中的一个特定句子。该audio元素包括：“src”属性，其标识包含该书的第一章的音频版本的音频文件；“clipBegin”属性，其标识音频文件中的音频剪辑从何处开始；以及“clipEnd”属性，其标识音频文件中的音频剪辑在何处结束。因此，音频文件中第23秒至第45秒对应于该书第一章中的第一句。

创建文本与音频之间的映射

根据一实施例，作品的文本版本与该作品的音频版本之间的映射被自动生成。因为该映射是自动生成的，所以该映射可以使用比实际使用手动文本到音频的映射技术细得多的粒度。每个自动生成的文本到音频的映射包括多个映射记录，每个记录将文本版本中的一个文本位置与音频版本中的一个音频位置相关联。

图1是示出根据本发明实施例的用于自动创建作品的文本版本与该作品的音频版本之间的映射的处理100的流程图。在步骤110，语音到文本分析器接收反映该作品的音频版本的音频数据。在步骤120，在语音到文本分析器对音频数据执行分析时，该语音到文本分析器生成用于音频数据的部分的文本。在步骤130，基于所生成的用于音频数据的部分的文本，该语音到文本分析器生成音频数据中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射。

步骤130可以包括该语音到文本分析器将所生成的文本与作品的文本版本中的文本进行比较，以确定所生成的文本位于作品的文本版本中的什么位置。对于在作品的文本版本中找到的所生成文本的每个部分，该语音到文本分析器将(1)指示音频数据的对应部分在音频数据中何处被找到的音频位置与(2)指示文本的部分在作品的文本版本中何处被找到的文本位置相关联。

文本上下文

每个文档都有“文本上下文”。作品的文本版本的文本上下文包括作品的文本版本的内在特性(例如，作品的文本版本书写的语言，作品的文本版本使用的特定词，作品的文本版本使用的语法和标点，构建作品的文本版本的方式，等等)和作品的外在特性(例如，作品创造的时期，作品所属风格，作品的作者，等等)。

不同的作品可以有显著不同的文本上下文。例如，在古典英语小说中使用的语法可能与现代诗歌的语法有很大不同。因此，当某一词序遵守一个语法规则时，该相同的词序可能违反另一语法的规则。相似地，在古典英语小说和现代诗歌中都使用的语法可能与青少年间发送的文本信息中使用的语法(或者缺少语法)不同。

如上所述，本文所描述的一种技术通过对作品的音频版本执行语音到文本转换，来自动创建作品的音频版本与该作品的文本版本之间的细粒度映射。在一实施例中，作品的文本上下文用于提高对作品的音频版本执行的语音到文本分析的准确度。例如，为确定作品中使用的语法，语音到文本分析器(或另一处理)可以在执行语音到文本分析之前分析作品的文本版本。然后语音到文本分析器可以利用由此获得的语法信息，以提高对作品的音频版本的语音到文本分析的准确度。

代替或除基于作品的文本版本自动地确定作品的语法之外，用户还可以提供标识作品作者遵循的一个或多个语法规则的输入。与所标识的语法相关联的规则被输入至语音到文本分析器，以帮助分析器识别作品的语音版本中的词。

基于文本版本限制候选字典

通常，语音到文本分析器必须被配置或者设计成识别英语中几乎每个词，以及可选择地识别其它语言的一些词。因此，语音到文本分析器必须接入大的字典。在语音到文本操作期间语音到文本分析器从其选择词的字典在本文中被称作语音到文本分析器的“候选字典”。典型的候选字典中单词数量大约为500,000。

在一实施例中，在对作品的音频版本执行语音到文本分析时考虑来自作品的文本版本的文本。特别地，在一实施例中，在对作品的音频版本进行语音到文本分析期间，语音到文本分析器使用的候选字典被限制到作品的文本版本中的特定词集。换言之，仅在对作品的音频版本执行语音到文本操作期间被考虑为“候选”的词是实际上出现在作品的文本版本中的那些词。

通过将在对特定作品的语音到文本转换中使用的候选字典限制到在作品的文本版本中出现的那些词，该语音到文本操作可被显著地改进。例如，假设在特定作品中单词数量为20,000。传统的语音到文本分析器可能很难确定音频的特定部分对应于500,000个词候选字典中的哪个特定词。然而，在仅考虑作品的文本版本中的20,000个单词时，相同的音频部分可以明确地对应于一个特定词。因此，利用这样一个数量小得多的可能词的字典，语音到文本分析器的准确度可以被显著地提高。

基于当前位置限制候选字典

为了提高准确度，候选字典可以被限制到甚至比作品的文本版本中所有词更少的词。在一实施例中，该候选字典被限制到在作品的文本版本的特定部分中找到的那些词。例如，在对作品的语音到文本转换期间，可以相对于作品的文本版本近似地追踪转换操作的“当前转换位置”。这样的追踪可以例如通过将(a)目前为止语音到文本操作期间所生成的文本与(b)作品的文本版本进行比较来执行。

一旦确定了当前转换位置，该候选字典就可以进一步基于当前转换位置而被限制。例如，在一实施例中，该候选字典被限制到仅作品的文本版本中出现在当前转换位置之后的那些词。因此，在当前转换位置之前而不是在其之后找到的那些词有效地从候选字典中被移除。这样的移除可以提高了语音到文本分析器的准确度，因为候选字典越小，语音到文本分析器将音频数据部分转换为错误的词的可能性就会越小。

作为另一示例，在语音到文本分析之前，音频书和数字书可以被分为多个片段或节。音频书可以与音频部分映射相关联而数字书可以与文本部分映射相关联。例如，音频部分映射和文本部分映射可以标识每章在哪里开始或结束。这些各自的映射可以由语音到文本分析器使用以限制候选字典。例如，如果语音到文本分析器基于语音部分映射确定语音到文本分析器正在分析音频书的第4章，则语音到文本分析器使用文本部分映射以标识数字书的第4章且将候选字典限制到在第4章中找到的词。

在相关的实施例中，语音到文本分析器使用随当前转换位置移动而移动的滑动窗口。在语音到文本分析器正在分析音频数据时，语音到文本分析器“跨”作品的文本版本移动滑动窗口。滑动窗口指示作品的文本版本内的两个位置。例如，滑动窗口的边界可以是(a)在当前转换位置之前的段落的开始以及(b)在当前转换位置之后第三段的结尾。候选字典被限制到仅仅那些出现在这两个位置之间的词。

尽管上面给出了特定示例，但该窗口可以跨越作品的文本版本内的任意量文本。例如，窗口可以跨越绝对量文本，比如60个字符。作为另一示例，窗口可以跨越作品的文本版本的相对量文本，比如十个词、三“行”文本、2句或者“页”文本。在相对量的情况下，该语音到文本分析器可以使用作品的文本版本内的格式数据来确定作品的文本版本中多少构成一行或者一页。例如，作品的文本版本可以包括页指示符(例如，采用HTML或XML标签的形式)，该页指示符指示在作品的文本版本内一页的开始或者一页的结束。

在一实施例中，窗口的开始对应于当前转换位置。例如，语音到文本分析器保持指示作品的文本版本中最近匹配的词的当前文本位置，并且保持指示音频数据中最近被标识的词的当前音频位置。除非叙述者(其声音被反映在音频数据中)误读了作品的文本版本的文本、增加了他/她自己的内容、或者在录音期间跳过了作品的文本版本的部分，否则语音到文本分析器在音频数据中检测到的下一个词(例如，在当前音频位置之后)最有可能成为作品的文本版本中的下一个词(例如，在当前文本位置之后)。保持两个位置可以显著地提高语音到文本转换的准确度。

利用音频到音频相关创建映射

在一实施例中，采用文本到语音生成器和音频到文本相关器来自动创建作品的音频版本与作品的文本版本之间的映射。图2是示出用于生成该映射的这些分析器与数据的框图。作品的文本版本210(例如，EPUB文档)被输入至文本到语音生成器220。文本到语音生成器220可以以软件、硬件或软件和硬件的组合来实现。无论以软件还是硬件实现，文本到语音生成器220都可以被实现在单个计算设备上或可以分布在多个计算设备之间。

文本到语音生成器220基于文档210生成音频数据230。在音频数据230生成期间，文本到语音生成器220(或并未示出的另一组件)创建音频到文档映射240。音频到文档映射240将文档210内的多个文本位置映射到所生成的音频数据230内对应的音频位置。

例如，假设文本到语音生成器220生成用于文档210中位于位置Y的词的音频数据。进一步假设被生成用于该作品的音频数据位于音频数据230内位置X处。为了反映文档210内词的位置与音频数据230中对应音频的位置之间的相关性，将创建位置X和位置Y之间的映射。

由于在生成对应的音频的词或短语时，文本到语音生成器220知道一个词或短语出现在文档210中何处，所以可以容易地生成对应的词或短语之间的每个映射。

音频到文本相关器260接收所生成的音频数据230、音频书250与音频到文档映射240，作为输入。音频到文本相关器260执行两个主要步骤：音频到音频相关步骤和查找步骤。对于音频到音频相关步骤，音频到文本相关器260比较所生成的音频数据230与音频书250以确定音频数据230的部分与音频书250的部分之间的相关性。例如，音频到文本相关器260可以对于音频数据230中表示的每个词，确定在音频书250中对应词的位置。

出于建立相关性的目的，音频数据230被划分的粒度可以因实现不同而改变。例如，可建立音频数据230中的每个词与音频书250中的每个对应词之间的相关性。可选地，可以基于固定持续时间间隔(例如，每一分钟音频一个映射)建立相关性。在另一可选方案中，可以基于其它准则(例如，在段落或章边界、显著的暂停(例如，超过3秒无声)或者基于音频书250中数据的其它位置(例如，音频书250内的音频标记)针对所建立的音频部分建立相关性。

在标识了音频数据230的部分与音频书250的部分之间的相关性之后，音频到文本相关器260使用音频到文档映射240来标识对应于所生成的音频数据230内的音频位置的文本位置(被指示在映射240中)。音频到文本相关器260将该文本位置与音频书250内的音频位置相关联以创建文档到音频映射270中的映射记录。

例如，假设音频书250的一部分(位于位置Z)与所生成的音频数据230位于位置X的部分相匹配。基于将位置X与文档210内的位置Y相关联的映射记录(在音频到文档映射240中)，将在文档到音频映射270中创建将音频书250的位置Z与文档210内的位置Y相关联的映射记录。

音频到文本相关器260对于音频数据230的每个部分重复地执行该音频到音频相关与查找步骤。因此，文档到音频映射270包括多个映射记录，每个映射记录将文档210内的一个位置映射到音频书250内的一个位置。

在一实施例中，在对音频数据230的每个部分的音频到音频相关之后紧接着进行对该音频部分的查找步骤。因此，在进行到音频数据230的下一部分之前创建用于音频数据230的每个部分的文档到音频映射270。可选地，可以在执行任何查找步骤之前执行针对音频数据230的很多部分或者所有部分的音频到音频相关步骤。在已经建立了所有音频到音频相关之后，可以一批执行针对所有部分的查找步骤。

映射粒度

映射有多个属性，其中一个是映射的尺寸，其是指映射中映射记录的数量。映射的另一属性是映射的“粒度”。映射的“粒度”是指相对于数字作品的大小而言映射中映射记录的数量。因此，映射粒度可以随数字作品的不同而改变。例如，对于有200“页”的数字书的第一映射包括仅针对数字书中每个段的映射记录。因此，该第一映射可以包括1000个映射记录。另一方面，对于有20页的数字化儿童读物的第二映射包括针对儿童读物中每个词的映射记录。因此，第二映射可以包括800个映射记录。即使第一映射比第二映射包括更多的映射记录，但是第二映射的粒度还是比第一映射的粒度要精细。

在一实施例中，可以基于到生成映射的语音到文本分析器的输入来指示映射的粒度。例如，在使语音到文本分析器生成映射之前，用户可以指定特定粒度。特定粒度的非限制性示例包括：

-词粒度(例如，每个词的关联)，

-句粒度(例如，每个句的关联)，

-段粒度(例如，每个段的关联)，

-10词的粒度(例如，对于数字作品中每10个词部分的映射)，以及

-10秒的粒度(例如，对于音频的每10秒的映射)。

作为另一示例，用户可以指定数字作品的类型(例如，小说、儿童读物、短故事)，并且语音到文本分析器(或其它处理)基于作品的类型确定粒度。例如，儿童读物可以被关联至词粒度，而小说可以被关联至句粒度。

映射的粒度甚至可以在同一数字作品中也改变。例如，针对数字书的前三章的映射可以具有句粒度，而针对该数字书的其它章的映射具有词粒度。

文本到音频转换期间实时(on-the-fly)映射生成

尽管在很多情况下音频到文本映射将在用户需要依赖一个映射之前被生成，但是在一实施例中，在运行时或在用户已经开始使用使用用户设备上的音频数据和/或文本数据之后，生成音频到文本映射。例如，用户使用平板计算机阅读数字书的文本版本。平板计算机追踪其显示给用户的数字书的最近的页或节。最近的页或节被“文本书签”所标识。

稍后，用户选择播放同一作品的音频书版本。回放设备可以是用户在其上阅读数字书的同一平板计算机或另一设备。无论要播放音频书的设备如何，都检索文本书签，并且关于音频书的至少一部分执行语音到文本分析。在语音到文本分析期间，生成“临时”映射记录以建立所生成的文本与音频书内对应位置之间的相关性。

一旦已经生成了文本和相关性记录，就采用文本到文本比较来确定对应于文本书签的所生成文本。然后，临时映射记录被用于标识音频书的部分，该音频书的部分与所生成文本中对应于文本书签的部分相对应。然后从该位置启动对音频书的回放。

执行语音到文本分析的音频书部分可以被限制到对应于文本书签的部分。例如，音频部分映射可能已经存在，以指示音频书的某些部分在何处开始和/或结束。例如，音频部分映射可以指示每章在何处开始、一页或者多页在何处开始等。这样的音频部分映射可以帮助确定在何处开始该语音到文本分析，以使得不需要执行对整个音频书的语音到文本分析。例如，如果文本书签指示了数字书的第12章中的一个位置，并且关联至音频数据的音频部分映射标识在音频数据中第12章在哪里开始，那么语音到文本分析不需要在音频书的前11章的任一处被执行。例如，音频数据可以由20个音频文件组成，每章一个音频文件。因此，仅对应于第12章的音频文件被输入至语音到文本分析器。

音频到文本转换期间实时映射生成

与文本到音频转换相同，可以实时生成映射记录以便于音频到文本转换。例如，假设用户正在用智能手机聆听音频书。智能手机追踪被播放的音频书内的当前位置。当前位置被“音频书签”标识。然后，用户拿起平板计算机并选择显示该音频书的数字书版本。该平板计算机接收音频书签(例如，来自相对于平板计算机和智能手机而言远程的中央服务器)，对音频书的至少一部分执行语音到文本分析，并且标识音频书内的部分，该部分与音频书的文本版本内的对应于音频书签的部分文本相对应。平板计算机然后开始显示文本版本内所标识的部分。

执行语音到文本分析的音频书部分可以被限制到对应于音频书签的部分。例如，对音频书中在音频书中的音频书签之前跨越一个或多个时间段(例如秒)和/或在音频书中的音频标签之后跨越一个或多个时间段的部分执行语音到文本分析。将对该部分由语音到文本分析生成的文本与文本版本中的文本进行比较，以定位所生成的一系列词或短语与文本版本中的文本相匹配的地方。

如果存在指示文本版本的某些部分在哪里开始或结束的文本部分映射，并且音频书签可以被用于标识文本部分映射中的节，则文本版本中的大部分不需要被分析以定位所生成的一系列词或短语与文本版本中的文本相匹配的地方。例如，如果音频书签指示音频书的第三章中的一个位置，并且关联到数字书的文本部分映射标识文本版本中第三章在何处开始，则不需要对音频书的前两章中的任一章或对音频书的第三章后的任一章执行语音到文本分析。

对使用语音到文本映射的概述

根据一种方法，映射(不论手动还是自动创建)用于标识数字作品的音频版本(例如，音频书)中的位置，该位置对应于数字作品的文本版本(例如，电子书)中的位置。例如，基于在音频书中建立的“书签”，映射可用于标识电子书中的位置。作为另一示例，映射可用于标识哪个所显示的文本对应于当播放音频录音时阅读该文本的人的音频记录，并且使得突出显示所标识的文本。因此，在播放音频书时，由于电子书阅读器突出显示对应文本，所以电子书阅读器的用户可以跟随下去。作为另一示例，映射可以用于响应于从电子书选择显示文本的输入而标识音频数据中的位置并且播放该位置处的音频。因此，用户可以选择电子书中的一个词，该选择使得显示对应于那个词的音频。作为另一示例，用户可以在“使用使用”(例如，读或听)数字书的一个版本(例如，电子书)时创建注释，并且在用户使用使用电子书的另一版本(例如，音频书)时使得使用该注释使用。因此，用户能够在电子书的“页面”上做笔记，并且在聆听该电子书的音频书时浏览这些笔记。类似地，用户可以在聆听音频书时做笔记，并且然后可以在阅读对应的电子书时浏览该笔记。

图3是示出根据本发明实施例的用于在一个或者多个这些情况下应用映射的处理的流程图。

在步骤310，获取指示第一媒体项中的指定位置的位置数据。该第一媒体项可以是作品的文本版本，或者对应于该作品的文本版本的音频数据。这个步骤可以由使用使用该第一媒体项的(由用户操作的)设备执行。可选地，该步骤可以由相对于使用使用该第一媒体项的设备远程定位的服务器执行。因此，该设备采用通信协议通过网络发送位置数据到服务器。

在步骤320，检查映射以确定对应于指定位置的第一媒体位置。类似地，该步骤可以由使用使用该第一媒体项的设备执行，或者由相对于该设备远程定位的服务器执行。

在步骤330，确定对应于第一媒体位置并且在映射中被指示的第二媒体位置。例如，如果指定位置是音频“书签”，则第一媒体位置是映射中指示的音频位置，并且第二媒体位置是映射中与该音频位置相关联的文本位置。类似地，例如，如果指定位置是文本“书签”，则第一媒体位置是映射中所指示的文本位置，并且第二媒体位置是映射中与该文本位置相关联的音频位置。

在步骤340中，基于第二媒体位置处理第二媒体项。例如，如果第二媒体项是音频数据，则第二媒体位置是音频位置并且用作音频数据中的当前回放位置。作为另一示例，如果第二媒体项是作品的文本版本，则第二媒体位置是文本位置并且用于确定要显示作品的文本版本中的哪个部分。

下面提供在具体情况下应用处理300的示例。

架构概述

上文提及并在以下详细描述的每个示例情况可涉及一个或多个计算设备。图4是根据本发明实施例可用于实现本文描述的一些处理的示例性系统400的框图。系统400包括终端用户设备410、中间设备420以及终端用户设备430。终端用户设备410和430的非限制性示例包括台式计算机、膝上型计算机、智能手机、平板计算机和其它手持式计算设备。

如图4中所示，设备410存储数字媒体项402并实现文本媒体播放器412与音频媒体播放器414。文本媒体播放器412被配置以处理电子文本数据，并使得设备410显示文本(例如，在设备410的触摸屏上，未示出)。因此，如果数字媒体项402是电子书，则文本媒体播放器412可以被配置以处理数字媒体项402，只要数字媒体项402采用文本媒体播放器412被配置处理的文本格式。设备410可以实现一个或多个其它被配置以处理其它类型的媒体(例如，视频)的媒体播放器(未示出)。

类似地，音频媒体播放器414被配置以处理音频数据，并使得设备410生成音频(例如，通过设备410上的扬声器，未示出)。因此，如果数字媒体项402是音频书，则音频媒体播放器414可以被配置以处理数字媒体项402，只要数字媒体项402采用音频媒体播放器414被配置用以处理的音频格式。无论项402是电子书还是音频书，项402均可以包括多个文件，无论是音频文件还是文本文件。

设备430类似地存储数字媒体项404，并且实现音频媒体播放器432，音频媒体播放器432被配置以处理音频数据并且使得设备430生成音频。设备430可以实现一个或多个其它被配置用以处理其它类型媒体(例如，视频和文本)的媒体播放器(未示出)。

中间设备420存储将音频数据内的音频位置映射到文本数据中的文本位置的映射406。例如，映射406可以将数字媒体项404内的音频位置映射到数字媒体项402内的文本位置。虽然在图4中没有示出，但是中间设备420可以存储多个映射，一个映射对应于音频数据和文本数据的每个对应集合。另外，中间设备420可以与很多未示出的终端用户设备交互。

另外，中间设备420可以存储用户可以通过其相应的设备访问的数字媒体项。因此，代替存储数字媒体项的本地副本，设备(例如，设备430)可以从中间设备420请求该数字媒体项。

此外，中间设备420可以存储将用户的一个或多个设备与单个账户相关联的账户数据。因此，这样的账户数据可以指示设备410和430被同一用户在同一账户下注册。中间设备420也可以存储账户项关联数据，其将账户与由特定用户所有(或购买)的一个或者多个数字媒体项相关联。因此，通过确定账户项关联数据是否指示设备430和特定数字媒体项与相同的账户相关联，中间设备420可以验证设备430可以访问该特定数字媒体项。

虽然仅仅示出了两个终端用户设备，但一个终端用户可以拥有和操作更多或者更少的使用使用数字媒体项(例如，电子书和音频书)的设备。类似地，虽然仅仅示出了单个中间设备420，但拥有并操作中间设备420的实体可以操作多个设备，其中每一个设备提供相同的服务或者可以一起操作以向终端用户设备410和430的用户提供服务。

中间设备420与终端用户设备410和430之间的通信可以通过网络440进行。网络440可以由提供各种计算设备间的数据交换的任意介质或机制实现。这样网络的示例包括但不限于，诸如局域网(LAN)、广域网(WAN)、以太网或因特网的网络，或一个或者多个陆地、卫星、或无线链接。网络可以包括诸如所描述那些的网络的组合。网络可以根据传输控制协议(TCP)、用户数据报协议(UDP)和/或网际协议(IP)传送数据。

映射的存储位置

映射可以与生成映射的文本数据和音频数据分开存储。例如，如图4所示，映射406与数字媒体项402和404分开存储，即使映射406可以用于基于其它数字媒体项中的媒体位置来标识一个数字媒体项中的媒体位置。事实上，映射406被存储在单独的计算设备(中间设备420)上，而不是分别存储数字媒体项402和404的设备410和430上。

附加地或者可选地，映射可作为对应文本数据的部分被存储。例如，映射406可以被存储在数字媒体项402中。然而，即使映射作为文本数据的部分存储，该映射也可以不被显示给使用使用文本数据的终端用户。同样附加地或者可选地，映射可作为音频数据的部分被存储。例如,映射可以被存储在数字媒体项404中。

书签切换

“书签切换”指的是在数字作品的一个版本中建立指定位置(或“书签”)，并且使用该书签以找到数字作品的另一版本中的对应位置。有两种类型的书签切换：文本到音频(TA)书签切换以及音频到文本(AT)书签切换。TA书签切换涉及采用在电子书中建立的文本书签来标识音频书中的对应音频位置。相反地，本文称为AT书签切换的另一类型的书签切换涉及采用在音频书中建立的音频书签来标识电子书中的对应文本位置。

文本到音频书签切换

图5是示出根据本发明实施例的用于TA书签切换的处理500的流程图。使用图4中所示的系统400的元素描述图5A。

在步骤502，文本媒体播放器412(例如，电子阅读器)确定数字媒体项402(例如，数字书)中的文本书签。设备410向设备410的用户显示来自数字媒体项402的内容。

文本标签可以响应于用户的输入而被确定。例如，用户可以触摸设备410的触摸屏上的一个区域。设备410的显示器在那个区域处或那个区域附近显示一个或多个词。响应于输入，文本媒体播放器412确定最接近于该区域的一个或多个词。文本媒体播放器412基于所确定的一个或多个词确定文本书签。

可选地，文本书签可以基于显示给用户的最后文本数据来确定。例如，数字媒体项402可以包括200个电子“页”而第110页是被显示的最后一页。文本媒体播放器412确定第110页为被显示的最后一页。鉴于无法得知用户在哪里停止阅读，文本媒体播放器412可以确立第110页作为文本书签，或者可以确立第110页的开始处的一个点作为文本书签。可以安全地假设用户至少阅读到第109页的最后一句，那个句子可能在第109页或第110页结束。因此，文本媒体播放器412可以确立下一个句子(其在第110页开始)的开始作为文本书签。然而，如果映射的粒度处于段级，则文本媒体播放器412可以确立第109页上最后一段的开始。类似地，如果映射的粒度处于句级，则文本媒体播放器412可以确立包括第110页的章的开始作为文本书签。

在步骤504，文本媒体播放器412通过网络440发送指示文本书签的数据至中间设备420。中间设备420可以与设备410和/或设备410的用户的账户相关联地存储文本书签。在步骤502之前，用户可以建立与中间设备420的操作者的账户。然后用户向操作者注册一个或多个设备，包括设备410。该注册使一个或者多个设备中的每一个与用户的账户相关联。

一个或者多个因素可以使文本媒体播放器412发送文本书签至中间设备420。这种因素可以包括文本媒体播放器412的退出(或者关闭)、用户建立文本书签，或用户明确指示保存文本书签以在聆听与建立了文本书签的作品的文本版本相对应的音频书时使用。

如前所述，中间设备420可访问(例如，存储)映射406，在本例中映射406将数字媒体项404中的多个音频位置与数字媒体项402中的多个文本位置相映射。

在步骤506，中间设备420检查映射406以确定多个文本位置中对应于该文本书签的特定文本位置。文本书签不需要准确地匹配映射406中的多个文本位置中的任一个。然而，中间设备420可以选择最接近于文本书签的文本位置。可选地，中间设备420可以选择紧接在文本书签之前的文本位置，该文本位置可以是也可以不是最接近于文本书签的文本位置。例如，如果文本书签指示第5章第3段第5句，并且映射406中的最接近文本位置为(1)第5章第3段第1句以及(2)第5章第3段第6句，则选择文本位置(1)。

在步骤508，一旦标识了映射中的特定文本位置，中间设备420就确定映射406中对应于该特定文本位置的特定音频位置。

在步骤510中，中间设备420发送特定音频位置到设备430，在这个示例中设备430不同于设备410。例如，设备410可以是平板计算机而设备430可以是智能手机。在相关实施例中，不包括设备430。因此，中间设备420可以发送特定音频位置到设备410。

步骤510可以自动执行，例如，响应于中间设备420确定该特定音频位置。可选地，可以响应于从设备430接收设备430将要处理数字媒体项404的指示，执行步骤510或者步骤506)。该指示可以是针对对应于文本书签的音频位置的请求。

在步骤512，音频媒体播放器432确立特定音频位置作为数字媒体项404中音频数据的当前回放位置。该确立可以响应于从中间设备420接收到特定音频位置而执行。由于该当前回放位置成为特定音频位置，所以音频媒体播放器432不需要播放音频数据中在特定音频位置之前的任何音频。例如，如果特定音频位置指示2:56:03(2小时56分3秒)，则音频媒体播放器432将音频数据中的该时间确立为当前回放位置。因此，如果设备430的用户选择设备430上的“播放”按钮(不论图形的或是物理的)，则音频媒体播放器430在2:56:03标记处开始处理音频数据。

在一可选实施例中，设备410存储映射406(或者其副本)。因此，代替步骤504-508，文本媒体播放器412检查映射406以确定多个文本位置中对应于文本书签的特定文本位置。然后，文本媒体播放器412确定映射406中对应于该特定文本位置的特定音频位置。文本媒体播放器412然后可以使得将特定音频位置发送到中间设备420，以允许设备430检索该特定音频位置，并确立音频数据中的当前回放位置作为该特定音频位置。文本媒体播放器412也可以使得将该特定文本位置(或文本书签)发送到中间设备420，以允许设备410(或另一设备，未示出)稍后检索该特定文本位置，以允许在其他设备上实现的另一文本媒体播放器显示数字媒体项402的另一副本的对应于该特定文本位置的部分(例如，一页)。

在另一可选实施例中，不包括中间设备420与设备430。因此，步骤504与510不被执行。因此，设备410执行图5A中的所有其他步骤，包括步骤506和508。

音频到文本书签切换

图5B是示出根据本发明实施例的用于AT书签切换的处理550的流程图。类似于图5A，使用图4中所示的系统400的元素描述图5B。

在步骤552，音频媒体播放器432确定数据媒体项404(例如，音频书)中的音频书签。

该音频书签可以响应于用户输入而确定。例如，用户可以停止对音频数据的回放，例如，通过选择在设备430的触摸屏上显示的“停止”按钮。音频媒体播放器432确定数字媒体项404的音频数据中对应于回放停止处的位置。因此，该音频书签可以直接为用户停止聆听从数字媒体项404生成的音频的最后位置。附加地或可选地，用户可以选择设备430的触摸屏上的一个或者多个图形按钮，以确立数字媒体项404中的特定位置作为音频书签。例如，设备430显示时间线，其对应于数字媒体项404中音频数据的长度。该用户可以选择时间线上的位置并随后提供一个或多个附加的输入，所述附加的输入被音频媒体播放器432用于建立音频书签。

在步骤554，设备430通过网络440发送指示音频书签的数据到中间设备420。中间设备420可以将音频书签与设备430和/或设备430的用户的账户相关联地存储。在步骤552之前，用户建立与中间设备420的操作者的账户。然后该用户向操作者注册一个或者多个设备，包括设备430。该注册使得一个或多个设备中的每一个都与用户的账户相关联。

中间设备420还可访问(例如，存储)映射406。映射406将数字媒体项404的音频数据中的多个音频位置与数字媒体项402的文本数据中的多个文本位置相映射。

一个或者多个因素可以使音频媒体播放器432发送音频书签到中间设备420。这种因素可以包括音频媒体播放器432的退出(或关闭)，用户建立音频书签，或用户明确指示保存该音频书签以在显示作品的文本版本(被反映在数字媒体项402中)中与已经建立音频书签的数字媒体项404相对应的部分时使用。

在步骤556，中间设备420检查映射406以确定多个音频位置中对应于音频书签的特定音频位置。该音频书签可能不准确地匹配于映射406中的多个音频位置中的任一个。然而，中间设备420可以选择最接近于该音频书签的音频位置。可选地，中间设备420可以选择紧跟在音频书签之前的音频位置，该音频位置可以是也可以不是最接近于音频书签的音频位置。例如，如果音频书签指示02:43:19(或者2小时43分19秒)，并且在映射406中最接近的音频位置为(1)02:41:07和(2)0:43:56，则该音频位置(1)被选择，即使音频位置(2)最接近于音频书签。

在步骤558，一旦标识了映射中的特定音频位置，中间设备420就确定映射406中对应于该特定音频位置的特定文本位置。

在步骤560，中间设备420发送该特定文本位置给设备410，在这个示例中，设备410不同于设备430。例如，设备410可以是平板计算机而设备430可以是配置用以处理音频数据并生成可听声音的智能手机。

步骤560可以被自动执行，例如，响应于中间设备420确定特定文本位置。可选地，步骤560(或步骤556)可以响应于从设备410接收到设备410要处理数字媒体项402的指示而被执行。该指示可以是用于对应于音频书签的文本位置的请求。

在步骤562，文本媒体播放器412显示关于特定文本位置的信息。步骤562可以响应于从中间设备420接收到特定文本位置而被执行。设备410不需要显示被反映在数字媒体项402中的作品的文本版本中该特定文本位置之前的任意内容。例如，如果该特定文本位置指示第3章第2段第4句，则设备410显示包括那个句子的页。文本媒体播放器412可以使标记被显示在页面中的特定文本位置，该标记可视地向设备410的用户指示在该页面中哪里开始阅读。因此，用户能够立即在对应于音频书中叙述者所读的最后一个词的位置开始阅读作品的文本版本。

在可选实施例中，该设备410存储映射406。因此，代替步骤556-560，在步骤554(其中设备430发送指示音频书签的数据给中间设备420)之后，中间设备420发送音频书签给设备410。然后，文本媒体播放器412检查映射406以确定多个音频位置中对应于音频书签的特定音频位置。然后，文本媒体播放器412确定映射406中对应于特定音频位置的特定文本位置。这个可选处理然后进行到上面所描述的步骤562。

在另一可选实施例中，中间设备420没有被包括。因此，步骤554和560不被执行。因此，设备430执行图5B中其它所有步骤，包括步骤556和558。

响应于播放音频而突出显示文本

在一实施例中，在播放对应于作品的文本版本的音频数据时，来自作品的文本版本的一部分的文本被突出显示或“点亮”。如前所述，音频数据是作品的文本版本的音频版本，并且可以由人类用户反映来自文本版本的文本的阅读。本文所使用的“突出显示”文本指的是媒体播放器(例如，“电子阅读器”)视觉上将该文本与其它和被突出显示的文本同时显示的文本区分开来。突出显示文本可以包括改变文本的字体、改变文本的字体类型(例如，斜体，黑体，下划线)、改变文本大小、改变文本的颜色、改变文本的背景颜色，或创建与文本相关联的动画。作为创建动画的一个示例是使文本(或文本的背景)明暗闪烁或改变颜色。创建动画的另一示例是创建在文本上面、下面或者周围出现的图形。例如，响应于“烤面包机”一词被媒体播放器播放并检则到，该媒体播放器在所显示的文本中“烤面包机”一词上面显示烤面包机的图像。动画的另一示例是播放当在音频数据中检测到文本的一部分(例如，词、音节或字母)时在该部分上“弹起”的“弹球”。

图6是示出根据本发明实施例的用于在播放作品的音频版本时使得突出显示来自作品的文本版本的文本的处理600的流程图。

在步骤610，确定音频版本的音频数据的当前回放位置(其一直在改变)。这个步骤可以由用户设备上的媒体播放器执行。媒体播放器处理该音频数据以为用户生成音频。

在步骤620，基于当前回放位置，标识映射中的一个映射记录。该当前回放位置可以匹配或近似匹配于映射记录中所标识的音频位置。

如果媒体播放器可访问将音频数据中的多个音频位置映射到作品的文本版本中的多个文本位置的映射，那么步骤620可以由该媒体播放器执行。可选地，步骤620可以由用户设备上执行的另一处理执行，或由通过网络从用户的设备接收当前回放位置的服务器执行。

在步骤630，标识了在映射记录中标识的文本位置。

在步骤640，使得突出显示作品的文本版本中对应于文本位置的部分。这个步骤可由媒体播放器或在用户设备上运行的另一软件应用执行。如果服务器执行查找步骤(620和630)，则步骤640可以进一步包括服务器发送文本位置给用户设备。作为响应，媒体播放器或者另一软件应用程序接受文本位置作为输入，并且使得对应文本被突出显示。

在一实施例中，映射中被媒体播放器标识的不同的文本位置与突出显示的不同类型相关联。例如，映射中的一个文本位置可以与字体颜色从黑到红的变化相联系，而映射中的另一文本位置可以与动画相联系，例如显示一片面包从烤面包机“弹出”的烤面包机图形。因此，映射中每个映射记录可以包括“突出显示数据”，其指示由对应文本位置所标识的文本如何被突出显示。因此，对于映射中媒体播放器标识的每个包括突出显示数据的映射记录，媒体播放器使用突出显示数据以确定如何突出显示文本。如果映射记录并不包括突出显示数据，则媒体播放器可以不突出显示对应文本。可选地，如果映射中的映射记录并不包括突出显示数据，则媒体播放器可以使用“缺省”突出显示方法(例如，文本加粗)来突出显示文本。

基于音频输入而突出显示文本

图7是示出根据本发明实施例的用于响应于来自用户的音频输入而突出显示所显示文本的处理700的流程图。在这个实施例中，不需要映射。音频输入用于突出显示在当前显示给用户的作品的文本版本的一部分中的文本。

在步骤710，接收音频输入。音频输入可以是基于用户大声朗读来自作品的文本版本的文本。该音频输入可由显示该文本版本的一部分的设备来接收。该设备可以提示用户大声朗读词、短语或整个句子。该提示可以是可视的或音频的。作为可视提示的示例，该设备可以在设备显示带下划线的句子时或恰在其之前，使得显示如下文本：“请阅读下划线的文本”。作为音频提示的示例，该设备可以使得计算机生成声音读出“请阅读下划线的文本”或者播放预先录音的人声，其中预先录音的人声提供相同的指令。

在步骤720，对音频输入执行语音到文本分析，以检测音频输入中的一个或多个词。

在步骤730，对于音频输入中所反映的每个检测到的词，将所检测到的词与特定词集进行比较。该特定词集可以是计算设备(例如，电子阅读器)当前所显示的所有词。可选地，该特定词集可以是提示用户朗读的所有词。

在步骤740，对于与特定词集中的词相匹配的每个检测到的词，该设备使该匹配的词被突出显示。

处理700中示出的步骤可以由显示作品的文本版本中的文本的单个计算设备执行。可选地，处理700中所示出的步骤可以由不同于显示来自文本版本的文本的计算设备的一个或多个计算设备执行。例如，步骤710中来自用户的音频输入可以通过网络从用户的设备发送至执行语音到文本分析的网络服务器。该网络服务器可以发送突出显示的数据到用户设备以使得用户设备突出显示适当的文本。

响应于文本选择而播放音频

在一实施例中，显示作品的文本版本的部分的媒体播放器的用户可以选择所显示文本的部分并且使得播放对应的音频。例如，如果来自数字书的显示词是“炸面圈”并且用户选择该词(例如，通过触摸显示该词的媒体播放器的触摸屏的部分)，则可以播放“炸面圈”的音频。

将作品的文本版本中的文本位置映射到音频数据中的音频位置的映射被用于标识音频数据中对应于所选择文本的部分。用户可以选择单个词、短语、或者甚至一个或多个句子。响应于选择所显示文本的一部分，媒体播放器可以标识一个或多个文本位置。例如，媒体播放器可以标识对应于所选择部分的单个文本位置，即使所选择部分包括多行或多个句子。所标识的文本位置可以对应于所选择部分的开始。作为另一示例，媒体播放器可以标识对应于所选择部分的开始的第一文本位置和对应于所选择部分的结尾的第二文本位置。

媒体播放器使用所标识的文本位置来查找映射中指示最接近于所标识的文本位置(或在其之前最接近)的文本位置的映射记录。媒体播放器使用在映射记录中所指示的音频位置标识音频数据中从哪里开始处理该音频数据以生成音频。如果只有单个文本位置被标识，则可以播放仅处于或者靠近音频位置的词或声音。因此，在播放该词或声音后，媒体播放器停止播放任何更多音频。可选地，媒体播放器在音频位置处或其附近开始播放，并且不停止播放该音频位置之后的音频，直到(a)到达音频数据的结尾，(b)来自用户的进一步输入(例如，选择“停止”按钮)，或(c)音频数据中的预先指定的停止点(例如，需要进一步输入以继续的页或章的结尾)。

如果媒体播放器基于所选择部分标识了两个文本位置，则两个音频位置被标识并且可用于标识从哪里开始播放以及从哪里停止播放对应的音频。

在一实施例中，由该音频位置标识的音频数据可以被缓慢地(例如，以慢回放速度)播放或者连续地播放而不推进音频数据中的当前回放位置。例如，如果平板计算机的用户通过用他的手指触摸平板计算机的触摸屏来选择所显示的词“two”，并且连续地触摸所显示的词(例如，不抬起他的手指并且不将他的手指移动到另一显示的词)，则平板计算机播放创建由朗读词“twoooooooooooooooo”所反映的声音的对应音频。

在类似的实施例中，用户在媒体播放器的触摸屏上跨所显示的文本拖动她的手指的速度使得该对应的音频以相同的或者类似的速度被播放。例如，用户选择所显示词“donut”的字母‘d’并且缓慢地跨所显示词移动他的手指。响应于这个输入，该媒体播放器标识对应的音频数据(使用映射)，并以与用户移动他的手指相同的速度播放对应的音频。因此，媒体播放器创建音频，该音频听起来就像作品的文本版本的文本的读者将“donut”一词发音为“dooooooonnnnnnuuuuuut”。

在类似实施例中，用户“触摸”显示在触摸屏上的词的时间指示该词的音频版本多快或多慢地被播放。例如，用户的手指快速敲击所显示词使得对应音频以正常速度被播放，而用户在所选择词上按下他的手指超过1秒使得对应音频以正常速度的1/2被播放。

传送用户注释

在一实施例中，用户启动对数字作品的一种媒体版本(例如，音频)的注释的创建，并且使得注释与数字作品的另一媒体版本(例如，文本)相关联。因此，尽管可在一种类型媒体的环境中创建注释，但该注释可以在另一类型媒体的环境中被使用使用。创建或使用使用注释的“环境”指的是在创建或使用使用发生时是在显示文本还是在播放音频。

虽然下面的示例包括在创建注释时确定音频内的位置或者文本位置，但本发明的一些实施例并非限于此。例如，在于音频环境中创建注释时音频文件中的当前回放位置没有在于文本环境中使用该注释时被使用。相反，设备可以在对应文本版本的开始或者结尾处或者在对应文本版本的每“页”上显示对该注释的指示。作为另一示例，在于文本环境中创建注释时被显示的文本没有在于音频环境中使用该注释时被使用。相反，设备可以在对应的音频版本的开始或者结尾处或者在播放该对应的音频版本时连续地显示对该注释的指示。对于视觉上的指示附加地或者可选地，可以播放对该注释的音频指示。例如，以嘟声和音轨都可以被听见的方式与该音轨同时播放嘟声。

图8A-B是示出根据本发明实施例的用于从一个环境到另一个环境传送注释的处理的流程图。特别地，图8A是示出用于在“文本”环境中创建注释并且在“音频”环境中使用该注释的处理800的流程图，而图8B是示出用于在“音频”环境中创建注释并且在“文本”环境中使用该注释的处理850的流程图。对注释的创建和使用可以在同一计算设备(例如，设备410)上或者在单独的计算设备(例如，设备410和430)上发生。图8A描述了其中在设备410上创建并且使用该注释的情形，而图8B描述了其中在设备410上创建注释并且稍后在设备430上使用该注释的情形。

在图8A中的步骤802，在设备410上实现的文本媒体播放器412使得显示来自数字媒体项402的文本(例如，以页面的形式)。

在步骤804，文本媒体播放器412确定反映在数字媒体项402中的作品的文本版本中的文本位置。该文本位置最终与注释相关联地被存储。该文本位置可以以多种方式被确定。例如，文本媒体播放器412可以接收在所显示的文本中选择文本位置的输入。该输入可以是一段时间内用户触摸设备410的触摸屏(其显示文本)。该输入可以选择特定词、多个词、页面的开始或者结尾、句前或句后等。该输入也可以包括首先选择按钮，其使文本媒体播放器412改变至“创建注释”模式，在该模式下注释可以被创建并与文本位置相关联。

作为确定文本位置的另一示例，文本媒体播放器412基于正在显示作品的文本版本(反映在数字媒体项402中)中的哪个部分而自动地(没有用户输入地)确定该文本位置。例如，如果设备410正在显示作品的文本版本的第20页，则该注释将与第20页相关联。

在步骤806，文本媒体播放器412接收输入，该输入选择可以被显示在触摸屏上的“创建注释”按钮。这样的按钮可以响应于步骤804中选择文本位置的输入而被显示，在该文本位置中，例如用户在一段时间内(例如，一秒)触摸触摸屏。

虽然步骤804被描述为在步骤806之前发生，但是可选地，对“创建注释”按钮的选择可以在确定文本位置之前发生。

在步骤808，文本媒体播放器412接收用于创建注释数据的输入。该输入可以是声音数据(例如，用户对着设备410的扬声器说话)或者文本数据(例如，用户选择键盘上的按键，无论物理的或者图形的)。如果注释数据是声音数据，则文本媒体播放器412(或者另一处理)可以对声音数据执行语音到文本分析以创建声音数据的文本版本。

在步骤810，文本媒体播放器412将注释数据与文本位置相关联地存储。文本媒体播放器412使用映射(例如，映射406的副本)以标识映射中最接近于文本位置的特定文本位置。然后，文本媒体播放器使用该映射标识对应于特定文本位置的音频位置。

对于步骤810可选地，文本媒体播放器412通过网络440将注释数据和文本位置发送到中间设备420。作为响应，中间设备420将注释数据与文本位置相关联地存储。中间设备420使用映射(例如，映射406)以标识映射406中最接近于文本位置的特定文本位置。然后，使用映射406，中间设备420标识对应于特定文本位置的音频位置。中间设备420通过网络440发送所标识的音频位置到设备410。中间设备420可以响应于来自设备410的对于某个音频数据和/或对于与某个音频数据相关联的注释的请求而发送所标识的音频位置。例如，响应于对“双城记”的音频书版本的请求，中间设备420确定是否有与该音频书相关联的任何注释数据，并且如果有，则发送该注释数据至设备410。

步骤810还可以包括存储日期和/或时间信息，该信息指示何时创建了注释。当在音频环境中使用该注释时，可以稍后显示这个信息。

在步骤812，音频媒体播放器414通过处理数字媒体项404的音频数据而播放音频，其在这个示例中(虽未示出)可以被存储在设备410上或者可以通过网络440从中间设备420流式传送至设备410。

在步骤814，音频媒体播放器414确定音频数据中当前回放位置何时匹配或者近似匹配于在步骤810中使用映射406标识的音频位置。可选地，音频媒体播放器414可以使得显示指示注释可用的数据，无论当前回放位置置于何处并无需播放任何音频，如步骤812中所指示的。换言之，步骤812不是必需的。例如，用户可以启动音频媒体播放器414，并且使得音频媒体播放器414装载数字媒体项404的音频数据。音频媒体播放器414确定注释数据与音频数据相关联。音频媒体播放器414使得显示关于该音频数据的信息(例如，标题、艺术家、流派、长度等)而不生成任何与该音频数据相关联的音频。该信息可以包括对注释数据的引用以及关于音频数据中与注释数据相关联的位置的信息，其中该位置对应于步骤810中被标识的音频位置。

在步骤816，音频媒体播放器414使用该注释数据。如果该注释数据是语音数据，则使用该注释数据可包括处理该语音数据以生成音频或者将该语音数据转换成文本数据并且显示该文本数据。如果该注释数据是文本数据，则使用该注释数据可以包括例如在显示所播放的音频数据的属性的GUI的侧面板中或者在表现为与GUI分开的新窗口中显示该文本数据。属性的非限制性示例包括音频数据的时间长度、可以指示音频数据中的绝对位置(例如，时间偏移量)或者音频数据中的相对位置(例如，章号或节号)的当前回放位置、音频数据的波形以及数字作品的标题。

图8B描述了如前所述其中在设备430上创建注释并且稍后在设备410上使用该注释的情形。

在步骤852，音频媒体播放器432处理来自数字媒体项404的音频数据以播放音频。

在步骤854，音频媒体播放器432确定音频数据中的一个音频位置。该音频位置最终与注释相关联地被存储。该音频位置可以按照多种方式被确定。例如，音频媒体播放器432可以接收选择音频数据中的音频位置的输入。该输入可以是在一段时间内用户触摸设备430的触摸屏(其显示音频数据的属性)。该输入可以选择时间线中反映音频数据的长度的绝对位置或者音频数据中的相对位置，比如章号与段号。该输入还可以包括首先选择按钮，这使得音频媒体播放器432改变至“创建注释”模式，在该模式中注释可以被创建并且与音频位置相关联。

作为确定音频位置的另一示例，音频媒体播放器432基于正在处理音频数据的哪个部分而自动地(无需用户输入)确定音频位置。例如，如果音频媒体播放器432正在处理音频数据中与数字媒体项404中反映的数字作品的第20章相对应的部分，则音频媒体播放器432确定该音频位置至少位于第20章中的某处。

在步骤856，音频媒体播放器432接收选择“创建注释”按钮的输入，该按钮可以显示在设备430的触摸屏上。这种按钮可以响应于步骤854中选择音频位置的输入而被显示，在该文本位置中，例如用户在一段时间(例如，一秒)内连续触摸触摸屏。

虽然步骤854被描述为发生在步骤856之前，但是可选地，对“创建注释”按钮的选择可以在确定音频位置之前发生。

在步骤858，第一媒体播放器接收用于创建注释数据的输入，类似于步骤808。

在步骤860，音频媒体播放器432将注释数据与音频位置相关联地存储。音频媒体播放器432使用映射(例如，映射406)以标识映射中最接近于步骤854中所确定的音频位置的特定音频位置。然后，使用该映射，音频媒体播放器432标识对应于该特定音频位置的文本位置。

对于步骤860可选地，音频媒体播放器432通过网络432发送注释数据和音频位置到中间设备420。作为响应，中间设备420将注释数据与音频位置相关联地存储。中间设备420使用映射406来标识映射中最接近于步骤854中所确定的音频位置的特定音频位置。然后，使用映射406，中间设备420标识对应于特定音频位置的文本位置。中间设备420通过网络440发送所标识的文本位置到设备410。响应于来自设备410的对于某个文本数据和/或对于与某个文本数据相关联的注释的请求，中间设备420可以发送所标识的文本位置。例如，响应于对于电子书“愤怒的葡萄”的请求，中间设备420确定是否存在与数字书相关联的任何注释数据，并且如果有则发送注释数据到设备430。

步骤860还可以包括存储指示何时创建了注释的时间信息和/或数据。该信息可以稍后在该注释在文本环境中被使用时被显示。

在步骤862，设备410显示与数字媒体项402相关联的文本数据，数字媒体项402是数字媒体项404的文本版本。设备410基于数字媒体项402的本地存储副本而显示数字媒体项402的文字数据，或者如果本地存储副本不存在，则设备410可以在从中间设备420流式传送文本数据时显示该文本数据。

在步骤864，设备410确定何时显示包括文本位置(在步骤860中所标识的)的作品的文本版本(被反映在数字媒体项402中)的部分。可选地，设备410可以显示指示注释可用的数据，而无论显示作品的文本版本的什么部分(如果有的话)。

在步骤866，文本媒体播放器412使用该注释数据。如果该注释数据是声音数据，则使用该注释数据可以包括播放该声音数据或者将该声音数据转换成文本数据并且显示该文本数据。如果该注释数据是文本数据，则使用该注释数据可以包括例如在显示作品的文本版本的部分的GUI侧面板中或者在表现为与GUI分开的新窗口中显示该文本数据。

硬件概述

根据一个实施例，本文描述的技术由一个或多个专用计算设备实现。该专用计算设备可以被硬连接以执行所述技术，或者可以包括被永久编程以执行所述技术的数字电子设备(例如，一个或多个专用集成电路(ASIC)或者场可编程门阵列(FPGA)，或者可以包括被编程以根据固件、存储器、其它储存设备或者组合中的程序指令来执行所述技术的一个或者多个通用硬件处理器。这样的专用计算设备还可以结合带有定制编程以完成所述技术的定制硬连接逻辑器、ASIC或者FPGA。专用计算设备可以是台式计算机系统、便携式计算机系统、手持式设备、联网设备或者任何其它结合硬连接和/或程序逻辑器以实现所述技术的设备。

例如，图9是例示可以实现本发明实施例的计算机系统900的框图。计算机系统900包括总线902或者其它用于传送信息的通信机制，以及与总线902耦接用以处理信息的硬件处理器904。硬件处理器904例如可以是通用微处理器。

计算机系统900还包括与总线902耦接用以存储信息和要由处理器904执行的指令的主存储器906，例如随机存取存储器(RAM)或者其它动态存储设备。主存储器906也可以用于存储临时变量或者在执行要由处理器904执行的指令期间的其它中间信息。这样的指令在被存储在可由处理器904访问的非暂时存储介质中时使得计算机系统900成为被定制以执行指令中指定的操作的专用机。

计算机系统900还包括耦接至总线902用以存储处理器904的静态信息和指令的只读存储器(ROM)908或其它静态存储设备。诸如磁盘或光盘的存储设备910被提供并耦接至总线902，用以存储信息和指令。

计算机系统900可以通过总线902耦接至用于向计算机用户显示信息的显示器912，例如阴极射线管(CRT)。包括字母数字按键和其它按键的输入设备914被耦接至总线902，用于传送信息和命令选择到处理器904。另一类型的用户输入设备是游标控制器916，比如鼠标、追踪球或者游标方向按键，用于传送方向信息和命令选择到处理器904，以及用于控制在显示器912上的游标移动。该输入设备典型地在两个轴(第一轴(例如，x)和第二轴(例如，y))上有两个自由度，以允许设备指定平面中的位置。

计算机系统900可以使用定制的硬连接逻辑器、一个或多个ASIC或者FPGA、固件和/或程序逻辑器来实现本文所描述的技术，其与计算机系统组合使得或者编程计算机系统900成为专用机。根据一个实施例，响应于处理器904执行包含在主存储器906中的一个或多个指令的一个或多个序列，由计算机系统900执行本文的方法。这样的指令可以从另一存储介质(例如，存储设备910)中被读取至主存储器906中。执行包含在主存储器906中的指令序列使处理器904执行本文描述的处理步骤。在可选实施例中，硬连接电路可以被用于替换软件指令或者与其组合。

本文采用的术语“存储介质”指的是任何非暂时介质，其存储使机器按照特定方式操作的数据和/或指令。这样的存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘，比如存储设备910。易失性介质包括动态存储器，例如主存储器906。存储介质的常用形式包括例如软盘、软磁盘、硬盘、固态驱动器、磁带、或任何其它磁数据存储介质、CD-ROM、任何其它光学数据存储介质、任何带有孔图案的物理介质、RAM、PROM和EPROM、闪速EPROM、NVRAM、任何其它存储芯片或胶卷。

存储介质区别于传送介质但可以与其相结合使用。传送介质参与存储介质之间的信息传送。例如，传送介质包括同轴线缆、铜线以及光纤器件，包括具有总线902的电线。传送介质还可以采取声波或光波的形式，例如在无线电波和红外数据通信期间生成的那些波。

各种形式的介质可以用于载送用以由处理器904执行的一个或多个指令的一个或多个序列。例如，最初该指令可以在远程计算机的磁盘或者固态驱动器上载送。远程计算机可以将指令加载到其动态存储器，并且使用调制解调器通过电话线发送指令。计算机系统900的本地调制解调器可以接收电话线上的数据，并且使用红外发射器来将数据转换为红外信号。红外检测器可以接收红外信号中载送的数据，并且适当的电路可以将数据放在总线902上。总线902将数据载送至主存储器906，处理器904从主存储器906检索并执行指令。由主存储器906接收的指令可以可选地在被处理器904执行之前或之后被存储在存储设备910上。

计算机系统900还包括耦接至总线902的通信接口918。通信接口918提供耦接至连接于本地网络922的网络链路920的双向数据通信。例如，通信接口918可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或者提供数据通信连接至对应类型的电话线的调制解调器。作为另一示例，通信接口918可以是局域网(LAN)卡以提供数据通信连接至兼容的LAN。无线链路也可以实现。在任何这样的实现中，通信接口918发送并接收电子的、电磁的或光信号，其载送表示各种类型信息的数字数据流。

网络链路920典型地通过一个或多个网络提供数据通信至其它数据设备。例如，网络链路920可以通过本地网络922提供连接至主计算机924或者至由网络服务提供者(ISP)926操作的数据设备。ISP 926继而通过全球包数据通信网络(现在通常称为“因特网”)928提供数据通信服务。本地网络922与因特网928两者都使用载送数字数据流的电子、电磁或者光信号。用以载送数字数据至计算机系统900以及从计算机系统900载送数字数据的通过各种网络的信号以及在网络链路920上并通过通信接口918的信号是传送介质的示例形式。

计算机系统900可通过网络、网络链路920以及通信接口918发送信息并接收数据，包括程序代码。在因特网示例中，服务器930可以通过因特网928、ISP 926、本地网络922以及通信接口918发送对于应用程序的请求代码。

接收的代码可以在被接收时由处理器904执行，和/或存储在存储设备910中或者其它非易失性储存设备中用于后续执行。

根据一些实施例，图10-15示出了根据如上所描述的本发明的原理的电子设备1000-1500的功能框图。设备的功能框图可以由硬件、软件或软件和硬件的组合实现以实施本发明的原理。本领域技术人员应当理解，图10-15中描述的功能框图可以组合或分成子块以实现如上所述本发明的原理。因此，本文的描述可以支持在此描述的功能块的任意可能的组合或拆分或者进一步定义。

如图10所示，电子设备1000包括音频数据接收单元1002，其配置以接收音频数据，该音频数据反映了存在文本版本的作品的音频版本。电子设备1000还包括耦接至音频数据接收单元1002的处理单元1006。在一些实施例中，处理单元1006包括语音到文本单元1008和映射单元1010。

处理单元1006被配置以对音频数据执行语音到文本分析，以生成用于音频数据的部分的文本(例如，使用语音到文本单元1008)，并基于所生成的用于音频数据的部分的文本，生成音频数据中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射(例如，使用映射单元1010)。

如图11所示，电子设备1100包括文本接收单元1102，其配置以接收作品的文本版本。电子设备1100还包括音频数据接收单元1104，其配置以接收第二音频数据，该第二音频数据反映存在文本版本的作品的音频版本。电子设备1100还包括耦接至文本接收单元1102的处理单元1106。在一些实施例中，处理单元1106包括文本到语音单元1108和映射单元1110。

处理单元1106被配置以对文本版本执行文本到语音分析以生成第一音频数据(例如，使用文本到语音单元1108)；并且基于该第一音频数据和文本版本，生成第一音频数据中的第一多个音频位置与作品的文本版本中的对应多个文本位置之间的第一映射(例如，使用映射单元1100)。处理单元1106进一步被配置以基于(1)第一音频数据和第二音频数据的比较以及(2)第一映射，来生成第二音频数据中的第二多个音频位置与作品的文本版本中的多个文本位置之间的第二映射(例如，使用映射单元1110)。

如图12所示，电子设备1200包括配置以接收音频输入的音频接收单元1202。电子设备1200还包括耦接至音频接收单元1202的处理单元1206。在一些实施例中，处理单元1206包括语音到文本单元1208、文本匹配单元1209和显示控制单元1210。

处理单元1206被配置以：对音频输入执行语音到文本分析，以生成用于音频输入的部分的文本(例如，使用语音到文本单元1208)；确定所生成的用于音频输入的部分的文本是否匹配于当前显示的文本(例如，使用文本匹配单元1209)；并且响应于确定所生成的文本匹配于当前显示的文本，使当前显示的文本被突出显示(例如，使用显示控制单元1210)。

如图13所示，电子设备1300包括位置数据获取单元1302，其配置以获取指示作品的文本版本中指定位置的位置数据。电子设备1300还包括耦接至位置数据获取单元1302的处理单元1306。在一些实施例，处理单元1306包括映射检查单元1308。

处理单元1306被配置以检查(例如，使用映射检查单元1308)作品的音频版本中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射，以：确定多个文本位置中对应于指定位置的特定文本位置，并且基于该特定文本位置，确定多个音频位置中对应于该特定文本位置的特定音频位置。处理单元1306还被配置以将基于该特定文本位置确定的特定音频位置提供至媒体播放器，以使该媒体播放器确立该特定音频位置作为音频数据的当前回放位置。

如图14所示，电子设备1400包括位置获取单元1402，其配置以获取指示音频数据中的指定位置的位置数据。电子设备1400还包括耦接至位置获取单元1402的处理单元1406。在一些实施例中，处理单元1406包括映射检查单元1408和显示控制单元1410。

处理单元1406被配置以检查(例如，使用映射检查单元1408)音频数据中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射，以：确定多个音频位置中对应于该指定位置的特定音频位置，并且基于该特定音频位置，确定多个文本位置中对应于该特定音频位置的特定文本位置。处理单元1406还被配置以使媒体播放器显示关于该特定文本位置的信息(例如，使用显示控制单元1410)。

如图15所示，电子设备1500包括位置获取单元1502，其被配置以获取在作品的音频版本的回放期间指示音频版本中的指定位置的位置数据。该电子设备1500还包括耦接至位置数据获取单元1502的处理单元1506。在一些实施例中，处理单元1506包括文本位置确定单元1508和显示控制单元1510。

该处理单元1506被配置以在作品的音频版本的回放期间：基于指定位置，确定作品的文本版本中的特定文本位置，该特定文本位置与指示反映在作品的文本版本中的第一页面的结尾的页尾数据相关联(例如，使用文本位置确定单元1508)；并且响应于确定该特定文本位置与页尾数据相关联，自动使得停止显示第一页面，并且使得显示在第一页面之后的第二页面(例如，使用显示控制单元1510)。

在上述说明中，参照可随实现不同而改变的众多具体细节描述了本发明的实施例。说明与附图因而应该被认为是例示性的而不是限制性的。对本发明范围的唯一和排他指示，以及申请人想要作为本发明的范围，是以获得权利要求的具体形式，包括任何后续修改，而源自本发明的权利要求书的书面和等同范围。

Claims

1.一种方法，包括：

接收反映存在文本版本的作品的音频版本的音频数据；

对音频数据执行语音到文本分析，以生成用于音频数据的部分的文本；以及

基于所生成的用于音频数据的部分的文本，生成音频数据中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射；

其中该方法由一个或多个计算设备执行。

2.如权利要求1所述的方法，其中，生成用于音频数据的部分的文本包括至少部分地基于作品的文本上下文，来生成用于音频数据的部分的文本。

3.如权利要求2所述的方法，其中，至少部分地基于作品的文本上下文来生成用于音频数据的部分的文本包括至少部分地基于在作品的文本版本中使用的一个或多个语法规则来生成文本。

4.如权利要求2所述的方法，其中，至少部分地基于作品的文本上下文来生成用于音频数据的部分的文本包括：基于哪些词在作品的文本版本或其子集中，来限制所述部分能被转换到哪些词。

5.如权利要求4所述的方法，其中基于哪些词在作品的文本版本中来限制所述部分能被转换到哪些词包括：对于音频数据的给定部分，标识作品的文本版本中对应于所述给定部分的子节，并将词限制到仅在作品的文本版本的子节中的那些词。

6.如权利要求5所述的方法，其中：

标识作品的文本版本的子节包括保持作品的文本版本中的当前文本位置，该当前文本位置对应于音频数据中语音到文本分析的当前音频位置；并且

作品的文本版本的子节是与当前文本位置相关联的节。

7.如权利要求1至6中任一项所述的方法，其中，所述部分包括与单独词相对应的部分，并且所述映射将与单独词相对应的部分的位置映射到作品的文本版本中的单独词。

8.如权利要求1至6中任一项所述的方法，其中，所述部分包括与单独句子相对应的部分，并且所述映射将与单独句子相对应的部分的位置映射到作品的文本版本中的单独句子。

9.如权利要求1至6中任一项所述的方法，其中，所述部分包括与固定数据量相对应的部分，并且所述映射将与固定数据量相对应的部分的位置映射到作品的文本版本中的对应位置。

10.如权利要求1至9中任一项所述的方法，其中，生成映射包括：(1)在音频数据中嵌入锚点；(2)在作品的文本版本中嵌入锚点；或者(3)在媒体覆盖中存储所述映射，该映射与作品的文本版本或音频数据相关联地存储。

11.如权利要求1至10中任一项所述的方法，其中，多个文本位置中的一个或多个文本位置中的每一个指示作品的文本版本中的相对位置。

12.如权利要求1至10中任一项所述的方法，其中，多个文本位置中的一个文本位置指示作品的文本版本中的相对位置，并且多个文本位置中的另一文本位置指示对于所述相对位置的绝对位置。

13.如权利要求1至10中任一项所述的方法，其中，多个文本位置中的一个或多个文本位置中的每一个指示作品的文本版本中的锚点。

14.一种电子设备，包括：

用于接收反映存在文本版本的作品的音频版本的音频数据的装置；

用于对音频数据执行语音到文本分析以生成用于音频数据的部分的文本的装置；以及

用于基于所生成的用于音频数据的部分的文本，生成音频数据中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射的装置。

15.如权利要求14所述的电子设备，其中，所述用于生成用于音频数据的部分的文本的装置包括：用于至少部分地基于作品的文本上下文而生成用于音频数据的部分的文本的装置。

16.如权利要求14至15中任一项所述的电子设备，其中，所述用于生成映射的装置包括(1)用于在音频数据中嵌入锚点的装置；(2)用于在作品的文本版本中嵌入锚点的装置；或者(3)用于在媒体覆盖中存储所述映射的装置，该映射与作品的文本版本或音频数据相关联地存储。

17.一种电子设备，包括：

音频数据接收单元，其被配置以接收反映存在文本版本的作品的音频版本的音频数据；以及

处理单元，其耦接至所述音频数据接收单元，该处理单元被配置以：

对音频数据执行语音到文本分析，以生成用于音频数据的部分的文本；并且

基于所生成的用于音频数据的部分的文本，来生成音频数据中的多个音频位置与作品的文本版本中的对应多个文本位置之间的映射。

18.如权利要求17所述的电子设备，其中，生成用于音频数据的部分的文本包括：至少部分地基于作品的文本上下文而生成用于音频数据的部分的文本。

19.如权利要求17至18中任一项所述的电子设备，其中，生成映射包括：(1)在音频数据中嵌入锚点；(2)在作品的文本版本中嵌入锚点；或者(3)在媒体覆盖中存储所述映射，该映射与作品的文本版本或音频数据相关联地存储。