CN104299631A

CN104299631A - 电子媒体内容的同步声道的传送

Info

Publication number: CN104299631A
Application number: CN201410452111.6A
Authority: CN
Inventors: P·C·卡梅伦; M·S·卡梅伦; C·A·威尔森; M·A·布尔
Original assignee: Booktrack Holdings Ltd
Current assignee: Booktrack Holdings Ltd
Priority date: 2013-07-17
Filing date: 2014-07-17
Publication date: 2015-01-21
Also published as: EP2827333A2; US9836271B2; EP2827333A3; US20180052656A1; US20150025663A1

Abstract

本发明提供了一种电子媒体内容的同步声道的传送。用于将声道从服务器流传送到电子媒体内容的读者的远程用户设备的方法和系统。该声道由多个音频区域定义。每个音频区域由以下各项定义：用于在该音频区域中回放的音频轨道、电子媒体内容中的对应于要开始音频区域的回放的起始位置、以及电子媒体内容中的对应于要终止音频区域的回放的停止位置。该声道的流传送是基于由该远程用户设备生成的控制数据的。

Description

电子媒体内容的同步声道的传送

技术领域

本发明涉及用于电子媒体内容的同步声道的传送的系统和方法，该电子媒体内容例如是但不限于仅文本，或包含结合图像、视频或动画呈现的文本的多媒体内容。该声道的回放或传送与用户的个别的阅读速度同步。

背景技术

为了增强阅读体验，已提出了在用户阅读文本(例如电子书)的同时向用户生成并播放与该本文的内容有关的音频声道的各种系统。这些系统中的一些旨在将该声道的回放与用户的阅读速度同步。

在本申请人的共同未决国际PCT专利申请公开WO2013/015694中描述了一个这样的系统，其全部内容通过引用合并于此。在该系统中，生成电子文本(例如电子书)的声道，该声道包含被配置为在用户阅读电子文本时同时和/或按顺序播放的不同类型的音频轨道。该声道的回放与用户阅读速度同步。该声道可包括不同音频类型的组合，不同音频类型包括环境噪声、声音效果和背景音乐，被配置为在用户阅读电子文本的特定部分时以同步方式在电子文本的特定点或特定部分上回放。WO2013/015694中的声道包含多个音频区域，这多个音频区域被指定为在电子文本的指定文本部分期间回放。每个音频区域包括音频数据，该音频数据定义要回放的音频轨道、电子文本中的要开始回放该音频区域的起始位置、以及电子文本中的要终止回放该音频区域的停止位置。在所描述的一个实施例中，基于单词的数量对电子文本进行索引，并且音频区域的起始位置和停止位置与起始单词和停止单词有关。

WO2013/015694描述了用于显示电子文本并且控制关联的声道的回放的多种用户回放系统。用户回放系统可在各种用户硬件设备上实现，各种用户硬件设备包括便携式消费电子设备(例如智能电话、平板计算机和专用的电子阅读器设备)或个人计算机(无论是台式计算机还是膝上型计算机)。包括所有音频轨道的声道数据文件在回放可开始之前预先全部下载并本地存储在用户设备上。在一些实施例中，声道和音频轨道文件与电子文本文件合并为单个多媒体数据文件以用于下载和回放。用户回放系统处理本地存储的下载文件，并且根据估计电子文本中的用户阅读位置的阅读位置计数器来协调音频的回放。该用户回放系统配置利用硬件设备的大量的处理和存储器资源来传送同步声道。特别地，声道数据文件和音频轨道文件在尺寸上可能较大并且可占据硬件设备上的大量的本地存储器，以及这限制了用户存储用于其电子书的声道库的能力。如果通过用户的移动或其他订购的数据连接来下载大文件，则将这些大文件下载到设备(特别是移动设备)上的成本还可能较高。另外，用户回放系统使用处理资源来确定当前阅读位置，并且随后以同步方式检索并协调该音频轨道文件的回放。

在该说明书中，已经引用了专利说明书、其他外部文档、或其他信息源，这在总体上是用于提供讨论本发明的特征的上下文的目的。除非另外地特别声明，对这样的外部文档的引用不应被解释为承认这样的文档或这样的信息源在任何管辖范围中是现有技术、或形成本领域部分公知常识的一部分。

本发明的目标是提供一种用于传送电子媒体内容的同步声道的改进的系统，或至少将有用的选择提供给公众。

发明内容

在第一方面，本发明总体上包括一种将编译声道流传送到电子媒体内容的读者的远程用户设备的方法，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述方法包括：

通过网络从远程用户设备接收指示用户的阅读速度的控制数据；以及

基于所接收到的控制数据通过所述网络将编译声道流传送到所述用户设备。

在第一形式中，所述编译声道为预编译声道并且选自已经以不同的阅读速度预编译的预编译声道的范围。优选地，所述方法还包括：选择具有与指示用户的阅读速度的控制数据最接近地匹配的关联阅读速度的用于流传送的预编译声道。

在第二形式中，所述编译声道为实时编译声道，并且所述方法还包括：基于表示用户的阅读速度的控制数据实时地编译所述声道。优选地，所述声道被渐进地编译，并且所述方法包括：在剩余部分被编译的同时，流传送所述声道的编译部分。

优选地，所述方法还包括：从所述远程用户设备接收指示用户的期望开始阅读位置的控制数据，并且在所述编译声道中的与用户的期望开始阅读位置对应的数据位置处开始将所述编译声道流传送到所述用户设备。以示例的形式，所述数据位置可在所述编译声道的开始处或在所述编译声道内的偏移位置处。

优选地，所述方法还包括：从所述远程用户设备接收指示电子媒体内容中的用户的阅读位置到新的阅读位置的改变的控制数据，并且基于所接收到的控制数据修改所述编译声道的流传送。更优选地，修改所述编译声道的流传送包括：将所述编译声道的流传送调整到所述编译声道内的与新的阅读位置对应的新的数据位置。

优选地，所述方法还包括：从所述远程用户设备接收指示用户的阅读速度到新的用户阅读速度的改变的控制数据，并且基于所接收到的控制数据修改所述编译声道的流传送。

在第一形式中，所述编译声道为预编译声道，基于新的用户阅读速度修改所述编译声道的流传送包括：选择具有与新的用户阅读速度更接近地匹配的阅读速度的新的预编译声道，并且开始新的预编译声道的流传送。优选地，所述方法还包括：实现或启动用于将流传送从当前预编译声道转换到新选择的预编译声道的转换协议。在一个示例中，所述转换协议包括：从所述远程用户设备接收指示流传送的声道中的用户的当前回放位置的控制数据，并且在与用户的当前回放位置对应的数据位置处开始新选择的预编译声道的流传送。在另一示例中，所述转换协议包括：分析当前预编译声道的剩余未经流传送的部分并且基于转换标准识别转换位置，以及在与识别的转换位置对应的数据位置处开始新选择的预编译声道的流传送。

在第二形式中，所述编译声道为实时编译声道，基于新的用户阅读位置修改所述编译声道的流传送包括：以新的用户阅读速度开始所述声道的编译，并且开始新的编译声道的流传送。优选地，所述方法还包括：实现或启动用于将流传送从当前实时编译声道转换到新的实时编译声道的转换协议。在一个示例中，所述转换协议包括：从所述远程用户设备接收指示在流传送的声道中的用户的当前回放位置的控制数据，并且在与用户的当前回放位置对应的数据位置处开始新的实时编译声道的流传送。在另一示例中，所述转换协议包括：分析当前实时编译声道的剩余未经流传送的部分并且基于转换标准识别转换位置，以及在与识别的转换位置对应的数据位置处开始新的实时编译声道的流传送。

在一些实施例中，所述方法包括：将所述编译声道作为单个数字音频文件来流传送。在其他实施例中，所述方法包括：将所述编译声道作为多个数字音频文件来流传送，用于在所述远程用户设备处并发回放。例如，所述声道的音频区域可被分为不同的类型(例如音乐、环境或效果)并且所述编译声道可被提供为独立的音频文件，每个音频文件包括与一个类型关联的音频区域。

在第二方面，本发明总体上包括一种用于将编译声道流传送到电子媒体内容的读者的远程用户设备的声道服务器，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述声道服务器被配置为：

基于所接收到的控制数据通过网络将编译声道流传送到所述用户设备。

该声道服务器还可包括本发明第一方面提及的任一个或多个特征。

在第三方面，本发明总体上包括一种在电子媒体内容的读者的用户设备上播放编译声道的方法，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域回放的停止位置，所述方法包括：

通过网络向远程服务器发送指示用户的阅读速度的控制数据；

通过网络从所述远程服务器接收编译声道的输入流，所述编译声道具有与所发送的控制数据对应的关联阅读速度；

处理流传送的编译声道并且在所述用户设备上开始所述声道的回放。

优选地，所述方法还包括：将指示用户的期望开始阅读位置的控制数据发送到所述远程服务器，使得接收到的编译声道的流在所述编译声道内的对应于用户的期望开始阅读位置的数据位置处开始。

优选地，所述方法还包括：将输入的编译声道的流缓存到用户设备上的存储器中以准备用于回放。更优选地，所述方法包括：接收指示电子媒体内容内的新的阅读位置的用户输入，确定新的阅读位置是否对应于在编译声道的缓存部分内的回放位置，如果在缓存内，则将回放转换到缓存的编译声道中的新的回放位置，或者，如果在缓存之外，则将指示新的阅读位置的控制数据发送到所述远程服务器以在新的阅读位置启动更新的编译声道的流。所述方法还可包括：实现转换协议，以将回放转换到缓存内的新的回放位置或转换到更新的输入流。

优选地，所述方法还包括：接收指示阅读速度的改变的用户输入或检测阅读速度的改变，并且将指示更新的阅读速度的控制数据发送到所述远程服务器，从而以新的阅读速度启动更新的编译声道的流。所述方法还可包括：实现转换协议，以将回放转换到更新的输入流。

在第四方面，本发明总体上包括一种用于为电子媒体内容的读者播放编译声道的用户设备，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述用户设备包括：

用户接口，被配置为接收控制所述设备的用户输入；

音频输出系统，操作用于生成使用户听到的音频输出；以及

处理器，被配置为：

通过网络从所述远程服务器接收编译声道的输入流，所述编译声道具有与所发送的控制数据对应的关联阅读速度；以及

处理流传送的编译声道以响应于用户输入通过音频输出系统开始所述声道的回放。

在一个形式中，所述设备还包括：显示器，被配置为显示电子媒体内容，使得在同一用户设备上向用户提供听得见的声道和看得见的电子媒体内容两者。

在另一形式中，用户设备被配置为向用户提供听得见的声道，并且与第二独立的用户设备进行数据通信，第二独立的用户设备包含显示器并被配置为向用户提供看得见的电子媒体内容。以示例的形式，这一对用户设备之间的数据通信可为直接的或间接的，包括经由射频(RF)、近场通信(NFC)、蓝牙、WiFi或其他这样的无线通信介质或协议，或替选地，如果这一对用户设备经由电缆连接，则可提供有线通信介质。

用户设备还可包括本发明第三方面提及的任一个或多个特征。

在第五方面，本发明总体上包括一种将编译声道流传送到电子媒体内容的读者的远程用户设备的系统，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述系统包括：

用户设备，包括：

用户接口，被配置为接收控制所述设备的用户输入；

音频输出系统，操作用于生成使用户听到的音频输出；

数据通信模块，被配置为经由网络与远程服务器通信；以及

处理器，被配置为：

向所述远程服务器发送指示用户阅读速度的控制数据；

处理流传送的编译声道，以响应于用户输入通过音频输出系统开始所述声道的回放；以及

远程服务器，被配置为：

从所述用户设备接收指示用户阅读速度的控制数据；以及

基于接收到的控制数据将编译声道流传送到所述用户设备。

在第一实施例中，用户设备还包括被配置为显示电子媒体内容的显示器。在该实施例中，用户设备可被配置为运行第一应用和第二应用，第一应用控制电子媒体内容的检索、处理和显示，所述电子媒体内容来自存储在本地或可访问数据库中、或从在线或因特网或电子媒体内容服务器(例如电子书服务器、存储仓库或库)检索或流传送的数据文件，第二应用被配置为从所述远程服务器接收和处理流传送的编译声道，并通过用户设备的音频输出系统控制所述编译声道的回放。以示例的形式，第一应用可为浏览网页的因特网浏览器、用于浏览电子书的电子书阅读器软件、或任何其他文本、文档或电子媒体内容查看器。以示例的形式，第二应用可为定制的声道播放器或访问由声道服务器托管的声道播放器网站的因特网浏览器。

在第一形式中，第一应用和第二应用可独立操作而不需要数据的交换。在第二形式中，第一应用可向第二应用发送数据，或使得数据可用于能被第二应用检索到，所述数据指示用户阅读信息，包括例如用户当前阅读位置、阅读速度、指示翻页、滚动信息、任意阅读位置更新的数据、和/或指示标题或标识正被阅读的电子媒体内容的项的细节的数据。第一应用和第二应用之间的数据通信链路可经由应用编程接口(API)等。

在该实施例中，在用户设备上运行的第一应用被配置为响应于用户交互来显示电子媒体内容，而第二应用被配置为经由用户交互来控制电子媒体内容的编译声道的回放。以示例的形式，用户设备被配置为：

加载用于经由第一应用显示的电子媒体内容；

向远程服务器发送控制数据，以经由第二应用请求对应于电子媒体内容的流传送的编译声道；以及

接收并回放经由第二应用从所述远程服务器接收到的流传送的编译声道。

在第二实施例中，用户设备还包括被配置为显示电子媒体内容的显示器。在该实施例中，用户设备被配置为运行单个多媒体应用，单个多媒体应用被配置为经由用户交互来控制电子媒体内容的显示和流传送的编译声道的回放。

在第一形式中，所述多媒体应用可为因特网浏览器，因特网浏览器被配置为以网站服务器的形式接收并处理从远程服务器接收到的电子媒体内容和流传送的编译声道。在一个形式中，所述因特网浏览器可以以单个组合数据流接收电子媒体内容和流传送的编译声道，或替选地，在另一形式中，可以以独立的数据流发送电子媒体内容和流传送的编译声道。在一个形式中，电子媒体内容可整体下载以用于显示，或替选地，按照块来下载并显示，或流传送。声道流传送和/或回放功能可由因特网浏览器本身或浏览器的插件应用程序、或网页中的嵌入式应用来执行。

在第二形式中，该多媒体应用可为定制应用，定制应用被配置为检索并显示电子媒体内容，并且控制来自多媒体内容服务器的流传送编译声道的回放。在一个形式中，该多媒体内容服务器可以以电子书的形式提供电子媒体内容并且该流传送的编译声道对应于电子书的声道。在第一形式中，该电子书数据可以以独立的数据流来发送，无论是提前或按照块来下载，还是流传送(而该音频流可以以独立的数据流来发送)。在另一形式中，该电子书数据和音频流可以以组合的多媒体数据流来发送。

在第三实施例中，用户设备被配置为向用户提供听得见的声道，并与第二独立的用户设备进行数据通信，第二独立的用户设备包含显示器并被配置为向用户提供看得见的电子媒体内容。以示例的形式，这一对用户设备之间的数据通信可为直接的或间接的，包括经由射频(RF)、近场通信(NFC)、蓝牙、WiFi或其他这样的无线通信介质或协议，或替选地，如果这一对用户设备经由电缆连接，则可提供有线通信介质。

在该实施例中，第二独立的用户设备(文本显示设备)被配置为将数据发送到第一用户设备(音频回放设备)或使数据可用于能被第一用户设备(音频回放设备)检索到，所述数据指示用户阅读信息，包括例如用户当前阅读位置、阅读速度、指示翻页、滚动信息、任意阅读位置更新的数据、和/或指示标题或标识正被阅读的电子媒体内容的项的细节的数据。

该系统可具有本发明第一至第四方面提及的任一个或多个特征。

在第六方面，本发明总体上包括一种将未编译声道流传送到电子媒体内容的读者的远程用户设备的方法，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述方法包括：

通过网络向所述远程用户设备发送声道数据文件，所述声道数据文件包括定义所述声道的音频区域的数据；

通过网络从所述远程用户设备接收请求与所述声道的音频区域对应的一个或多个音频轨道文件的控制数据；以及

响应于所接收到的控制数据，通过网络向所述远程用户设备发送一个或多个音频轨道文件。

在一个形式中，所述方法包括：接收请求各个音频轨道文件的任意或周期性的控制数据，并在请求的情况下将请求的音频轨道文件逐一发送到所述远程用户设备。

在另一形式中，所述方法包括接收具有对与所述声道关联的所有音频轨道文件的单个请求的控制数据，并且逐一地、批量地或以其他形式将所有的音频轨道文件发送到所述远程用户设备。优选地，所述方法包括以音频轨道文件在声道内的回放的顺序来发送音频轨道文件。

在另一形式中，所述方法包括接收任意或周期性的控制数据，该控制数据包括对批量音频轨道文件的请求，并在请求的情况下将所请求的批量音频轨道文件发送到该远程用户设备。

在第七方面，本发明总体上包括用于将未编译声道流传送到电子媒体内容的读者的远程用户设备的声道服务器，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述声道服务器被配置为：

通过网络将声道数据文件发送到该远程用户设备，所述声道数据文件包括定义所述声道的音频区域的数据；

响应于所接收到的控制数据通过网络将一个或多个音频轨道文件发送到所述远程用户设备。

所述声道服务器还可包括本发明第六方面提及的任一个或多个特征。

在第八方面，本发明总体上包括一种在电子媒体内容的读者的用户设备上播放未编译声道的方法，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述方法包括：

通过网络向远程服务器发送请求用于回放的声道的控制数据；

响应于所发送的控制数据，从所述远程服务器接收声道数据文件，所述声道数据文件定义所述声道的音频区域；

处理所述声道数据文件，以基于指示所述电子媒体内容中的用户的阅读位置的用户阅读位置变量至少确定就要回放的下一音频区域；

向一个或多个音频轨道文件源发送至少请求与就要回放的下一音频区域对应的音频轨道文件的周期性或任意的控制数据；

从存储器中的所述一个或多个音频轨道文件源接收并且存储所请求的音频轨道文件；以及

基于所述用户阅读位置变量协调由所述声道数据文件中的与存储的音频轨道文件关联的音频区域定义的所述存储的音频轨道文件的回放。

在一个实施例中，所述声道数据文件包括指示一个或多个音频轨道文件源的源数据，从所述一个或多个音频轨道文件源请求每个音频轨道文件。在一些形式中，所述声道数据文件可定义单个音频轨道文件源，从所述单个音频轨道文件源请求所有的音频轨道文件。在其他形式中，所述声道数据文件可定义两个或更多个不同的音频轨道文件源，从所述两个或更多个不同的音频轨道文件源请求所述音频轨道文件。

在第一实施例中，所述音频轨道文件源为远程服务器，并且所述方法包括从所述远程服务器请求所有的音频轨道文件。

在第二实施例中，所述音频轨道文件源包括远程服务器和一个或多个其他音频轨道文件源，并且所述方法包括：基于所述声道数据文件中的源数据从所述远程服务器或所述一个或多个其他音频轨道文件源请求所述音频轨道文件。例如，一些音频轨道文件可来源于所述远程服务器，而其他音频轨道文件可来源于一个或多个其他音频轨道文件源。

在第三实施例中，所述一个或多个音频轨道文件源独立于所述远程服务器，并且所述方法包括：从一个或多个独立的音频轨道文件源请求所有的音频轨道文件。例如，所有的音频轨道文件来源于除所述远程服务器以外的地方。

在一个形式中，所述方法包括：向所述一个或多个音频轨道文件源发送逐一请求各个音频轨道文件的控制数据。

在另一形式中，所述方法包括：向所述一个或多个音频轨道文件源发送包括对与所述声道的音频区域关联的所有音频轨道文件的单个请求的控制数据。

在另一形式中，所述方法包括：向所述一个或多个音频轨道文件源发送请求批量的音频轨道文件的控制数据。

在另一形式中，所述方法包括：保持相对于所述用户阅读位置变量(对应于声道内的回放位置)的滑动下载窗口，并且向所述一个或多个音频轨道文件源发送请求与落在所述滑动下载窗口内的音频区域关联的所有音频轨道文件的控制数据，使得接收并且存储与所述滑动窗口中的音频区域关联的所有音频轨道文件，以准备用于将来基于所述用户阅读位置变量进行回放。所述滑动下载窗口的大小可以是可配置的。

在一个形式中，所述方法还包括：在与音频轨道文件对应的音频区域已完成回放之后，从存储器立即删除该音频轨道文件或在可配置的预定延迟之后删除该音频轨道文件。

在一个形式中，所述方法还包括：分析在所述声道的一个以上音频区域中重复的音频轨道文件的声道数据文件，并且在接收和存储时将这些音频轨道文件标记为重复的音频轨道。更优选地，所述方法包括：在存储器中保持每个重复的音频轨道，直到与所述音频轨道关联的最后的音频区域已完成了回放为止。

在第九方面，本发明总体上包括一种用于为电子媒体内容的读者播放未编译声道的用户设备，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述用户设备包括：

用户接口，被配置为接收控制所述设备的用户输入；

音频输出系统，操作用于生成使用户听到的音频输出；以及

处理器，被配置为：

从所述一个或多个音频轨道文件源接收所请求的音频轨道文件并将其存储在所述用户设备上的存储器中；以及

在一个形式中，所述设备还包括：显示器，被配置为显示电子媒体内容，使得在同一用户设备上向用户提供听得见的声道和看得见的电子媒体内容。

在另一形式中，用户设备被配置为向用户提供听得见的声道，并且与第二独立的用户设备进行数据通信，第二独立的用户设备包括显示器并被配置为向用户提供看得见的电子媒体内容。以示例的形式，这一对用户设备之间的数据通信可为直接的或间接的，包括经由射频(RF)、近场通信(NFC)、蓝牙、WiFi或其他这样的无线通信介质或协议，或替选地，如果这一对用户设备经由电缆连接，则可提供有线通信介质。

用户设备还可包括本发明第八方面提及的任一个或多个特征。

在第十方面，本发明总体上包括一种用于将未编译声道流传送到电子媒体内容的读者的远程用户设备的系统，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述系统包括：

用户设备，包含：

用户接口，被配置为接收控制所述设备的用户输入；

音频输出系统，操作用于生成使用户听到的音频输出；

数据通信模块，被配置为经由网络与远程服务器通信；以及

处理器，被配置为：

基于所述用户阅读位置变量协调由所述声道数据文件中的与存储的音频轨道文件关联的音频区域定义的所述存储的音频轨道文件的回放；以及

远程服务器，被配置为：

响应于来自用户设备的控制数据通过网络将所述声道数据文件发送到用户设备；

在第一实施例中，用户设备还包括被配置为显示电子媒体内容的显示器。在该实施例中，用户设备可被配置为运行第一应用和第二应用，第一应用控制电子媒体内容的检索、处理和显示，所述电子媒体内容来自存储在本地或可访问数据库上、或从在线或因特网或电子媒体内容服务器(例如电子书服务器、存储仓库或库)检索或流传送的数据文件，第二应用被配置为接收并处理来自所述远程服务器的流传送的未编译声道，并通过用户设备的音频输出系统控制所述编译声道的回放。以示例的形式，第一应用可为浏览网页的因特网浏览器、用于浏览电子书的电子阅读器软件、或任何其他文本、文档或电子媒体内容查看器。以示例的形式，第二应用可为定制的声道播放器或访问由声道服务器托管的声道播放器网站的因特网浏览器。

在第一形式中，第一应用和第二应用可独立操作，而不需要数据的交换。在第二形式中，第一应用可向第二应用发送数据，或使数据可用于能被第二应用检索到，所述数据指示用户阅读信息，包括例如用户当前阅读位置、阅读速度，指示翻页、滚动信息、任意阅读位置更新的数据、和/或指示标题或标识正被阅读的电子媒体内容的项的细节的数据。第一应用和第二应用之间的数据通信链路可经由应用编程接口(API)等。

在该实施例中，在用户设备上运行的第一应用被配置为响应于用户交互来显示电子媒体内容，而第二应用被配置为经由用户交互来控制电子媒体内容的未编译声道的回放。以示例的形式，用户设备被配置为：

加载用于经由第一应用显示的电子媒体内容；

在第二实施例中，用户设备还包括被配置为显示电子媒体内容的显示器。在该实施例中，用户设备被配置为运行单个多媒体应用，单个多媒体应用被配置为经由用户交互来控制电子媒体内容的显示和流传送的未编译声道的回放。

该系统可具有本发明第五至第九方面提及的任一个或多个特征。

在另一方面，本发明总体上包括计算机可读介质，其上存储有计算机可读指令，所述计算机可读介质当在处理设备执行时，使处理设备执行本发明之前方面定义的任一个或多个方法。

定义

除非上下文另外建议，该说明书和权利要求中使用的术语“声道”意在表示在阅读电子媒体内容的同时用于回放的声道并且具有在WO2013/015694中描述的类型，该声道包括被配置为在电子媒体内容内的预定阅读位置或区域回放的多个音频区域，并且基于用户的估计的阅读位置和/或阅读速度将该声道的回放定时与该用户同步。

除非上下文另外建议，在说明书和权利要求中使用的词语“流传送”，“流”或“流传送的”意在表示以使得用户能够开始该声道的回放而不需要下载整个声道的任何形式将声道从远程服务器流传送到用户设备，无论该声道是以准备播放的编译声道的形式还是以未编译声道的形式，并且包括将数据流传送的任何合适的形式，例如声道的连续流传送，以批量、块、部分或片段发送该声道，并且无论流传送是由服务器、用户设备、还是其组合来控制。

除非上下文另外建议，在说明书和权利要求中使用的词语“编译声道”旨在表示以准备播放的数字音频文件的形式编译的声道，该声道以可配置的阅读速度来编译，以修改该声道的持续时间来适应具有不同阅读速度的读者，该编译声道可被编译、编码和/或压缩为用于由数字音频播放器或音频播放器软件回放的任何数字音频格式，并且包括实时编译音频文件或预编译音频文件。

除非上下文另外建议，在说明书和权利要求种使用的词语“未编译声道”旨在表示文件包形式的声道，包含定义该声道的多个音频区域的回放数据的声道数据文件和与每个音频区域关联的音频轨道文件，该未编译声道被配置为由声道播放器来回放，该声道播放器处理该声道数据文件，并且基于指示电子媒体内容内的用户阅读位置的数据、计数器或变量来协调音频区域的音频轨道文件的回放与用户阅读的同步。

除非上下文另外建议，在说明书和权利要求种使用的词语“用户设备”旨在表示任何形式的可编程电子硬件设备、平台或系统，包括但不限于，便携式或非便携式消费电子设备，例如智能电话、蜂窝电话、平板计算机、电子阅读器或电子书设备、膝上型计算机、笔记本、游戏机或控制台、智能电视、桌面计算机等。

除非上下文另外建议，在说明书和权利要求种使用的术语“网络”旨在表示任何数据网络、或数据通信通道、或网络或通道的组合，用户设备可通过网络发送和/或接收数据到另一设备，无论是远程服务器还是其他用户设备，包括但不限于，因特网、内联网或外联网、局域网(LAN)、和/或无线局域网(WLAN)，无论是通过有线介质还是无线介质还是其组合来访问。

除非上下文另外建议，在说明书和权利要求种使用的术语“服务器”旨在表示能够或被配置为通过网络将声道提供或流传送到用户设备的任何形式的电子服务器，无论是网站服务器、专用声道服务器、电子媒体内容服务器还是任何其他形式的服务器，无论是专用的服务器还是执行服务器功能的其他硬件系统或平台，并且服务器可被配置为服务或托管一个或多个客户端或用户设备，并且包括用户设备和服务器之间的任何形式的数据通信，无论是有线、无线还是其组合。

除非上下文另外建议，在说明书和权利要求种使用的词语“电子媒体内容”旨在表示包括电子文本的任何电子媒体内容，无论是单独的还是与静态或动画的图像或图形组合，该电子媒体内容具有能够被绘制在电子显示器上的任何格式或文件类型，并且包括但不限于，电子书籍或电子书、网页、数字视频、或幻灯片放映。

说明书和权利要求中使用的术语“包括”表示“至少部分地包括”。在解释该说明书和权利要求中的包括术语“包括”的每个表述时，也可呈现除了以该术语为开端的特征以外的特征。将以相同的方式来解释相关术语，例如“包含”。

如本文中使用的，术语“和/或”表示“和”或“或”、或两者。

如本文中使用的，名词之后的“(s)”表示该名词的复数形式和/或单数形式。

本发明包括前述内容，并且还设想下面仅给出示例的结构。

在如下描述中，给出了特定细节，以提供对实施例的全面理解。然而，本领域普通技术人员将会理解，该实施例可在没有这些具体细节的情况下实现。例如，软件模块、功能、电路等可被显示在框图中，以免用不必要的细节混淆该实施例。在其他情况下，可以不详细地显示已知的模块、结构和技术，以免混淆该实施例。

并且，应当注意，该实施例可被描述为处理，该处理被示出为流程图、流图、结构图或框图。尽管流程图可将操作描述为顺序处理，但多个操作可并行或并发地执行。此外，操作顺序可被重新排列。当处理的操作完成时，终止该处理。处理可对应于计算机程序中的方法、函数、过程、子例程、子程序等。当处理对应于函数时，处理的终止对应于函数到调用函数或主函数的返回。

附图说明

仅将以示例的形式并参考附图来描述本发明的实施例，其中：

图1为被配置用于在电子文本的阅读期间回放的文本和关联的声道的音频区域的一部分的示意性数据图示；

图2为除了示出本发明的被配置用于包括文本和图像的电子媒体内容的声道以外类似于图1的示意性数据图示；

图3A为根据本发明的第一实施例的声道传送系统的示意性图示，其中用户设备上的独立的应用基于来自远程服务器的音频流来控制电子媒体内容的显示和声道的回放；

图3B示出了根据本发明的第二实施例的声道传送系统的示意性图示，该系统采用单个多媒体应用以基于来自远程多媒体内容服务器的电子媒体内容和音频数据流来控制电子媒体内容的显示和声道的回放；

图4示出了根据本发明的第三实施例的声道传送系统的示意性图示，该系统采用进行数据通信的一对用户设备，一个用户设备控制电子媒体内容的显示，而另一用户设备基于来自远程服务器的音频数据流来控制声道的回放；

图5A为根据本发明的第一形式的声道传送系统的示意性图示，该系统将选择的预编译的声道音频文件通过音频流从声道服务器传送到远程用户设备，该声道选自以不同的阅读速度范围预编译的声道库；

图5B为示出与图5A的系统中的新阅读位置的重新同步的流程图；

图5C为示出用于图5A的系统的阅读速度的改变的转换协议的流程图；

图6为根据本发明的第二形式的声道传送系统的示意性图示，该系统通过音频流将实时的编译声道音频文件从声道服务器传送到远程设备；以及

图7为根据本发明的第三形式的声道传送系统的示意性图示，该系统将未编译声道通过音频流从声道服务器传送到远程用户设备。

具体实施方式

1、同步声道的概要

如前所述，该发明涉及在WO2013/015694中描述的类型的声道的传送。创建声道以增强用户对电子文本的项的阅读体验。

声道可应用于任何格式或文件类型的电子文本，包括但不限于与如下文件扩展名相关联的电子文本：aeh，djvu，epub，fb2，html，xhtml，azw，lit，prc，mobi，exe，pdb，txt，pdb，pdf，ps，rgo，pdb，tr2，tr3，wol，rtf，doc，docx，asc，lit，wri，odt，text，pwi，rtx，sdw，strings，utf8，utf16，wp*，wpw，wri，wtx，asc，csv，lwp，dtp，indd，pmd，ppp，pub，fm；以及任何类型的标记语言类型，包括但不限于SGML，HTML，XHTML，HTML5，XML和LaTex。电子文本可为任何电子媒体内容的形式，无论是仅包含文本还是与图像或图形组合的文本，无论是静态还是运动(例如视频或其他动画)。以示例的形式而非限制，电子媒体内容可为电子书、网页、漫画或任何其他电子媒体内容格式的形式。

声道针对电子媒体内容被定制，特别地针对电子文本的内容被定制，以增强电子文本的读者的阅读体验。声道可包括不同类型的音频轨道，并可被配置为在用户阅读电子文本时并发地播放、按顺序播放、或两者。声道的回放与用户阅读速度同步(例如每分钟单词、或滚动速度、或某些其他度量)。在一个示例中，电子文本可为小说或非小说书籍，而声道可包括不同音频类型的组合，包括环境噪声、声音效果和背景音乐，其可被配置为在用户阅读电子文本的特定部分时以同步方式在电子文本的特定点或特定部分上回放。

声道包括多个音频区域，多个音频区域被指定为在电子文本的指定的文本部分期间回放。每个音频区域包括定义要回放的音频轨道的音频数据和定义回放的期望特征的音频属性。音频数据指定电子文本中的要开始回放的音频区域的起始文本位置、以及要终止回放的音频区域的停止文本位置。在一个实施例中，电子文本被指定了基于电子文本中的单词或字符的数量的数字文本索引，而且该起始和停止文本位置分别由对应的起始和停止索引值来定义。在一个示例中，文本的索引基于电子文本中单词的数量，以使每个单词具有表示其在电子文本中的位置的唯一索引值。每个单词的索引值可对应于其在电子文本中的单词数量或单词计数。在该示例中，音频区域在表示针对该音频区域的电子文本中的选择的起始单词和停止单词的起始索引值和停止索引值之间进行回放。

当用户阅读电子文本时，保持阅读位置计数器或标识符，该阅读位置计数器或标识符对应于电子文本中的用户被估计为当前正在阅读的文本位置。阅读位置计数器以至少部分地基于用户阅读速度的速率递增或改变。该阅读位置计数器使得声道的音频区域的回放能够与用户阅读速度同步，从而当阅读位置计数器与音频区域的起始单词的起始索引值匹配时，触发该音频区域的回放，并且同样地，当阅读位置计数器与该音频区域的停止单词的停止索引值匹配时终止该音频区域的回放。

在替选的实施例中，与基于单词或字符的索引相比，可采用其他阅读位置参考方案。在其他实施例中，每个音频区域的起始位置和停止位置可由任何其他文档或文本位置参考方案或系统来定义。一个这样的示例为ePub规范片段标识符(CFI)。在这样的示例中，该音频区域中的起始位置和停止位置将由CFI参数或范围来定义，并且阅读位置变量将以CFI格式保存，该阅读位置变量基于用户阅读速度改变或递增，以当CFI值匹配该阅读位置变量时触发声道的音频区域的回放。

如果期望的话，声道包括多个音频区域并且两个或多个区域的回放可部分地或完全地重叠，以使两个或多个音频区域可并发地回放。声道被提供以用于回放的多个通道，并且重叠音频区域被指定了可用通道集合中的不同的通道，以允许并发地回放。这使得不同的音频轨道(例如声音效果、环境噪声或背景音乐)能够并发地播放并混合在一起以提供总体声道，这增强了用户对特定电子文本的阅读体验。通常，每个音频区域的音频数据包括音频类型，例如“音乐”、“环境”或“效果”。选择的音频类型旨在定义该音频区域的特征。例如，如果音频区域用于背景音乐，则选择的音频类型将为“音乐”。如果音频区域为声音效果，则“效果”音频类型被选择。如果音频区域旨在为环境声音或噪声，则“环境”音频类型被选择。

以示例的形式，图1示出了仅包括电子文本的电子媒体内容的一部分。图1还利用多个音频区域10的示意性表示来覆盖文本，这多个音频区域10被配置用于在该示意性表示中的电子文本的阅读期间回放，该音频区域10各自由在与其相关的文本部分下方延伸的横线或下划线来表示。该音频区域的每个横线或下划线的起始表示该音频区域的音频轨道将开始回放的起始位置，而结尾10表示电子文本中的该音频区域的音频轨道将停止回放的位置。每个音频区域可在单个单词或单词组、线、多个线或甚至页中延伸。如其所示，音频区域可重叠以便音频区域并发地回放。

参见图2，电子媒体内容可包括多媒体内容，该多媒体内容包括文本和图像，无论是静态还是运动。图2示出了这样的包括静态图像20的电子文本。对于这样的电子媒体内容，声道音频区域可具有对应于文本或图像的起始位置和停止位置。例如，音频区域可被配置为起始于特定单词，然后当用户被预期注视文本中所嵌入的特定图像时结束。替选地，音频区域可被配置为当用户被预期浏览特定的嵌入式图像时开始回放。应当理解，例如，对于基于图像的多媒体内容(例如漫画)，阅读位置标识符可标识用户被预期浏览的图像，并且阅读速度可为图像的滚动或扫描速度的形式，例如每秒或分钟的图像。

2、声道从远程服务器到用户设备的流传送

总体概要

本发明主要涉及同步声道通过网络从远程服务器到用户设备的流传送。声道可以以两个主要的替选形式进行流传送，即编译声道或未编译声道。在一个实施例中，单个用户设备被提供用于同时显示看得见的电子媒体内容并且接收用于听得见的回放的流传送的声道。在另一个实施例中，提供进行数据通信的一对独立的用户设备。一个用户设备提供看得见的电子媒体内容，而另一个用户设备接收用于听得见的回放的流传送的声道。设备之间的数据通信使得声道回放能够与电子媒体内容的显示同步。

在第一形式中，当作为编译声道进行流传送时，服务器流传送准备由任何合适的一般或定制的数字音频播放器软件回放的声道的编译数字音频文件，无论是独立应用还是另一应用的插件或函数。声道的单个数字音频文件可被流传送，或替选地，表示该声道的两个或多个音频文件(每个包括特定类型的声道的音频区域，例如“音乐”或“效果”或“环境”，或某些其他分类)可被流传送，以准备用于共同地并发回放从而重建整个声道。替选地，用户可禁用一个或多个音频文件的回放，以有效地使得一种或多种类型的音频区域在回放中静音。由服务器传送的声道的音频文件以配置的阅读速度编译，该配置的阅读速度可由用户选择以适应其各自的阅读速度，使得音频区域的回放定时对应于电子媒体内容中的预期阅读位置。

在第二形式中，当以未编译声道进行流传送时，服务器向用户设备流传送声道数据文件和与该声道的音频区域有关的音频轨道文件。用户设备包括定制的声道回放模块或功能，其被配置为处理声道数据文件并协调音频区域的音频轨道文件的回放与用户在电子媒体内容中的估计的或预期的阅读位置的同步。声道回放模块或功能可为独立应用或作为插件等与另一应用相集成。声道回放模块被配置为保持指示用户在电子媒体内容中的预期阅读位置的用户阅读位置变量，并基于该用户阅读位置变量触发声道数据文件中定义的音频区域的回放，以及可以类似于在WO2013/015694中描述的声道回放模块的方式进行操作。举例来说，如果声道的音频区域由上述与单词索引或计数有关的起始位置和停止位置来定义，则用户阅读位置变量可为与用户正在阅读的电子文本中的估计的单词对应的计数器。于是，该计数器可以以至少部分地基于表示用户阅读速度的可配置阅读速度变量的速率来递增。还可通过各种用户交互或用户输入将该计数器任意地或周期性地更新到用户的实际阅读位置，所述各种用户交互或用户输入包括翻页、滚动、任意阅读位置更新输入，例如用户在其正在阅读的当前单词上点击鼠标指针、或轻击(在触摸屏幕显示器的情况下)其正在阅读的当前单词、或用于更新用户阅读位置变量的其他这样的方式。

在上述两种流传送的情况下，对于编译声道和未编译声道，可以以与用户设备上的数据回放速率相同的数据传输速率来流传送声道，或者更优选地，可以以更高数据传输速率来流传送声道，以考虑例如由网络延迟、服务器或用户设备性能等引起的数据传输延迟或中断。当以比数据回放速率更高的数据传输速率进行流传送时，向用户设备提供缓存，以临时存储准备用于将来的回放的输入数据。缓存的大小可以是固定的，或者可以在流传送期间动态地改变。缓存大小可以是可配置的，并且可以由用户设备或服务器控制。如果期望的话，缓存大小可设为零，以有效地将数据传输速率限制为数据回放速率。可选地，该系统可被配置为基于服务器和用户设备之间的数据通道的带宽，改变传送到用户设备的声道的比特率或质量。

可独立于对应的电子媒体内容来流传送声道，或者可与对应的电子媒体内容相组合地流传送声道，并且在采用单个用户设备的实施例中，可以以独立的应用程序或组合的应用程序来控制电子媒体内容和声道的显示和回放，或者在采用进行数据通信的一对用户设备的实施例中，可以以在独立的设备上运行的独立的应用程序来控制电子媒体内容和声道的显示和回放。在一些形式中，用户可能已具有存储在用户设备上的电子媒体内容，并且在该电子媒体内容的阅读期间仅需要来自服务器的用于在该用户设备或独立的用户设备上回放的对应声道。参见图3A、图3B和图4，将描述这些不同系统配置的一些示例。

示例1-用户设备上的用于文本和声道的独立应用

图3A示出了系统配置的第一示例30，其中用户设备32运行用于控制电子媒体内容的显示和从声道服务器34接收到的同步声道的回放的独立应用。在该系统配置30中，用户设备32可包括第一应用36(电子媒体内容或文本应用)，第一应用36用于在用户设备的显示器38上检索、处理和显示来自存储在本地或可访问数据库上、或从在线或因特网或电子媒体内容服务器(例如电子书服务器、存储仓库或库)检索或流传送的数据文件的电子媒体内容。文本应用36可为任何形式的电子媒体内容查看器或编辑器。在一个示例中，文本应用可为用于显示电子书文件形式的电子媒体内容的电子阅读器软件。替选地，在另一示例中，文本应用可为浏览网页形式的电子媒体内容的因特网浏览器。

第二应用40(声道应用)操作用于接收、处理并回放表示通过网络42从远程声道服务器34接收到的电子媒体内容的同步声道的音频数据流。声道应用可为任何软件或应用程序，其能够经由控制数据42与声道服务器34交互并且能够从声道服务器34接收一个或多个音频流44，以及还能够处理输入的音频数据并通过用户设备32的音频输出系统46播放该声道。应当理解，音频输出46可为任何形式的音频变换器，包括集成或外部扬声器、头戴耳机、耳机等。

在第一形式中，文本应用36和声道应用40可独立操作而不交换数据。在第二形式中，应用36，40可经由数据通信通道或链路41(例如API或类似形式)相互发送数据或使数据相互可用。例如，文本应用36可将数据发送到声道应用40或使数据可用于能被声道应用40检索到，所述数据指示用户阅读信息，包括例如用户当前阅读位置、阅读速度、指示翻页、滚动信息、任意阅读位置更新的数据、和/或指示标题或标识所阅读的电子媒体内容的项的细节的数据。

在一个示例中，声道应用40可为定制的声道播放器应用，该定制的声道播放器应用被配置为仅用于访问来自远程声道服务器34的关联电子媒体内容的同步声道的目的。替选地，声道应用可为另一个主用户软件应用的附件或插件。在一个这样的示例中，声道应用可与因特网浏览器相集成，并且声道应用可为因特网浏览器的插件应用。在另一示例中，声道应用可为能够访问由声道服务器34托管的声道播放器网页或声道库的因特网浏览器。

现在将描述第一示例系统配置30的典型操作。首先，用户经由文本应用36加载用于显示的电子媒体内容。然后，用户运行声道应用40并且从声道服务器34选择对应于电子媒体内容的同步声道，或者该应用基于所加载的电子媒体内容自动从声道服务器34选择对应于电子媒体内容的同步声道。例如，用户可操作声道应用40以访问声道服务器的声道库35，该声道服务器显示不同的电子媒体内容的可用声道。声道库35表示存储在声道数据库37中的所有声道，该声道数据库37与声道服务器相集成、或可由声道服务器访问。例如，如果用户在文本应用36中显示电子书，则用户可经由声道应用40在该声道服务器上查找已针对该特定电子书定制或配置的一个或多个关联声道。响应于用户输入/交互，用户通过由声道应用40发送的控制数据42与该声道服务器交互。一旦选择了声道，服务器34可经由一个或多个音频数据流44向用户设备32流传送用于由声道应用40回放的声道。

编译声道流传送

如果服务器被配置为流传送编译声道，则可针对用户来配置用户阅读速度设置，并且用户阅读速度设置可存储在用户阅读信息模块31中。例如，可经由声道应用40以多种方式来配置用户阅读速度设置，并且经由控制数据42将用户阅读速度设置发送到服务器，包括：用户输入数值阅读速度，从列表或缩放比例中选择阅读速度，进行由声道服务器经由声道应用40提供的阅读速度测试，或者例如，可从存储在声道应用40或声道服务器34中的历史数据中提取用户阅读速度。一旦用户阅读速度设置被配置，服务器被配置为流传送与用户阅读速度设置对应的编译声道。如稍后将进一步解释的，编译声道可在流传送之前实时地被编译或被渐进式编译到特定阅读速度，或替选地，以不同的阅读速度范围预编译的声道的库在服务器中可获得并且与用户阅读速度设置最接近地匹配的声道可被选择(由服务器自动地或由用户人工地)以被流传送到用户设备。声道应用40将输入的音频数据流存储或缓存到存储器，并且用户在开始阅读时可经由声道应用启动声道的准备播放的音频文件的回放，或者可由声道应用40基于来自文本应用40的指示用户与电子媒体内容的交互的数据来自动地启动回放。

未编译声道

如果该服务器被配置为流传送未编译声道，则由服务器34响应于来自用户设备上的声道应用40的控制数据42，通过一个或多个音频数据流44将定义该音频区域的声道数据文件和音频轨道文件流传送到用户设备32。声道应用40将输入的音频数据流存储或缓存到存储器。如稍后将进一步解释的，可整体地发送声道数据文件，或以预定块或段发送声道数据文件。同样地，可按照回放的顺序逐一发送音频轨道文件，或者可按照对应于声道的预定块或段的批量发送音频轨道文件。用户利用任何先前讨论的技术在用户设备的声道应用40中配置阅读速度设置(人工地或自动地检测)。用户可在开始阅读时启动声道的回放，或者这可如上所述地自动进行，这使得声道应用能够处理声道数据文件并基于指示用户在电子媒体内容中的估计的或预期的阅读位置的用户阅读位置变量来触发对应于音频区域的音频轨道文件的协调回放，如先前讨论的。

示例2-用户设备上的用于文本和声道的单个应用

图3B示出了另一系统配置60的第二示例，其中用户设备32运行单个应用(多媒体应用)以控制电子媒体内容的显示和同步声道的回放，但是在其它方面类似于第一系统配置30。相同的参考数字表示附图中的相同的组件和功能。在该示例中，单个多媒体应用62被配置为运行在用户设备32上并控制电子媒体内容的显示和声道的回放、由第一系统配置30中的文本和声道应用36，40实现的功能。

在该系统配置60中，多媒体应用62可被配置为利用控制数据42与多媒体内容服务器64进行交互，以在与关于第一系统配置30描述的处理类似的处理中接收音频流44，该音频流44表示与在用户设备上观看的电子媒体内容同步的声道。

多媒体应用60可从本地存储的数据文件或存储在可访问数据库中的数据文件、或从在线或因特网或电子媒体内容服务器(例如电子书服务器、存储仓库或库)检索或流传送的数据文件获得电子媒体内容。在一个示例中，多媒体数据应用可通过电子媒体内容数据通道66完全下载、渐进式下载、或流传送来自多媒体内容服务器64的电子媒体内容。在这样的示例中，多媒体内容服务器64可包括电子媒体内容模块68，其被配置为控制通过网络43将电子媒体内容传送到用户设备。

在一个示例中，多媒体应用62可为定制软件应用程序，其被配置用于与多媒体内容服务器交互并且使得用户能够选择多媒体内容，多媒体内容包括来自多媒体内容服务器的分别用于显示和回放的电子媒体内容和关联的同步声道。举例来说，多媒体内容服务器可提供电子书的库70和针对该电子书定制的对应的同步声道。电子书数据可在电子媒体内容数据流66中发送到用户设备，并且声道可在音频数据流44中流传送到用户设备。替选地，电子媒体内容和音频数据流不需要是独立的，并且可合并到单个多媒体数据流。

在另一示例中，多媒体应用62可为因特网浏览器的形式。在这样的示例中，多媒体内容服务器可为网站服务器，其中电子媒体内容可为通过电子媒体内容数据流66下载到因特网浏览器的网页。同时，因特网浏览器可具有作为插件应用的声道播放器功能，或替选地，声道播放器功能可为网页内容内的嵌入式应用，其被配置为控制音频流流传送44和声道回放。

在流传送编译声道或未编译声道的上下文中，多媒体应用62的声道应用功能类似于上述第一系统配置30进行操作。由于多媒体应用60具有关于用户与电子媒体内容交互的固有知识，可基于用户交互/输入(例如翻页、滚动、任意阅读位置更新输入等)周期性地或任意地确定更新的用户阅读位置，以帮助协调编译声道或未编译声道的同步回放，如稍后将进一步解释的。

示例3-进行数据通信的一对用户设备

图4示出了另一系统配置80的第三示例，其中提供了一对用户设备82，84。第一用户设备84(音频回放设备)具有音频输出85并被配置为向用户提供听得见的声道，而第二用户设备82(文本显示设备)具有显示器83并被配置为向用户提供看得见的电子媒体内容。该第三系统配置80类似于图3A的第一系统配置30，不同之处在于文本应用36和声道应用40被分离，以在独立的用户设备上进行操作。相同的参考标记表示附图中的相同的组件和功能，将不再重复。

举例来说，这一对用户设备82，84之间的数据通信链路86可为直接的或间接的，包括经由射频(RF)、近场通信(NFC)、蓝牙、红外、WiFi或其他这样的无线通信介质或协议，或替选地，如果这一对用户设备经由电缆连接，则可提供有线通信介质。用户设备82，84之间的数据连接86与图3A的系统配置30中描述的数据通信通道41用作类似的目的。特别地，文本显示设备82可被配置为通过数据链路86将数据发送到音频回放设备84，或使得数据可用于能够被音频回放设备84检索到，所述数据指示用户阅读信息，包括例如用户当前阅读位置、阅读速度、指示翻页、滚动信息、任意阅读位置更新的数据、和/或指示标题或标识正被阅读的电子媒体内容的项的细节的数据。

用于在文本显示设备82上显示的电子媒体内容数据可存储在设备本地、或可访问数据库上，如所示出的，数据87可通过网络89从电子媒体内容服务器88下载、流传送或以其他形式进行检索。电子媒体内容服务器88可为电子书服务器、存储仓库或库、网站服务器的形式，或任何其他形式的电子媒体内容服务器，例如参考图3B中的系统配置60描述的具有电子媒体内容模块68和电子媒体内容库70的服务器，其中相同的参考标记表示相同的组件。

作为系统配置80的示例，文本显示设备82的形式可为电子阅读器设备、运行电子阅读器应用或其他文本应用的智能电话或平板计算机、能够运行文本应用36并在显示器83显示电子媒体内容的桌面计算机或任何其他电子设备。同样地，音频回放设备84的形式可为平板计算机、智能电话、计算机、专用的音频回放设备、或能够运行该声道回放应用40以生成音频输出85的听得见的回放的任何其他电子设备。用户可操作任何进行数据通信的任何一对这样的设备，以在一个设备82上浏览电子媒体内容，而经由另一设备84聆听同步声道。

用于电子媒体内容的服务器配置

如以上在各种系统配置30，60，80中所述的，在某些实施例中，电子媒体内容数据可从与该声道相同的服务器流传送、下载或以其他形式进行检索，或替选地，从独立的服务器(例如第三方服务器)传送、下载或以其他形式进行检索。特别地，在某些形式中，提供均提供该声道和电子媒体内容两者的多媒体服务器，并且在其他形式中，提供声道服务器并且提供电子媒体内容服务器。在独立的服务器的情况下，每个服务器可由同一实体或独立的实体拥有和操作。

现在将参考图5A-7描述声道传送系统的各种实施例或实现。特别地，将参考图5A-6描述流传送编译声道的示例实施例，并且将参考图7描述流传送未编译声道的示例实施例。这些实现可应用于图3A-4的系统配置中的任一个。在描述如图3A和/或图3B那样的单个用户设备系统配置时，应当理解，这可被调整或修改以在如针对图4的系统配置所描述的一对用户设备上操作。

3、预编译声道的流传送

概要

参见图5A，声道传送系统100的第一形式被配置为从声道服务器104向用户设备102流传送预编译声道。该声道服务器具有集成的或可访问的声道数据库106，该声道数据库106包括准备播放的预编译声道音频文件的范围，每一个均以不同的用户阅读速度来编译。声道服务器被配置为自动选择或用户可人工选择与用户阅读速度最接近地匹配的预编译声道音频文件，并通过网络108将其传送到用户设备102。

硬件

用户设备102可为任何可编程电子设备。通常，用户设备具有处理器110、存储器111、用户接口112(例如键盘、鼠标、触摸显示屏幕、控制按钮、语音激活、或类似物)、显示器或显示屏幕113(例如LED显示器或类似物)、用于通过网络108连接到声道服务器104的通信模块114和可经由集成或外部扬声器、头戴耳机、耳机或类似物将声音传送到用户的音频输出115。通信模块可通过网络经由任何有线或无线通信介质、或其组合与声道服务器相通信。例如，对于智能电话，该通信模块可为3G或4G蜂窝数据连接，或替选地，为与宽带路由器的WiFi连接。在个人计算机的上下文中，通信介质可为与局域网(LAN)的硬连线或无线连接。

系统操作

在操作中，用户设备可操作用于经由在参考图3A-4描述的用户设备上运行的声道应用或多媒体应用而访问来自声道服务器104的声道。如先前描述的，电子媒体内容可从声道服务器、独立的第三方服务器流传送，或替选地，在替选的配置中由用户设备本地加载。为清晰起见，描述将集中于声道流传送方面。

声道选择

用户可人工从声道服务器上的声道库选择电子媒体内容的声道，该声道服务器显示服务器可用的声道数据文件116。替选地，如果声道服务器还提供电子媒体内容，或如果从第三方服务器下载或存储的媒体内容是已知的，则可由该声道服务器自动选择电子媒体内容的声道数据文件。用户设备经由控制数据流118与该声道服务器交互。

于是，可针对用户来配置用户阅读速度设置。可通过控制数据流118将用户阅读速度设置从用户设备发送到声道服务器。替选地，声道服务器可基于来自先前交互的历史用户阅读速度信息，为用户存储用户阅读速度。

在一个形式中，声道服务器可包括声道选择器模块120，声道选择器模块120被配置为保持表示用户阅读速度的用户阅读速度变量。声道选择器模块被配置为在声道数据库中搜索与用户阅读速度变量最接近地匹配的预编译声道音频文件。特别地，声道数据库106包括针对声道库中的每个声道数据文件116以不同的用户阅读速度预编译的声道库。仅举例来说，声道数据库可包括已经以每分钟说出200个单词的阅读速度(wpm)、250wpm、300wpm、350wpm、400wpm等预编译的声道音频文件。这些预编译声道音频文件中的每一个将具有不同的持续时间，其对应于被编译的用户阅读速度。更快的阅读速度比更慢的阅读速度具有更短的持续时间音频文件。每个预编译声道音频文件122具有阅读速度标识符，阅读速度标识符表示被编译或产生的阅读速度。该阅读速度标识符可在该声道文件名中，嵌入或编码在关联的头文件或音频文件信息中，或还可存储在标识该预编译的阅读速度的数据或文件夹结构中。声道选择器120被配置为确定哪一个预编译声道音频文件122具有阅读速度标识符或以与用户阅读速度变量最接近地匹配的阅读速度被预编译。所选择的声道随后进入队列，用于经由声道服务器的音频流传送模块124流传送到用户设备。

在替选的形式中，用户可简单地查看数据库中的预编译声道音频文件并利用阅读速度标识符选择其希望接收的声道，而不在声道服务器中配置用户阅读速度变量。

声道流传送

一旦预编译声道音频文件122被选择，音频流传送模块124通过网络108向用户设备102开始音频数据流126上的预编译声道音频文件的流传送。音频流126可在预编译音频轨道的起始处或在预编译声道音频文件内的与电子媒体内容内的用户期望开始阅读位置对应的偏移位置处开始。在一个形式中，用户设备102被配置为向服务器104发送表示电子媒体内容中的用户期望开始阅读位置的控制数据118，使得输入的音频流在预编译的声道音频文件内的位置处开始。

在用户设备处，输入的音频流126被接收并临时存储在准备用于回放的存储器中的缓存中。缓存大小可由用户设备来配置，或替选地，由该声道服务器例如经由音频流中提供的头信息来配置。缓存大小可被配置或改变，以适应例如用户设备的处理和数据连接速度。如果缓存充满或达到完全容量，将控制数据118从用户设备发送到声道服务器，以暂停音频流的数据传输，直到当缓存中的容量变得可用时由用户设备重启。

当用户开始阅读电子媒体内容时，可通过音频输出经由声道应用或多媒体应用的声道播放器的直接控制来启动回放。举例来说，可经由用户与声道或多媒体应用的交互而触发声道回放，例如通过该声道或多媒体应用的图形用户接口(GUI)的播放按钮或类似物来操作生成阅读开始信号。同样地，用户可经由GUI中的暂停按钮或类似物暂停声道回放。替选地，声道回放的启动和暂停可间接地经由用户与该电子媒体内容的交互来自动控制，其可通知用户阅读开始或暂停。在这样的实施例中，声道播放器可为隐藏背景过程，不可由用户直接控制。

在一个形式中，缓存大小或范围相对于音频流内的当前回放位置是可配置的。可与用户设备能力以内的用户期望的大小一样小或一样大，每一个都具有折衷。小缓存或无缓存可导致较少的数据使用(在移动或宽带数据分配订阅的上下文中)，但是由于网络延迟和/或时延导致的中断或不连续的声道回放的可能性较高，并且没有或只有最小的能力来重新快速同步到新的阅读位置。更大的缓存提供连续声道回放的更高的可能性和更多的快速重新同步到新的阅读位置的能力，但是可能导致更高的数据使用。缓存从当前回放位置向前延伸，并可选地也从当前回放位置向后延伸，使得音频流的播放部分保留在存储器中达一定时间段。该缓存有效地为相对于由音频流内的声道的当前回放位置所确定的参考点的滑动缓存。

将声道重新同步到新的阅读位置

参见图5A和图5B，用户可操作用户设备以生成指示用户正在阅读的电子媒体内容中的新的用户阅读位置的数据，或者这可由用户设备基于用户交互自动检测。举例来说，用户可基于用户交互/输入指示新的阅读位置，例如翻页、滚动、任意阅读位置更新输入等。例如用户可跳转或跳到该电子媒体内容的新的页或部分，并从新的阅读位置开始阅读。

在检测到新的阅读位置130时，在用户设备上运行的声道应用或多媒体应用被配置为确定新的用户阅读位置是否在存储器131中的流传送的声道的缓存部分的范围内。

如果新的阅读位置在缓存范围132内，则预配置的或可配置的回放位置转换被启动133。可应用各种转换选项。在一个示例中，可实现突变式转换134，以使该声道回放突然跳过或跳转到新的回放位置并从新的位置继续回放。在另一示例中，可实现暂停转换135，从而使当前回放被暂停，并且该声道被提示用于在新的位置回放但在新的位置重新开始回放之前等待用户启动(例如播放按钮或类似物的激活)。在另一示例中，可实现渐进式转换136，其中当前声道回放位置可渐进式淡出，而新的声道回放位置渐进式淡入，类似于淡入淡出，或替选地，新的声道可仅在当前声道完全淡出时淡入。

如果新的阅读位置在缓存的音频流137之外，例如可能当用户跳过例如电子书的多个页或章时，在用户设备上运行的声道应用或多媒体应用可被配置为将指示新的用户阅读位置138的控制数据118发送到声道服务器，并且这可选地存储在服务器中的阅读位置模块109中。作为响应，通过暂停当前数据传输139并在对应于新的当前阅读位置的新的回放位置处重新开始预编译声道的数据传输，音频流传送模块重新设置音频流。在接收到新的音频流时，用户设备被配置为实现流转换协议140。可利用各种转换选项。在一个示例中，可实现突变式转换141，其中该声道回放在到达用户设备时立即跳转到新的音频流。在另一示例中，可执行暂停转换142，其中当前流的回放被暂停，缓存被清除，而新的音频流被缓存到用户设备，等待用户启动回放。在另一示例中，可实现渐进式转换143，其中当前音频流被渐进式淡出而新的声道渐进式淡入，类似于淡入淡出，或新的音频流可仅在当前音频流完全淡出时淡入，或两个流通过节拍/节奏/内容类型匹配，以使从旧的流到新的流的淡入淡出是无缝的。

改变阅读速度-转换协议

用户阅读速度可在阅读电子媒体内容期间增加或减小。经由用户从一定范围内选择新的阅读速度或输入新的数值阅读速度或其他指示阅读速度的改变的用户输入，用户设备上的声道应用或多媒体应用可接收用户阅读速度的改变的手动更新。替选地，控制电子媒体内容的显示和声道回放的多媒体应用可自动检测用户阅读速度的显著改变。

参见图5A和图5C，如果阅读速度的改变被检测到150，将指示新的阅读速度的控制数据118从用户设备发送到声道服务器。声道服务器被配置为确定当前选择的预编译声道音频文件是否应当转换到与新的用户阅读速度更接近地匹配的另一预编译声道音频文件。如果新的预编译声道音频文件被选择151用于流传送，则转换协议152由该声道服务器执行，以将回放转换到新的预编译声道音频文件。将进一步详细描述各种可能的转换协议的示例，用于在当前和新的用户阅读速度之间切换同步声道。应当理解，还可实现其他转换协议。

突变式转换

在一个示例中，转换协议可为突变式转换，如进一步参考步骤152A所描述的。在突变式转换协议中，在步骤154确定电子媒体内容中的用户的当前阅读位置。例如，这可经由从用户设备发送到声道服务器的控制数据118来确定。然后声道服务器开始对应于针对更新的阅读速度而选择的新的预编译声道音频文件的新的音频流156。新的预编译声道音频文件中的新的音频流的回放位置对应于在步骤154确定的用户当前阅读位置。在步骤156开始的新的音频流并行于旧阅读速度的当前音频流。在用户设备处，当接收新的输入的音频流时，用户设备清除缓存并且突变式地切换到新的音频流并在步骤158开始回放。最终，旧的音频流在160被服务器暂停。

渐进式转换

在另一示例中，声道服务器可实现渐进式转换协议，如参考步骤152B描述的。在渐进式转换协议中，步骤154、156和160与针对突变式转换152A实现的相同。主要区别为步骤162，其中用户设备实现了到新的输入的音频流的渐进式切换。例如，在接收到新的输入的音频流时，用户设备被配置为渐进式淡出旧的音频流，同时并发地淡入新的音频流。替选地，旧的音频流可在新的音频流开始淡入之前完全淡出。

定时转换协议

在另一示例中，声道服务器可实现定时转换协议，如将参考步骤152C描述的。在该定时转换协议中，声道服务器为了合适的转换位置对当前流中的预编译声道音频文件的剩余未经流传送(即与还没有从服务器传输到用户设备的音频文件部分有关的数据)部分进行分析。在一个示例中，声道服务器可对音频文件的未经流传送的部分进行信号处理分析，以确定静音或间隙或静默时间。替选地，服务器可分析包含预编译音频文件的音频区域的定时数据的对应声道数据文件，并可基于预设的转换参数或标准分析或计算下一合适的转换位置。举例来说，转换标准可指示仅有的合适的转换位置为声道中没有与效果和/或环境对应的音频区域的位置，或替选地，完全没有播放的音频区域的位置或通过匹配音频轨道的节拍、节奏、或内容类型的音频区域的位置。如果在指定的时间帧内没有可简单或快速符合的标准，则可根据声道的特征配置各种转换标准，包括没有转换或默认转换。上述转换分析在步骤164执行。一旦下一转换位置被确定，当到达与转换位置有关的音频数据166时，声道服务器被配置为将新的预编译音频文件切换到音频流数据传输中，以代替当前的音频文件。在用户设备处，利用不为用户所知的音频技术(例如淡入、淡出、音量和均衡器匹配及其他音频处理技术)来体验从以旧阅读速度的旧音频文件无缝转换到以更新的阅读速度的新的音频文件。

4、实时编译声道的流传送

概要

参见图6，声道传送系统200的第二形式被配置为将实时编译声道从声道服务器204流传送到用户设备102。在该系统配置200中，声道服务器包括声道数据文件库116和集成的或可访问的声道数据库206，声道数据库206包括与针对所有声道数据文件定义的音频区域关联的音频轨道文件。在该系统配置200中，声道服务器204被提供有实时声道编译器220，该实时声道编译器220被配置为处理所选声道的声道数据文件并且渐进式地编译或生成用于实时或按需向用户流传送的编译声道音频文件。根据与用户阅读速度对应的可配置的用户阅读速度设置来编译声道。

如将被解释的，第二形式声道传送系统200的操作基本类似于第一形式声道传送系统100，并且相同的参考标记表示附图中的相同的组件和功能。与第二形式系统200的主要区别是，根据选择的声道数据文件和与声道数据文件中定义的音频区域关联的音频轨道文件，针对配置的用户阅读速度来实时地编译或生成编译声道，不同于在第一形式系统100中被完全预编译的声道音频文件。另外，与声道选择、音频流传送、到新的阅读位置的重新同步、和用于改变阅读速度的转换协议有关的系统操作基本相似，如将进一步解释的。

实时编译和声道流传送

一旦声道被选择，用户设备将指示用户阅读速度和电子媒体内容内的期望开始阅读位置的控制数据218发送到声道服务器204。替选地，服务器204可从历史存储数据检索用户阅读速度设置。然后，实时声道编译器220开始编译或生成音频文件，该音频文件表示开始于期望阅读位置的声道并且具有与用户的配置的阅读速度设置对应的音频区域回放定时。声道服务器被配置为渐进式地开始经由音频流传送模块224将编译的声道的部分建立或生成的音频文件流传送到用户设备。特别地，可在声道编译器实时地将音频文件的剩余部分编译为定制的用户阅读速度设置的同时，同时地流传送声道的编译部分。

在一个实施例中，声道编译器可生成单个音频文件，在单个音频流326上将该单个音频文件发送到用户设备102。在替选的实施例中，声道编译器可生成表示声道的两个或多个独立的音频文件。例如，声道编译器可渐进式地生成包含所有的音乐音频区域的音乐音频文件、包含所有的声音效果音频区域的声音效果音频文件、以及包含所有的环境音频区域的环境音频文件。所有这些音频文件将具有相同的持续时间并可在用户设备处并发地回放以重建该声道，或者，音频文件的选择可并发地回放以创建修改的声道，其中仅特定类型的音频区域被听到，而其他音频区域静音。

可基于变量编译设置来配置或改变声道编译器320提前编译或生成声道超过传输到用户设备的声道的程度。例如，对于较快的读者，相比于较慢的读者，声道编译器可提前编译更多的用于流传送的音频文件。替选地，或附加地，来自用户设备的控制数据218可控制在传输到用户设备的当前部分之前编译的声道的量。例如，来自用户设备的控制数据218指示用户缓存满，可使得声道编译器暂停编译音频文件的任何剩余部分，直到接收到指示缓存有容量的进一步的控制数据为止。

声道回放和转换

在接收到实时编译音频文件的输入音频流时，用户设备将音频数据缓存到存储器中并且可开始和暂停回放，如先前参考第一形式系统100描述的。

关于转换到新的阅读位置，基本上应用关于第一形式系统100的与参考图5B描述的相同的操作顺序，仅做一些调整。特别地，如果新的阅读位置在缓存范围之外，在步骤139，如果新的回放位置在音频文件的被编译但未经流传送的部分中，则服务器可立即将音频流重置到新的回放位置，或替选地，如果新的回放位置超出来了已被编译内容，则声道编译器被配置为在新的位置重新开始声道的编译，然后重置音频流以传输声道的音频文件的新的编译部分。于是，可如参考图5B所描述地实现流转换协议140。

关于改变阅读速度，基本上应用关于第一形式系统100的与参考图5C描述的相同的操作顺序，仅做一些调整。当新的阅读速度被检测到150时，代替在第一形式系统100中声道服务器选择用于流传送的新的预编译声道151，第二形式200中的声道服务器被配置为启动该声道编译器220来开始编译以新的阅读速度配置的声道的新的音频文件。于是，可如参考图5C所描述地实现以新的阅读速度的用于声道的该新的音频文件的转换协议152。

5、未编译声道的流传送

概要

参见图7，第三形式的声道传送系统300被配置为将未编译声道从声道服务器304流传送到用户设备102。在该系统配置300中，声道服务器包括声道数据文件库和集成的或可访问的声道数据库306，该声道数据库306包括与针对所有声道数据文件定义的音频区域关联的音频轨道文件。在操作中，声道服务器被配置为通过一个或多个音频数据流向用户设备102流传送声道数据文件和音频轨道文件(相同的参考标记表示先前描述的相同的组件和功能)。向用户设备上的声道应用或多媒体应用提供声道播放器330，该声道播放器330被配置为处理声道数据文件，并基于指示电子媒体内容中的用户当前阅读位置的用户阅读位置变量来控制对应于定义的音频区域的音频轨道文件的定时回放。

声道流传送

用户可选择用于流传送的声道，或者，如果声道服务器知道由用户设备正浏览的电子媒体内容，例如在声道服务器具有提供与同步声道组合的电子媒体内容的电子媒体服务器的形式的配置中，则可由声道服务器自动选择用于流传送的声道。可经由控制数据318产生与声道服务器的该交互。

一旦用于流传送的声道被选择，首先在音频数据流326上将整个声道数据文件发送到用户设备。声道数据文件332随后由声道播放器处理。特别地，声道播放器包括音频轨道文件请求器模块331，该音频轨道文件请求器模块331控制与声道关联的音频轨道文件从声道服务器的渐进式下载。音频轨道文件请求器模块331将控制数据318发送到服务器的音频轨道文件调度器模块320，以请求需要的音频轨道文件。响应于这些请求，调度器模块320从声道数据库检索请求的音频轨道文件，并在音频数据流上将其发送到用户设备。声道播放器在存储器中存储准备回放的请求的音频轨道文件。

声道播放器包括阅读位置模块333，该阅读位置模块333保持指示电子媒体内容中的用户预期或估计的阅读位置的用户阅读位置变量(如先前描述的计数器)。该用户阅读位置变量以基于配置的用户阅读速度设置的速率递增或改变，并可基于用户交互/输入(例如翻页、滚动、任意阅读位置更新输入等)周期性地或任意地更新。阅读位置模块还被配置为接收指示用户开始阅读或暂停阅读的控制输入，并因此控制阅读位置变量(例如开始或暂停计数器)。

在第一形式中，请求器模块331基于用户阅读位置变量和下载的声道数据文件控制音频轨道文件的渐进式检索。在一个示例中，请求器模块处理声道数据文件，以基于用户阅读位置变量确定就要回放的每个下一个音频区域并请求服务器中的调度器模块320在音频数据流上将该下一个音频区域的音频轨道文件发送到用户设备以提前准备回放。这可针对每个音频区域逐一完成，或替选地，可基于用户阅读位置变量提前请求音频轨道文件的批量或块，以用于就要回放的下一批或块音频区域。在另一示例中，请求器模块可处理声道数据文件并保持相对于用户阅读位置变量的滑动下载窗口。特别地，滑动下载窗口可为从用户阅读位置变量延伸的可配置大小。请求器模块331可被配置为确保其已请求了与滑动下载窗口内开始的任何音频区域对应的所有音频轨道文件。窗口越大，在音频轨道文件的回放之前下载越多的音频轨道文件，并且这降低了由于网络延迟导致的声道回放中断的可能性。

在第二形式中，请求器模块331可被配置为按照与音频轨道文件关联的音频区域的回放的顺序逐一地从服务器下载与声道关联的所有音频轨道文件。

在第三形式中，声道可被划分为多个预定的段或部分，并且该信息可被嵌入在声道数据文件中。例如，在电子书的声道的上下文中，声道可被划分为对应于电子书的每章的段。在该形式中，请求器模块331被配置为在每段的回放之前完全下载用于该段的一批音频文件。可选地，请求器模块331还可被配置为在音频文件的第一下载段的并发回放期间提前下载用于一个或多个后续段的一批音频文件。

声道回放

声道播放器330包括回放模块334，该回放模块334被配置为处理声道数据文件，并且基于由阅读位置模块333保持的用户阅读位置变量来触发或提示与声道的定义的音频区域关联的音频轨道文件的回放。特别地，当阅读位置变量匹配针对音频区域定义的起始位置时，回放模块开始与该音频区域关联的音频轨道文件的回放，并且当阅读位置变量匹配针对音频区域定义的停止位置时，停止音频轨道文件的回放，如先前解释的方式。应当理解，当存在两个或多个重叠音频区域时，两个或多个音频轨道文件可并发地播放，并且每个音频区域可具有可依赖于或可不依赖于阅读速度的用于回放的其他关联属性，例如音量和移动镜头包络控制(panning envelope control)以及其他音频效果和属性，如WO2013/015694中所描述的。

清除和保留策略

在该实施例中，在用户跳回以重新播放声道的一部分的情况下，请求器模块331被配置为在音频轨道文件被播放之后或在可配置的预定时间段之后删除存储在存储器中的音频轨道文件。另外，请求器模块331被配置为处理声道数据文件，以确定定义相同音频轨道文件的任何音频区域。这样的重复音频轨道文件被标记以用于保持在用户设备的存储器中，直到播放了最后的音频区域为止。

从不同的源获取音频轨道文件

在上述示例中，请求器模块331被配置为从声道服务器304请求所有音频轨道文件。在替选的实施例，来自声道服务器304的声道数据文件可被配置为定义用于音频轨道文件中的至少一些或全部的一个或多个不同的源或服务器。在这样的实施例中，请求器模块331可从与任何其他一个或多个服务器或文件源或文件服务结合的声道服务器下载、流传送或获取音频轨道文件，无论是远离用户设备还是本地存储在用户设备上的音乐库或数据库，或替选地，可从与提供声道数据文件的声道服务器304不相同并且分离的一个或多个服务器或文件源或文件服务获取所有音频轨道文件。在一个示例中，用户设备可根据声道数据文件从声道服务器获取与效果和环境关联的音频区域的音频轨道文件的块，以及从不同的音乐服务器或存储在用户设备上的他们自己的音乐库或数据库获取音乐音频区域的音频轨道文件。在另一示例中，用户设备可根据声道数据文件从独立于声道服务器304的一个或多个源(例如文件服务器、可由用户设备访问或本地存储在用户设备上的库或数据库)获取声道的所有音频轨道文件。声道服务器304的替选的源可由用户或与声道服务器304的操作者不同的实体来操作。

6、总述

本发明的实施例可由硬件、软件、固件、中间件、微代码、或其任意组合来实现。当以软件、固件、中间件或微代码来实现时，执行需要的任务的程序代码或代码段可存储在机器可读介质(例如存储介质或其他存储器)中。处理器可执行需要的任务。代码段可表示过程、函数、子程序、程序、例程、子例程、模块、软件包、类，或指令、数据结构、或程序语句的任意组合。代码段可通过传递和/或接收信息、数据、自变量、参数、或存储器内容而耦合到另一代码段或硬件电路。信息、自变量、参数、数据等可经由任何合适的方式(包括存储器共享、消息传递、令牌传递、网络传输等)传递、转发、或传输。

在前文中，存储介质可表示用于存储数据的一个或多个设备，包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪速存储设备和/或用于存储信息的其它机器可读介质。术语“机器可读介质”和“计算机可读介质”包括但不限于，便携式或固定存储设备、光存储设备、和/或能够存储、包含或携带指令和/或数据的各种其他介质。

结合本文中公开的示例描述的各种说明性的逻辑块、模块、电路、元件、和/或组件可利用被设计为执行本文中描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑组件、离散的门或晶体管逻辑、离散的硬件组件、或其任意组合来实现或执行。通用处理器可为微处理器，但是替选地，处理器可为任何传统处理器、控制器、微控制器、电路、和/或状态机。处理器还可被实现为计算组件的组合，例如，DSP和微处理器的组合，多个微处理器，与DSP核结合的一个或多个微处理器，或任何其他这样的配置。

结合本文中公开的示例描述的方法或算法可直接以硬件、处理器可执行的软件模块、或两者的组合、以处理单元、编程指令或其他指示的形式来实现，并可包含在单个设备中或分布在多个设备上。软件模块可驻留在RAM存储器、闪速存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除磁盘、CD-ROM、或本领域已知的任何其他形式的存储介质中。存储介质可耦合到处理器，使得处理器可从存储介质读取信息并且将信息写入到存储介质中。替选地，存储介质可集成到处理器。

在不偏离本发明的情况下，附图中图示的一个或多个组件和功能可重新排列和/或组合为单个组件或以若干组件来实现。在不偏离本发明的情况下，还可增加额外的元件或组件。另外，本文描述的特征可以以软件、硬件、或其组合来实现。

在本发明的各个方面，本发明可以以计算机实现过程、机器(例如电子设备、或通用计算机或提供可执行计算机程序的平台的其他设备)、由这些机器执行的处理、或制品来实现。这样的制品可包括计算机程序产品或数字信息产品，其中计算机可读存储介质包含存储在其上的计算机程序指令或计算机可读数据，以及创建并使用这些制品的处理和机器。

本发明的前面的描述包括其优选的形式。可在不偏离由所附权利要求定义的本发明的范围的情况下对本发明进行修改。

Claims

1.一种将编译声道流传送到电子媒体内容的读者的远程用户设备的方法，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述方法包括：

2.根据权利要求1的方法，其中所述编译声道为预编译声道并且选自已经以不同的阅读速度预编译的预编译声道的范围。

3.根据权利要求2的方法，其中所述方法还包括：选择具有与指示用户的阅读速度的控制数据最接近地匹配的关联阅读速度的用于流传送的预编译声道。

4.根据权利要求1的方法，其中所述编译声道为实时编译声道，并且所述方法还包括：基于表示用户的阅读速度的控制数据实时地编译所述声道。

5.根据权利要求4的方法，其中所述声道被渐进地编译，并且所述方法包括：在剩余部分被编译的同时，流传送所述声道的编译部分。

6.根据前述权利要求中的任一项的方法，其中所述方法还包括：从所述远程用户设备接收指示用户的期望开始阅读位置的控制数据，并且在所述编译声道内的与用户的期望开始阅读位置对应的数据位置处开始将所述编译声道流传送到所述用户设备。

7.根据权利要求6的方法，其中所述数据位置在所述编译声道的开始处或在所述编译声道内的偏移位置处。

8.根据前述权利要求中的任一项的方法，其中所述方法还包括：从所述远程用户设备接收指示电子媒体内容中的用户的阅读位置到新的阅读位置的改变的控制数据，并且基于所接收到的控制数据修改所述编译声道的流传送。

9.根据权利要求8的方法，其中修改所述编译声道的流传送包括：将所述编译声道的流传送调整到所述编译声道内的与所述新的阅读位置对应的新的数据位置。

10.根据前述权利要求中的任一项的方法，其中所述方法还包括：从所述远程用户设备接收指示用户的阅读速度到新的用户阅读速度的改变的控制数据，并且基于所接收到的控制数据修改所述编译声道的流传送。

11.根据权利要求10的方法，其中所述编译声道为预编译声道，并且其中基于新的用户阅读速度修改所述编译声道的流传送包括：选择具有与新的用户阅读速度更接近地匹配的阅读速度的新的预编译声道，并且开始所述新的预编译声道的流传送。

12.根据权利要求11的方法，其中所述方法还包括：启动用于将流传送从当前预编译声道转换到新选择的预编译声道的转换协议。

13.根据权利要求12的方法，其中所述转换协议包括：从所述远程用户设备接收指示流传送的声道中的用户的当前回放位置的控制数据，并且在与用户的当前回放位置对应的数据位置处开始新选择的预编译声道的流传送。

14.根据权利要求12的方法，其中所述转换协议包括：分析当前预编译声道的剩余未经流传送的部分并且基于转换标准识别转换位置，以及在与识别的转换位置对应的数据位置处开始新选择的预编译声道的流传送。

15.根据权利要求的10方法，其中所述编译声道为实时编译声道，并且其中基于新的用户阅读位置修改所述编译声道的流传送包括：以新的用户阅读速度开始所述声道的编译，并且开始所述新的编译声道的流传送。

16.根据权利要求15的方法，其中所述方法还包括：启动用于将流传送从当前实时编译声道转换到新的实时编译声道的转换协议。

17.根据权利要求16的方法，其中所述转换协议包括：从所述远程用户设备接收指示在流传送的声道中的用户的当前回放位置的控制数据，并且在与用户的当前回放位置对应的数据位置处开始所述新的实时编译声道的流传送。

18.根据权利要求16的方法，其中所述转换协议包括：分析当前实时编译声道的剩余未经流传送的部分并且基于转换标准识别转换位置，以及在与识别的转换位置对应的数据位置处开始所述新的实时编译声道的流传送。

19.根据前述权利要求中的任一项的方法，其中所述方法包括：将所述编译声道作为单个数字音频文件来流传送。

20.根据权利要求1-18中的任一项的方法，其中所述方法包括：将所述编译声道作为多个数字音频文件来流传送，用于在所述远程用户设备处并发回放。

21.根据权利要求20的方法，其中所述声道的音频区域被分为不同的类型并且所述编译声道被提供为独立的音频文件，每个音频文件包括与一个类型关联的音频区域。

22.一种用于将编译声道流传送到电子媒体内容的读者的远程用户设备的声道服务器，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述声道服务器被配置为：

23.一种在电子媒体内容的读者的用户设备上播放编译声道的方法，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域回放的停止位置，所述方法包括：

24.一种用于在电子媒体内容的读者的用户设备上播放未编译声道的方法，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述方法包括：

25.根据权利要求24的方法，其中所述声道数据文件包括指示一个或多个音频轨道文件源的源数据，从所述一个或多个音频轨道文件源请求每个音频轨道文件。

26.根据权利要求25的方法，其中所述声道数据文件定义单个音频轨道文件源，从所述单个音频轨道文件源请求所有的音频轨道文件。

27.根据权利要求25的方法，其中所述声道数据文件定义两个或更多个不同的音频轨道文件源，从所述两个或更多个不同的音频轨道文件源请求所述音频轨道文件。

28.根据权利要求26的方法，其中所述音频轨道文件源为远程服务器，并且所述方法包括从所述远程服务器请求所有的音频轨道文件。

29.根据权利要求27的方法，其中所述音频轨道文件源包括远程服务器和一个或多个其他音频轨道文件源，并且所述方法包括：基于所述声道数据文件中的源数据从所述远程服务器或所述一个或多个其他音频轨道文件源请求所述音频轨道文件。

30.根据权利要求29的方法，其中一些音频轨道文件来源于所述远程服务器，而其他音频轨道文件来源于一个或多个其他音频轨道文件源。

31.根据权利要求26或27的方法，其中所述一个或多个音频轨道文件源独立于所述远程服务器，并且所述方法包括：从一个或多个独立的音频轨道文件源请求所有的音频轨道文件，使得所有的音频轨道文件来源于除所述远程服务器以外的地方。

32.根据权利要求24-31中的任一项的方法，其中所述方法包括：向所述一个或多个音频轨道文件源发送逐一请求各个音频轨道文件的控制数据。

33.根据权利要求24-31中的任一项的方法，其中所述方法包括：向所述一个或多个音频轨道文件源发送包括对与所述声道的音频区域关联的所有音频轨道文件的单个请求的控制数据。

34.根据权利要求24-31中的任一项的方法，其中所述方法还包括：向所述一个或多个音频轨道文件源发送请求批量的音频轨道文件的控制数据。

35.根据权利要求24-31中的任一项的方法，其中所述方法包括：保持相对于所述用户阅读位置变量的滑动下载窗口，并且向所述一个或多个音频轨道文件源发送请求与落在所述滑动下载窗口内的音频区域关联的所有音频轨道文件的控制数据，使得接收并且存储与所述滑动窗口中的音频区域关联的所有音频轨道文件，以准备用于将来基于所述用户阅读位置变量进行回放。

36.根据权利要求35的方法，其中所述滑动下载窗口的大小可配置。

37.根据权利要求24-36中的任一项的方法，其中所述方法还包括：在与音频轨道文件对应的音频区域已完成回放之后，从存储器立即删除该音频轨道文件或在可配置的预定延迟之后删除该音频轨道文件。

38.根据权利要求中24-36的任一项的方法，其中所述方法还包括：分析在所述声道的一个以上音频区域中重复的音频轨道文件的声道数据文件，并且在接收和存储时将这些音频轨道文件标记为重复的音频轨道，以及还在存储器中保持每个这样的重复的音频轨道，直到与所述音频轨道关联的最后的音频区域已完成了回放为止。

39.一种用于为电子媒体内容的读者播放未编译声道的用户设备，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述用户设备包括：

用户接口，被配置为接收控制所述设备的用户输入；

音频输出系统，操作用于生成使用户听到的音频输出；以及

处理器，被配置为：

40.一种将未编译声道流传送到电子媒体内容的读者的远程用户设备的方法，所述声道由多个音频区域定义，每个音频区域由以下各项定义：用于在所述音频区域中回放的音频轨道，所述电子媒体内容中的对应于要开始所述音频区域的回放的起始位置，以及所述电子媒体内容中的对应于要终止所述音频区域的回放的停止位置，所述方法包括：