CN102687182A

CN102687182A - 用于电子视觉作品的配音的动态音频重放

Info

Publication number: CN102687182A
Application number: CN2010800607993A
Authority: CN
Inventors: 威廉·拉塞尔·亨歇尔; 格雷厄姆·爱德华·柳斯
Original assignee: Dulcetta Inc
Current assignee: Dulcetta Inc
Priority date: 2009-11-10
Filing date: 2010-11-10
Publication date: 2012-09-19
Also published as: US20110195388A1; WO2011060106A1; EP2499626A1; US20130346838A1; US8527859B2; KR20120091325A; JP2013511214A

Abstract

一种电子书具有配音，读者可在阅读电子书的同时听配音。配音伴随并提高阅读体验，其中读者通常基于作为电子书一部分的故事或其它视觉媒体而在他们的头脑中形成图像。配音的重放与电子书的视觉显示同步。音频提示与文本中的不同点相关联，且这些提示基于用户与电子书的互动而与电子书的视觉显示同步地动态重放。动态重放包括编辑并播放音频提示，使得音频提示具有一持续时间，该持续时间是基于对电子书中与提示同步的部分的持续时间的预测。当系统开始播放音频提示时，系统预测下一个音频提示应该何时开始。播放当前提示达预测的持续时间，且在适当时间起始到下一个音频提示的转变。

Description

用于电子视觉作品的配音的动态音频重放

相关申请案的交叉参考

本申请案是根据35U.S.C.§119主张2009年11月10日申请的美国临时专利申请案第61/259,995号的优先权和权利的非临时申请案，其以引用的方式并入本文中。

技术领域

背景技术

电子书是一种主要包括文本但也可包含其它视觉媒体(例如图形和图像)的多媒体作品。虽然电子书中的文本可伴随有其它视觉媒体，但通常希望从头到尾阅读电子书，但未必一口气阅读完。

存在若干用于电子书的文件格式，其包含但不限于各种类型的标示语言文档类型(举例来说，SGML、HTML、XML、LaTex等等)，和其它数据文件类型，例如.pdf文件，纯文本文件等等。各种文件格式与电子书阅读器一起使用，电子书阅读器是例如来自Amazon.com的KINDLE阅读器。这种电子书阅读器通常为经设计成在平台上运行的计算机程序，平台是例如个人计算机、笔记本计算机、膝上型计算机、平板计算机、移动装置或用于阅读电子书的专用硬件系统(例如KINDLE阅读器)。

发明内容

一种电子书具有配音，读者可在阅读电子书的同时听配音。配音的目的是伴随并提高阅读体验，其中读者通常基于为电子书的部分的故事或其它视觉媒体而在他们的头脑中形成图像。配音的重放与电子书的视觉显示同步。

在读者阅读电子书的同时使配音的重放与电子书的视觉显示同步是一个挑战性问题。不同个人以不同速度阅读，且不同个人将在不同时间以不同速度阅读。电子书的部分的视觉显示的持续时间在从读者到读者的持续时间方面变化，且在不同时间点之间变化。换句话说，取决于用户与电子书的互动，电子书的部分的视觉显示的持续时间可变。然而，配音(一种时间相依媒体)的重放与此视觉显示同步。

为了以适用于多个读者的方式用配音提供良好的阅读体验，使音频提示与文本中的不同点相关联，且基于用户与电子书的互动而与电子书的视觉显示同步地动态重放这些提示。动态重放包括编辑并播放音频提示，使得音频提示具有一持续时间，所述持续时间是基于对电子书中提示与之同步的部分的持续时间的预测。当系统开始播放音频提示时，系统预测下一个音频提示应该何时开始。播放当前提示达预测的持续时间，且在适当时间起始到下一个音频提示的转变。

这种配音通常不只是任何音乐或声音；一些音乐和声音可分散读者注意力而非提高阅读体验。取而代之，配音包含经设计成在读者中所唤起的情感类似于由文本所唤起的那些情感的的音乐和声音。通常，当存在很少欢快的瞬时声音、无杂音且存在备用的有点催眠感觉的音乐时，用于电子书的配音受益。太快或太激烈的流派型音乐可分散注意力或难以阅读。

在本发明的各种方面中，本发明可体现于计算机实施过程、机器(例如电子装置，或通用计算机，或提供可供执行计算机程序的平台的其它装置)、由这些机器执行的过程或制造物品中。这些物品可包含计算机程序产品或数字信息产品(其中计算机可读存储媒体含有存储于其上的计算机程序指令或计算机可读数据)，和建立并使用这些制造物品的过程和机器。

因此，在一方面中，音频动态重放包括接收有关用户与电子视觉作品的部分的互动的数据。根据用户与电子视觉作品的互动而使待重放的与电子视觉作品的部分相关联的音频区段动态调整长度。在一个实施方案中，根据有关用户与电子视觉作品的部分的互动的接收数据来估计电子视觉作品的部分的视觉显示的持续时间。选择与电子视觉作品的部分相关联的音频的次混合序列，以便提供将匹配估计的持续时间的音频要素。此估计可使用阅读速度的历史记录而进行。

在另一方面中，与电子视觉作品的显示同步地播放配音。将电子视觉作品接收到存储器中，也将使电子视觉作品的部分与标签相关联的信息接收到存储器中。响应于用户互动而显示电子视觉作品的部分。存取具有标签的音频文件。根据与电子视觉作品的部分相关联的标签来选择待与电子视觉作品的部分相关联的音频文件。接收有关用户与电子视觉作品的部分的互动的数据，且根据用户互动来动态调整与电子视觉作品的那个特定部分相关联的音频重放的持续时间。

在另一方面中，产生用于电子视觉作品的配音。将电子视觉作品接收到存储器中。在存储器中处理电子视觉作品，使得用将与加标签的音频文件的特定部分相关联的标签来标记电子视觉作品的部分。然后存取具有适当标签的音频文件，且选择电子视觉作品的部分的目标音频文件并使目标音频文件相关联以建立并重放所得配音。电子视觉作品可包含文本且处理包含处理文本。标签可包含情感描述符。

在另一方面中，对于电子视觉作品的每一部分，提示列表包含情感描述符，其中情感描述符对应于也与音频数据相关联的情感描述符。

在另一方面中，音频提示包含用于音乐作品的多个次混合(被称作“符干”)的音频数据，其可被混合以提供指示符干可如何被重复并组合以建立由读者听到的最终结果的音频数据和信息。

在另一方面中，配音和其关联电子视觉作品的分配以使能够观看电子视觉作品的方式而进行，观看方式如同配音不可用的观看方式。在读者存取电子视觉作品之后，识别并阅读提示列表。作为背景任务，下载音频数据，同时与电子视觉作品的显示同步地播放配音中的第一提示。

其它方面在以下详细描述中予以阐明，且由本发明的这些不同方面的各种组合所提供。

附图说明

图1是具有动态音频播放器的电子书阅读器的数据流程图。

图2是图1的动态音频播放器的更多细节的数据流程图。

图3是提示列表的说明。

图4是音频提示文件的说明。

图5是当开启电子书时的设置过程的流程图。

图6是描述音频提示文件如何用于建立所需持续时间的音频数据的流程图。

图7是描述如何计算阅读速度的流程图。

图8是描述可如何为电子书自动产生配音的数据流程图。

图9是计算机系统的方块图。

具体实施方式

在以下描述中，给出特定细节以提供对实施例的透彻理解。然而，所属领域的技术人员将理解，可在不含这些特定细节的情况下实行实施例。举例来说，可在方块图中展示软件模块、函数、电路等等，以便不会以不必要的细节使实施例晦涩难懂。在其它情况下，可能不详细地展示熟知的模块、结构和技术，以便不会使实施例晦涩难懂。

此外，应注意，实施例可被描述为过程，其被描绘为流程图、结构图或方块图。虽然流程图可将操作描述为连续个过程，但许多操作可并行地或同时地执行。另外，可重新排列操作的次序。过程在其操作完成时终止。在计算机程序中，过程可对应于方法、函数、程序、子例程、子程序等等。当过程对应于函数时，其终止对应于函数的返回至调用函数或主函数。

下文所描述的系统和方法的方面可在任何类型的通用计算机系统或计算装置(包含但不限于桌上型计算机、膝上型计算机、笔记本计算机、平板计算机或移动装置)上是可操作的。术语“移动装置”包含但不限于无线装置、移动电话、移动通信装置、用户通信装置、个人数字助理、移动手持型计算机、膝上型计算机、电子书阅读器，和能够阅读电子内容的阅读装置，和/或通常由个人携带和/或具有某一形式的通信能力(举例来说，无线、红外线、近程无线电等等)的其它类型的移动装置。

图9是说明可与下文进一步详细地描述的系统和方法的一个或多个方面一起使用的计算机系统900的内部功能架构的方块图。如图9所示，计算机系统900可包含用于执行计算机可执行过程步骤的中央处理单元(CPU)914和与计算机总线916的接口。图9中也展示网络接口918、显示装置接口920、键盘或输入接口922、指向装置接口924、音频接口926、视频接口932和硬磁盘驱动器934或其它持久存储器。

如上文所描述，磁盘934可存储操作系统程序文件、应用程序文件、网页浏览器、和其它文件。这些文件中的一些可使用安装程序而存储在磁盘934上。举例来说，CPU914可执行安装程序的计算机可执行过程步骤，使得CPU 914可适当地执行应用程序。

随机存取主存储器(“RAM”)936也可对接到计算机总线916以向CPU 914提供对存储器的存取。当执行来自磁盘934的所存储的计算机可执行过程步骤时，CPU 914存储并执行在RAM 936外的过程步骤。待处理的步骤也可从这种存储器936或存储器934予以读取，且存储于这种存储器936或存储器934中。可提供只读存储器(“ROM”)938以存储不变指令序列，例如起动指令序列或用于操作键盘922的基本输入/输出操作系统(BIOS)序列。

电子书阅读器或用于提供电子书和其它多媒体作品的视觉显示的其它应用程序可在例如图9所描述的平台上实施。

在以下描述中，电子书和电子书阅读器被用作多媒体作品和可与配音的重放同步的对应观看器的种类的实例。其它种类的多媒体作品(其中作品的部分的视觉显示的持续时间取决于用户与作品的互动)也可使用此种类的同步。术语“电子书”意欲涵盖书籍、杂志、新闻通讯、报纸、期刊、地图、物品和主要为文本或伴随有图形或其它视觉媒体的文本的其它作品。

配音可与各种各样的电子视觉作品(包含电子书)中任何一者相关联。可使用的音乐或音频的类型也有可能取决于作品的类型。举例来说，对于小说作品，配音在目的上将类似于电影配音，即，为了支持故事——制造悬念、巩固爱情趣味，或达到大的高潮。对于儿童书籍，音乐可类似于用于卡通片的音乐，可能包含更多的声音效果，例如当翻页的时候。对于教科书，配音可包含用以加强知识保持的已知韵律和音调，例如每分钟约128或132节拍的材料和使用明显的模态音调。经设计以支持冥想的一些书籍可具有带有自然声音的配音、周围稀疏音乐、带有软音调的乐器等等。旅游书籍可带有源于所描述的位置的音乐和声音。对于杂志和报纸，不同章节或文章可具有不同配音和/或具有不同音乐风格。甚至阅读同一书页的不同段落可具有不同配音。广告商也可使其音频主题在这些作品的阅读期间播放。在这些状况下，可以类似于如何选择基于广告的文本以伴随其它材料的方式来选择配音。

特别地，现在参考图1，电子书110被输入到电子书阅读器112，电子书阅读器112向终端用户或读者提供电子书的视觉显示。电子书110是一个或多个至少含有文本且呈文件格式的计算机数据文件，所述文件格式经设计以使计算机程序能够读取、格式化和显示文本。电子书中存在各种文件格式，包含但不限于各种形式的标示语言文档类型(举例来说，SGML、HTML、XML、LaTex等等)，和其它文档类型，其实例包含但不限于EPUB、FictionBook、plucker、PalmDoc、zTxt、TCR、CHM、RTF、OEB、PDF、mobipocket、Calibre、Stanza和纯文本。一些文件格式是专有的且经设计以与专用电子书阅读器一起使用。本发明不限于任何特定文件格式。

电子书阅读器112可为任何经设计以在计算机平台上运行的计算机程序，计算机平台是例如上文结合图9所描述，其实例包含但不限于个人计算机、平板计算机、移动装置，或用于阅读电子书且接收并显示电子书110的内容的专用硬件系统。存在许多种商业或公开可购得的电子书阅读器，其实例包含但不限于来自Amazon.com的KINDLE阅读器、来自Barnes&Noble的Nook阅读器、Stanza阅读器和FBReader软件(一开源项目)。然而，本发明不限于任何特定电子书阅读器。

电子书阅读器112也输出指示用户与电子书阅读器112的互动的数据114，使得这些数据可由动态音频播放器116使用。商业或公共可得的电子书阅读器可根据本文中的描述而修改以提供这些输出。

有关用户与文本的互动的数据可呈各种各样的形式。举例来说，所阅读的书的识别符(例如ISBN、e-ISBN数字或散列码)，且可提供文本中的当前位置。通常，由电子书阅读器将当前位置追踪为所显示的电子书的当前“页”或部分。当此信息改变时，电子书阅读器可输出此信息。其它可有用的信息(如果由电子书阅读器112提供)包含但不限于所显示的文档的当前范围的字计数、用户何时已退出电子书阅读器应用程序的指示，和读者是否已暂停阅读或在暂停之后恢复阅读的指示。

在电子书阅读器与动态音频播放器之间所交换的信息和指令可通过应用程序设计接口(API)而实施，使得动态音频播放器可请求电子书阅读器提供状态信息或执行某一动作，或使得电子书阅读器可控制其它应用程序。动态音频播放器也可经程序设计以实施此API。API的实例实施方案包含但不限于两个接口，一个接口用于来自电子书阅读器应用程序的调用，且另一个接口用于至电子书阅读器应用程序的调用。

电子书阅读器可对动态音频播放器进行的实例调用包含：

“ebookOpenedwithUniqueID”——当应用程序开启电子书时由电子书阅读器调用此函数。此函数具有指定电子书的唯一识别符且电子书在之前是否已被开启的参数。响应于此信息，动态音频播放器设定当前提示。在电子书被开启的第一时间，当前位置将被设定为第一提示的开始。

“ebookClosed”——当应用程序关闭电子书时由电子书阅读器调用此函数。响应于此调用，动态音频播放器可释放存储器并重设内部数据。

“ebookRemoved”——当电子书阅读器已从其程序库移除电子书时调用此函数，以便也可移除配音和音频文件。

“displayPositionRangeChanged”——当电子书阅读器改变其显示(举例来说，归因于翻页、方位改变、字体改变等等)且提供新显示的作品范围的参数时调用此函数。响应于此调用，动态音频播放器为新显示的作品范围设置音频提示。

“readingResumed”——当在长时间不活动之后用户已恢复阅读时调用此函数，电子书阅读器通过在阅读已被确定为“暂停”之后从用户接收各种输入中的任一种来检测不活动周期。

“fetchSoundtrack”——由电子书阅读器调用此函数以命令动态音频播放器提取并输入用于具有指定唯一识别符(作为此函数的参数而提供)的电子书的配音文件或提示列表。

“audioVolume”——由电子书阅读器调用此函数以命令动态音频播放器设定音频重放的音量。

“getCueLists”——由电子书阅读器调用此函数以从动态音频播放器检索有关可用于当前开启的电子书的提示列表和群组的信息。举例来说，此函数也允许电子书阅读器将此信息呈现给读者。

“cueListEnabled”——由电子书阅读器调用此函数以命令动态音频播放器启用或停用特定提示列表，例如，替代性配音、声音效果、已记录的阅读器或文本/语音转换。

“audioIntensity”——由电子书阅读器调用此函数以命令动态音频播放器设定音频重放的强度，例如降低音频成分音量或使鼓符干(次混合)静音。

“audioPreloadDefault”——调用此函数以设定下载音频并为所有电子书保留在手头的默认时数。

“audioPreloadForEbook”——调用此函数以设定下载音频并为特定电子书保留的时数。

“downloadEnabled”——调用此函数以启用或停用音频下载。

动态音频播放器可对电子书阅读器进行的实例调用包含：

“readingPaused”——如果此函数在预期时间内尚未从电子书阅读器接收“displayedPositionRangeChanged”调用，那么由动态音频播放器调用此函数。从这个信息，由动态音频播放器假定用户不再阅读。在调用此函数之后，当用户再次开始阅读时，电子书阅读器应调用“readingResumed”函数。

“gotoPosition”——由动态音频播放器调用此函数以命令电子书阅读器在书中设定当前位置，通常在响应于所调用的“ebookOpendedAtPath”函数而开启电子书的第一时间的第一提示的开始点处。

“wordCountForRange”——由动态音频播放器调用此函数以命令电子书阅读器为电子书的指定范围提供大量的字，用于如下文更详细地所描述的调度播放列表并追踪阅读速度。

下文更详细地描述这些API调用的使用。

电子书110具有下文结合图3详细地所描述的关联提示列表118，其使文本的部分与音频提示120相关联。通常，用于唯一地识别电子书110的识别符用于通过将识别符嵌入到提示列表中或具有使书的识别符与提示列表118相关联的查找表或地图的形式而使提示列表118与书相关联。音频提示120是包含音频数据的计算机数据文件。通常，在读者阅读文本的部分的同时重放通过提示列表118而与文本的那个部分相关联的音频提示120。举例来说，文本的部分可由文本中的某一点表示，在这个点周围音频提示应开始播放，或文本的部分可由文本中的某一范围表示，在这个范围期间应播放音频提示。动态音频播放器116确定何时并如何停止播放一个音频提示且开始播放另一个音频提示。

动态音频播放器116接收有关用户与电子书阅读器112互动的数据114，以及提示120和提示列表118。如下文将更详细地描述，动态音频播放器116使用用户互动数据114和提示列表118以选择待播放的音频提示120，和何时并如何播放音频提示120，以提供输出音频信号122。

在配音的重放期间，动态音频播放器播放与当前阅读的文本的部分相关联的当前提示，且基于有关用户与文本的互动的数据而确定如何并何时转变下一个待播放的提示。如图2更详细地所示，动态音频播放器200因此使用当前提示204和下一个提示210以产生音频206。通过提示查找208使用有关用户互动的数据212和提示列表202来确定待播放的提示204和210。在动态音频播放器播放当前提示204的同时，动态音频播放器监视传入数据212以确定应何时播放下一个提示。当前提示204可能需要播放达比提示的实际持续时间更长或更短的时间。如下文更详细地所描述，动态音频播放器增长或缩短当前提示，以便配合用户阅读文本的关联部分所花费的时间量，且然后在用户达到与下一个提示相关联的文本的估计时间实施转变，例如交叉衰落。

现在参考图3，现在将更详细地描述图1中提示列表118的实例实施方案。音频提示(例如图1中的120和图2中的204、210)指派给文本的部分。此指派可使用使文本的部分与音频文件相关联的元标签信息文件而进行。与音频文件的关联可为直接的或间接的，且可被静态或动态定义。举例来说，文本的不同部分可被指派指示待与文本的那些部分相关联的音乐情感、心情或风格的不同字或其它标志。音频文件因而可与这些字或标志相关联。如下文更详细地所描述，可选择音频文件且使音频文件与文本静态相关联，或可在重放时间动态选择音频文件。或者，文本中的不同点可与音频文件直接相关联。

图3展示实例元标签信息文件。元标签信息文件是代表提示的数据对302的列表300。代表提示的每一对302包含对文本的参考304，例如对在文本文档内的标示语言要素、与文本文档开始的偏移或在文本文档内的范围的参考。对302也包含指定提示的数据306。此数据可为字或标志，例如情感标签，或此数据可为音频文件的指示，例如文件名称或任何其它可用于选择音频文件的数据。下文将更详细地描述作曲家或计算机程序可如何建立这些提示列表。

元标签信息文件可实施为是含有若干元数据文件的档案的文件。这些文件可呈Java描述语言对象记法(JSON)格式。元标签信息文件可包含含有有关配音的一般信息的声明文件，例如与配音相关联的电子书的唯一识别符、电子书的标题、计划版本(为了兼容性的目的，万一格式将来改变)，和档案中其它文件的列表，其中检查和用于完整性检查。除了声明文件之外，元标签信息文件也包含提示列表文件，其含有配音中可用的提示列表描述符列表。每一提示列表描述符包含显示名称、用于查找目的的唯一识别符和提示列表的可选群组名称。作为实例，可存在若干互斥主要提示列表，其仅对单一播放有意义。这些提示列表可能具有名为“主要”的群组名称，然而带有声音效果或“读给我听”提示列表能够同时播放这些提示列表，且因此将不利用群组名称。

元标签信息文件也包含含有全部提示列表的提示描述符列表的提示文件。每一提示描述符包含由制作者给予提示描述符的描述性名称。此描述符可使用为此目的的另一应用程序输入，且可包含例如提示文件名称的信息，其用于查找提示文件列表中的提示文件的位置，和在电子书中的内点和外点。

最后，元标签信息文件包含“提示文件”文件，其含有提示文件描述符列表。提示文件指定提示文件的网络位置。每一文件描述符包含由制作者给予提示文件且用作提示描述符中的提示文件名称、用于检索提示文件的统一资源定位符(URL)和提示文件的原始文件名称的描述性名称。

这种提示列表中所提到的音频提示(图1中的120)含有音频数据，其可存储为音频文件格式，例如AIFF、MP3、AAC、m4a或其它文件类型。现在参考图4，将描述音频提示文件的实例实施方案。音频提示文件400可包含多个“符干”(次混合)402，其中每一符干是为提示提供多部分音频混合的一部分的单独音频文件。这些符干的使用允许动态音频播放器从符干当中选择加以重复，以便增长提示的重放时间。音频提示文件也可包含有助于动态音频播放器修改音频提示被播放的持续时间的信息，例如循环标记404、栏位置406和推荐混合信息408。推荐混合信息包含用于组合音频符干的指令列表，其中每一指令指示待使用的符干和区段，和待应用任何音频效果处理。也可提供其它信息，例如指示意欲由指示流派、风格、乐器、情感、气氛、地点、时代的音频或数据所唤起的情感或心情的字或标志——被称作描述符410。也可包含甚至更多的额外信息，例如替代性关键字、提示音量、交叉衰落或淡入/淡出形状/强度和用于连续提示的推荐调和级数。

作为实例，音频提示文件可实施为含有呈JSON格式的元数据文件和的提示符干的一个或多个音频文件的档案。元数据文件含有与音频文件相关联的元数据的描述符，其包含栏位置、循环标记、推荐混合信息、emode(情感内容元标签)、音频动态控制元数据(动态范围压缩)、乐器、气氛和流派。音频文件可包含每一符干的数据压缩音频文件和高分辨率原始音频文件。保持每一符干的高分辨率版本会支援稍后使用音乐制作工具进行编辑。可制造不含原始音频文件的音频提示文件的副本以少量下载到电子书阅读器。提示文件含有每一符干的压缩音频文件，其是用于在终端用户应用程序中重放的文件。

可使用软件工具来建立提示文件，软件工具输入一组标准音频符干、添加描述符、循环点和推荐混合元信息作为分离的文本文件、最优化并压缩用于网络递送的音频，且输出可上传到数据库的单独封装文件。可使用各种分析技术来分析音频文件以定位区段、节拍、响度信息、衰落、循环点和链接。可使用描述符“流派、风格、乐器、情感、地点、时代”来选择提示，且在由读者使用提示在网络上递送提示。

提示列表和提示文件可被个别地加密并链接到它们在其中为配音的特定作品。可使用相同密钥以存取作品和其配音。因此，文件可束缚于特定作品或供存取作品的特定观看装置，且可使用与作品相关联的数字版权管理信息。

考虑到对提示列表、音频提示和可用于与电子书阅读器的互动，先前理解，现在将结合图5到7来更详细地描述动态音频播放器。

为了在读者第一次开启(500)书时起始重放，电子书阅读器调用502“ebookOpenedwithUqiqueID”函数，其指示书的唯一识别符及书过去是否已被开启。动态音频播放器接收504电子书的识别符，且下载或读取506所识别书的提示列表。电子书阅读器通过调用508“getCueList”函数而提示动态音频播放器注意有关提示列表的信息。动态音频播放器发送510提示列表，电子书阅读器将提示列表呈现给用户以选择512书的配音中的一者(如果存在一个以上配音)。可通过使用允许用户评定配音的客户反馈评定系统来提高这种选择，且当由系统请求选择配音时可将这些评定显示给用户。然后调用514“cueListEnable”函数以向动态音频播放器通知选定提示列表，动态音频播放器通过函数调用而接收516选定提示列表。调用518“fetchSoundtrack”函数以命令动态音频播放器提取520提示供重放。

在此设置过程完成之后，动态音频播放器具有开始提示和提示列表且具有当前提示以用于起始重放。大约在电子书阅读器显示电子书的此部分的时间可开始重放。动态播放器然后基于有关用户与书籍的互动的数据而确定下一个待播放的提示、何时播放所述提示和如何从当前提示转变到下一个提示。

动态音频播放器延长或缩短提示的音频符干文件的重放时间以配合估计的总提示持续时间。此估计的提示持续时间可以若干方式计算。实例实施方案使用阅读速度的估计，下文将更详细地描述阅读速度的估计的计算。当前提示持续时间是响应于描述用户与电子书阅读器的互动的数据而更新，例如在每一翻页时通过“displayPositionRangeChanged”调用函数而提供。

通常，通过自动循环音频符干文件的区段、改变个别符干混合且动态增加各种效果(例如混响、延迟和合唱)而修改提示的音频符干文件的重放时间。音频符干文件所特有的循环点和其它混合自动化数据存储于提示文件的元数据中。在提示文件中可存在若干不同循环点。可选择音频符干的区段，使得当循环并再混合时其提供最有效的且有趣的音乐终端用户体验。此过程避免了产生含有明显重复的音乐并最大化音乐内容以递送持续时间可为原始音频片段的持续时间的许多倍的音乐上愉悦的结果。当触发下一个提示时，传出音频与传入音频之间的转变也由相同过程所管理，其是通过使用提示文件元数据定义适当交叉衰落的风格和布置以产生无缝的音乐转变而进行。

作为实例，假定提示文件含有四个音频符干(旋律音轨、持续和弦或“垫”音轨、节奏敲击(通常为鼓)音轨和节奏和声音轨)，如果以单次播放，那么其将运行四分钟。进一步假定此记录具有三个相异区段A、B和C。提示文件中的元信息将包含：

1.如何从先前提示转变到所述提示。此包含转变风格(即，慢、中等或快淡入，或以混响尾部停止先前提示且从提示开始起动新提示)、音乐栏和节拍标记，使得交叉衰落在音节上无缝。

2.A、B和C区段中每一者的时间位置可循环。

3.提示制作者的关于四个符干可如何再混合的输入。举例来说，只使用区段A播放符干1、2和3，然后只使用区段A播放符干1、3和4，将混响添加到符干3，且使用区段B播放符干3，然后从区段B播放符干3和4等等。使用这些种类的乐器意味着典型的四分钟的音频片段可被延长到40分钟或更长而不含明显的重复。此外，每一混合对于用户是唯一的且在重放时间产生，因此更难复制未经授权的配音。

作为实例，现在参考图6，将更详细地描述此过程。考虑到提示和开始点，确定(600)直到播放下一个提示的持续时间。下文更详细地提供计算此持续时间的实例方式。考虑到持续时间，处理提示制作者的输入以产生所需持续时间的播放列表。换句话说，选择602再混合信息中的第一指令并添加到播放列表。如果在604处确定音频符干的此区段具有小于所需持续时间的持续时间，那么然后选择606下一个指令，且重复此过程直到完成608所需持续时间的列表。在提示结束时，使用下一个提示的元数据中的转变信息以选择610当前列表中的开始点以实施从当前提示到下一个提示的交叉衰落。

估计提示的持续时间的一种方式是估计读者的阅读速度(每分钟的字数)，且考虑到在提示中字数而确定读者大概需要花费多长时间完成阅读书的此部分。此估计可从读者的阅读速度信息的历史记录中计算得出。

当用户开始阅读书时，假定每分钟特定字数的初始阅读速度。此初始速度可从各种有关用户从阅读先前书的先前阅读速度的历史记录的数据中计算得出，其可由作者、流派、当天时间、位置并跨越全部书而组织。如果不存在先前的阅读历史记录，那么可使用其它用户如何阅读此标题的匿名的全部记录。如果不存在历史记录，那么可使用典型的每分钟400字。

现在参考图7，每当显示位置范围改变时就追踪用户的阅读速度，如由“displayedPositionRangeChanged”调用函数所指示。如果接收(700)此函数调用，那么随后检查702若干条件。这些条件包含但不限于全部要求：用户主动地阅读，即，不在阅读暂停状态；新显示位置范围大于先前的显示位置范围；新显示位置范围的开始触及到先前显示位置范围的结束；和字计数高于最小量(当前为150字)。自从最后改变以来的时间也应在易察觉的范围内，例如检查平均阅读速度的平均阅读速度的标准偏差在常规的预期变化量内。如果满足这些条件，那么记录704当前时间。计算并存储706自从对显示位置范围的最后改变以来的时间，以及先前显示位置范围的字计数。计算708对此区段的阅读速度。从所测量的阅读速度的历史数据，可计算平均阅读速度并用于估计提示持续时间。

用于计算对页p的阅读速度(每秒的字数)S_p的公式为：

S_{P} = \frac{W_{P}}{T_{P}}

其中W_p为页的字计数且T_p为阅读页所花费的时间(以秒为单位)。在一个实施方案中，用于平均阅读速度的统计为20周期指数移动平均值(EMA)，其消除速度中的波动，同时仍更重要地考虑当前页数速度。

计算EMA的公式是：

M₀=S₀

M_{p} = \frac{n - 1}{n + 1} \times M_{p - 1} + \frac{2}{n + 1} \times S_{p}

其中n是周期的数目，即20。

为了计算阅读速度中的变化量，遍及最后20个值，我们使用计算变化量的维尔福德方法：

初始化M₁=T_i和S₁=0

对于T的后续值，使用递推公式

M_{k} = M_{k - 1} + \frac{T_{k} - M_{k - 1}}{k}

S_k=S_k-1+(T_k-M_k-1)×(T_k-M_k)

对于≤k≤n，变化量的k^th估计为：

S^{2} = \frac{S_{k}}{k - 1}

此阅读速度信息可局部地存储于用户的电子书阅读器应用程序平台上。对于多个用户而言这种信息可被编译并以匿名方式存储于服务器上。应用程序可查找阅读速度信息统计以确定其它人是如何快速地阅读作品或作品的部分。

可使用代替阅读速度或除了阅读速度之外的其它类型的用户互动以控制重放。

在一个实施方案中，有关用户与电子书的互动的数据指示读者已经从书中的某一点开始阅读。这经常发生，读者通常不会一口气从开始到结束阅读书。在一些状况下，当读者开始从书中某一点开始阅读时，音频位准或那一点处配音中音频的“刺激”的其它位准可能不适当。即，音频可实际上在那一点处转移注意力。动态音频播放器可使用读者已开始从书中的某一位置开始阅读的指示作为一种机会，从已为包含当前阅读位置的书的部分中选择的音频提示中选择替代性音频提示。

作为另一实例，读者可跳跃地从章节到章节来阅读书。其它多媒体作品可鼓励这种阅读方式。在这种状况下，当起始所播放的作品的区段的显示时，播放与那个区段相关联的音频提示。可执行从先前显示区段的音频到新显示区段的音频的简短交叉衰落。在一些应用(其中作品的性质使得任何特定区段的观看时间很难预测)中，动态重放引擎可简单地假设持续时间是不定的且其可继续产生基于提示文件中的指令的音频直到接收到开始另一个音频提示的指令。

作为另一个实例，可使用音频提示文件以响应于用户输入而重放提示文件中的不同区段。举例来说，流行歌曲可被划分成区段。可提供用户接口用于控制音频重放，其可响应于用户输入而命令播放器跳跃到下一个区段或跳跃到指定区段。

现在已描述如何建立这些作品和伴随配音后，现在将论述其分配。

建立用于电子书的配音包括使音频文件与电子书的文本的部分相关联。存在建立配音的若干方式。

在一个实施方案中，作曲家为文本的每一部分撰写并记录原始音乐。文本的每一部分可与如此撰写并记录的个别音频文件相关联。或者，可选择先前记录音乐并与文本的部分直接相关联。在这些实施方案中，音频文件静态且直接指派到文本的部分。

在另一实施方案中，音频文件间接指派到文本的部分。标签(例如字或其它标志)与文本的部分相关联。这些标签可存储于计算机数据文件或数据库中且与电子书相关联，其类似于上文所描述的提示列表。对应标签也与音频文件相关联。一个或多个作曲家撰写并记录意欲唤起特定情感和心情的原始音乐。或者，可选择先前记录音乐。这些音频文件也与这些标签相关联，且可存储于数据库中。与文本的部分相关联的标签可用于自动选择带有相同标签的对应音频文件。在对于书中的标签识别多个音频文件的情况下，可由计算机或通过人为干涉来选择音频文件中的一者。此实施方允许音频文件收集中于数据库中，且半自动完成配音的建立，其是通过使考虑到与电子书和音频文件相关联的标签而选择音频文件的过程自动化而进行。

在音频文件与电子书间接相关联的实施方案中，可在较接近重放的时间使用标签来动态选择音频文件。

使标签与电子书相关联的过程可为自动化的。特定而言，可由计算机处理文本以基于文本的字的语义分析而使情感描述符与文本的部分相关联。这种语义分析的实例技术包含但不限于由塞西莉亚·欧伏斯德特在“来自文本的情感：机器学习基于文本的情感预测”中所描述的技术，579页到586页人类语言科技的进程讨论会和自然语言处理经验方法的讨论会(2005年10月)，并以引用的方式并入到文本中。这些标签可描述支援所观看的作品的区段的情感感觉或其它情绪。举例来说，这些情感感觉包含但不限于中度紧张、爱情趣味、紧张、洋洋得意、男子气概、阴暗、沉思、害怕、高兴、悲哀、忧郁、迷人的瞬间、欢快和快乐。

图8是说明建立用于电子书的配音的完全自动化过程的实例的数据流程图，其考虑到音频文件具有与其相关联的标签。电子书800输入到情感描述符产生器802，其输出情感描述符和书的文本范围804。情感描述符用于在音频数据库806中查找音频文件810，其匹配书中的每一范围的情感描述符。音频选择器808允许为每一文本范围自动、随机或半自动选择音频文件以产生提示列表812。可为电子书产生唯一识别符并与提示列表812一起予以存储。

这些电子书和其配音可以各种方式分配，包含但不限于用于电子书商业分配的当前使用方式。在一个实施方案中，电子书和电子书阅读器使用常规技术分配到终端用户。分离地完成额外配音和动态音频播放器的分配。配音的分配通常以两步来完成：首先下载提示列表，且然后下载每一音频文件。音频文件可在要求时下载。动态音频播放器可包含文件管理器，其维持关于可存储于供电子书阅读器操作的同一装置上或可远程地存储的可用提示文件的信息。

在一个实施方案中，电子书与提示列表和动态音频播放器一起分配给终端用户。

在另一实施方案中，电子书和其关联提示列表一起分配。提示列表然后作为背景任务用于为配音下载音频文件。在一个实施方案中，首先下载电子书且起始提示列表的下载作为背景任务，且然后立即下载第一提示的第一音频文件。

在另一实施方案中，电子书阅读器是含有包含局部通用提示的局部存储器的装置，其具有各种可根据提示列表重放而选择的情感描述符。如果远程音频文件不可用，那么这些通用提示允许音频的重放。

在一个实施方案中，电子书阅读器应用程序被加载至能够存取网络的平台上，例如因特网，平台可通过网络而与电子媒体的分配器通信。这种分配器可从用户接收购买和/或下载电子媒体的请求。在接收请求之后，分配器可从数据库检索经请求作品和其伴随配音信息。所检索的电子媒体可被加密并发送给电子书阅读器应用程序的用户。电子媒体可被加密，使得电子媒体仅可在单一的电子书阅读器上播放。通常，与作品相关联的数字版权管理信息可被应用于配音信息。

在前述内容中，存储媒体可代表一个或多个用于存储数据的装置，包含只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储媒体、光学存储媒体、快闪存储器和/或其它用于存储信息的机器可读媒体。术语“机器可读媒体”和“计算机可读媒体”包含但不限于便携式或固定存储装置、光学存储装置和/或各种其它能够存储、包含或携带指令和/或数据的媒体。

此外，可由硬件、软件、固件、中间件、微代码或其组合物实施实施例。当在软件、固件、中间件或微代码中实施时，用以执行必要任务的程序代码或代码段可存储于机器可读媒体(例如存储媒体或其它存储器)中。处理器可执行必要的任务。代码段可代表程序、函数、子程序、程序、例程、子例程、模块、软件封装、类别或任何指令、数据结构或程序语句的任何组合。代码段可通过传递和/或接收信息、数据、自变量、参数或存储器内容而耦合到另一代码段或硬件电路。信息、自变量、参数、数据等等可经由任何合适的方式来传递、转发或传输，包括存储器共享、消息传递、符记传递、网络传输等等。

结合本文中所揭示的实例而描述的各种说明性逻辑块、模块、电路、元件和/或组件可使用经设计以执行本文中所描述的函数的通用处理器、数字信号处理器(DSP)、特殊应用集成电路(ASIC)、场效应可程式化栅阵列(FPGA)或其它可程式化逻辑组件、离散栅或晶体管逻辑、离散硬件组件或其任何组合而实施或执行。通用处理器可为微处理器，但或者，处理器可为任何常规处理器、控制器、微控制器、电路和/或状态机。处理器也可作为计算机组件的组合而实施，例如，DSP和微处理器、多个微处理器、与DSP芯片连接的一个或多个微处理器或任何其它这种配置的组合。

结合本文中所揭示的实例而描述的方法和算法可直接体现于处理器可执行的软件模块中，或体现于两者的组合中、体现为处理单元、程序设计指令或其它指导的形式，且可包含于单一装置中或跨越多个装置而分散。软件模块可驻存于RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬磁盘、可移动磁盘、CD-ROM或此项技术中人员所知的任何其它形式的存储媒体中。存储媒体可耦合到处理器，使得处理器可从存储媒体读取信息或将信息写入到存储媒体。或者，存储媒体可与处理器成整体。

诸图所说明的一个或多个组件和函数可在不背离本发明的情况下再配置和/或组合到单一组件中或嵌入到若干组件中。也可在不背离本发明的情况下添加额外元件或组件。另外，本文中所描述的特征可实施于软件中、实施于硬件中、作为商业方法而实施，和/或其组合。

虽然已描述并在附图中展示某些示范性实施例，但应理解，这些实施例仅仅是说明性的且并不限制本发明，因为所属领域的技术人员可想到各种其它修改，所以本发明仅以实例的方式呈现且本发明不限于所示和所描述的特定构造和配置。

Claims

1.一种用于音频动态重放的计算机实施方法，它包括：

接收有关用户与电子视觉作品的一部分的互动的数据；及

根据所述用户互动来动态调整与所述电子视觉作品的所述部分相关联的音频重放的持续时间。

2.根据权利要求1所述的计算机实施方法，它还包括：

根据所述接收到的有关用户与所述电子视觉作品的所述部分的互动的数据来估计所述电子视觉作品的所述部分的视觉显示的持续时间；及

选择与所述电子视觉作品的所述部分相关联的音频符干的混合序列，以便提供具有所述估计持续时间的音频。

3.根据权利要求2所述的计算机实施方法，其特征在于，使用阅读速度的历史来估计所述持续时间。

4.一种用于与电子视觉作品的显示同步地播放配音的计算机实施方法，它包括：

将所述电子视觉作品接收到存储器中；

将使所述电子视觉作品的部分与标签相关联的信息接收到存储器中；

响应于用户互动而显示所述电子视觉作品的部分；

存取具有标签的音频文件；

使用处理器根据与所述电子视觉作品的部分相关联的所述标签来选择与所述电子视觉作品的所述部分相关联的音频文件；

接收有关用户与电子视觉作品的部分的互动的数据；及

5.一种用于产生电子视觉作品的配音的计算机实施方法，它包括：

将所述电子视觉作品接收到存储器中；

由处理器处理所述存储器中的所述电子视觉作品，以通过在存储器中使标签与所述电子视觉作品的部分相关联来标记所述电子视觉作品的部分；

存取具有标签的音频文件；

使用所述处理器根据与所述电子视觉作品的部分相关联的所述标签来选择所述电子视觉作品的所述部分的音频文件。

6.根据权利要求5所述的计算机实施方法，其特征在于，所述电子视觉作品包含文本，且所述处理包含处理所述文本。

7.根据权利要求6所述的计算机实施方法，其特征在于，所述标签包含情感描述符。

8.一种数字信息产品，它包括：

计算机可读媒体；

存储于所述计算机可读媒体上的计算机可读数据，当由计算机处理时，所述计算机可读数据由所述计算机解译以界定包含提示列表的计算机可读文件，对于电子视觉作品的每一部分，所述提示列表包含情感描述符，其特征在于，所述情感描述符对应于同样与音频数据相关联的情感描述符。

9.一种数字信息产品，它包括：

计算机可读媒体；

存储于所述计算机可读媒体上的计算机可读数据，当由计算机处理时，所述计算机可读数据由所述计算机解译以界定包含界定音频提示的数据的计算机可读文件，所述音频提示包含用于多个可被混合以提供音频数据的符干的音频数据和指示所述符干可如何被重复及组合的信息。