CN104918670B

CN104918670B - 用于故事阅读的基于位置的增强

Info

Publication number: CN104918670B
Application number: CN201480004179.6A
Authority: CN
Inventors: A.W.彼弗斯; J.C.唐; N.戈克; G.D.维诺利亚; K.I.奎恩; N.汉娜; S.A.龙博顿; K.A.蒂维森
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-01-07
Filing date: 2014-01-06
Publication date: 2017-11-21
Anticipated expiration: 2034-01-06
Also published as: EP2928573A1; EP3050604A1; US20140191976A1; WO2014107637A1; CN104918670A

Abstract

各种实施例提供了其中可以从远程位置体验故事的交互式共享故事阅读体验。各种实施例使得能够实现与故事阅读体验关联的音频和/或视频的增强或修改。这可以包括在阅读故事时读者的话音、脸和/或与故事关联的其他内容的增强和修改。

Description

用于故事阅读的基于位置的增强

背景技术

远程地阅读故事（诸如通过计算机网络）具有成为非常个人化的体验的潜力。例如，出差的父母可以向他们的孩子读他们的孩子最喜欢的睡前故事，以便不会错过让他们的孩子盖好被子安睡。然而，迄今为止，当这被远程地完成时，体验受限于以下事实，即：故事就是所共享的全部，或者在最好情况下，如在对等呼叫中那样，故事加上附加视频就是所共享的全部。此外，共享体验多半是单向的（从读者到听者），其中读者与故事分离地传达情感。

发明内容

本发明内容被提供来以简化的形式引入概念的选取，这些概念在下面的具体实施方式中进一步加以描述。本发明内容并不预期标识要求保护的主题的关键特征或基本特征。

各种实施例提供了其中可以从远程位置体验故事的交互式共享故事阅读体验。各种实施例使得能够增强或修改与故事阅读体验关联的音频和/或视频。这可以包括在阅读故事时增强和修改读者的话音、脸部和/或与故事关联的其他内容。

按照这种方式，两个或者更多个远程参与者可以与基于故事的共享交互式内容实时地通信和交互。可替换地或者附加地，基于故事的共享交互式内容可以被增强或修改，并且被记录和/或存档以供后续回放。

附图说明

具体实施方式参照附图进行描述。在图中，附图标记的最左边的（一个或者多个）数字标识该附图标记首次出现的附图。在说明书的不同示例以及附图中使用相同的附图标记可以指示相似或相同的项目。

图1为依照一个或多个实施例的示例实现方式中的环境的图示。

图2为依照一个或多个实施例的示例实现方式中的环境的图示。

图3为依照一个或多个实施例的示例增强效果模块的图示。

图4图示出依照一个或多个实施例的流程图。

图5图示出依照一个或多个实施例的流程图。

图6图示出依照一个或多个实施例的流程图。

图7图示出依照一个或多个实施例的示例用户界面。

图8图示出依照一个或多个实施例的示例用户界面。

图9图示出依照一个或多个实施例的流程图。

图10图示出依照一个或多个实施例的流程图。

图11图示出依照一个或多个实施例的流程图。

图12图示出依照一个或多个实施例的流程图。

图13图示出依照一个或多个实施例的流程图。

图14图示出依照一个或多个实施例的示例系统。

图15图示出依照一个或多个实施例的示例系统。

图16图示出一个或多个实施例的方面。

图17图示出一个或多个实施例的方面。

图18图示出一个或多个实施例的方面。

图19图示出一个或多个实施例的方面。

图20图示出依照一个或多个实施例的流程图。

图21图示出可以被利用来实现本文描述的各种实施例的示例计算设备。

具体实施方式

综述

各种实施例提供了其中可以从远程位置体验故事的交互式共享故事阅读体验。各种实施例使得能够增强或修改与故事阅读体验关联的音频和/或视频。这可以包括在阅读故事时增强和修改读者的话音、脸部和/或与故事关联的其他内容。所描述的实施例可以与诸如称为“电子书”的电子图书之类的电子或数字内容有关地加以利用。电子书是一种包括文本、图像或二者的数字形式的图书长度的出版物，并且在计算机或其他电子设备上制作、通过计算机或其他电子设备公布并且可在计算机或其他电子设备上阅读。电子书通常在专用电子书阅读器或者通用平板计算机上阅读。个人计算机和移动电话也可以用来阅读电子书。

按照这种方式，两个或更多个远程参与者可以与基于故事的共享交互式内容实时地通信和交互。可替换地或者附加地，基于故事的共享交互式内容可以被增强或修改和/或存档以便后续回放。在各种实施例中，参与者可以欣赏还包括用户与故事内容的交互的共享视图，例如，如果一个用户触摸图片或者沿着内容中的词语追踪，那么那些动作可以对其他参与者可见。

在接下来的讨论中，提供了题为“示例操作环境”的章节，并且其描述了其中可以采用一个或多个实施例的一种环境。在此之后，题为“示例增强效果模块”的章节描述了依照一个或多个实施例的增强效果模块。接下来，题为“用于分布式故事阅读的语音修改”的章节描述了其中可以在阅读故事的上下文中修改语音的各种实施例。在此之后，题为“使用暗示决定何时增强语音”的章节描述了依照一个或多个实施例可以用于语音增强的各种暗示。接下来，题为“使用触摸决定何时增强语音”的章节描述了依照一个或多个实施例可以如何利用基于触摸的输入造成语音增强。在此之后，题为“使用用户界面元素决定何时增强语音”的章节描述了依照一个或多个实施例可以如何使用各种用户界面元素造成语音增强。接下来，题为“使用姿态来应用增强”的章节描述了依照一个或多个实施例可以如何在增强过程中利用各种姿态。在此之后，题为“使用故事内容来应用增强”的章节描述了依照一个或多个实施例可以如何在增强过程中使用特定故事的内容。接下来，题为“使用故事元数据来应用增强”的章节描述了依照一个或多个实施例可以如何在增强过程中利用与故事关联的元数据。在此之后，题为“使用页码和其他故事结构来应用增强”的章节描述了依照一个或多个实施例可以如何在增强过程中利用页码和其他故事结构。接下来，题为“实现方式的示例和考虑因素”的章节描述了依照一个或多个实施例的各种实现方式的示例。在此之后，题为“捕获共享的故事体验以供后续共享”的章节描述了依照一个或多个实施例可以如何以实时以外的方式来共享故事。接下来，题为“媒体流操纵”的章节描述了依照一个或多个实施例可以如何利用增强效果操纵媒体流。在此之后，题为“示例使用场景”的章节描述了依照一个或多个实施例的各种使用场景。最后，题为“示例设备”的章节描述了可以被利用来实现一个或多个实施例的示例设备。

提供了下面要描述的各种实施例的综述之后，现在考虑其中可以实现一个或多个实施例的一些示例操作环境。

示例操作环境

本文描述的各种实施例可以在各种各样的不同环境中实现。图1和图2图示出其中可以实现所述实施例的两个示例环境。应当领会和理解的是，可以在不脱离要求保护的主题的精神和范围的情况下利用其他环境。

图1为在基于分组的网络上实现的通信系统100的示意图示，所述基于分组的网络在这里通过互联网形式的通信云110表示，其包括多个互连元件。应当领会的是，尽管参照通信系统100描述了各种实施例的方面，但是这些讨论仅仅用于说明的目的，并且并非预期限制要求保护的主题的范围。每个网络元件连接到互联网的其余部分，并且被配置成在互联网上通过传输和接收互联网协议（IP）分组形式的数据而与其他这样的元件传送数据。每个元件也具有在互联网内对该元件定位的关联IP地址，并且每个分组在其报头中包括源和一个或多个目的地IP地址。图1中所示的元件包括多个最终用户终端102(a)-102(c)（诸如台式或膝上型PC或者启用互联网的移动电话）、一个或多个服务器104（诸如基于互联网的通信系统的对等服务器等等）以及到另一种类型的网络108（诸如到传统的公共交换电话网络（PSTN）或者其他电路交换网络，和/或到移动蜂窝网络）的网关106。然而，当然，将领会的是，比那些明确示出的元件多得多的元件组成互联网。这在图1中通过通信云110示意性地表示，该通信云典型地包括许多其他的最终用户终端、服务器和网关以及互联网服务提供商（ISP）的路由器和互联网骨干路由器。此外，图1的系统也包括电子书的一个或多个源，其示例在下文中提供。

在该图示和描述的实施例中，最终用户终端102(a)-102(c)可以通过通信云使用任何适当的技术彼此通信以及与其他实体通信。因此，最终用户终端可以通过通信云110和/或通过通信云110、网关106和网络108使用例如互联网协议语音通信（VoIP）与一个或多个实体通信。为了与另一个最终用户终端通信，在发起的最终用户终端上执行的客户端获取其上安装另一个客户端的终端的IP地址。这典型地使用地址查找表完成。

一些基于互联网的通信系统由运营商管理，因为它们依赖于一个或多个集中式、运营商运行的服务器以用于进行地址查找（未示出）。在这种情况下，当一个客户端要与另一个客户端通信时，那么发起的客户端联系由系统运营商运行的集中式服务器以获得被呼叫者的IP地址。

与这些运营商管理的系统形成对照的是，另一种类型的基于互联网的通信系统称为“对等”（P2P）系统。对等（P2P）系统典型地将责任从集中式运营商服务器转移走并且转移到最终用户自身的终端中。这意味着对于地址查找的责任转移到像被标记为102(a)-102(c)的终端那样的最终用户终端。每个最终用户终端可以运行P2P客户端应用，并且每个这样的终端形成P2P系统的节点。P2P地址查找通过在最终用户节点中的一些最终用户节点之中分布IP地址数据库而起作用。该数据库是一种列表，其将所有在线或者最近在线用户的用户名映射到相关IP地址，使得给定用户名就可以确定IP地址。

IP地址一旦已知，则允许用户建立话音或视频呼叫，或者发送IM聊天消息或文件传递等等。然而，附加地，也可以在客户端本身需要自主地与另一个客户端传送信息时使用地址。

（一个或者多个）服务器104表示连接到通信系统100的一个或多个服务器，其示例在上文和下文中提供。例如，服务器104可以包括协同工作以实现相同功能性的一批服务器。可替换地或者附加地，服务器104可以包括多个独立服务器，其被配置成提供根据其他服务器而专门化的功能性。如下文中更详细地描述的，这些服务器可以用作用于电子书的知识库，这些电子书典型地在可通过URL访问的电子库中维护。

在一个或多个实施例中，单独的最终用户终端102(a)-(c)包括电子书阅读器形式的软件或者使得能够阅读电子书的其他适当配置的应用，诸如web浏览器。最终用户终端也包括增强效果模块112，该模块可以用来增强与阅读在一个或多个其他远程参与者之中共享的电子书有关的效果。此外，在至少一些实施例中，服务器104可以包括可以如上文和下文中所描述的而进行操作的增强效果模块112。

在操作中，增强效果模块112被配置成增强或修改与故事阅读体验关联的音频和/或视频。这可以包括在阅读故事时读者的话音、脸部和/或与故事关联的其他内容（例如故事的视觉内容）的增强和修改。

考虑了其中可以利用本发明原理的一个示例系统之后，现在考虑其中可以利用本发明原理的不同的示例系统。

图2图示出一种示例系统200，其总体上将（一个或者多个）服务器104和最终用户终端102示为在其中多个设备通过中心计算设备互连的环境中实现。最终用户终端包括如上文和下文中描述的增强效果模块112。中心计算设备可以对所述多个设备是本地的，或者可以位于远离所述多个设备的位置。在一个实施例中，中心计算设备是“云”服务器群，其包括通过网络或互联网或者其他装置连接到所述多个设备的一个或多个服务器计算机。

在一个实施例中，该互连架构使得功能性能够跨多个设备输送以便向所述多个设备的用户提供共同且无缝的体验。所述多个设备中的每一个可以具有不同的物理要求和能力，并且中心计算设备使用使得能够向所述设备输送体验的平台，该平台既适于该设备，也为所有设备共用。在一个实施例中，创建目标设备“类别”，并且使体验适于一般设备类别。设备类别可以通过设备的物理特征或用途或者其他常见特性（例如CPU性能）限定。例如，如先前所描述的，最终用户终端102可以以各种各样的不同方式配置，例如供移动装置202、计算机204和电视206使用。这些配置中的每一种具有总体上相应的屏幕尺寸，并且因此最终用户终端102在该示例系统200中可以被配置成这些设备类别之一。例如，最终用户终端102可以采取移动装置202设备类别，其包括移动电话、音乐播放器、游戏设备等等。最终用户终端102也可以采取计算机204设备类别，其包括个人计算机、膝上型计算机、上网本、平板计算机等等。电视206配置包括涉及休闲环境中的显示的设备配置，例如电视、机顶盒、游戏控制台等等。因此，本文描述的技术可以受最终用户终端102的这些各种配置支持，并且不限于以下章节中描述的特定示例。

在一些实施例中，（一个或者多个）服务器104包括“云”功能性。在这里，云208被图示为包括用于web服务212的平台210。平台210抽象化云208的硬件（例如服务器）和软件资源的底层功能性，并且因此可以充当“云操作系统”。例如，平台210可以抽象化将最终用户终端102与其他计算设备连接的资源。平台210也可以用来抽象化资源规模以便提供与遇到的对于经由平台210实现的web服务212的需求相应的规模水平。也可以设想各种各样的其他示例，诸如服务器群中的服务器负载平衡、对恶意方（例如垃圾邮件、病毒和其他恶意软件）的防范等等。因此，云208作为涉及软件和硬件资源的策略的部分而被包括，这些资源经由互联网或者其他网络是对于最终用户终端102可用的。

可替换地或者附加地，服务器104包括如上文和下文中所描述的增强效果模块112。在一些实施例中，平台210和增强效果模块112可以驻留在相同的一组服务器上，而在其他实施例中，它们驻留在分离的服务器上。在这里，增强效果模块112被示为利用由云208提供的功能性以便与最终用户终端102互连。

通常，本文描述的任何功能都可以使用软件、固件、硬件（例如固定逻辑电路系统）、人工处理或者这些实现方式的组合实现。当在本文中使用时，术语“模块”、“功能性”和“逻辑”通常表示软件、固件、硬件或者其组合。在软件实现方式的情况下，所述模块、功能性或逻辑表示当在处理器（例如一个或多个CPU）上执行或者被处理器执行时执行所指定的任务的程序代码。该程序代码可以存储在一个或多个计算机可读存储器设备中。下文中描述的特征是平台独立的，这意味着所述技术可以在具有各种各样的处理器的各种各样的商业计算平台上实现。

描述了其中可以利用各种实施例的示例操作环境之后，现在考虑依照一个或多个实施例的示例增强效果模块的讨论。

示例增强效果模块

图3图示出依照一个或多个实施例的示例增强效果模块112。在该特定示例中，增强效果模块112包括音频增强模块300、视频增强模块302和增强暗示模块304。

在一个或多个实施例中，音频增强模块300被配置成使得能够将音频效果应用到被读的故事的读者的话音或者其他音频方面，例如背景声音效果。举例而言且非限制性地，这样的效果可以包括阅读故事时的话音变形和/或阅读故事时增强音频故事内容。

在一个或多个实施例中，视频增强模块302被配置成使得能够操纵与故事关联的视频。特别地，故事可以以具有其自身关联内容的电子书的形式驻留。当阅读故事时，可以将各种增强效果应用到故事的内容。例如，可以利用脸部识别技术捕获读者的脸部图像，并且将捕获的脸部图像叠加到故事中的角色上。可替换地或者附加地，如下文中更详细地描述的，可以对捕获的图像变形和/或转描（rotoscope）。音频增强模块300和视频增强模块302可以单独地或者一起使用。当一起使用时，电子故事可以同时让其音频和视频（即视觉内容）增强。

在一个或多个实施例中，增强暗示模块304被配置成使得能够在阅读故事时给予增强效果的暗示。增强暗示模块304可以以各种各样的不同方式执行其功能。例如，增强暗示模块304可以使用在被读的特定故事内查明读者的位置的各种手段。通过知晓读者的位置，可以在适当的时间触发各种增强效果。举例而言且非限制性地，查明读者的位置的各种手段可以包括语音识别和跟踪、诸如读者使用其手指或者触笔沿着被读的文字进行跟随之类的触摸输入、出现在故事内的触发和/或允许选取各种增强效果的用户界面元素、诸如由读者提供以触发增强效果的各种姿态之类的自然用户界面（NUI）输入、诸如应用与特定故事内出现的标点符号关联的增强效果之类的内容驱动的机制、在故事内触发某些增强效果的嵌入的标签或元数据、使用页码触发增强效果等等。

考虑了依照一个或多个实施例的示例增强效果模块之后，现在考虑可以由音频增强模块300提供的语音修改的各种方面。

用于分布式故事阅读的语音修改

在图示和描述的实施例中，彼此远离的一个或多个读者可以阅读交互式故事（诸如出现在电子或数字图书中的故事），并且可以在阅读故事时让他们的语音被修改或变形。在至少一些实施例中，参与远程阅读交互式故事的读者共享数字故事内容的共同视图。该共同视图可以且典型地在读者的计算设备的显示器上展现，读者的计算设备诸如上面所描述的计算设备中的一个或多个计算设备。在这些实例中，读者通过由视频摄像机提供的视频通信连接，该视频摄像机至少捕获每个读者的脸部，使得可以向其他读者显示这些脸部。此外，麦克风捕获每个读者位置处的音频，即读者的话音。因此，在每个读者的计算设备处感测的诸如视频、音频和/或与共享数字故事的交互之类的输入可以与其他参与读者共享。

语音或音频变形指的是以各种方式操纵读者或者呼叫参与者的话音，以便故意听起来像别的某个人或者某个事物。在一个或多个实施例中，目的在于，这些操纵或变形应当以各种方式引人发笑和令人愉悦。例如，在阅读电子故事期间，读者的话音可以变形以便听起来像花栗鼠、怪物或者故事中的某种其他类型的角色。可以利用任何适当类型的音频变形软件来实现预期的效果。一些音频变形软件被设计为操纵口头话音，而其他软件被设计为操纵人类歌唱的声音。还有其他软件可以应用宽范围的一般和/或特定音频效果。在至少一些实例中，音频变形可以包括利用仪器增强用户的话音或者甚至利用用于自动调整的音高校正来增强用户的话音。换言之，当参与者在歌唱时，音乐增强可以作为背景音乐而添加。此外，如果歌唱者跑调，那么可以采用音高校正。音乐增强可以被配置成自动地跟随歌唱者的话音，从而随着歌唱者加速和减速而加速和减速。在音高校正场景中，首先可以确定歌唱者的音高。这可以利用音高跟踪算法完成。接下来，可以修改音高以便匹配所查明的“正确”音高。这可以使用各种不同的音高偏移算法完成。

在一个或多个实施例中，变形软件可以作为独立的变形平台而操作。可替换地或者附加地，变形软件可以封装成插件，并且随后加载到适当配置的应用中。典型地，变形软件包括影响例如变形效果的严重性的各种控制参数。而其他变形软件可以通过诸如IP语音通信（VoIP）应用之类的适当配置的通信应用加载，使得呼叫参与者的音频可以在VoIP呼叫期间被直接操纵。实现口头话音操纵的一些示例软件附件包括ClownFish、MorphVox和Voice Candy。

原则上，被利用来实现话音操纵或变形的根本信号处理技术是本领域技术人员公知且理解的。举例而言且非限制性地，这些处理技术可以包括重叠-相加合成、音高同步重叠-相加、相位声码器（及其变型）、时域滤波、频域滤波、递归延迟线处理、振幅（环形）调制、传统（时域模拟模型）声码器技术、交叉合成、线性预测编码等等。

如上面所指出的，本上下文中的话音操纵或变形的特定使用预期用于在读者向远程的某人读共享故事时操纵该读者的话音。使用的根本音频信号处理算法取决于希望的特定效果。例如，为了对读者的话音变形，使得它听起来像花栗鼠，音高偏移算法（SOLA）将是一个适当的算法选择，其中供应给该算法的控制参数将使其显著地向上偏移读者话音的音高。类似地，但是在向下方向上，可以利用控制参数实现读者话音的低得多的音高，诸如仿效诸如Darth Vader之类的公知角色或者怪物的音高。

在本上下文中可以应用的其他效果示例包括男性到女性的变形、女性到男性的变形、夸大音高轮廓（歇斯底里效果、颤音效果、老妇人效果等等）、移除音高轮廓（机器人效果）、耳语（其中音高信息被噪声源替代）以及其中将某个人的话音修改为听起来像特定的其他人的所谓的话音转换。

如上面所指出的，诸如音频或话音变形之类的增强可以发生在不同的位置。例如，增强可以发生在发送者或者读者的计算设备处、诸如服务器之类的中间计算设备处（例如，基于云的方法）和/或接收者的计算设备处。

关于发生在发送者或读者的计算设备处的增强，考虑以下所述。当捕获读者的话音时，增强效果模块112处理接收自关联麦克风的音频数据以便给予它某种类型的不同特性，其示例在上文中提供。然后，对增强的音频数据编码和压缩，并且然后传输至服务器以便继续转发至一个或多个其他参与者，或者直接传输至一个或多个其他客户端设备，诸如对等网络中的那些设备。通过在读者的计算设备上执行增强，可以以最少量的延迟向读者提供关于其话音听起来如何的反馈。在该实例中，读者的体验可以通过使用可以降低声反馈的耳机或者其他音频反馈控制机制而改进。

关于基于云的方法，考虑以下所述。基于云的/服务器的方法允许以下的可得到性，即：独立于读者设备或者听者设备的约束的更多处理能力。在该方法中，可以将由读者的计算设备产生的音频数据发送至适当配置的服务器以便进一步处理。在该实例中，服务器包括如上所述的用于处理音频数据的增强效果模块112。在该场景中，在将音频数据发送至服务器之前，可以压缩或者不压缩所述音频数据。如果在发送至服务器之前压缩音频数据，那么服务器可以解压缩所述音频数据，使用增强效果模块112处理它，对增强的音频数据编码和压缩并且将其分发至其他参与者。如果以非压缩格式将音频数据发送至服务器，那么服务器可以使用增强效果模块112处理它，对增强的音频数据编码和压缩以便分发至其他参与者。

关于发生在接收者的计算设备处的增强，考虑以下所述。在该实例中，将读者的音频数据分发至其他参与者。当其他参与者的计算设备接收到音频数据时，不管其是压缩的或是未压缩的，参与者的计算设备上的增强效果模块112都如上面所描述的处理音频数据（如果需要的话，首先解压缩）以便提供增强。该方法可以向读者提供对于如何修改他们的话音的较少控制。相应地，每个参与者具有以由他们选择的方式修改读者的话音的潜力。

图4图示出描述依照一个或多个实施例的方法中的步骤的流程图。该方法可以结合任何适当的硬件、软件、固件或者其组合实现。在至少一些实施例中，该方法的方面可以通过适当配置的软件模块（诸如图1-3的增强效果模块112）实现。

步骤400建立多个参与者之间的通信连接。建立该通信连接被建立以便使得允许参与者能够共享在参与者之中共享电子故事的交互式阅读体验。可以建立任何适当类型的通信连接，其示例在上文中提供。

步骤402接收与电子故事的读者关联的音频数据，该电子故事与一个或多个其他远程参与者共享。该步骤可以以任何适当的方式执行。例如，当读者将电子故事读入麦克风时，可以将关联的音频转换成音频数据以便进一步处理。

步骤404增强音频数据。该音频数据可以以任何适当的方式增强，其示例在上文和下文中提供。此外，该步骤可以在任何适当的位置执行。例如，在至少一些实施例中，该步骤可以在读者的计算设备处或者由读者的计算设备执行。可替换地或者附加地，该步骤可以由步骤402的接收音频数据的服务器执行。可替换地或者附加地，该步骤可以由与远程参与者的每个远程参与者关联的计算设备执行。上文中提供了这可以被如何完成的示例。

步骤406使得远程参与者能够消费增强的音频数据。该步骤可以以任何适当的方式执行。例如，在其中在读者的计算设备上增强音频数据的实施例中，步骤406可以通过向与远程参与者的每个参与者关联的计算设备传输或者以其他方式传达增强的音频数据而执行。在其中音频数据由服务器增强的实施例中，该步骤可以通过服务器将增强的音频数据分发至与远程参与者的每个参与者关联的计算设备而执行。在其中音频数据由与远程参与者关联的计算设备增强的实施例中，该步骤可以通过使得该远程参与者能够经由适当配置的应用消费增强的音频数据而执行。

考虑了可以在共享故事场景中增强语音的各种方式之后，现在考虑可以对决定何时执行语音增强做出确定的各种方式的讨论。

使用暗示决定何时增强语音

如上面所指出的，增强暗示模块304（图3）被配置成使得在阅读故事时能够给予增强效果的暗示。增强暗示模块304可以以各种各样的不同方式执行其功能。例如，增强暗示模块304可以使用在被读的特定故事内查明读者的位置的各种手段。通过知晓读者的位置，可以在适当的时间触发各种增强效果。可以在不脱离要求保护的主题的精神和范围的情况下利用在特定故事内查明读者的位置的任何适当的手段。下面就提供这可以被怎样完成的各种非限制性示例。

语音识别

在一个或多个实施例中，可以利用自动语音识别来识别在特定叙述中读者正在阅读何处并且在适当的时间使用该信息触发各种增强效果。在这些实例中，增强暗示模块304包括语音识别部件，该部件通过由适当配置的麦克风捕获的音频信号数据的分析来跟踪读者正在阅读故事中的何处。然后，增强暗示模块304可以酌情触发增强事件。例如，假定参与者在共享关于Elmo的故事。当读者到达由Elmo说出的词语时，可以将读者的话音变形为听起来像Elmo。当Elmo的短语结束时，读者的话音可以返回到其正常声音。可替换地或者附加地，可以针对由读者阅读的特定词语应用增强效果。例如，当读者阅读诸如“风”、“雷”、“雨”等等之类的词语时，可以触发背景声音或效果。

在一个或多个实施例中，可以使用语音识别以便使得能够实现其他形式的增强效果。例如，如果特定参与者说出与电子页面上出现的图像或对象相应的词语，那么可以应用增强效果。例如，假定参与者之一是小孩并且该小孩响应于出现在电子页面上的卡车的图像而说出词语“卡车”。结果，可以发起卡车的简短动画，诸如例如让卡车的车轮转动和/或播放卡车引擎的音频剪辑。在这些实例中，这些有趣的动画和声音可以强化该小孩学习与页面上的对象相应的词语的积极性。

任何适当类型的语音识别技术可以用来实现所描述的实施例。例如，一些方法可以利用某种形式的自动语音识别（ASR）。ASR具有多种多样的用途，其包括在电话、计算机游戏和仿真等等领域内。可以利用与这些和其他领域中利用的那些技术相同或相似的技术来识别语音，如上面所描述的。一种这样的技术称为全连续ASR。

全连续ASR获取与读者的语音相应的音频数据，并且输出与所说的（在这种情况下为被阅读的特定故事的文本）相应的词语序列。可以通过在从ASR输出的词语序列与被阅读的文本中的词语之间执行简单匹配操作而实现定位的确定。如技术人员将领会的，这可以使用诸如用于每个页面的散列表或者多映射（multi-map）之类的标准容器实现。在这些实例中，利用所识别的词语作为关键词，并且关联的映射返回该词语在页面上的定位。在一个或多个实施例中，可以在其中读者可能跳过一个或多个词语的情况下利用前视（lookahead）的方案，和/或在其中读者可能重复某些词语的情况下利用后视（look back）的方案。这可以增加语音识别算法的鲁棒性。当确定了定位时，增强暗示模块304可以如下面所描述的使用该定位作为效果或增强表的索引。

也可以利用其他语音识别方法。例如，可以利用具有降低的计算成本的方法，其采用简化形式的ASR，这种简化形式的ASR常被称为有限词汇语音识别。在这里，对于可能的词语的搜索空间限于最后的已知定位（最初为0，如果读者从头开始阅读的话）的邻域中的词语。在任何给定时间，该算法只需在也许5-10个词语之间进行区分，从而大大地简化了识别问题。如果存在给定词语的多个实例，例如多映射返回超过一个索引，那么可以降低范围，直到不存在重复为止。可替换地或者附加地，可以保持计数，使得第一次检测到重复词语时，将所述定位取为第一次出现的定位，并且第二次检测到重复词语时，将所述定位取为第二次出现的定位，以此类推。像在上面的方法中那样，可以包括一些前视和后视的技术以便改进算法鲁棒性。

在这些方法中的任一方法中以及在其他方法中，可以通过页码或者当前显示的页码配对的知识促进语音识别过程。按照这种方式，搜索空间限于出现在那些特定页面上的那些词语。在该实例中，系统已经知晓页面或页码，因为这是被采用来确定何时改变显示以示出电子书的下一页或者接下来的页面的机制。

作为可以如何利用使用上面描述的技术提取的定位数据触发各种增强的示例，考虑下面的表格。

定位	话音效果
		31	花栗鼠变形开始
44	花栗鼠变形结束
		57	机器人变形开始
71	机器人变形结束

表1。

表1是来自适当配置的定位跟踪器的定位信息可以如何用作效果表格的索引以便当在表格所绑定的页面上到达特定词语时触发特定增强的示例。在一个或多个实施例中，可以利用单个表格对书中的每一页触发增强效果。可替换地，可以对于整本书利用单个表格。在该实例中，表格可以不通过页面内的定位来被标引，而是通过整本书内的定位来被标引。

此外，可以利用一个或多个表格确定何时触发背景音频声音，例如丛林声音、雷声、掌声等等。如果只有一个表格，那么它可以像在以下示例中那样通过页码来标引。

页面	背景声音
		3	鸟儿鸣叫
8	丛林声
		14	暴雨
16	鸟儿鸣叫

表2。

在这里，表2包括通过页码而标引的全局背景音频效果。如果对于何时触发这些背景声音的更细粒的控制是所希望的，那么通过页面内的定位而标引的多个元数据表格（例如，每页一个）可以被包括在内。在这种情况下，表格将具有与表1类似的格式，其中“话音效果”列将由“背景声音”代替。

图5图示出描述依照一个或多个实施例的方法中的步骤的流程图。该方法可以结合任何适当的硬件、软件、固件或者其组合实现。在至少一些实施例中，该方法的方面可以通过适当配置的软件模块（诸如图1-3的增强效果模块112）实现。

步骤500建立多个参与者之间的通信连接。该通信连接被建立以便使得参与者能够共享在参与者之中共享电子故事的交互式阅读体验。可以建立任何适当类型的通信连接，其示例在上文中提供。

步骤502接收与电子故事的读者关联的音频数据，该电子故事正在与一个或多个其他远程参与者共享。该步骤可以以任何适当的方式执行。例如，当读者将电子故事读入麦克风时，可以将关联的音频转换成音频数据以便进一步处理。

步骤504根据音频数据查明电子故事内的位置。上文中提供了可以这可以被如何完成的示例。响应于查明电子故事内的位置，步骤506增强音频数据。该音频数据可以以任何适当的方式增强，其示例在上文和下文中提供。此外，该步骤可以在任何适当的位置执行。例如，在至少一些实施例中，该步骤可以在读者的计算设备处或者由读者的计算设备执行。可替换地或者附加地，该步骤可以由步骤502的接收音频数据的服务器执行。可替换地或者附加地，该步骤可以由与远程参与者的每个参与者关联的计算设备执行。上文中提供了这可以被如何完成的示例。

步骤508使得远程参与者能够消费增强的音频数据。该步骤可以以任何适当的方式执行。例如，在其中在读者的计算设备上增强音频数据的实施例中，步骤508可以通过向与远程参与者的每个参与者关联的计算设备传输或者以其他方式传达增强的音频数据而执行。在其中音频数据由服务器增强的实施例中，该步骤可以通过服务器将增强的音频数据分发至与远程参与者的每个参与者关联的计算设备而执行。在其中音频数据由与远程参与者关联的计算设备增强的实施例中，该步骤可以通过以下而执行，即：使得远程参与者的设备能够通过使用适当配置的应用在本地处理音频数据来增强该音频数据。

考虑了利用语音识别给予增强效果的暗示的示例实施例之后，现在考虑各种基于触摸的方法。

使用触摸决定何时增强语音

在一个或多个实施例中，可以利用触摸决定何时增强与阅读电子故事关联的语音。举例而言，考虑以下所述。如果读者使用启用触摸的设备参与共享故事体验，那么当读者阅读时，他们可以在读词语时将其手指或触笔沿着词语进行追踪。可以基于这些词语及其在故事中的定位触发增强。使用该方法可以提供比上面描述的语音识别方法更多的控制。例如，如果用户将其手指保持在处于导致增强的语音的特定定位，那么用户可以即兴演讲并且说出不包括在故事中的词语，同时使那些词语增强。

使用该方法，可以通过使用边界框方法生成基于触摸的索引，以确定指向页面上的词语集合中的哪一个。依照该方法，各词语具有关联的边界框。当触摸位置落入词语的边界框内时，生成其对应的索引。该索引可以结合一个或多个表格（诸如上面所描述的那些表格）使用，以便查明要应用的增强效果。

图6图示出描述依照一个或多个实施例的方法中的步骤的流程图。该方法可以结合任何适当的硬件、软件、固件或者其组合实现。在至少一些实施例中，该方法的方面可以通过适当配置的软件模块（诸如图1-3的增强效果模块112）实现。

步骤600建立多个参与者之间的通信连接。该通信连接被建立以便使得参与者能够共享在参与者之中共享电子故事的交互式阅读体验。可以建立任何适当类型的通信连接，其示例在上文中提供。

步骤602接收与共享电子故事的参与者关联的触摸输入，该参与者可以是故事的读者或者其他远程参与者之一。该步骤可以以任何适当的方式执行。例如，当读者将电子故事读入麦克风时，可以在读者利用他或她的手指沿着故事的文本进行跟随时接收关联的触摸输入。

步骤604根据触摸输入查明电子故事内的位置。上文中提供了这可以被如何完成的示例。响应于查明电子故事内的位置，步骤606增强音频数据。该音频数据可以以任何适当的方式增强，其示例在上文和下文中提供。此外，该步骤可以在任何适当的位置执行，其示例在上文中提供。

步骤608使得远程参与者能够消费增强的音频数据。该步骤可以以任何适当的方式执行，其示例在上文中提供。

考虑了利用触摸输入应用增强效果的示例实施例之后，现在考虑可以如何利用故事内容内的用户界面元素以应用增强。

使用用户界面元素决定何时增强语音

在一个或多个实施例中，可以利用用户界面元素决定何时增强语音。用户界面元素可以包括不是故事内容的一部分的元素。可替换地或者附加地，用户界面元素可以包括是故事内容的一部分的元素。

在一个或多个实施例中，当在显示设备上呈现电子故事时，也可以呈现各种控制按钮或控制小部件以便使得能够实现音频增强或其他增强效果。在这些实施例中，控制按钮或小部件不构成故事内容的一部分。而是，这些按钮或小部件构成用户可以通过其与特定故事交互的工具。举例而言，考虑图7。在那里，图示出电子故事的方面的用户界面总体上示出在700处。在该特定电子故事中，存在两个演员——Max和Grace，以及两种效果——下雨和打雷。应当注意，在该示例中，提供了四个控制按钮702、704、706和708。控制按钮702和704与故事的演员关联，而控制按钮706和708与出现在故事内的效果关联。当选取与故事的演员关联的特定控制按钮（例如702）时，读者的语音将变形为听起来像该演员。可替换地，当选取与故事内出现的效果关联的特定控制按钮时，将展现与特定效果关联的音频。在该特定示例中，选取下雨控制按钮706将使得为故事的参与者展现下雨声。这些按钮可以由参与者中的任一参与者选取。

该方法也可以允许一定程度的即兴演讲，使得读者可以“脱离脚本”在若干位置处造成故事内的不同效果，在这些位置处，这样的效果不是内容开发者所预期的。例如，读者可以选择通过在特别的或者幽默的时间按下特定控制按钮而随机地应用某种效果。此外，该方法使用特定故事的较少预处理（或者不使用预处理）。例如，在整个故事中提供诸如角色话音、背景声音等等之类的固定的增强集合，并且何时激活特定增强取决于读者。

可替换地或者附加地，可以利用构成故事内容的一部分的用户界面元素作为用于应用增强的基础。举例而言，考虑图8，其类似于图7并且示出了图示出电子故事的方面的用户界面，其总体上示出在800处。然而，在这里，移除了控制按钮和小部件。在这些实施例中，读者可以触摸故事内的对象（诸如图示出的闪电），以使得某种效果被应用。类似地，通过触摸特定演员，读者的话音可以变形为听起来像那个演员。同样地，通过触摸特定短语，例如可能出现在故事文本中的“消防车警笛”，可以应用消防车警笛效果。因此，按照这种方式，可以利用故事内的对象作为触发增强效果的“隐式”按钮。

在这些实施例中，读者的乐趣可以通过向其提供以下能力而加强，即：探索特定页面上的哪些对象会触发哪些效果。可替换地，这些“隐式”按钮可以利用指示可以触摸它们以激活增强效果的高亮、链接或者轮廓线而被可视地指示。

从教育的角度看，使用这些“隐式”按钮以激活增强效果可以用作对于一个人（诸如孙子女）正确地标识另一个人（诸如祖父母）所说的或者指导的话的奖励。例如，如果祖父母说“点击树来听森林的声音”，那么当孙子女正确地点击书中的树时，可以播放森林背景声音作为对该小孩的奖励。举另一个示例而言，祖父母可能说“点击松鼠来使我听起来像松鼠”。如果小孩点击松鼠，那么与不正确的猜测相反，他们现在将听见其被变形为听起来像松鼠的祖父母的话音。

除了对读者话音的增强效果之外，触摸特定对象可以造成以某种方式修改该对象。例如，如果读者触摸故事中的特定演员，那么不仅读者的话音会变形为听起来像该演员，而且也可以将该演员动画化，使得其嘴巴和脸部以反映读者的嘴巴和脸部的方式来移动。这可以通过处理由关联的视频摄像机捕获的读者的视频信号来创建可以用来驱动电子书中演员的呈现的模型而完成。例如，可以在算法上将三维网格拟合到读者的脸部以便实时地跟踪其脸部特征和定位。该信息然后可以用作用于驱动电子书中演员的呈现的模型。这种方法可以与微软的用于Windows的Kinect中的方法相同或类似。

图9图示出描述依照一个或多个实施例的方法中的步骤的流程图。该方法可以结合任何适当的硬件、软件、固件或者其组合实现。在至少一些实施例中，该方法的方面可以通过适当配置的软件模块（诸如图1-3的增强效果模块112）实现。

步骤900建立多个参与者之间的通信连接。该通信连接被建立以便允许参与者共享在参与者之中共享电子故事的交互式阅读体验。可以建立任何适当类型的通信连接，其示例在上文中提供。

步骤902接收和与一个或多个远程参与者共享的电子故事关联的用户界面元素的触摸输入。如上文中所指出的，用户界面元素可以包括或者可以不包括故事内容的一部分。触摸输入可以接收自参与者中的任一参与者。

响应于接收到触摸输入，步骤904增强故事的一个或多个属性或特性。例如，可以如上面所描述的增强读者的话音。可替换地或者附加地，可以如上面所描述的应用一种或多种效果。此外，可以增强或修改故事本身的内容。例如，增强可以进一步包括增强与故事关联的视频，例如如上文和下文中描述的操纵故事内的一个或多个对象。此外，该步骤可以在任何适当的位置执行，其示例在上文中提供。

步骤906使得远程参与者能够消费增强的电子故事。该步骤可以以任何方式执行，其示例在上文中提供。

考虑了利用触摸输入应用增强效果的示例实施例之后，现在考虑可以如何利用姿态来应用增强。

使用姿态来应用增强

在一个或多个实施例中，可以利用姿态来应用增强。姿态可以包括基于触摸的姿态以及基于非触摸的姿态，诸如通过自然用户界面（NUI）提供的那些姿态。在任一情况下，可以将特定姿态映射到各种增强。举例而言，考虑可以以与微软的Kinect技术捕获和分析姿态大致相同的方式由视频摄像机捕获且分析的基于非触摸的姿态。

在该特定实例中，假定读者正在阅读与其他参与者共享的故事。前向摄像机捕获读者的图像。当读者到达故事的特定部分时，他们对故事角色之一做出刷动（swipe）姿态。该刷动姿态然后被映射为这样的话音效果，即：将读者的话音变形为刷动姿态在其上出现的角色的话音。类似地，假定在该特定故事中，若干背景声音是可用的。随着读者在故事中前进，他们在雨云上的空间中做出敲击姿态，其被前向摄像机捕获并且映射为雷形式的背景声音。

图10图示出描述依照一个或多个实施例的方法中的步骤的流程图。该方法可以结合任何适当的硬件、软件、固件或者其组合实现。在至少一些实施例中，该方法的方面可以通过适当配置的软件模块（诸如图1-3的增强效果模块112）实现。

步骤1000建立多个参与者之间的通信连接。该通信连接被建立以便使得参与者能够共享在参与者之中共享电子故事的交互式阅读体验。可以建立任何适当类型的通信连接，其示例在上文中提供。

步骤1002捕获和与一个或多个其他远程参与者共享的电子故事关联的姿态输入。该姿态输入可以是如上面所指出的基于触摸的输入或者基于非触摸的输入。

响应于捕获姿态输入，步骤1004将该姿态输入映射为增强效果，并且步骤1006使用该增强效果增强故事的一个或多个属性或特性。例如，可以如上面所描述的增强读者的话音。可替换地或者附加地，可以如上面所描述的应用一种或多种效果。此外，可以增强或修改故事本身的内容。例如，增强可以进一步包括增强与故事关联的视频，例如如上文和下文中描述的操纵故事内的一个或多个对象。此外，该步骤可以在任何适当的位置执行，其示例在上文中提供。

步骤1008使得远程参与者能够消费增强的电子故事。该步骤可以以任何方式执行，其示例在上文中提供。

考虑了利用姿态输入应用增强效果的示例实施例之后，现在考虑可以如何利用故事内容本身来应用增强。

使用故事内容来应用增强

在一个或多个实施例中，故事内容可以提供关于何时应用增强的暗示。例如，增强效果模块112可以包括解析内容以查找要应用增强的地方的内容解析器。内容解析器可以标识某些词语，例如“消防车”，这些词语然后被用作为用于应用增强（例如消防车声音）的位置的指示。类似地，内容解析器可以查找用于应用增强的某些标点符号暗示。例如，内容解析器可以查找引号并且使用引号的位置作为增强效果表格的索引。考虑以下示例：

Sadie老鼠说“我要移动那块奶酪。”

[先前的文字是引用区域1]。

Billy老鼠说“你最好快点移动它，因为我想他们正在观看。”

[先前的文字在引用区域2]。

图11图示出描述依照一个或多个实施例的方法中的步骤的流程图。该方法可以结合任何适当的硬件、软件、固件或者其组合实现。在至少一些实施例中，该方法的方面可以通过适当配置的软件模块（诸如图1-3的增强效果模块112）实现。

步骤1100建立多个参与者之间的通信连接。该通信连接被建立以便允许参与者共享在参与者之中共享电子故事的交互式阅读体验。可以建立任何适当类型的通信连接，其示例在上文中提供。

步骤1102解析故事的内容以便根据故事的内容标识要发生增强的位置。步骤1104基于根据解析故事内容而标识的位置来增强故事的一个或多个属性或特性。例如，可以如上面所描述的增强读者的话音。可替换地或者附加地，可以如上面所描述的应用一种或多种效果。此外，可以增强或修改故事本身的内容。例如，增强可以进一步包括增强与故事关联的视频，例如如上文和下文中描述的操纵故事内的一个或多个对象。此外，该步骤可以在任何适当的位置执行，其示例在上文中提供。

步骤1106使得远程参与者能够消费增强的电子故事。该步骤可以以任何方式执行，其示例在上文中提供。

考虑了利用故事内容应用增强效果的示例实施例之后，现在考虑故事内容可以如何包括诸如标签之类的用于指示何时应用增强的元数据。

使用故事元数据来应用增强

在一个或多个实施例中，可以利用制定电子故事内容的一部分的元数据来应用增强。例如，故事文件中的头部信息可以包括标识故事内要发生增强的各种位置的元数据标签。类似地，故事内容的正文内的元数据标签可以标识要发生增强的位置。这样的元数据标签不仅可以标识要发生增强的位置，而且可以标识要发生的增强的类型，例如“<morph.reader.voice morph=character_l/>”。在该示例中，故事内容中标签的位置指示要在何处对读者的话音变形以及发生的变形操作，即将读者的话音变形为“character_l（角色_1）”的话音。

图12图示出描述依照一个或多个实施例的方法中的步骤的流程图。该方法可以结合任何适当的硬件、软件、固件或者其组合实现。在至少一些实施例中，该方法的方面可以通过适当配置的软件模块（诸如图1-3的增强效果模块112）实现。

步骤1200建立多个参与者之间的通信连接。该通信连接被建立以便使得参与者能够共享在参与者之中共享电子故事的交互式阅读体验。可以建立任何适当类型的通信连接，其示例在上文中提供。

步骤1202在阅读故事期间检测与故事关联的、标识要发生增强的位置的元数据。这可以通过解析内容以标识元数据以及因而可以发生增强的位置来完成。上文中提供了元数据的示例。步骤1204基于从元数据所标识的位置来增强故事的一个或多个属性或特性。例如，可以如上面所描述的增强读者的话音。可替换地或者附加地，可以如上面所描述的应用一种或多种效果。此外，可以增强或修改故事本身的内容。此外，该步骤可以在任何适当的位置执行，其示例在上文中提供。

步骤1206使得远程参与者能够消费增强的电子故事。该步骤可以以任何方式执行，其示例在上文中提供。

考虑了利用元数据应用增强效果的示例实施例之后，现在考虑可以如何利用电子故事的页码和其他结构指示何时应用增强。

使用页码和其他故事结构来应用增强

在一个或多个实施例中，可以利用故事的页码或者其他故事结构来应用增强。例如，阅读故事时，当读者到达特定页面或段落时，可以应用增强。假定例如正在阅读某个故事，并且在该故事的第3页上，整个页面包括一个角色的对话。在该实例中，当读者转到第3页时，可以应用话音变形和/或其他效果。当读者转到第4页时，可以终止话音变形和/或其他效果。可替换地或者附加地，一旦增强开始，它可以在页面或段落结束之前自然地结束。

在操作中，使用页码或其他故事结构来应用增强可以通过使用伴随故事的元数据而实现。该元数据可以标识要用于增强的页面、段落和/或其他故事结构以及要应用的增强类型。这可以使得能够通常在读者通读故事时自动触发增强。

图13图示出描述依照一个或多个实施例的方法中的步骤的流程图。该方法可以结合任何适当的硬件、软件、固件或者其组合实现。在至少一些实施例中，该方法的方面可以通过适当配置的软件模块（诸如图1-3的增强效果模块112）实现。

步骤1300建立多个参与者之间的通信连接。该通信连接被建立以便使得参与者能够共享在参与者之中共享电子故事的交互式阅读体验。可以建立任何适当类型的通信连接，其示例在上文中提供。

步骤1302在阅读故事期间检测标识要发生增强的位置的一个或多个页码或者其他故事结构。步骤1304基于从页码或其他故事结构所标识的位置来增强故事的一个或多个属性或特性。例如，可以如上面所描述的增强读者的话音。可替换地或者附加地，可以如上面所描述的应用一种或多种效果。此外，可以增强或修改故事本身的内容。例如，增强可以进一步包括增强与故事关联的视频，例如如上文和下文中描述的操纵故事内的一个或多个对象。此外，该步骤可以在任何适当的位置执行，其示例在上文中提供。

步骤1306使得远程参与者能够消费增强的电子故事。该步骤可以以任何方式执行，其示例在上文中提供。

考虑了利用电子故事的页码和其他结构指示何时应用增强的示例实施例之后，现在考虑一些实现方式的示例。

实现方式的示例和考虑因素

图14图示出依照一个或多个实施例的设备1400的实现方式的方面。设备1400包括图示的麦克风、摄像机和扬声器。此外，设备包括IP语音通信（VoIP）应用1402、语音识别器1404、定位检测器1406、预设表1408、话音变形模块1410、电子书文件1412（即电子书）和展现器或web浏览器1414。网络1416使得设备1400能够与其他远程设备连接以便共享交互式故事。在至少一些实施例中，其他远程设备中的每一个包括如上文和下文中所描述的而进行操作的相同或类似的部件。在该图示和描述的示例中，VoIP应用1402经由互联网1416发送和接收视听流。起源于VoIP应用1402的流可以如上面所描述的通过适当配置的语音识别器1404、定位检测器1406和预设表1408进行处理。

在一个或多个实施例中，VoIP应用1402包括与运行在相同设备上的诸如web浏览器1414之类的web浏览器或者与该web浏览器集成在一起。在该示例中，经由web上的URL访问电子书文件1412，该URL使得关联内容以若干标准电子书格式中的任何格式从服务器下载到设备。一旦下载，该内容在设备的专用于展现器或web浏览器1414的屏幕区中本地地展现。当启动VoIP应用时，以惯常的方式设立呼叫。当双方或者每方同意共享图书时，将展现器或web浏览器1414引导到与书库相应的URL。相同的URL也从呼叫发起设备传输至其他参与者的设备。然后，每个设备或者应用将打开相同的URL，使得参与者能够查看相同的库。一旦参与者就选择达成一致，并且某个参与者选取了特定图书的URL，那么该图书的URL传输至其他参与者中的每一个参与者，使得他们可以打开相同的图书。当访问所选取的图书的URL时，来自服务器的控制数据和内容传输至设备，并且相应地展现该图书。根本内容可以以任意数量的格式表示，举例而言且非限制性地，所述格式包括HTML 5和/或各种EPUB版本或其他专有格式中的任何一种。

在其他实施例中，可以在不使用标准web浏览器的情况下展现电子书。在该实例中，专用展现器可以用来展现电子书。服务器上的内容仍然可以以上面列出的任何格式驻留。然而，一个区别是，web浏览器的完整功能性不必存在于这些实现方式中。替代地，专用展现引擎可以用于所选择的、无论何种的电子格式。数据可以通过标准连接直接从服务器传输至参与者设备，该标准连接举例而言且非限制性地例如TCP/IP。然后，当接收到这些数据时，展现引擎读取控制数据并且展现图书页面。

而在其他的实施例中，可以使用上面的任一技术展现电子书，并且然后作为例如视频流或者一系列静止图像直接传输至其他参与者。这可以使用典型的屏幕共享设置完成。这可以简化远端应用的实现方式，因为无需利用浏览器或者展现引擎。

而在其他的实施例中，电子书可以在服务器上展现并且下载到所有所连接的设备。在这种情况下，端点可能是不太强大的平台，因为它们所需做的一切是回放所接收的音频和视频流。这将例如在例如端点表示所谓的“瘦客户端（thin client）”的情况下起作用。服务器为输入设备中的每一个输入设备展现图书页面，将所有增强应用到接收自呼叫参与者的音频和视频流，并且创建复合图像，诸如将适当参与者的视频流覆盖在上面的书页。为了与现有的VoIP框架兼容，可以在说话者的设备上对呼叫音频编码，并且然后在应用增强效果之前在服务器上对其解码。服务器然后可以对修改的音频重新编码并且将其发送至其他端点。在至少一些实例中，也可能将原始的未压缩音频和视频发送至服务器。这可以节省编码/解码往返行程，但是可能会利用相当多的网络带宽，因为发送了未压缩的流。视频增强可以以相同的方式完成，其中服务器为所有参与者解码视频流，应用任何所选取的效果，并且然后对流重新编码且将它们发送至其他参与者。

捕获共享的故事体验以供后续共享

在一个或多个实施例中，可以捕获共享的故事体验以供后续共享。在这些实例中，当正在阅读故事时，共享呼叫的任一端的软件可以将正在呈现的视频和音频流连同任何关联的效果一起捕获。所捕获的视频和音频流可以使用诸如MPEG-4等等之类的任意数量的标准视频格式（诸如MPEG-4等等）存储在设备的盘（例如非易失性存储器）上的文件中。在故事结束（如通过关闭图书而结束）之后，可以就以下内容提示用户，即：他们是否想要共享他们刚刚欣赏的体验的视频。如果选择是，那么可以将音频/视频文件上传至服务器，例如YouTube、SkyDrive等等，并且随后与用户的家庭和/或社区的其他成员共享。这向没有直接参与到呼叫中的其他人提供了欣赏和连接，并且也可以用来增加故事（事实上是交互式故事应用本身）的流行度。也可以保留文件以供原始参与者以后欣赏。

考虑了捕获共享故事以供后续共享之后，现在考虑保持远程客户端之间的同步的讨论。

远程客户端之间的同步

在一个或多个实施例中，正在共享的电子书的单个实例可以在所有参与者的计算机之间同步。无论何时参与者之一与图书交互时，与该交互相应的控制信息都被传输至所有其他参与者。交互的示例包括但不限于：前进或倒回到下一页/前一页，触摸页面内的对象，退出图书，跳至结尾，设置书签，选择现有的书签，等等。

当接收到该交互控制数据时，它使得其他应用在相应的设备上发起相同的动作（例如下一页、前一页、“对象被触摸”等等）。这些控制可以经由预定协议实现，例如通过TCP/IP发送诸如以下的ASCII字符串：

NEXTPAGE（下一页）

PREVPAGE（前一页）

EXITBOOK（退出图书）

SETBOOKMARK n （设置书签n）

OPENBOOKMARK n （打开书签n）

FIRSTPAGE（第一页）

LASTPAGE（最后一页）

TOUCHON {x,y} （触摸开启{x,y}）

TOUCHOFF {x,y} （触摸关闭{x,y}）

SELECTOBJECT n（选取对象n）

一些上面的动作（例如NEXTPAGE（下一页））可以由参与者中的任一参与者发起。过滤/互锁机制阻止各种用户设备变得不同步。当在本地请求页面变化时，命令立即广播至所有其他参与者。当远程设备接收到该命令时，它将临时锁定任何（对于该设备而言）本地生成的页面变化请求，直到它接收到来自发起设备的PAGECHANGECOMPLETE（页面变化完成）消息为止。远程设备然后颁布命令（例如转到下一页），并且然后将确认（PAGECHANGEACKOWLEDGE（页面变化确认））消息发送回至发起设备。本地（发起）设备上的页面不变化，直到所有远程设备确认收到翻页命令为止。翻过本地页面，并且广播PAGECHANGECOMPLETE消息。当远程设备接收到该消息时，它们再次自由地去响应本地生成的命令。

如果某个远程设备接收到由于相应（例如PAGECHANGECOMPLETE）消息没有被接收到而被阻止的本地生成的命令（例如NEXTPAGE），那么该设备可以触发诸如例如页面撕开的声音之类的声音或者诸如视觉闪烁、振动等等之类的某个其他可感知的事件以便指示其请求由于潜在冲突的原因而被忽略。这将降低具有临时无响应的用户界面所带来的令人不安的效果。

媒体流操纵

如上面所描述的，一个或多个彼此远离的读者可以诸如通过电子和/或数字图书参与到一起阅读交互式故事中。在一些实施例中，该交互式体验可以包括修改、处理和/或增强与故事关联的视频，以及将所处理的视频合并到故事中，如下文中进一步描述的。通过将故事部分地基于关联的视频捕获，交互式故事中的参与者可以加强阅读体验。

各种实施例处理视频以便检测视频内包含的脸部、脸部特征和/或区域。响应于检测到脸部、脸部特征和/或区域，一些实施例至少部分地基于所检测的脸部、脸部特征和/或区域来增强视频。在一些情况下，可以将增强的视频嵌入到故事内。可替换地或者附加地，可以处理视频以便检测视频内包含的姿态和/或移动。与故事关联的视觉和/或听觉暗示可以至少部分地基于所检测的姿态和/或移动。

作为交互式故事体验的一部分，一些实施例使得用户能够将视频和/或静止图像嵌入到故事体验内。如上面所描述的，可以给予用户可以修改和/或个性化在故事内的各种点和/或图像的暗示或指示。例如，在一些实施例中，可以向用户给予可选取的图像的暗示。选取图像可以触发附加的视频捕获和/或图像处理，其可以随后用来代替或修改图像，如下文中进一步描述的。在一些情况下，用户的视频可以直接代替关联的故事图像。在其他情况下，可以增强和/或过滤用户的视频以便反映故事内的角色。

作为视频捕获过程的一部分，考虑图15，其图示出一个示例实施例，这里示为图1的最终用户终端102。如先前在上文中图示和描述的，最终用户终端102包含增强效果模块112，其除了别的以外包括音频增强模块300、视频增强模块302和增强暗示模块304。为了本讨论的目的，最终用户终端102及其关联的元件和环境已经被简化。然而，应当领会且理解的是，该简化并非预期限制要求保护的主题的范围。

除别的以外，最终用户终端102从摄像机1502接收视频输入。摄像机1502表示可以电子地捕获、记录和/或处理运动中的一系列图像的功能性。此外，电子捕获的图像可以存储在任何适当类型的存储设备上，其示例在下文中提供。在这里，摄像机1502被图示为最终用户终端外部的设备，其通过有线连接发送捕获的视频。然而，可以使用任何适当类型的连接，诸如无线连接。在一些实施例中，摄像机1502和用户终端102彼此集成在相同的硬件平台上（诸如集成在智能电话上的视频摄像机）。可替换地或者附加地，摄像机1502可以与最终用户终端102的外设集成在一起，诸如集成在连接到最终用户终端102的显示设备上的摄像机。因此，摄像机1502表示可以电子地捕获视频和/或将视频发送至最终用户终端102的任何形式的设备，不管它们是集成的还是分离的。

视频捕获1504表示被最终用户终端102接收的视频图像。在该示例中，视频捕获1504由摄像机1502生成，并且本地地存储在最终用户终端102上。然而，应当领会的是，视频捕获1504也可以远离最终用户终端102存储，而不脱离要求保护的主题的范围。因此，最终用户终端102可以以任何适当的方式获取视频捕获，诸如通过直接连接到最终用户终端102的摄像机（如这里图示的）或者通过远程连接获取视频捕获。在一些实施例中，视频捕获可以包括诸如所共享的故事体验的一个或多个参与者和/或读者之类的一个或多个人的图像。在这里，视频捕获图像1506表示包括视频捕获1504的多幅静止图像之一。为了简单起见，将参照视频捕获图像1506进行讨论。然而，应当领会的是，参照视频捕获图像1506描述的功能性可等同地应用到视频捕获1504和/或所述多幅图像。

当参与到多用户通信会话中时，视频经常比纯文本更有效地传达与用户关联的情感。例如，文本短语“哦”可以被解释为许多情感之一：惊奇，失望，好奇，兴奋，愤怒，厌恶等等。在不知道任何上下文的情况下，阅读该短语的用户可能不能如所预期的解释它，从而导致一定程度上“平淡的（flat）”且误导性的体验。然而，观看说出该短语的第二用户的视频的用户可以根据第二用户在说该短语时脸部如何变化的视觉暗示更好地解释预期的情感。按照类似的方式，将这些视觉暗示和/或姿态捕获到共享的故事中可以加强故事体验。

在一些实施例中，脸部检测算法可以自动地检测视频捕获中的脸部和/或脸部区域。这些算法可以标识视频和/或静止图像内的脸部特征，同时忽略和/或不考虑图像内的其他对象。例如，考虑图16，其描绘了应用到图15的视频捕获图像1506的脸部检测算法1602a、1602b和1602c的方面。脸部检测算法1602a表示总体上检测脸部并且使用框标记脸部位置的算法。在该示例中，使用矩形框来限定区域1604以便标识检测的脸部位于何处。可以使用任何适当的尺寸和形状，例如正方形框、椭圆形框、圆形框等等。可替换地或者附加地，区域的尺寸可以基于图像中有多少内容包含所检测的脸部而变化。在一些情况下，这种总体标识可能在其中存在较少的可用处理能力的环境中是合适的。

脸部检测算法1602b表示具有比脸部检测算法1602a更精细的标识的脸部检测算法。在这里，标识了与脸部检测关联的两个区域，内区域1606和外区域1608。在一些实施例中，内区域1606与外区域1608之间的区域表示由脸部检测算法标识的要用作“混合”和/或平滑的区域。例如，混合区域可用用来将所标识的脸部和/或视频转变到故事内的第二图像中。在区域1608之外，不存在将被拷贝到故事内的第二图像中的与视频捕获图像1506关联的像素和/或内容。相反地，被区域1606包围的像素和/或内容将被拷贝和/或传递。区域1606与1608之间的区域可能导致视频捕获图像1506与第二图像之间的混合以在单独的图像之间平滑地转变。可以使用任何适当的混合算法，例如阿尔法（Alpha）混合算法。在一些情况下，（一个或者多个）混合算法使用诸如区域1606与区域1608之间的空间之类的空间以将所选取的图像（诸如视频捕获图像1506）的透明度从0（无透明度，100%可见）转变到1（完全透明度，0%可见）。按照这种方式，与故事中的参与者关联的视频图像可以叠加在故事内的一个或多个角色上，从而使体验个性化。

作为另一个示例，脸部检测算法1602c标识与脸部关联的特定细节，这里总体示为区域1610。在这里，眼睛、鼻子和嘴巴彼此分开地定位和标识。像在上面的情况下那样，这些特征可以叠加在故事中包含的一幅或多幅图像上，诸如代替故事内的卡通角色的眼睛、鼻子和嘴巴。可替换地或者附加地，可以随着时间监视这些特征以便标识姿态，例如眼色、吻、喷嚏、口哨、谈话、叫喊、眨眼、点头、摇头等等。所标识的姿态进而又可以驱动故事内的卡通角色的动画。例如，在一些实施例中，检测到视频内的眼色可以进而又使得关联的卡通角色使眼色。尽管在脸部检测的上下文中进行讨论，但是应当领会且理解的是，可以监视和/或检测任何适当的姿态，而不脱离要求保护的主题的范围。

在一些实施例中，用户可以人工地标识视频和/或静止图像内的一个或多个区域以便合并到共享故事体验中。考虑图17，其图示出一个示例用户界面1702。用户界面1702使得用户和/或参与者能够定制要增强视频和/或静止图像的哪些部分。在该示例中，作为定制过程的一部分，用户界面1702向用户显示图15的视频捕获图像1506。该显示可以被配置成在对视频捕获图像1506做出变化和/或应用变化时更新以反映修改。例如，控件1704允许用户经由缩放和旋转修改定位图像内的关联头部。当用户向左边或右边滑动缩放控制条时，用户界面1702可以更新视频捕获图像1506的显示以反映关联的缩放因子。类似地，当用户向左边或右边滑动旋转控制条时，用户界面1702可以顺时针和/或逆时针旋转视频捕获图像1506的显示。这些更新可以在用户主动地参与控制时和/或在用户选择应用所述变化时发生。可替换地或者附加地，一个或多个参考点可以用来锚定图像的定位。在这里，锚1706指示与包含在视频捕获图像1506内的眼睛关联的定位。这些锚可以是固定的或者是可调节的。在一些实施例中，用户界面1702可以被配置成允许用户拖动和/或移动锚1706。在其他实施例中，锚1706可以在定位上是固定的，并且用户可以相对于锚将视频捕获图像1506拖动和/或移动到希望的定位。用户界面1702包括允许用户找到对视频捕获图像1506做出的调整变化、定位嘴巴的锚并且保存变化的附加控件1708。然而，应当领会且理解的是，任何适当的控件组合和/或类型可以包括在用户界面1702中，而不脱离要求保护的主题的范围，诸如与裁剪、修改颜色饱和度、修改颜色着色、标识鼻子定位等等关联的控件。此外，这些人工标识可以在与视频捕获关联的静止图像、与视频捕获关联的一系列图像或者其任意组合上执行。例如，然后，对静止图像做出的标识可以被随后应用到具有类似的脸部放置和/或纵横比的一系列其他图像中。

上面的讨论描述了与视频捕获和静止图像关联的人工和自动检测技术。尽管在标识脸部、脸部特征和/或脸部姿态的上下文中进行了描述，但是应当领会的是，可以以任何适当的方式修改和/或应用这些技术。例如，代替脸部识别和/或标识眼色，可以处理视频以标识挥手、手语姿态等等。如上面所讨论的，这些所标识的姿态然后可以用来影响共享故事体验的动画和/或行为。可替换地或者附加地，一旦标识了各种特征（诸如脸部检测），作为讲故事过程的一部分，可以增强和/或加强视频。

一些实施例增强和/或修改视频捕获数据作为共享故事体验的一部分。读者和/或参与者可以上传视频和将视频捕获数据的修改版本合并到故事中。在一些情况下，可以将一个或多个滤波器应用到视频以便修改其外观，所述滤波器诸如高通滤波器、低通滤波器（使图像模糊）、边缘加强技术、彩色滤波器（例如使用源图像的亮度通道对任意RGB表进行标引）、失真滤波器（纹波、透镜、垂直波、水平波等等）、棕褐色调滤波等等。例如，“转描”滤波器可以将“真实世界”图像的外观修改为“卡通世界”图像。转描可以使用数个滤波器的组合实现（例如，应用对比度加强，然后从RGB颜色空间转换到HSV颜色空间，然后对V坐标非常粗糙地量化）。专业转描的一个阶段典型地涉及展现要转描的每张脸部周围的轮廓线，并且然后应用转描算法。可替换地或者附加地，故事的可视背景可以个性化为参与者熟悉的东西。例如，背景可以是参与者卧室、住宅或者邻居的图片。因此，故事内的图像和/或对象可以与视频捕获和/或静止图像的至少一部分相组合。例如，电子故事可以包括显示坐在卧室中的卡通角色的图像和/或对象。在一些实施例中，可以上传单独的卧室图像并且将其与卡通角色组合，使得所产生的图像和/或对象显示坐在单独的卧室中的卡通角色。此外，在至少一些实施例中，类似于Kinect类型的场景，可以捕获读者的身体运动，并且将其用于驱动故事中的角色的动画。

考虑图18，其图示出转描滤波器的示例之前和之后。图像1802图示出某个男人的静止图像。该图像表示由摄像机（例如图15的摄像机1502）拍摄的真实世界图像。在这里，图像以男人的头部为中心。在一些实施例中，先前已使用如上面所描述的脸部检测算法处理了图像1802以移除脸部周围的其他元素和/或对象。该图像可以用作是对于一个或多个滤波器（诸如上面描述的转描滤波器）的输入。图像1804图示出图像1802在应用转描滤波器之后看起来如何。在滤波之后，图像1804与图像1802的绘制版本或者卡通版本很相似。尽管在静止图像的上下文中进行了讨论，但是应当领会的是，可以将滤波器应用到视频捕获，而不脱离要求保护的主题的范围。

如先前所描述的，各种事件的检测可以给予用户何时可以个性化、修改和/或定制故事的方面的暗示。响应于这些暗示，用户可以除别的以外通过修改视频捕获并且将所修改的视频嵌入到故事中而对故事进行个性化。在一些情况下，可以对于与讲故事有关的各种特征和/或姿态自动地分析和/或人工地标记视频捕获。例如，考虑图19，其图示出加强的交互式故事1902。在该示例中，视频捕获图像1506以两种单独的方式被增强并且嵌入到加强的交互式故事1902中。增强的视频1904表示与视频捕获图像1506关联的转描图像。在这里，利用转描滤波器效果对视频捕获图像1506滤波以便如上面所描述的将关联的脸部传递到“卡通世界”中。除了应用转描滤波器作为增强过程之外，将所修改的图像叠加在花的卡通体上。在一些实施例中，增强的视频1904可以是与视频关联的某个静止图像，而在其他实施例中，增强的视频1904可以是一系列图像。可替换地或者附加地，视频捕获图像1506中检测的脸部特征可以驱动与故事中包含的卡通关联的脸部变化。

除了合并增强的视频1904之外，加强的交互式故事1902包括与叠加在图像1906上的视频捕获图像1506的脸部关联的静止图像。如上面所讨论的，可以使用自动和/或人工脸部检测过程提取脸部。在这里，脸部特征被简单地剪切并且粘贴到图像1906中。然而，在其他实施例中，可以应用其他的增强滤波器，诸如上面描述的阿尔法混合算法。

用户可以选择以数种方式将视频合并到故事体验中。一些实施例在阅读过程之前、期间或者之后通知用户对于视频插入和/或增强的潜在机会和/或给予用户这些潜在机会的暗示，其示例在上文中提供。在一些情况下，用户可以从故事内的可用角色列表中选取角色以便补充、增强或者替换为视频捕获。这也可以自动地完成。例如，在读者读到来自Elmo的引用的任何时间，将读者的话音变形为听起来像Elmo，并且相应地将电子故事中的Elmo的图片动画化为读者的脸部表情。可替换地或者附加地，由用户选取角色或暗示通知可以激活摄像机和/或视频捕获过程。除了通知用户潜在的增强机会之外，一些实施例使得用户能够选取如何对视频捕获进行处理、滤波、分析等等。在其他实施例中，当检测到用于视频插入和/或增强的机会时，视频插入和/或增强可以自动地发生。例如，使用上面的Elmo示例，当Elmo的话音被检测为正被读时，可以针对姿态而分析视频捕获，其随后可以用来自动地将电子故事中的Elmo图像动画化。按照这种方式，故事体验可以由与故事关联的所有参与者来个性化。附加地，可以指出的是，视频处理和/或增强可以发生在系统内的任何适当的设备处，诸如与捕获视频关联的设备、被配置成存储复合故事体验的服务器设备和/或接收设备。

为了进一步证明，考虑图20，其图示出描述依照一个或多个实施例的方法中的步骤的流程图。该方法可以由任何适当的硬件、软件、固件或者其组合执行。在至少一些实施例中，该方法的方面可以通过在一个或多个计算设备上执行的一个或多个适当配置的软件模块（诸如图1-3的增强效果模块112）实现。

步骤2000接收与电子故事的读者关联的视频数据，该电子故事被配置成与一个或多个远程参与者共享。在一些实施例中，视频数据接收自与读者关联的计算设备。在其他实施例中，视频数据从与读者关联的计算设备外部的服务器位置中获取。可替换地或者附加地，视频数据可以从作为远程参与者的读者或者存储在计算设备本地和/或外部的预先记录的视频中获取。有时，如上文中进一步描述的，可以响应于接收到和与电子故事关联的提示和/或暗示关联的输入而获取和/或接收视频数据。

响应于接收到视频数据，步骤2002增强视频数据以生成至少一幅新图像。例如，可以使用诸如脸部检测算法、姿态检测算法等等之类的各种算法分析视频数据。这些检测算法有时可以更改和/或增强视频数据以保留感兴趣区域和/或图像并且移除被确定为不太相关的区域和/或图像。在一些情况下，可以将滤波器应用到视频数据以生成视频数据的更改版本，诸如应用转描滤波器效果以生成视频数据的“卡通世界”版本，或者将视频数据与其他图像混合。在其他情况下，可以分析视频数据以便标识视频数据内捕获的一种或多种姿态。这些姿态然后可以被利用来驱动与电子故事关联的图像和/或视频数据的行为。例如，在电子故事内所关联的卡通角色的图像可以模仿视频数据内标识的姿态。此外，该步骤可以在任何适当的位置执行。在至少一些实施例中，该步骤可以在读者的计算设备处或者由读者的计算设备执行。可替换地或者附加地，该步骤可以由接收了步骤2000的视频数据的服务器执行。可替换地或者附加地，与每个远程参与者的每个参与者关联的计算设备可以执行该步骤。上文中提供了这可以被如何完成的示例。应当领会且理解的是，尽管一般地使用术语“图像”加以描述，但是可以使用图形/视觉数据的任何表示，而不脱离要求保护的主题的范围，诸如矢量图形、位图图形、元文件格式、线图、图形交换格式（GIF）、交换文件格式（IFF）、联合图片专家组（JPEG）、标签图像文件格式（TIF）等等。

响应于增强视频数据以生成至少一幅新图像，步骤2004使得所述一个或多个远程参与者能够消费增强的视频数据。例如，在其中在读者的计算设备上增强视频数据的实施例中，步骤2004可以通过向与远程参与者的每个参与者关联的计算设备传输或者以其他方式传达增强的视频数据而执行。在其中视频数据由服务器增强的实施例中，该步骤可以通过服务器将增强的视频数据分发至与远程参与者的每个参与者关联的计算设备而执行。在其中视频数据由与远程参与者关联的计算设备增强的实施例中，该步骤可以通过使得该远程参与者能够经由适当配置的应用来消费增强的视频数据而执行。

现在考虑可以采用上面描述的实施例的一些使用场景。

示例使用方案

假定两个人“Billy”和“Joe叔叔”在远程地阅读电子书。该图书是熟悉的儿童歌曲“公交车上的车轮不停转动（The Wheels on the Bus Go Round and Round）”的插图版本。该图书打开到示出学校公交车、公交车司机、门、车轮和挡风玻璃雨刮器的页面。当Billy通过触摸司机的脸部或者某个嵌入式控件而发起增强效果时，应用脸部检测和转描以使Joe叔叔的脸部被操纵为卡通版本并且覆盖在公交车司机的头部上。当在故事中指示各种不同的动作（如通过由ASR进行跟踪、对象交互、接收用户界面输入等等）时，它们在数字故事显示中出现（例如雨刮器沙沙摆动，门打开和关闭，婴儿哭喊等等）。当应用它们时，Joe叔叔和Billy二者都在其设备上看见这些效果。

另一个用途的示例包括利用占位符以用于使其他人参与到故事阅读中。这些占位符可以嵌入到故事中，并且可以在如果在故事正被阅读时那些人在线的情况下激活。这可以使得能够发现与其一起阅读的人。例如，小孩可能正在为了要阅读的书而浏览库，并且也看见在线的家庭成员列表。他们然后可以选择一个或多个家庭成员来共享故事。可替换地，小孩可能正在独自阅读图书，并且在翻到第4页时，发现祖母在线并且可用来一起阅读。这可以由故事中的、指示可用于视频聊天的人的嵌入式控件或小部件指示。通过点击小部件或控件，可以开始视频聊天会话。可替换地或者附加地，小部件可以置于图书外部（例如右边），使得不管被阅读的页面如何，它都可用。可替换地或者附加地，祖母可能已经开始了视频呼叫并且已经位于第4页上的占位符位置。可替换地或者附加地，祖母和小孩可能正在一起阅读，并且当到达第4页时，他们注意到树图形在振动（或者某个其他的视觉暗示）。小孩或祖母然后可以触摸树，并且第三人（例如Dan叔叔）加入视频呼叫，但是时间仅仅够长来扮演松鼠的角色，以及也许还有短会谈，其后Dan离开呼叫并且祖母和小孩重新开始阅读故事。

另一个用途的示例可以允许读者或者另一个参与者正好在向远程参与者读故事之前将一段简短内容注入图书中。这可以保持内容新鲜和迷人，例如，虽然故事仍然相同，但是当你到达故事中的某些段落时，那里可能贮藏着惊奇。所注入的内容可以直接记录在设备上，或者如果所注入的内容来自另一个参与者，则从驻留在设备上的视频文件导入。为了实现这点，对于电子书的元数据可以被扩展为包括用于外部文件的容器（槽）。在最简单的情况下，文件名可以是固定的，像在“externalVideol.mp4”、“externalVideo2.mp4”等等中那样。当展现电子书时，元数据引导这些视频流送至元数据标签内所供应的页面上的坐标处，如：

附加的元数据标签（例如上面的triggerAction（触发动作））可以指定触发视频回放的动作。当将视频流作为页面上的特定对象的一部分而嵌入时，其他元数据标签将更合适。正下方示出了一个示例：

在上面的标签中，Schoolbus（学校公交车）对象要从所指名的文件接收覆盖的视频流。它将定位于相对于Schoolbus图形的边界框的左上的、偏移量为{10, 20}的位置处。视频可以使用色度键控，使得进入的视频中具有颜色0x0080FF的所有像素将是透明的。视频中的所有其他像素将代替电子书页面的相应像素上的像素。这允许使用传统的蓝屏技术覆盖例如仅仅人的视频记录的头部和肩部。可以利用诸如背景移除之类的其他技术。

另一个使用场景可以包括所谓的共同定位场景，其中参与者可以坐在一起并且在相同设备上欣赏故事。例如，祖母和她的孙子女可以一起欣赏故事并且将他们的脸部具有变形到故事的角色上的脸部。可以例如在记录-然后-播放（record-then-play）方法中实现音频增强。假定例如故事涉及洞穴，并且电子故事具有记录按钮形式的用户界面元素。祖母按下记录按钮并且记录“救救我，我陷在洞穴中”。她的孙子女然后可以触摸与祖母关联的角色，并且听见应用了回声的该角色话音中的短语。

在上面的示例中，所有参与者典型地欣赏相同的体验（来自读者的嵌入式视频、来自第三方的嵌入式视频、指示存在第三参与者的图形元素等等）。

考虑了示例使用场景之后，现在考虑可以被利用来实现一个或多个实施例的示例设备的讨论。

示例设备

图21图示出可以实现为如参照图1和图2描述的实现本文描述的数据启发式引擎的实施例的任何类型的便携式和/或计算机设备的示例设备2100的各种部件。设备2100包括通信设备2102，其使得能够实现设备数据2104（例如接收的数据、正被接收的数据、计划用于广播的数据、数据的数据分组等等）的有线和/或无线通信。设备数据2104或者其他设备内容可以包括设备的配置设置、存储在设备上的媒体内容和/或与设备用户关联的信息。存储在设备2100上的媒体内容可以包括任何类型的音频、视频和/或图像数据。设备2100包括一个或多个数据输入2106，经由所述数据输入可以接收任何类型的数据、媒体内容和/或输入，诸如用户可选取的输入、消息、音乐、电视媒体内容、所记录的视频内容以及接收自任何内容和/或数据源的任何其他类型的音频、视频和/或图像数据。

设备2100也包括可以实现为以下的一个或者多个的通信接口2108，即：串行和/或并行接口、无线接口、任何类型的网络接口、调制解调器以及任何其他类型的通信接口。通信接口2108提供设备2100与通信网络之间的连接和/或通信链路，其他电子、计算和通信设备通过其与设备2100传送数据。

设备2100包括一个或多个处理器2110（例如微处理器、控制器等等中的任何），其处理各种计算机可执行或可读指令以便控制设备2100的操作并且实现上面描述的实施例。可替换地或者附加地，设备2100可以利用结合总体地标识于2112处的处理和控制电路实现的硬件、固件或固定逻辑电路系统的任何一个或者其组合实现。尽管未示出，但是设备2100可以包括耦合设备内的各种部件的系统总线或数据传递传输系统。系统总线可以包括不同总线结构中的任何一种或者其组合，诸如例如存储器总线或存储器控制器、外设总线、通用串行总线和/或处理器或本地总线，其利用了各种各样的总线架构中的任何一种。

设备2100也包括计算机可读存储介质2114，诸如一个或多个存储器部件，其示例包括随机存取存储器（RAM）、非易失性存储器（例如只读存储器（ROM）、闪存、EPROM、EEPROM等等中的任何一个或多个）和盘存储设备。盘存储设备可以被实现为任何类型的磁性或光学存储设备，诸如硬盘驱动器、可记录和/或可重写紧凑盘（CD），任何类型的数字多功能盘（DVD）等等。设备2100也可以包括大容量存储介质设备2116。计算机可读存储介质预期指的是法定形式的介质。因此，计算机可读存储介质没有描述载波或信号本身。

计算机可读存储介质2114提供了用于存储设备数据2104以及各种设

备应用2118和与设备2100的操作方面有关的任何其他类型的信息和/或数据的数据存储机制。例如，操作系统2120可以利用计算机可读存储介质2114作为计算机应用来维护，并且在处理器2110上执行。设备应用2118可以包括设备管理器（例如控制应用、软件应用、信号处理和控制模块、源于特定设备的代码、用于特定设备的硬件抽象层等等），以及其他应用，其可以包括web浏览器、图像处理应用、诸如即时消息传送应用之类的通信应用、字处理应用和各种各样的其他不同的应用。设备应用2118也可以包括用于实现本文描述的技术的实施例的任何系统部件或模块。在该示例中，设备应用2118包括被示为软件模块和/或计算机应用的增强效果模块2122。增强效果模块2122表示如上面所描述的而进行操作的软件。可替换地或者附加地，增强效果模块2122被实现为硬件、软件、固件或者其任何组合。

设备2100也包括向音频系统2126提供音频数据和/或向显示系统2128提供视频数据的音频和/或视频输入-输出系统2124。音频系统2126和/或显示系统2128可以包括处理、显示和/或以其他方式展现音频、视频和图像数据的任何设备。视频信号和音频信号可以经由RF（射频）链路、S视频链路、复合视频链路、分量视频链路、DVI（数字视频接口）、模拟音频连接或者其他类似的通信链路从设备2100传送至音频设备和/或显示设备。在一个实施例中，音频系统2126和/或显示系统2128被实现为设备2100外部的部件。可替换地，音频系统2126和/或显示系统2128被实现为示例设备2100的集成部件。

结论

各种实施例提供了一种其中可以从远程位置体验故事的交互式共享故事阅读体验。各种实施例使得能够增强或修改与故事阅读体验关联的音频和/或视频。这可以包括在阅读故事时增强和修改读者的话音、脸部和/或与故事关联的其他内容。

按照这种方式，两个或更多个远程参与者可以与基于故事的共享交互式内容实时地通信并且交互。可替换地或者附加地，基于故事的共享交互式内容可以被增强或修改和记录和/或存档以供后续回放。

尽管以特定于结构特征和/或方法动作的语言描述了实施例，但是应当理解的是，在所附权利要求中限定的实施例不必限于所描述的特定特征或动作。而是，这些特定特征和动作作为实现要求保护的实施例的示例形式而公开。

Claims

1.一种计算机实现的方法，包括：

接收与电子故事的读者关联的音频数据，所述电子故事与一个或多个远程参与者共享；至少部分地基于促进语音识别来查明电子故事内的位置；

响应于查明所述位置，至少增强音频数据以便在阅读故事时的合适时间对读者的话音变形，在所述合适时间的所述增强包括当故事中的角色说话时对读者的话音进行变形以使得听起来像故事中的所述角色；以及

使得所述一个或多个远程参与者能够消费增强的音频数据。

2.权利要求1的方法，其中所述查明使用语音识别而执行。

3.权利要求1的方法，其中所述查明至少部分地使用触摸输入而执行。

4.权利要求1的方法，进一步包括增强电子故事的视觉内容。

5.权利要求1的方法，其中所述增强至少部分地基于与电子故事关联的文件中所包括的元数据而执行。

6.权利要求1的方法，其中所述查明通过查明读者正在对其进行阅读的页面或段落而执行。

7.一种计算设备，包括：

一个或多个处理器；

一个或多个计算机可读存储介质；

增强效果模块，其体现在所述一个或多个计算机可读存储介质上，并且被配置成由所述一个或多个处理器执行以有效地实现方法，所述方法包括：

经由自然用户界面(NUI)来捕获姿态输入，所述姿态输入是当阅读电子故事时与所述电子故事相关联的多个姿态输入中的一个，其中，所述电子故事与一个或多个远程参与者共享；

响应于捕获所述姿态输入，使用根据映射到所述多个姿态输入中的所述姿态输入的增强的增强效果来对所述电子故事的一个或多个属性或特性进行增强，所述进行增强包括同时对与所述电子故事相关联的音频和视觉内容两者进行增强，其中增强音频数据以便在阅读故事时的合适时间对读者的话音变形，在所述合适时间的所述增强包括当故事中的角色说话时对读者的话音进行变形以使得听起来像故事中的所述角色；以及

使得所述一个或多个远程参与者能够消费增强的电子故事。

8.权利要求7的计算设备，其中所述姿态输入包括基于非触摸的输入。

9.权利要求7的计算设备，其中所述姿态输入包括基于触摸的输入。

10.权利要求7的计算设备，其中所述增强包括增强电子故事的读者的话音。