CN107370814A

CN107370814A - 电子书朗读处理方法、终端设备及计算机存储介质

Info

Publication number: CN107370814A
Application number: CN201710602022.9A
Authority: CN
Inventors: 暴东旭
Original assignee: Zhangyue Technology Co Ltd
Current assignee: Ireader Technology Co Ltd; Zhangyue Technology Co Ltd
Priority date: 2017-07-21
Filing date: 2017-07-21
Publication date: 2017-11-21
Anticipated expiration: 2037-07-21
Also published as: CN107370814B

Abstract

本发明的实施例提供一种电子书朗读处理方法、终端设备及计算机存储介质。所述方法包括：启动在线朗读模式，在播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存；当网络连接质量下降到预设的质量阈值之下时，播放缓存的在后语音数据；在在后语音数据播放完毕后，若网络连接质量未恢复到质量阈值之上，则切换到离线朗读模式；在离线朗读模式下，若网络连接质量恢复到质量阈值之上，则切换回在线朗读模式。本发明的实施例通过缓存的在后语音数据给网络连接质量的恢复提供缓冲时间，能够避免不必要的离线切换。此外，还可从离线朗读模式切换回在线朗读模式，能够提升语音朗读的质量，从而提升用户的听书体验。

Description

电子书朗读处理方法、终端设备及计算机存储介质

技术领域

本发明实施例涉及数据处理领域，尤其涉及一种电子书朗读处理方法、终端设备及计算机存储介质。

背景技术

伴随着移动网络资费的下调以及深度学习的规模使用，人们的阅读方式已不再局限于用眼阅读内容。近年已开发出语音朗读(Text-to-Speech，TTS)功能，可通过语音播放例如书的内容，来提供另一种阅读体验。

语音朗读分为在线朗读解决方案和离线朗读解决方案。根据在线朗读解决方案，提供阅读功能的终端设备将文字内容发送到语音解决方案提供商的服务器上。服务器根据深度学习等机器学习方法，将文字内容渲染成为高品质的语音数据，再将渲染得到的语音数据发回给终端设备。根据离线朗读解决方案，提供阅读功能的终端设备通过本地的语音库对文字进行渲染形成语音数据，以进行播放。相对于离线朗读解决方案来说，语音解决方案提供商的服务器上的语音库数据通常更为完备、丰富，合成算法也更为成熟、复杂，在线朗读的声音品质更高，更接近真人朗读，错误率更低。

然而，在线朗读对网络环境具有较高的要求。当网络条件不稳定时，在线朗读产生卡顿现象，可能导致无法继续播放阅读内容，从而降低用户的读书体验。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的终端设备、计算机存储介质和相应的电子书朗读处理方法，以顺畅地提供在线朗读的电子内容。

根据本发明实施例的一个方面，提供了一种电子书朗读处理方法。所述方法包括：启动在线朗读模式，在播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存；当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据；在所述在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式；在离线朗读模式下，若网络连接质量恢复到所述质量阈值之上，则切换回在线朗读模式。

可选地，所述方法还包括：在所述在后语音数据的播放过程中，若网络连接质量恢复到所述质量阈值之上，则继续请求并缓存尚未播放的在后语音数据。

可选地，所述方法还包括：在在线朗读模式下，若网络连接质量发生下降但未下降到所述质量阈值之下，则延长缓存处理的语音数据长度。

可选地，所述延长缓存处理的语音数据长度，包括：根据预设映射关系查找与当前网络连接质量等级对应的语音数据长度；将查找到的语音数据长度设定为后续缓存处理时使用的语音数据长度。

可选地，所述方法还包括：当在线朗读模式与离线朗读模式之间的切换频率超过预设的频率阈值时，在后续预设时长内持续使用离线朗读模式。

可选地，所述当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据，包括：当网络连接质量下降到所述质量阈值之下时，播放缓存的所述在后语音数据，并且停止向所述语音合成服务器请求所述在后语音数据。

可选地，所述向语音合成服务器请求尚未播放的在后语音数据，包括：向所述语音合成服务器发送包括尚未朗读内容的定位信息的语音转换请求；从所述语音合成服务器接收与所述语音转换请求相应的语音转换响应。

可选地，所述尚未朗读内容的定位信息包括以下中的至少一者：所述尚未朗读内容的章节信息以及行信息；所述尚未朗读内容在电子书中的位置信息和长度信息；与所述尚未朗读内容对应的文本数据。

可选地，所述网络连接质量包括以下中的至少一者：是否连接至网络、掉包率、网络请求响应时间、单位时间段的数据下载量。

可选地，所述方法还包括：当所述在后语音数据的总缓存时长达到所述语音数据长度时，停止向所述语音合成服务器请求所述在后语音数据。

根据本发明实施例的另一方面，提供了一种终端设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：启动在线朗读模式，在播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存；当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据；在所述在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式；在离线朗读模式下，若网络连接质量恢复到所述质量阈值之上，则切换回在线朗读模式。

可选地，所述可执行指令进一步使所述处理器执行以下操作：在所述在后语音数据的播放过程中，若网络连接质量恢复到所述质量阈值之上，则继续请求并缓存尚未播放的在后语音数据。

可选地，所述可执行指令进一步使所述处理器执行以下操作：在在线朗读模式下，若网络连接质量发生下降但未下降到所述质量阈值之下，则延长缓存处理的语音数据长度。

可选地，所述可执行指令进一步使所述处理器执行以下操作：根据预设映射关系查找与当前网络连接质量等级对应的语音数据长度；将查找到的语音数据长度设定为后续缓存处理时使用的语音数据长度。

可选地，所述可执行指令进一步使所述处理器执行以下操作：当在线朗读模式与离线朗读模式之间的切换频率超过预设的频率阈值时，在后续预设时长内持续使用离线朗读模式。

可选地，所述可执行指令进一步使所述处理器执行以下操作：当网络连接质量下降到所述质量阈值之下时，播放缓存的所述在后语音数据，并且停止向所述语音合成服务器请求所述在后语音数据。

可选地，所述可执行指令进一步使所述处理器执行以下操作：向所述语音合成服务器发送包括尚未朗读内容的定位信息的语音转换请求；从所述语音合成服务器接收与所述语音转换请求相应的语音转换响应。

可选地，所述可执行指令进一步使所述处理器执行以下操作：当所述在后语音数据的总缓存时长达到所述语音数据长度时，停止向所述语音合成服务器请求所述在后语音数据。

根据本发明实施例的又一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：启动在线朗读模式，在播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存；当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据；在所述在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式；在离线朗读模式下，若网络连接质量恢复到所述质量阈值之上，则切换回在线朗读模式。

根据本发明实施例提供的电子书朗读处理方案，在在线朗读模式下播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存；当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据；在所述在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式，由此不仅解决了在线朗读模式实时依赖网络的问题，而且还避免了不必要的离线朗读模式的切换，取得了在网络不稳定时能够顺畅地提供在线朗读的电子内容的有益效果。

此外，在离线朗读模式下，若网络连接质量恢复到所述质量阈值之上，则切换回在线朗读模式，能够提高语音朗读的质量，取得了提升用户听书体验的有益效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是示出根据本发明实施例一的电子书朗读处理方法的流程图；

图2是示出根据本发明实施例二的电子书朗读处理方法的流程图；

图3是示出根据本发明实施例三的电子书朗读处理方法的流程图；

图4是示出根据本发明可选实施例的向语音合成服务器请求尚未播放的在后语音数据的流程图；

图5是示出根据本发明实施例五的一种终端设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在本申请中，“多个”指两个或两个以上，“至少一个”指一个、两个或两个以上。对于本申请中提及的任一部件、数据或结构，在没有明确限定一个的情况下，可理解为一个或多个。

实施例一

图1是示出根据本发明实施例一的电子书朗读处理方法的流程图。

本实施例的电子书朗读处理方法可以由任意具有数据收发和数据处理能力并且具有语音播放和语音处理能力的设备执行并实现，包括但不限于终端设备。本实施例中，以终端设备为执行主体为例进行说明。

参照图1，在步骤S101，启动在线朗读模式，在播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存。

其中，在在线朗读模式下，在终端设备的网络连接质量处于质量阈值之上的情况下，终端设备将要朗读的文字内容实时发送到语音合成服务器，语音合成服务器采用机器学习方法将实时接收的文字内容渲染成高品质的语音数据，并将渲染得到的语音数据发送到终端设备，由终端设备实时播放接收的语音数据。

在本实施例中，可例如，在启动某个电子书的朗读时，或者在电子书的朗读过程中检测到终端设备的网络连接质量处于质量阈值之上时，启动在线朗读模式。在在线朗读模式下播放当前语音数据的过程中，终端设备向语音合成服务器请求在后的尚未朗读的文字内容的语音数据，也即是尚未播放的在后语音数据。在接收到该在后语音数据之后，终端设备将接收到的在后语音数据进行缓存，例如，在本地以音频文件的形式存储该在后语音数据，或者在内存中缓存该在后语音数据。

此时，在在线朗读模式下，可播放先前已缓存的语音数据；如果在本地无先前缓存的语音数据(如首次启动电子书的朗读功能)，则可如前按照正常的带有缓存机制的在线朗读模式，向语音合成服务器请求将要朗读的文字内容的语音数据，并且播放接收到的语音数据。

在步骤S202，当网络连接质量下降到预设的质量阈值之下时，播放缓存的在后语音数据。

其中，所述网络连接质量指的是终端设备连接至网络的质量。可例如，以终端设备的网络连接状态、网络连接的掉包率、网络连接的单位时间数据下载量、网络连接的网络请求响应时间等来表示网络连接质量。可以理解的是，本实施例不限于此，任何可用来表示网络连接质量的参数均可用来表示网络连接质量。

例如，如果当前终端设备处于网络连接状态并且网络连接的单位时间数据下载量高于预设的数据下载量阈值，则可确定当前的网络连接质量较好，可继续向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存；如果当前终端设备未处于网络连接状态或者网络连接的单位时间数据下载量下降到预设的数据下载量阈值以下，则可确定当前的网络连接质量已转差，播放缓存的在后语音数据。

在具体的实施方式中，在在线朗读模式下播放当前语音数据的过程中，如果终端设备检测到网络连接质量下降到预设的质量阈值之下时，终端设备不再将尚未朗读的文字内容发送到语音合成服务器以获得语音数据，而是获取本地缓存的在后的尚未朗读的文字内容的语音数据，并播放在后的尚未朗读的文字内容的语音数据。

在步骤S103，在所述在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式。

其中，在离线朗读模式下，终端设备通过本地的语音数据库将要朗读的文字内容实时渲染成为语音数据，并对渲染得到的语音数据进行实时播放。相比于离线朗读模式，在线朗读模式的声音品质更高，更接近真人朗读，错误率更低。

在本实施例中，在本地缓存的尚未朗读的文字内容的在后语音数据播放完毕后，如果终端设备检测到网络连接质量没有恢复到质量阈值之上，朗读模式将切换到离线朗读模式。例如，如果网络连接断开，或者网络请求的掉包率持续低于预定的掉包率阈值，则切换到离线朗读模式，以确保用户能够继续收听电子书内容。

另一方面，在步骤S104，在离线朗读模式下，若网络连接质量恢复到所述质量阈值之上，则切换回在线朗读模式。

在本实施例中，在离线朗读模式下播放当前语音数据的过程中，如果终端设备检测到网络连接质量恢复到所述质量阈值之上时，由离线朗读模式切换回在线朗读模式。

需要指出的是，无需按照步骤标号的顺序执行前述步骤的处理，而是在满足适当的触发条件时，即可执行相应的任一步骤。

其中，本实施例中提及的终端设备是所使用的移动终端设备或个人计算机(Personal Computer，简称PC)等设备。例如，智能手机、个人数码助理(PDA)、平板电脑、笔记本电脑、车载电脑(carputer)、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等，本实施例对此不作限制。本实施例中提及的终端设备包括但不限于：安装在终端设备上的电子书阅读应用、音视频播放应用、即时通信应用、新闻阅读应用等多种应用。

根据本实施例提供的电子书朗读处理方法，在在线朗读模式下播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存；当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据；在所述在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式，由此不仅解决了在线朗读模式实时依赖网络的问题，而且还避免了不必要的离线朗读模式的切换，取得了在网络不稳定时能够顺畅地提供在线朗读的电子内容的有益效果。

实施例二

图2是示出根据本发明实施例二的电子书朗读处理方法的流程图。

参照图2，在步骤S201，启动在线朗读模式，在播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存。

例如，假设用户首次使用语音朗读功能，如果终端设备的网络连接处于正常的连接状态，则终端设备根据用户选择的朗读内容启动在线朗读模式，并且在在线朗读模式下，向语音合成服务器请求并缓存尚未播放的在后语音数据，以后续进行播放。

再例如，假设用户在使用语音朗读功能的过程中要启动在线朗读模式，则切换到在线朗读模式，并且在在线朗读模式下，向语音合成服务器请求并缓存尚未播放的在后语音数据，以后续进行播放。

在步骤S202，当网络连接质量下降到所述质量阈值之下时，播放缓存的在后语音数据，并且停止向所述语音合成服务器请求所述在后语音数据。

其中，所述网络连接质量包括，但不限于，以下中的至少一者：是否连接至网络、网络连接的掉包率、网络请求响应时间、单位时间段的数据下载量。例如，当用终端设备的网络连接的掉包率来表示网络连接质量时，所述预设的质量阈值可为预设的掉包率阈值，网络连接质量下降到预设的质量阈值之下具体表现为终端设备的网络连接的掉包率等于或大于预设的掉包率阈值。类似地，当用终端设备的网络连接的网络请求响应时间来表示网络连接质量时，所述预设的质量阈值可为预设的网络请求响应时间阈值，网络连接质量下降到预设的质量阈值之下具体表现为终端设备的网络连接的网络请求响应时间等于或大于预设的网络请求响应时间阈值。当用终端设备的网络连接的单位时间数据下载量来表示网络连接质量时，所述预设的质量阈值可为预设的单位时间数据下载量阈值，网络连接质量下降到预设的质量阈值之下具体表现为终端设备的网络连接的单位时间数据下载量小于或等于预设的单位时间数据下载量阈值。其中，所述预设的质量阈值可由本领域技术人员根据实际需要进行设置。

例如，如果当前终端设备处于网络连接状态并且网络连接的网络请求响应时间小于预设的网络请求响应时间阈值，则可确定当前的网络连接质量较高，可继续向语音合成服务器请求在后的尚未播放的文字内容的语音数据，并对其进行缓存；如果当前终端设备未处于网络连接状态或者网络连接的网络请求响应时间大于或等于预设的网络请求响应时间阈值，则可确定当前的网络连接质量已转差，播放本地缓存的在后的尚未朗读的文字内容的语音数据，并停止向所述语音合成服务器请求在后的且在本地未存储的语音数据。

在具体的实施方式中，网络连接质量下降到预设的质量阈值之下还可具体表现为终端设备的移动网络由4G回落到2G、终端设备断网或终端设备连接的WIFI网络中有下载工具抢占网络带宽。在在线朗读模式下播放当前语音数据的过程中，如果终端设备的移动网络由4G回落到2G，终端设备不再向语音合成服务器请求尚未朗读的在后语音数据，而是获取本地缓存中的相应的语音数据，并播放该语音数据。

在步骤S203，在所述在后语音数据的播放过程中，若网络连接质量恢复到所述质量阈值之上，则继续请求并缓存尚未播放的在后语音数据。

在具体的实施方式中，在播放本地存储的在后语音数据的状态下播放当前语音数据的过程中，如果终端设备检测到终端设备的网络连接质量恢复到质量阈值之上，则终端设备继续向语音合成服务器请求尚未播放的且未在本地存储的在后语音数据，并缓存该在后语音数据。如果终端设备检测到终端设备的网络连接质量没有恢复到质量阈值之上，则继续播放本地缓存的在后语音数据，直至将本地缓存的在后语音数据播放完毕为止。

在步骤S204，在所述在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式。

在本实施例中，在本地存储的在后语音数据播放完毕后，如果终端设备检测到终端设备的网络连接质量没有恢复到质量阈值之上，终端设备则由播放本地存储的在后语音数据的状态切换到离线朗读模式。例如，如果网络连接的网络请求响应时间大于或等于预设的网络请求响应时间阈值，或网络连接的单位时间数据下载量低于预设的单位时间数据下载量，则切换到离线朗读模式，以确保用户能够继续收听电子书内容。在本地存储的在后语音数据播放完毕后，如果终端设备检测到终端设备的网络连接质量恢复到质量阈值之上，终端设备则由播放本地存储的在后语音数据的状态切换到在线朗读模式。

另一方面，在步骤S205，在离线朗读模式下，若网络连接质量恢复到所述质量阈值之上，则切换回在线朗读模式。

在具体的实施方式中，在离线朗读模式下播放当前语音数据的过程中，如果终端设备检测到终端设备的网络连接质量恢复到所述质量阈值之上时，终端设备将由离线朗读模式切换回在线朗读模式。如果终端设备检测到终端设备的网络连接质量没有恢复到所述质量阈值之上时，终端设备继续处于离线朗读模式。

根据本发明的一种可选实施方式，所述方法还包括：当在线朗读模式与离线朗读模式之间的切换频率超过预设的频率阈值时，在后续预设时长内持续使用离线朗读模式。其中，预设的频率阈值和预设时长可由本领域技术人员根据实际需要进行设置。籍此，当终端设备的网络连接质量不稳定时，避免频繁切换模式对用户听书体验产生影响。

需要指出，无需按照步骤标号的顺序执行前述步骤的处理，而是在满足适当的触发条件时，即可执行相应的任一步骤。

根据本发明的另一可选实施方式，在不提及在线朗读模式、播放本地存储的在后语音数据的状态以及离线朗读模式的情况下，上述实施例提供的电子书朗读处理方法可采用另一种方式进行描述。

具体地，当终端设备的网络连接质量处于质量阈值之下时，终端设备首先检测本地缓存中是否存储有当前要朗读的文字内容所对应的语音数据。如果本地缓存中没有存储所述语音数据，终端设备通过本地的语音数据库获得当前要朗读的文字内容所对应的语音数据，并播放所述语音数据。如果本地缓存中存储有所述语音数据，则优先播放所述语音数据，与网络连接质量恢复时的语音朗读质量相比，所述语音数据的语音朗读质量无变化。在播放本地缓存的语音数据的过程中，终端设备实时检测终端设备的网络连接质量。理想条件下，1个小时之内，终端设备的网络连接质量可恢复到质量阈值之上。当终端设备在播放本地缓存的语音数据的过程中，检测到终端设备的网络连接质量恢复到质量阈值之上时，终端设备继续向合成服务器请求尚未朗读的文字内容的在后语音数据，并对其进行缓存。用户在网络连接质量恢复前后的听书体验一致，用户无感知。当终端设备在将本地缓存的语音数据播放完毕后检测到终端设备的网络连接质量还没有恢复时，终端设备通过本地的语音数据库获得当前要朗读的文字内容所对应的语音数据，并播放所述语音数据。在播放所述语音数据的过程中，终端设备实时检测终端设备的网络连接质量。当终端设备在播放所述语音数据的过程中，检测到终端设备的网络连接质量恢复到质量阈值之上时，终端设备向合成服务器请求尚未朗读的文字内容的在后语音数据，并对其进行缓存。用户在网络恢复前后能够明显感受到语音朗读质量的提升，从而提升了用户的听书体验。

根据本实施例提供的电子书朗读处理方法，在实施例一的基础上，在在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式，确保用户能够持续收听到电子书的语音内容。

此外，当在线朗读模式与离线朗读模式之间的切换频率超过预设的频率阈值时，在后续预设时长内持续使用离线朗读模式，从而避免频繁切换模式对用户听书体验产生影响。

实施例三

图3是示出根据本发明实施例三的电子书朗读处理方法的流程图。

参照图3，在步骤S301，启动在线朗读模式，在播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存。

具体地，图4是示出根据本发明可选实施例的向语音合成服务器请求尚未播放的在后语音数据的流程图。

参照图4，在步骤S401，向所述语音合成服务器发送包括尚未朗读内容的定位信息的语音转换请求。

其中，所述尚未朗读内容的定位信息可包括，但不限于，以下中的至少一者：所述尚未朗读内容的章节信息以及行信息，如第五章第9行～35行；所述尚未朗读内容在电子书中的位置信息和长度信息，如第21页第2段～第5段；与所述尚未朗读内容对应的文本数据，如尚未朗读的文本字符串。

在步骤S402，从所述语音合成服务器接收与所述语音转换请求相应的语音转换响应。

在具体的实施方式中，语音合成服务器将接收的语音转换请求中包括的与所述尚未朗读内容对应的文本数据实时转换为语音数据，生成包括该语音数据的且与所述语音转换请求对应的语音转换响应，并且将生成的语音转换响应发送至终端设备。

在步骤S302，在在线朗读模式下，若网络连接质量发生下降但未下降到所述质量阈值之下，则延长缓存处理的语音数据长度。

其中，所述缓存处理的语音数据长度是指，根据终端设备当前播放语音数据的速度，可缓存的用于播放的语音数据的最大播放时长。例如，如果语音数据长度为一个小时，那么本地缓存的最大语音数据量为使得终端设备以当前播放语音数据的速度播放一个小时的语音数据量。在播放语音速度被确定的情况下，该语音数据长度与电子书的文字内容的长度对应。

在本实施例中，在在线朗读模式下播放当前语音数据的过程中，终端设备向语音合成服务器请求在后的尚未朗读的文字内容的语音数据，并对其进行缓存。与此同时，终端设备实时检测终端设备的网络连接质量。如果终端设备检测到终端设备的网络连接质量发生下降但未下降到质量阈值之下时，终端设备延长缓存处理的语音数据长度。籍此，当终端设备的网络连接质量有下降趋势时，能够增加缓存的语音数据量，一方面延长缓存的语音数据的播放时间，另一方面给予网络连接质量的恢复更加充裕的缓冲时间。

具体地，所述延长缓存处理的语音数据长度，包括：根据预设映射关系查找与当前网络连接质量等级对应的语音数据长度；将查找到的语音数据长度设定为后续缓存处理时使用的语音数据长度。其中，所述预设的映射关系可为网络连接质量等级与语音数据长度对应的列表。

根据本发明的一种可选实施方式，所述方法还包括步骤S303。在步骤S303，当所述在后语音数据的总缓存时长达到所述语音数据长度时，停止向所述语音合成服务器请求所述在后语音数据。籍此，当终端设备连接的网络中断或不稳定时，能够播放本地缓存的在后语音数据，一定时间内，不会影响用户的听书体验。

其中，所述在后语音数据的总缓存时长是指，根据终端设备当前播放语音数据的速度，当前在本地已缓存的语音数据的播放时长。

在具体的实施方式中，在在线朗读模式下播放当前语音数据的过程中，终端设备向语音合成服务器请求在后的尚未朗读的文字内容的语音数据，并对其进行缓存。与此同时，终端设备实时检测本地缓存的尚未朗读的文字内容的在后语音数据的总缓存时长，并将所述总缓存时长与所述语音数据长度进行比较，当所述总缓存时长达到所述语音数据长度时，终端设备停止向所述语音合成服务器请求在后的尚未朗读的文字内容的语音数据。

根据本发明的一种可选实施方式，当终端设备检测到终端设备的网络连接为4G网络连接时，用户打开终端设备的应用会弹出手动设置缓存处理的语音数据长度的对话框，用户可根据实际需要手动设置缓存处理的语音数据长度。这样可以为用户节约流量费用。当终端设备检测到终端设备的网络连接为WIFI网络连接时，缓存处理的语音数据长度不需要用户进行手动设置，缓存处理的语音数据长度为终端设备的默认值，一般为一个小时。

根据本实施例提供的电子书朗读处理方法，在在线朗读模式下播放当前语音数据的过程中，如果网络连接质量发生下降但未下降到所述质量阈值之下，则延长缓存处理的语音数据长度，从而增加本地缓存的语音数据量。籍此，不仅能够延长本地缓存的语音数据的播放时间，而且还能够给予网络连接质量的恢复更加充裕的缓冲时间。

此外，当所述在后语音数据的总缓存时长达到所述语音数据长度时，停止向所述语音合成服务器请求所述在后语音数据，由此当终端设备的网络连接质量不稳定时，能够播放本地缓存的在后语音数据，从而确保用户的听书体验在一定时间内不受到影响。

实施例四

本申请实施例四提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的电子书朗读处理方法。

可执行指令具体可以用于使得处理器执行以下操作：启动在线朗读模式，在播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存；当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据；在所述在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式；在离线朗读模式下，若网络连接质量恢复到所述质量阈值之上，则切换回在线朗读模式。

在一种可选的实施方式中，所述可执行指令进一步使得所述处理器执行以下操作：在所述在后语音数据的播放过程中，若网络连接质量恢复到所述质量阈值之上，则继续请求并缓存尚未播放的在后语音数据。

在一种可选的实施方式中，所述可执行指令进一步使得所述处理器执行以下操作：在在线朗读模式下，若网络连接质量发生下降但未下降到所述质量阈值之下，则延长缓存处理的语音数据长度。

在一种可选的实施方式中，所述可执行指令进一步使得所述处理器执行以下操作：根据预设映射关系查找与当前网络连接质量等级对应的语音数据长度；将查找到的语音数据长度设定为后续缓存处理时使用的语音数据长度。

在一种可选的实施方式中，所述可执行指令进一步使得所述处理器执行以下操作：当在线朗读模式与离线朗读模式之间的切换频率超过预设的频率阈值时，在后续预设时长内持续使用离线朗读模式。

在一种可选的实施方式中，所述可执行指令进一步使得所述处理器执行以下操作：当网络连接质量下降到所述质量阈值之下时，播放缓存的所述在后语音数据，并且停止向所述语音合成服务器请求所述在后语音数据。

在一种可选的实施方式中，所述可执行指令进一步使得所述处理器执行以下操作：向所述语音合成服务器发送包括尚未朗读内容的定位信息的语音转换请求；从所述语音合成服务器接收与所述语音转换请求相应的语音转换响应。

在一种可选的实施方式中，所述尚未朗读内容的定位信息包括以下中的至少一者：所述尚未朗读内容的章节信息以及行信息；所述尚未朗读内容在电子书中的位置信息和长度信息；与所述尚未朗读内容对应的文本数据。

在一种可选的实施方式中，所述网络连接质量包括以下中的至少一者：是否连接至网络、掉包率、网络请求响应时间、单位时间段的数据下载量。

在一种可选的实施方式中，所述可执行指令进一步使得所述处理器执行以下操作：当所述在后语音数据的总缓存时长达到所述语音数据长度时，停止向所述语音合成服务器请求所述在后语音数据。

实施例五

图5示出了根据本发明实施例五的一种终端设备的结构示意图，本发明具体实施例并不对终端设备的具体实现做限定。

如图5所示，该终端设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述电子书朗读处理方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：启动在线朗读模式，在播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存；当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据；在所述在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式；在离线朗读模式下，若网络连接质量恢复到所述质量阈值之上，则切换回在线朗读模式。

在一种可选的实施方式中，程序510用于使得处理器502进一步执行以下操作：在所述在后语音数据的播放过程中，若网络连接质量恢复到所述质量阈值之上，则继续请求并缓存尚未播放的在后语音数据。

在一种可选的实施方式中，程序510用于使得处理器502进一步执行以下操作：在在线朗读模式下，若网络连接质量发生下降但未下降到所述质量阈值之下，则延长缓存处理的语音数据长度。

在一种可选的实施方式中，程序510用于使得处理器502进一步执行以下操作：根据预设映射关系查找与当前网络连接质量等级对应的语音数据长度；将查找到的语音数据长度设定为后续缓存处理时使用的语音数据长度。

在一种可选的实施方式中，程序510用于使得处理器502进一步执行以下操作：当在线朗读模式与离线朗读模式之间的切换频率超过预设的频率阈值时，在后续预设时长内持续使用离线朗读模式。

在一种可选的实施方式中，程序510用于使得处理器502进一步执行以下操作：当网络连接质量下降到所述质量阈值之下时，播放缓存的所述在后语音数据，并且停止向所述语音合成服务器请求所述在后语音数据。

在一种可选的实施方式中，程序510用于使得处理器502进一步执行以下操作：向所述语音合成服务器发送包括尚未朗读内容的定位信息的语音转换请求；从所述语音合成服务器接收与所述语音转换请求相应的语音转换响应。

在一种可选的实施方式中，所述尚未朗读内容的章节信息以及行信息；所述尚未朗读内容在电子书中的位置信息和长度信息；与所述尚未朗读内容对应的文本数据。

在一种可选的实施方式中，程序510用于使得处理器502进一步执行以下操作：当所述在后语音数据的总缓存时长达到所述语音数据长度时，停止向所述语音合成服务器请求所述在后语音数据。

根据本实施例提供的电子书朗读处理方案，在在线朗读模式下播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存；当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据；在所述在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式，由此不仅解决了在线朗读模式实时依赖网络的问题，而且还避免了不必要的离线朗读模式的切换，取得了在网络不稳定时能够顺畅地提供在线朗读的电子内容的有益效果。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明实施例公开了A1、一种电子书朗读处理方法，包括：

启动在线朗读模式，在播放当前语音数据的过程中，向语音合成服务器请求尚未播放的在后语音数据，并对其进行缓存；

当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据；

在所述在后语音数据播放完毕后，若网络连接质量没有恢复到所述质量阈值之上，则切换到离线朗读模式；

在离线朗读模式下，若网络连接质量恢复到所述质量阈值之上，则切换回在线朗读模式。

A2、根据A1所述的方法，其中，所述方法还包括：

在所述在后语音数据的播放过程中，若网络连接质量恢复到所述质量阈值之上，则继续请求并缓存尚未播放的在后语音数据。

A3、根据A1或A2所述的方法，其中，所述方法还包括：

在在线朗读模式下，若网络连接质量发生下降但未下降到所述质量阈值之下，则延长缓存处理的语音数据长度。

A4、根据A3所述的方法，其中，所述延长缓存处理的语音数据长度，包括：

根据预设映射关系查找与当前网络连接质量等级对应的语音数据长度；

将查找到的语音数据长度设定为后续缓存处理时使用的语音数据长度。

A5、根据A1至A4中任一项所述的方法，其中，所述方法还包括：

当在线朗读模式与离线朗读模式之间的切换频率超过预设的频率阈值时，在后续预设时长内持续使用离线朗读模式。

A6、根据A1至A5中任一项所述的方法，其中，所述当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据，包括：

当网络连接质量下降到所述质量阈值之下时，播放缓存的所述在后语音数据，并且停止向所述语音合成服务器请求所述在后语音数据。

A7、根据A1至A6中任一项所述的方法，其中，所述向语音合成服务器请求尚未播放的在后语音数据，包括：

向所述语音合成服务器发送包括尚未朗读内容的定位信息的语音转换请求；

从所述语音合成服务器接收与所述语音转换请求相应的语音转换响应。

A8、根据A7所述的方法，其中，所述尚未朗读内容的定位信息包括以下中的至少一者：

所述尚未朗读内容的章节信息以及行信息；所述尚未朗读内容在电子书中的位置信息和长度信息；与所述尚未朗读内容对应的文本数据。

A9、根据A1至A8中任一项所述的方法，其中，所述网络连接质量包括以下中的至少一者：

是否连接至网络、掉包率、网络请求响应时间、单位时间段的数据下载量。

A10、根据A3至A9中任一项所述的方法，其中，所述方法还包括：

当所述在后语音数据的总缓存时长达到所述语音数据长度时，停止向所述语音合成服务器请求所述在后语音数据。

本发明实施例还公开了B11、一种终端设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：

B12、根据B11所述的终端设备，所述可执行指令进一步使所述处理器执行以下操作：

B13、根据B11或B12所述的终端设备，所述可执行指令进一步使所述处理器执行以下操作：

B14、根据B13所述的终端设备，所述可执行指令进一步使所述处理器执行以下操作：

B15、根据B11至B14中任一项所述的终端设备，所述可执行指令进一步使所述处理器执行以下操作：

B16、根据B11至B15中任一项所述的终端设备，所述可执行指令进一步使所述处理器执行以下操作：

B17、根据B11至B16中任一项所述的终端设备，所述可执行指令进一步使所述处理器执行以下操作：

B18、根据B17所述的终端设备，所述尚未朗读内容的定位信息包括以下中的至少一者：

B19、根据B11至B18中任一项所述的终端设备，所述网络连接质量包括以下中的至少一者：

B20、根据B13至B19中任一项所述的终端设备，所述可执行指令进一步使所述处理器执行以下操作：

本发明实施例还公开了C21、一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：

C22、根据C21所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

C23、根据C21或C22所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

C24、根据C23所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

C25、根据C21至C24中任一项所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

C26、根据C21至C25中任一项所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

C27、根据C21至C26中任一项所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

C28、根据C27所述的计算机存储介质，所述尚未朗读内容的定位信息包括以下中的至少一者：

C29、根据C21至C28中任一项所述的计算机存储介质，所述网络连接质量包括以下中的至少一者：

C30、根据C23至C29中任一项所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

Claims

1.一种电子书朗读处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述延长缓存处理的语音数据长度，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述当网络连接质量下降到预设的质量阈值之下时，播放缓存的所述在后语音数据，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述向语音合成服务器请求尚未播放的在后语音数据，包括：

8.根据权利要求7所述的方法，其特征在于，所述尚未朗读内容的定位信息包括以下中的至少一者：

9.一种终端设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：