CN111276118A

CN111276118A - 一种实现音频电子书的方法及系统

Info

Publication number: CN111276118A
Application number: CN201811464256.2A
Authority: CN
Inventors: 李平
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2020-06-12

Abstract

本发明公开了一种实现音频电子书的方法及系统，本发明实施例的电子书采用标记语音文档设置，其中显式标签展示文本文字内容，隐式标签标识对应文本文字内容的不同发音人语音信息，当解析该电子书时，调取解析后的电子书的隐式标签，采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息，进行显式标签中的文本文字内容的音频化，从而使得电子书音频化时不同的文本文字内容发音不再单一，且由于是采用电子的方式实现音频电子书，所以在降低成本且减少时间的情况下，实现多发音人的电子书音频化。

Description

一种实现音频电子书的方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种实现音频电子书的方法及系统。

背景技术

随着现代人的生活节奏越来越快，看书的时间也变得越来越少，将电子书音频化，实现听书成为了新型的知识获取方式便应用而生。目前，有两种方式实现电子书音频化：第一种方式，采用电子的方式，解析电子书的文本内容，直接诸如文语转换技术(TTS)等语音合成技术实现电子书的音频化；第二种方式，采用人工的方式，通过人工录制音频的方式实现电子书的音频化。

采用这两种方式都存在缺点：采用电子的方式，由于电子书的音频化是语音合成的，所以只有单一发音人，单一发音人的电子书音频比较单调，感情色彩单一；采用人工的方式实现电子书的音频化虽然可以结果单一发音人的问题，但是需要多个人员参与录制，耗时长且成本高。

因此，如何在降低成本且减少时间的情况下，实现多发音人的电子书音频化成为了一个亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供一种实现音频电子书的方法，该方法在降低成本且减少时间的情况下，能够实现多发音人的电子书音频化。

本发明实施例还提供一种实现音频电子书的系统，该系统在降低成本且减少时间的情况下，能够实现多发音人的电子书音频化。

本发明实施例是这样实现的：

一种实现音频电子书的方法，该方法包括：

电子书采用标记语言文档设置，其中显式标签展示文本文字内容，隐式标签标识对应文本文字内容的不同发音人语音信息；

解析所述电子书采用的标记语言文档，获取所述电子书中的显式标签及隐式标签；

调取所述电子书中的隐式标签，采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息，进行显式标签中的文本文字内容的音频化，形成电子书的音频文件。

所述标记语音文档为可扩展超文本标记语言XHMTL文档；

所述电子书采用ePub格式制作，ePub采用XHTML文档设置，设置完成后对所述电子书打包。

所述解析所述电子书采用的标记语言文档的过程包括：

对电子书的XHTML文档进行拆包；

对拆包后的XHTML文档进行解析，得到其中的显式标签和隐式标签。

所述发音人语音信息包括：发音人信息、音色信息、音调信息及语速信息中的一种或多种组合。

所述形成电子书的音频文件后，该方法还包括：

播放该音频文件。

一种实现音频电子书的系统，包括：设置电子书模块、解析电子书模块及音频合成模块，其中，

设置电子书模块，用于采用标记语言文档设置电子书，其中显式标签展示文本文字内容，隐式标签标识对应文本文字内容的不同发音人语音信息；

解析电子书模块，用于解析所述电子书采用的标记语言文档，获取所述电子书中的的显式标签及隐式标签；

音频合成模块，用于调取所述电子书中的隐式标签，采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息，进行显式标签中的文本文字内容的音频化，形成电子书的音频文件。

所述标记语音文档为XHMTL文档；

所述电子书采用ePub格式制作，ePub采用XHTML文档设置。

一种实现音频电子书的装置，包括：存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上述任一项所述的实现音频电子书的方法。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述的实现音频电子书的方法。

如上所见，本发明实施例的电子书采用标记语音文档设置，其中显式标签展示文本文字内容，隐式标签标识对应文本文字内容的不同发音人语音信息，当解析该电子书时，调取解析后的电子书的隐式标签，采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息，进行显式标签中的文本文字内容的音频化，从而使得电子书音频化时不同的文本文字内容发音不再单一，且由于是采用电子的方式实现音频电子书，所以在降低成本且减少时间的情况下，实现多发音人的电子书音频化。

附图说明

图1为本发明实施例提供的实现音频电子书的方法流程图；

图2为本发明实施例提供的实现音频电子书的系统结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

从背景技术可以看出，如果采用人工的方式实现电子书的音频化，则存在成本较高及花费时间长的问题，因此，申请人研究发现，还是采用电子的方式实现电子书的音频化。但是，由于电子的方式实现电子书的音频化时，直接采用语音合成方式进行文本到语音的转换，是单一发音人的音频，音频单一，效果不好，因此，为了克服这个问题，本发明实施例对电子书重新设置，即本发明实施例的电子书采用标记语音文档设置，其中显式标签展示文本文字内容，隐式标签标识对应文本文字内容的不同发音人语音信息，当解析该电子书时，调取解析后的电子书的隐式标签，采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息，进行显式标签中的文本文字内容的音频化，从而使得电子书音频化时不同的文本文字内容发音不再单一。

在本发明实施例中，对电子书进行制作，电子书采用电子出版(ePub)的格式承载，ePub是一个自由的开放标准，属于一种可以“自动重新编排”的内容；也就是文字内容可以根据阅读设备的特性，以最适于阅读的方式显示。ePub可以采用可扩展超文本标记语言(XHTML)具体设置。

图1为本发明实施例提供的实现音频电子书的方法流程图，其具体步骤为：

步骤101、电子书采用标记语言文档设置，其中显式标签展示文本文字内容，隐式标签标识对应文本文字内容的不同发音人语音信息；

步骤102、解析所述电子书采用的标记语言文档，获取所述电子书中的显式标签及隐式标签；

步骤103、调取所述电子书中的隐式标签，采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息，进行显式标签中的文本文字内容的音频化，形成电子书的音频文件。

在该方法中，在步骤101中，为了实现电子书的音频化，就需要在制作电子书文档时进行特殊的制作，具体包括：

电子书采用ePub格式制作，ePub采用XHTML文档设置，其中，将文本文字内容设置在XHTML文档的显式标签中，将对应的文本文字内容的发音人语音信息设置XHTML文档的隐式标签后，进行打包，形成了XHTML文档。

在该方法的步骤102中，需要对打包后的电子书进行解析，过程为：

对电子书的XHTML文档进行拆包；

在该方法的步骤103中，对解析后的电子书采用语音合成方式，诸如TTS方式，进行电子化，语音合成方式指的是将一段文本文字内容按照事先设置的发音人语音信息合成音频并播放，由于在XHTML文档的隐式标签中，根据其中对应文本文字内容的不同发音人语音信息，所以在合成时，根据对应关系，就可以为对应文本文字内容匹配合适的发音人、音色、音调及语速等，使得音频质量已基本接近证人发音水平。

在该方法中，所述发音人语音信息包括但不限于：发音人信息、音色信息、音调信息及语速信息。

该方法还包括：在进行了电子书的音频化，形成电子书的音频文件后，播放该音频文件。

图2为本发明实施例提供的实现音频电子书的系统结构示意图，包括：设置电子书模块、解析电子书模块及音频合成模块，其中，

在该系统中，所述电子书采用ePub格式制作，ePub采用XHTML文档设置。

在该系统中，所述发音人语音信息包括但不限于：发音人信息、音色信息、音调信息及语速信息。

举一个具体例子对本发明实施例进行详细说明。

在该场景下，用户通过对用户终端的操作，采用音频方式播放电子书。

具体地说，电子书是采用ePub格式制作，ePub采用XHTML文档设置。在具体新设置时，该电子书采用标记语言文档设置电子书，其中显式标签展示文本文字内容，隐式标签标识对应文本文字内容的不同发音人语音信息。将所设置的这种类型电子书可以直接加载在用户终端上，或者用户终端可以通过互联网从网络服务器上下载得到。

假设在用户终端，比如用户采用的个人掌上电脑(PDA，Personal DigitalAssistant)，计算机或手机客户端中，都可以加载新设置的电子书。该用户终端都具有触摸显示屏，可以接受用户发送的触摸请求指令，将请求的电子书展示在触摸显示屏上，供用户选择。

当用户终端接收到用户发送的朗读该电子书指令时，则用户终端的处理器进行如下处理：

首先，解析该电子书采用的标记语言文档，获取所述电子书中的显式标签及隐式标签；

然后，调取所述电子书中的隐式标签，采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息，进行显式标签中的文本文字内容的音频化，形成电子书的音频文件。

最后，将该电子书的音频文件播放给用户。

这样，用户就可以轻松的使用用户终端进行电子书的音频化，且在音频化时不同的文本文字内容发音不再单一，增加用户的体验度。

本发明实施例还提供一种实现音频电子书的装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行上述任一项所述的实现音频电子书的方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述的实现音频电子书的方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种实现音频电子书的方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，所述标记语音文档为可扩展超文本标记语言XHMTL文档；

3.如权利要求2所述的方法，其特征在于，所述解析所述电子书采用的标记语言文档的过程包括：

对电子书的XHTML文档进行拆包；

4.如权利要求2所述的方法，其特征在于，所述发音人语音信息包括：发音人信息、音色信息、音调信息及语速信息中的一种或多种组合。

5.如权利要求1所述的方法，其特征在于，所述形成电子书的音频文件后，该方法还包括：

播放该音频文件。

6.一种实现音频电子书的系统，其特征在于，包括：设置电子书模块、解析电子书模块及音频合成模块，其中，

7.如权利要求6所述的系统，其特征在于，所述标记语音文档为XHMTL文档；

所述电子书采用ePub格式制作，ePub采用XHTML文档设置。

8.如权利要求6所述的系统，其特征在于，所述发音人语音信息包括：发音人信息、音色信息、音调信息及语速信息中的一种或多种组合。

9.一种实现音频电子书的装置，其特征在于，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1-5中任一项所述的实现音频电子书的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述的实现音频电子书的方法。