CN111276118A - 一种实现音频电子书的方法及系统 - Google Patents
一种实现音频电子书的方法及系统 Download PDFInfo
- Publication number
- CN111276118A CN111276118A CN201811464256.2A CN201811464256A CN111276118A CN 111276118 A CN111276118 A CN 111276118A CN 201811464256 A CN201811464256 A CN 201811464256A CN 111276118 A CN111276118 A CN 111276118A
- Authority
- CN
- China
- Prior art keywords
- electronic book
- label
- audio
- text character
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 15
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 15
- 230000009466 transformation Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种实现音频电子书的方法及系统,本发明实施例的电子书采用标记语音文档设置,其中显式标签展示文本文字内容,隐式标签标识对应文本文字内容的不同发音人语音信息,当解析该电子书时,调取解析后的电子书的隐式标签,采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息,进行显式标签中的文本文字内容的音频化,从而使得电子书音频化时不同的文本文字内容发音不再单一,且由于是采用电子的方式实现音频电子书,所以在降低成本且减少时间的情况下,实现多发音人的电子书音频化。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种实现音频电子书的方法及系统。
背景技术
随着现代人的生活节奏越来越快,看书的时间也变得越来越少,将电子书音频化,实现听书成为了新型的知识获取方式便应用而生。目前,有两种方式实现电子书音频化:第一种方式,采用电子的方式,解析电子书的文本内容,直接诸如文语转换技术(TTS)等语音合成技术实现电子书的音频化;第二种方式,采用人工的方式,通过人工录制音频的方式实现电子书的音频化。
采用这两种方式都存在缺点:采用电子的方式,由于电子书的音频化是语音合成的,所以只有单一发音人,单一发音人的电子书音频比较单调,感情色彩单一;采用人工的方式实现电子书的音频化虽然可以结果单一发音人的问题,但是需要多个人员参与录制,耗时长且成本高。
因此,如何在降低成本且减少时间的情况下,实现多发音人的电子书音频化成为了一个亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种实现音频电子书的方法,该方法在降低成本且减少时间的情况下,能够实现多发音人的电子书音频化。
本发明实施例还提供一种实现音频电子书的系统,该系统在降低成本且减少时间的情况下,能够实现多发音人的电子书音频化。
本发明实施例是这样实现的:
一种实现音频电子书的方法,该方法包括:
电子书采用标记语言文档设置,其中显式标签展示文本文字内容,隐式标签标识对应文本文字内容的不同发音人语音信息;
解析所述电子书采用的标记语言文档,获取所述电子书中的显式标签及隐式标签;
调取所述电子书中的隐式标签,采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息,进行显式标签中的文本文字内容的音频化,形成电子书的音频文件。
所述标记语音文档为可扩展超文本标记语言XHMTL文档;
所述电子书采用ePub格式制作,ePub采用XHTML文档设置,设置完成后对所述电子书打包。
所述解析所述电子书采用的标记语言文档的过程包括:
对电子书的XHTML文档进行拆包;
对拆包后的XHTML文档进行解析,得到其中的显式标签和隐式标签。
所述发音人语音信息包括:发音人信息、音色信息、音调信息及语速信息中的一种或多种组合。
所述形成电子书的音频文件后,该方法还包括:
播放该音频文件。
一种实现音频电子书的系统,包括:设置电子书模块、解析电子书模块及音频合成模块,其中,
设置电子书模块,用于采用标记语言文档设置电子书,其中显式标签展示文本文字内容,隐式标签标识对应文本文字内容的不同发音人语音信息;
解析电子书模块,用于解析所述电子书采用的标记语言文档,获取所述电子书中的的显式标签及隐式标签;
音频合成模块,用于调取所述电子书中的隐式标签,采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息,进行显式标签中的文本文字内容的音频化,形成电子书的音频文件。
所述标记语音文档为XHMTL文档;
所述电子书采用ePub格式制作,ePub采用XHTML文档设置。
所述发音人语音信息包括:发音人信息、音色信息、音调信息及语速信息中的一种或多种组合。
一种实现音频电子书的装置,包括:存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上述任一项所述的实现音频电子书的方法。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的实现音频电子书的方法。
如上所见,本发明实施例的电子书采用标记语音文档设置,其中显式标签展示文本文字内容,隐式标签标识对应文本文字内容的不同发音人语音信息,当解析该电子书时,调取解析后的电子书的隐式标签,采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息,进行显式标签中的文本文字内容的音频化,从而使得电子书音频化时不同的文本文字内容发音不再单一,且由于是采用电子的方式实现音频电子书,所以在降低成本且减少时间的情况下,实现多发音人的电子书音频化。
附图说明
图1为本发明实施例提供的实现音频电子书的方法流程图;
图2为本发明实施例提供的实现音频电子书的系统结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
从背景技术可以看出,如果采用人工的方式实现电子书的音频化,则存在成本较高及花费时间长的问题,因此,申请人研究发现,还是采用电子的方式实现电子书的音频化。但是,由于电子的方式实现电子书的音频化时,直接采用语音合成方式进行文本到语音的转换,是单一发音人的音频,音频单一,效果不好,因此,为了克服这个问题,本发明实施例对电子书重新设置,即本发明实施例的电子书采用标记语音文档设置,其中显式标签展示文本文字内容,隐式标签标识对应文本文字内容的不同发音人语音信息,当解析该电子书时,调取解析后的电子书的隐式标签,采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息,进行显式标签中的文本文字内容的音频化,从而使得电子书音频化时不同的文本文字内容发音不再单一。
在本发明实施例中,对电子书进行制作,电子书采用电子出版(ePub)的格式承载,ePub是一个自由的开放标准,属于一种可以“自动重新编排”的内容;也就是文字内容可以根据阅读设备的特性,以最适于阅读的方式显示。ePub可以采用可扩展超文本标记语言(XHTML)具体设置。
图1为本发明实施例提供的实现音频电子书的方法流程图,其具体步骤为:
步骤101、电子书采用标记语言文档设置,其中显式标签展示文本文字内容,隐式标签标识对应文本文字内容的不同发音人语音信息;
步骤102、解析所述电子书采用的标记语言文档,获取所述电子书中的显式标签及隐式标签;
步骤103、调取所述电子书中的隐式标签,采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息,进行显式标签中的文本文字内容的音频化,形成电子书的音频文件。
在该方法中,在步骤101中,为了实现电子书的音频化,就需要在制作电子书文档时进行特殊的制作,具体包括:
电子书采用ePub格式制作,ePub采用XHTML文档设置,其中,将文本文字内容设置在XHTML文档的显式标签中,将对应的文本文字内容的发音人语音信息设置XHTML文档的隐式标签后,进行打包,形成了XHTML文档。
在该方法的步骤102中,需要对打包后的电子书进行解析,过程为:
对电子书的XHTML文档进行拆包;
对拆包后的XHTML文档进行解析,得到其中的显式标签和隐式标签。
在该方法的步骤103中,对解析后的电子书采用语音合成方式,诸如TTS方式,进行电子化,语音合成方式指的是将一段文本文字内容按照事先设置的发音人语音信息合成音频并播放,由于在XHTML文档的隐式标签中,根据其中对应文本文字内容的不同发音人语音信息,所以在合成时,根据对应关系,就可以为对应文本文字内容匹配合适的发音人、音色、音调及语速等,使得音频质量已基本接近证人发音水平。
在该方法中,所述发音人语音信息包括但不限于:发音人信息、音色信息、音调信息及语速信息。
该方法还包括:在进行了电子书的音频化,形成电子书的音频文件后,播放该音频文件。
图2为本发明实施例提供的实现音频电子书的系统结构示意图,包括:设置电子书模块、解析电子书模块及音频合成模块,其中,
设置电子书模块,用于采用标记语言文档设置电子书,其中显式标签展示文本文字内容,隐式标签标识对应文本文字内容的不同发音人语音信息;
解析电子书模块,用于解析所述电子书采用的标记语言文档,获取所述电子书中的的显式标签及隐式标签;
音频合成模块,用于调取所述电子书中的隐式标签,采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息,进行显式标签中的文本文字内容的音频化,形成电子书的音频文件。
在该系统中,所述电子书采用ePub格式制作,ePub采用XHTML文档设置。
在该系统中,所述发音人语音信息包括但不限于:发音人信息、音色信息、音调信息及语速信息。
举一个具体例子对本发明实施例进行详细说明。
在该场景下,用户通过对用户终端的操作,采用音频方式播放电子书。
具体地说,电子书是采用ePub格式制作,ePub采用XHTML文档设置。在具体新设置时,该电子书采用标记语言文档设置电子书,其中显式标签展示文本文字内容,隐式标签标识对应文本文字内容的不同发音人语音信息。将所设置的这种类型电子书可以直接加载在用户终端上,或者用户终端可以通过互联网从网络服务器上下载得到。
假设在用户终端,比如用户采用的个人掌上电脑(PDA,Personal DigitalAssistant),计算机或手机客户端中,都可以加载新设置的电子书。该用户终端都具有触摸显示屏,可以接受用户发送的触摸请求指令,将请求的电子书展示在触摸显示屏上,供用户选择。
当用户终端接收到用户发送的朗读该电子书指令时,则用户终端的处理器进行如下处理:
首先,解析该电子书采用的标记语言文档,获取所述电子书中的显式标签及隐式标签;
然后,调取所述电子书中的隐式标签,采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息,进行显式标签中的文本文字内容的音频化,形成电子书的音频文件。
最后,将该电子书的音频文件播放给用户。
这样,用户就可以轻松的使用用户终端进行电子书的音频化,且在音频化时不同的文本文字内容发音不再单一,增加用户的体验度。
本发明实施例还提供一种实现音频电子书的装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行上述任一项所述的实现音频电子书的方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述的实现音频电子书的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种实现音频电子书的方法,其特征在于,该方法包括:
电子书采用标记语言文档设置,其中显式标签展示文本文字内容,隐式标签标识对应文本文字内容的不同发音人语音信息;
解析所述电子书采用的标记语言文档,获取所述电子书中的显式标签及隐式标签;
调取所述电子书中的隐式标签,采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息,进行显式标签中的文本文字内容的音频化,形成电子书的音频文件。
2.如权利要求1所述的方法,其特征在于,所述标记语音文档为可扩展超文本标记语言XHMTL文档;
所述电子书采用ePub格式制作,ePub采用XHTML文档设置,设置完成后对所述电子书打包。
3.如权利要求2所述的方法,其特征在于,所述解析所述电子书采用的标记语言文档的过程包括:
对电子书的XHTML文档进行拆包;
对拆包后的XHTML文档进行解析,得到其中的显式标签和隐式标签。
4.如权利要求2所述的方法,其特征在于,所述发音人语音信息包括:发音人信息、音色信息、音调信息及语速信息中的一种或多种组合。
5.如权利要求1所述的方法,其特征在于,所述形成电子书的音频文件后,该方法还包括:
播放该音频文件。
6.一种实现音频电子书的系统,其特征在于,包括:设置电子书模块、解析电子书模块及音频合成模块,其中,
设置电子书模块,用于采用标记语言文档设置电子书,其中显式标签展示文本文字内容,隐式标签标识对应文本文字内容的不同发音人语音信息;
解析电子书模块,用于解析所述电子书采用的标记语言文档,获取所述电子书中的的显式标签及隐式标签;
音频合成模块,用于调取所述电子书中的隐式标签,采用语音合成方式根据其中对应文本文字内容的不同发音人语音信息,进行显式标签中的文本文字内容的音频化,形成电子书的音频文件。
7.如权利要求6所述的系统,其特征在于,所述标记语音文档为XHMTL文档;
所述电子书采用ePub格式制作,ePub采用XHTML文档设置。
8.如权利要求6所述的系统,其特征在于,所述发音人语音信息包括:发音人信息、音色信息、音调信息及语速信息中的一种或多种组合。
9.一种实现音频电子书的装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-5中任一项所述的实现音频电子书的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述的实现音频电子书的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811464256.2A CN111276118A (zh) | 2018-12-03 | 2018-12-03 | 一种实现音频电子书的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811464256.2A CN111276118A (zh) | 2018-12-03 | 2018-12-03 | 一种实现音频电子书的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111276118A true CN111276118A (zh) | 2020-06-12 |
Family
ID=70999920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811464256.2A Pending CN111276118A (zh) | 2018-12-03 | 2018-12-03 | 一种实现音频电子书的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111276118A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539234A (zh) * | 2021-07-13 | 2021-10-22 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001014305A (ja) * | 1999-06-30 | 2001-01-19 | Sony Corp | 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体 |
CN102723004A (zh) * | 2011-03-29 | 2012-10-10 | 汉王科技股份有限公司 | 电子文档点读控制方法及装置 |
CN103761277A (zh) * | 2014-01-09 | 2014-04-30 | 北京掌阔技术有限公司 | 一种ePub电子书的加载方法和系统 |
CN104485100A (zh) * | 2014-12-18 | 2015-04-01 | 天津讯飞信息科技有限公司 | 语音合成发音人自适应方法及系统 |
CN108536655A (zh) * | 2017-12-21 | 2018-09-14 | 广州市讯飞樽鸿信息技术有限公司 | 一种基于手持智能终端的场景化朗读音频制作方法及系统 |
US20180276184A1 (en) * | 2017-03-27 | 2018-09-27 | Microsoft Technology Licensing, Llc | Automatically generating documents |
CN108877764A (zh) * | 2018-06-28 | 2018-11-23 | 掌阅科技股份有限公司 | 有声电子书的音频合成方法、电子设备及计算机存储介质 |
-
2018
- 2018-12-03 CN CN201811464256.2A patent/CN111276118A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001014305A (ja) * | 1999-06-30 | 2001-01-19 | Sony Corp | 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体 |
CN102723004A (zh) * | 2011-03-29 | 2012-10-10 | 汉王科技股份有限公司 | 电子文档点读控制方法及装置 |
CN103761277A (zh) * | 2014-01-09 | 2014-04-30 | 北京掌阔技术有限公司 | 一种ePub电子书的加载方法和系统 |
CN104485100A (zh) * | 2014-12-18 | 2015-04-01 | 天津讯飞信息科技有限公司 | 语音合成发音人自适应方法及系统 |
US20180276184A1 (en) * | 2017-03-27 | 2018-09-27 | Microsoft Technology Licensing, Llc | Automatically generating documents |
CN108536655A (zh) * | 2017-12-21 | 2018-09-14 | 广州市讯飞樽鸿信息技术有限公司 | 一种基于手持智能终端的场景化朗读音频制作方法及系统 |
CN108877764A (zh) * | 2018-06-28 | 2018-11-23 | 掌阅科技股份有限公司 | 有声电子书的音频合成方法、电子设备及计算机存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539234A (zh) * | 2021-07-13 | 2021-10-22 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统及存储介质 |
CN113539234B (zh) * | 2021-07-13 | 2024-02-13 | 标贝(青岛)科技有限公司 | 语音合成方法、装置、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
CN101295504B (zh) | 用于仅文本的应用的娱乐音频 | |
CN112099628A (zh) | 基于人工智能的vr互动方法、装置、计算机设备及介质 | |
CN108962219A (zh) | 用于处理文本的方法和装置 | |
CN106373580A (zh) | 基于人工智能的合成歌声的方法和装置 | |
CN111402842B (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN110148398A (zh) | 语音合成模型的训练方法、装置、设备及存储介质 | |
CN108520650A (zh) | 一种智能语言训练系统和方法 | |
JP2002366186A (ja) | 音声合成方法及びそれを実施する音声合成装置 | |
CN108831436A (zh) | 一种模拟说话者情绪优化翻译后文本语音合成的方法 | |
CN107707745A (zh) | 用于提取信息的方法和装置 | |
WO2013135167A1 (zh) | 一种移动终端处理文本的方法、相关设备及系统 | |
CN110197655A (zh) | 用于合成语音的方法和装置 | |
CN112908292B (zh) | 文本的语音合成方法、装置、电子设备及存储介质 | |
CN110310621A (zh) | 歌唱合成方法、装置、设备以及计算机可读存储介质 | |
CN111142667A (zh) | 一种基于文本标记生成语音的系统和方法 | |
CN109410918A (zh) | 用于获取信息的方法及装置 | |
CN113010138A (zh) | 文章的语音播放方法、装置、设备及计算机可读存储介质 | |
KR20060073502A (ko) | 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법 | |
US20060229872A1 (en) | Methods and apparatus for conveying synthetic speech style from a text-to-speech system | |
CN115668358A (zh) | 用于文本到语音合成的用户接口适应的方法和系统 | |
CN113421550A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
US9087512B2 (en) | Speech synthesis method and apparatus for electronic system | |
CN102857650B (zh) | 动态调整语音的方法 | |
CN111276118A (zh) | 一种实现音频电子书的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |