CN102376304B - 文本朗读系统及其文本朗读方法 - Google Patents

文本朗读系统及其文本朗读方法 Download PDF

Info

Publication number
CN102376304B
CN102376304B CN201010249944.4A CN201010249944A CN102376304B CN 102376304 B CN102376304 B CN 102376304B CN 201010249944 A CN201010249944 A CN 201010249944A CN 102376304 B CN102376304 B CN 102376304B
Authority
CN
China
Prior art keywords
text
rhythm
content
reading
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010249944.4A
Other languages
English (en)
Other versions
CN102376304A (zh
Inventor
简家弘
蔡敦道
王俊文
洪良茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN201010249944.4A priority Critical patent/CN102376304B/zh
Priority to US13/104,957 priority patent/US20120041765A1/en
Priority to JP2011157702A priority patent/JP2012037880A/ja
Publication of CN102376304A publication Critical patent/CN102376304A/zh
Application granted granted Critical
Publication of CN102376304B publication Critical patent/CN102376304B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种根据文本内容节奏控制朗读的文本朗读系统,所述文本朗读系统包括:文本读取模块,用于从文本源读取文本内容;文本分析模块,用于分析该文本内容,识别该文本内容所包含的节奏语义;脚本处理模块,用于根据该文本内容所包含的节奏语义,生成节奏控制脚本;文本到语音转换模块;朗读节奏控制模块,用于有节奏的将该文本内容传送给所述文本到所述文本到语音转换模块。本发明还揭示了一种根据文本内容节奏控制朗读的文本朗读方法。根据本发明的技术方案,文本可以按照一定节奏朗读,使用者可以方便自如的依据朗读的内容完成某些特定操作。

Description

文本朗读系统及其文本朗读方法
技术领域
本发明涉及一种文本朗读系统,特别是涉及一种根据文本内容节奏控制朗读的文本朗读系统及其文本朗读的方法。
背景技术
基于文本到语音转换(TTS:Text to Speech)技术的文本朗读系统,可将文本内容转换为语音朗读出来,使用者无需阅读就可以听取文本的内容,甚至可以一边做其他的事一边听取朗读,这在使用者必须专注于某一件事而无暇分身去阅读文本的场景里,非常方便。例如,使用者在参照食谱烹饪的时候,利用文本朗读系统,可以一边烹饪,一边听取食谱的朗读,根据朗读的烹饪方法和流程来完成烹饪过程。
但是,目前的文本朗读系统,只会将文本内容依次朗读出来,当使用者需要遵照文本内容来完成某些操作的时候,往往会因为朗读过快,上一个操作还未完成,朗读系统已经朗读到下一个操作,朗读系统并不会根据文本内容节奏控制朗读。这样,对于使用者来说,不是十分方便和有效。
发明内容
鉴于以上内容,有必要提供一种根据文本内容节奏控制朗读的文本朗读系统及其文本朗读的方法。
根据本发明的一方面,提供一种根据文本内容节奏控制朗读的文本朗读系统,所述文本朗读系统包括:
一文本读取模块,用于从一文本源读取文本内容;
一文本分析模块,用于分析该文本内容,识别该文本内容所包含的节奏语义;
一脚本处理模块,用于根据该文本内容所包含的节奏语义,生成一节奏控制脚本;
一文本到语音转换模块;及
一朗读节奏控制模块,用于根据所述节奏控制脚本,有节奏的将该文本内容传送给所述文本到所述文本到语音转换模块,所述文本到语音转换模块将所述朗读节奏控制模块传送来的文本内容转换为语音,并传送给一音频输出装置。
根据本发明的另一方面,提供一种根据文本内容节奏控制朗读的文本朗读方法,该方法包括以下步骤:
一文本读取模块从一文本源读取文本内容;
一文本分析模块对该文本内容进行分析,识别出该文本内容所包含的节奏语义;
一脚本处理模块根据该文本内容所包含的节奏语义,生成一节奏控制脚本;
一朗读节奏控制模块根据所述节奏控制脚本,有节奏的将该文本内容传送给一文本到所述文本到语音转换模块;及
所述文本到语音转换模块将所述朗读节奏控制模块传送来的文本内容转换为语音,并传送给一音频输出装置。
与现有技术相比,上述系统和方法,由于根据文本内容的节奏语义生成节奏控制脚本,使得文本可以按照一定节奏朗读,使用者可以更加方便自如的依据朗读的内容完成某些特定操作。
附图说明
图1为本发明一种实施方式中根据文本内容节奏控制朗读的文本朗读系统的功能模块图。
图2为本发明一种实施方式中根据文本内容节奏控制朗读的文本朗读方法的流程图。
主要元件符号说明
  文本源   10
  音频输出装置   30
  文本朗读系统   20
  文本读取模块  202
  文本分析模块  204
  脚本处理模块  206
  朗读节奏控制模块  208
  文本到语音转换模块  210
具体实施方式
请参阅图1,示意性的示出了根据本发明一种实施方式的根据文本内容节奏控制朗读的文本朗读系统的功能模块图。所述文本朗读系统20可接收来自于文本源10的文本,将该文本转换成语音输出到音频输出装置30。
所述文本源10,用于提供用户要阅读的文本数据,可以是存储于硬盘、光盘或闪存盘等永久记忆性存储器上的文本文件,例如TXT文件、PDF文件或其他可提供文本数据的文件,也可以是存储于如临时缓存这样的非永久记忆性存储器上的文本数据,例如用户临时输入的文本。
所述音频输出装置30,用于向用户输出音频信号。所述音频输出装置30可以是声音外放的扬声器,也可以是耳机等音频输出装置。
所述文本朗读系统20包括一文本读取模块202、一文本分析模块204、一脚本处理模块206、一朗读节奏控制模块208及一文本到语音转换模块210。所述文本读取模块202同时连接所述文本分析模块204和所述朗读节奏控制模块208,所述文本分析模块204连接所述脚本处理模块206,所述脚本处理模块206连接所述朗读节奏控制模块208,所述朗读节奏控制模块208连接所述文本到语音转换模块210。
所述文本读取模块202,用于从所述文本源10读取文本内容。
所述文本分析模块204,用于分析所述文本读取模块202从所述文本源10读取的文本内容,识别该文本内容所包含的节奏语义。所述文本分析模块204,包含有若干分析词典,一个特定分析词典用于分析一种特定类别的文本,识别该文本中的特定词汇以及与时间词汇构成的节奏语义。比如食谱分析词典,用于分析食谱类别的文本,该词典中包含了食谱中常用的特定词汇,比如“油炸”、“烧烤”、“焖制”等等,这些特定词汇与时间词汇可搭配出食谱类所具有的特定节奏语义,比如“放入沸腾的调和油中油炸2分钟”,特定词汇“油炸”与时间词汇“2分钟”构成一组特定节奏语义,当朗读到“油炸2分钟”这步操作的文本时,该节奏语义要求等待“2分钟”时间,再进入下一文本的朗读。
所述脚本处理模块206,用于根据所述文本分析模块204分析出的该文本内容所包含的节奏语义,生成一节奏控制脚本。所述节奏控制脚本由若干脚本语句构成,脚本语句包括朗读语句和等待语句,朗读语句要求将文本内容传送给所述文本到语音转换模块210,等待语句要求所述朗读节奏控制模块208等待一个设定的时间,在等待期间,所述朗读节奏控制模块208挂起。比如,所述脚本处理模块206根据“油炸2分钟”这条节奏语义生成一条要求等待2分钟的脚本语句。所述脚本处理模块206包括一配置文件,所述脚本处理模块206将所述节奏控制脚本存放于该配置文件中,并与所述文本读取模块202从所述文本源10读取的该文本内容进行关联,用以在下一次读取到同样的该文本内容时直接从所述配置文件中调用该节奏控制脚本,节省时间花销。所述配置文件可以为INI文件、XML文件或其他文件。
所述朗读节奏控制模块208,用于根据所述节奏控制脚本,有节奏的将文本内容传送给所述文本到语音转换模块210。所述朗读节奏控制模块208顺序执行所述节奏控制脚本的脚本语句,若执行的脚本语句为朗读语句,则将该脚本语句要求的文本内容传送给所述文本到语音转换模块210,若执行的脚本语句为等待语句,则等待该条脚本语句设定的时间,直到等待时间结束,所述朗读节奏控制模块208开始执行所述节奏控制脚本的下一条脚本语句。
所述文本到语音转换模块210,用于将所述朗读节奏控制模块208传送来的文本转换为语音,并传送给所述音频输出装置30。
请参阅图2,示意性的示出了根据本发明一种实施方式的根据文本内容节奏控制朗读的文本朗读方法的流程图,包括以下步骤:
在步骤S10中,所述文本读取模块202从所述文本源10读取文本内容。
在步骤S12中,所述文本分析模块204对该文本内容进行分析,识别出该文本内容所包含的节奏语义。
在步骤S14中,所述脚本处理模块206根据该文本内容所包含的节奏语义,生成一节奏控制脚本。
在另一实施方式中,所述脚本处理模块206将所述节奏控制脚本,存放于一配置文件中,并与所述文本读取模块202从所述文本源10读取的该文本内容进行关联。所述文本分析模块204对该文本内容进行分析之前,检查所述配置文件中是否存在与该文本内容相关联的节奏控制脚本,若结果为是,则直接进入步骤S16,若结果为否,则所述文本分析模块204对该文本内容进行分析,识别出该文本内容所包含的节奏语义,再进入步骤S14。
在步骤S16中,所述朗读节奏控制模块208顺序执行所述节奏控制脚本中的一条脚本语句。
在步骤S18中,所述朗读节奏控制模块208判断该条脚本语句是否要求等待一个时间,若结果为是,则进入步骤S20,若结果为否,则进入步骤S22。
在步骤S20中,所述朗读节奏控制模块208等待该条脚本语句设定的时间,直到等待时间结束,进入步骤S28。
在步骤S22中,所述朗读节奏控制模块208将该条脚本语句要求的文本内容传送给所述文本到语音转换模块210。
在步骤S24中,所述文本到语音转换模块210将所述朗读节奏控制模块208传送的文本内容转换成语音。
在步骤S26中,所述文本到语音转换模块210将转换生成的语音传送给所述音频输出装置30。
在步骤S28中,所述朗读节奏控制模块208检查所述节奏控制脚本是否还有未执行脚本语句,若结果为是,则返回步骤S16,若结果为否,则本流程结束。
对本领域的技术人员来说,可以根据本发明的发明方案和发明构思结合生产的实际需要做出其他相应的改变或调整,而这些改变和调整都应属于本发明权利要求的保护范围。

Claims (10)

1.一种根据文本内容节奏控制朗读的文本朗读系统,其特征在于:所述文本朗读系统包括:
一文本读取模块,用于从一文本源读取文本内容;
一文本分析模块,包括若干分析词典,每一特定分析词典用于分析一特定类别的文本,识别该文本中的特定词汇以及与时间词汇构成的节奏语义,所述文本分析模块用于分析该文本内容,识别该文本内容所包含的节奏语义;
一脚本处理模块,用于根据该文本内容所包含的节奏语义,生成一节奏控制脚本;
一文本到语音转换模块;及
一朗读节奏控制模块,用于根据所述节奏控制脚本,有节奏的将该文本内容传送给所述文本到语音转换模块,所述文本到语音转换模块将所述朗读节奏控制模块传送来的文本内容转换为语音,并传送给一音频输出装置。
2.如权利要求1所述的根据文本内容节奏控制朗读的文本朗读系统,其特征在于:所述文本分析模块,包含有若干分析词典,一个特定分析词典用于分析一种特定类型的文本,所述文本分析模块根据该文本内容的类型选取一个与之匹配的分析词典,识别该文本内容中的特定词汇与时间词汇构成的节奏语义。
3.如权利要求1所述的根据文本内容节奏控制朗读的文本朗读系统,其特征在于:所述节奏控制脚本由若干脚本语句构成,脚本语句包括朗读语句和等待语句,朗读语句要求将文本内容传送给所述文本到语音转换模块,等待语句要求所述朗读节奏控制模块等待一个设定的时间,在等待期间,所述朗读节奏控制模块挂起。
4.如权利要求1所述的根据文本内容节奏控制朗读的文本朗读系统,其特征在于:所述脚本处理模块包括一配置文件,所述脚本处理模块将所述节奏控制脚本存放于该配置文件中,并与所述文本读取模块从所述文本源读取的该文本内容进行关联。
5.一种根据文本内容节奏控制朗读的文本朗读方法,其特征在于,所述方法包括以下步骤:
一文本读取模块从一文本源读取文本内容;
一文本分析模块通过若干分析词典识别该文本内容中的特定词汇以及与时间词汇构成的节奏语义;
一脚本处理模块根据该文本内容所包含的节奏语义,生成一节奏控制脚本;
一朗读节奏控制模块根据所述节奏控制脚本,有节奏的将该文本内容传送给一文本到语音转换模块;及
所述文本到语音转换模块将所述朗读节奏控制模块传送来的文本内容转换为语音,并传送给一音频输出装置。
6.如权利要求5所述的根据文本内容节奏控制朗读的文本朗读方法,其特征在于:所述文本分析模块,包含有若干分析词典,一个特定分析词典用于分析一种特定类型的文本,所述文本分析模块根据该文本内容的类型选取一个与之匹配的分析词典,识别该文本内容中的特定词汇与时间词汇构成的节奏语义。
7.如权利要求5所述的根据文本内容节奏控制朗读的文本朗读方法,其特征在于:所述节奏控制脚本由若干脚本语句构成,脚本语句包括朗读语句和等待语句,朗读语句要求将文本内容传送给所述文本到语音转换模块,等待语句要求所述朗读节奏控制模块等待一个设定的时间,在等待期间,所述朗读节奏控制模块挂起。
8.如权利要求7所述的根据文本内容节奏控制朗读的文本朗读方法,其特征在于:所述朗读节奏控制模块根据所述节奏控制脚本,有节奏的将该文本内容传送给所述文本到语音转换模块的步骤还包括以下步骤:
所述朗读节奏控制模块顺序执行所述节奏控制脚本中的一条脚本语句;
所述朗读节奏控制模块判断该条脚本语句是否要求等待一个时间,若结果为是,则所述朗读节奏控制模块等待该条脚本语句设定的时间,直到等待时间结束,若结果为否,则所述朗读节奏控制模块将该条脚本语句要求的文本内容传送给所述文本到语音转换模块;及
所述朗读节奏控制模块检查所述节奏控制脚本是否还有未执行脚本语句,若结果为是,则执行下一条脚本语句,若结果为否,则流程结束。
9.如权利要求6所述的根据文本内容节奏控制朗读的文本朗读方法,其特征在于:所述脚本处理模块包括一配置文件,所述脚本处理模块将所述节奏控制脚本存放于该配置文件中,并与所述文本读取模块从所述文本源读取的该文本内容进行关联。
10.如权利要求9所述的根据文本内容节奏控制朗读的文本朗读方法,其特征在于:所述文本分析模块对该文本内容进行分析之前,检查所述配置文件中是否存在与该文本内容相关联的节奏控制脚本,若结果为是,则所述朗读节奏控制模块直接调用所述配置文件中存放的该关联节奏控制脚本,若结果为否,则所述文本分析模块对该文本内容进行分析,识别出该文本内容所包含的节奏语义,所述脚本处理模块再根据该文本内容所包含的节奏语义,生成所述节奏控制脚本。
CN201010249944.4A 2010-08-10 2010-08-10 文本朗读系统及其文本朗读方法 Expired - Fee Related CN102376304B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201010249944.4A CN102376304B (zh) 2010-08-10 2010-08-10 文本朗读系统及其文本朗读方法
US13/104,957 US20120041765A1 (en) 2010-08-10 2011-05-10 Electronic book reader and text to speech converting method
JP2011157702A JP2012037880A (ja) 2010-08-10 2011-07-19 テキスト読み上げシステム及びテキスト読み上げ方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010249944.4A CN102376304B (zh) 2010-08-10 2010-08-10 文本朗读系统及其文本朗读方法

Publications (2)

Publication Number Publication Date
CN102376304A CN102376304A (zh) 2012-03-14
CN102376304B true CN102376304B (zh) 2014-04-30

Family

ID=45565449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010249944.4A Expired - Fee Related CN102376304B (zh) 2010-08-10 2010-08-10 文本朗读系统及其文本朗读方法

Country Status (3)

Country Link
US (1) US20120041765A1 (zh)
JP (1) JP2012037880A (zh)
CN (1) CN102376304B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10388294B1 (en) * 2012-06-20 2019-08-20 Amazon Technologies, Inc. Speech-based and group-based content synchronization
CN106652673B (zh) * 2017-01-16 2020-09-22 华南理工大学 一种自动识别和朗读药品说明书的方法
CN107015780A (zh) * 2017-03-03 2017-08-04 安徽云未科技有限公司 一种可配置的声控操作软件及语音反馈方法和系统
CN107770382A (zh) * 2017-10-30 2018-03-06 江西博瑞彤芸科技有限公司 播放文字信息的方法
US11044282B1 (en) 2020-08-12 2021-06-22 Capital One Services, Llc System and method for augmented reality video conferencing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1705016A (zh) * 2004-05-31 2005-12-07 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
CN101345049A (zh) * 2007-07-11 2009-01-14 Lg电子株式会社 媒体界面

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01224797A (ja) * 1988-03-04 1989-09-07 Nec Corp 規則型音声合成装置
JP3548459B2 (ja) * 1998-11-20 2004-07-28 富士通株式会社 案内情報提示装置,案内情報提示処理方法,案内情報提示プログラムを記録した記録媒体,案内用スクリプト生成装置,案内情報提供装置,案内情報提供方法および案内情報提供プログラム記録媒体
JP2002268699A (ja) * 2001-03-09 2002-09-20 Sony Corp 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
US20030018663A1 (en) * 2001-05-30 2003-01-23 Cornette Ranjita K. Method and system for creating a multimedia electronic book
US20030112266A1 (en) * 2001-12-17 2003-06-19 Chang Chee Ann Voice memo reminder system, and associated methodology
JP2004294864A (ja) * 2003-03-27 2004-10-21 Sanyo Electric Co Ltd 調理ナビゲーション装置
JP2006011036A (ja) * 2004-06-25 2006-01-12 Brother Ind Ltd 音声出力装置及び音声出力プログラム
US20070083367A1 (en) * 2005-10-11 2007-04-12 Motorola, Inc. Method and system for bandwidth efficient and enhanced concatenative synthesis based communication
JP5322208B2 (ja) * 2008-06-30 2013-10-23 株式会社東芝 音声認識装置及びその方法
CN102160359B (zh) * 2008-09-18 2015-07-08 皇家飞利浦电子股份有限公司 控制系统的方法和信号处理系统
US20120265535A1 (en) * 2009-09-07 2012-10-18 Donald Ray Bryant-Rich Personal voice operated reminder system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1705016A (zh) * 2004-05-31 2005-12-07 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
CN101345049A (zh) * 2007-07-11 2009-01-14 Lg电子株式会社 媒体界面

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2002-268699A 2002.09.20

Also Published As

Publication number Publication date
JP2012037880A (ja) 2012-02-23
CN102376304A (zh) 2012-03-14
US20120041765A1 (en) 2012-02-16

Similar Documents

Publication Publication Date Title
CN105489221B (zh) 一种语音识别方法及装置
CN107016993A (zh) 一种智能家居的语音交互系统及方法
CN107623614A (zh) 用于推送信息的方法和装置
CN102376304B (zh) 文本朗读系统及其文本朗读方法
US20200265843A1 (en) Speech broadcast method, device and terminal
CN107705782B (zh) 用于确定音素发音时长的方法和装置
TR200102364T2 (tr) Otomatikleştirilmiş transkripsiyon sistemi ve iki konuşma dönüştürme seferini ve bilgisayar-yardımlı düzeltme kullanan yöntem.
CN104143329A (zh) 进行语音关键词检索的方法及装置
CN107943914A (zh) 语音信息处理方法和装置
JP6625772B2 (ja) 検索方法及びそれを用いた電子機器
CN115602165B (zh) 基于金融系统的数字员工智能系统
CN101414412A (zh) 互动式声控儿童教育学习装置
US20190371319A1 (en) Method for human-machine interaction, electronic device, and computer-readable storage medium
KR20200105259A (ko) 전자 장치 및 전자 장치의 제어 방법
EP1685556A1 (en) Audio dialogue system and voice browsing method
US20170221481A1 (en) Data structure, interactive voice response device, and electronic device
CN110889008B (zh) 一种音乐推荐方法、装置、计算装置和存储介质
CN103903615B (zh) 一种信息处理方法及电子设备
CN104679733B (zh) 一种语音对话翻译方法、装置及系统
CN113409761A (zh) 语音合成方法、装置、电子设备以及计算机可读存储介质
CN108766429B (zh) 语音交互方法和装置
CN112908309B (zh) 语音识别方法、装置、设备及按摩沙发
CN114049875A (zh) 一种tts播报方法、装置、设备以及存储介质
JP6867939B2 (ja) 計算機、言語解析方法、及びプログラム
CN103366732A (zh) 语音播报方法及装置、车载系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140430

Termination date: 20150810

EXPY Termination of patent right or utility model