CN101645266A - 声音合成装置 - Google Patents

声音合成装置 Download PDF

Info

Publication number
CN101645266A
CN101645266A CN200910159280A CN200910159280A CN101645266A CN 101645266 A CN101645266 A CN 101645266A CN 200910159280 A CN200910159280 A CN 200910159280A CN 200910159280 A CN200910159280 A CN 200910159280A CN 101645266 A CN101645266 A CN 101645266A
Authority
CN
China
Prior art keywords
tone
information
pronunciation
dictionary
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910159280A
Other languages
English (en)
Other versions
CN101645266B (zh
Inventor
竹里尚嘉
古田训
藤井洋一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN101645266A publication Critical patent/CN101645266A/zh
Application granted granted Critical
Publication of CN101645266B publication Critical patent/CN101645266B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)

Abstract

本发明提供能以用户所期待的读音及声调输出声音的声音合成装置。该声音合成装置包括:声调词典(11),该声调词典(11)将用于记述语言的记述信息及表示读法的读音信息、与对该语言的读音的声调进行规定的声调信息相互对应来加以存储;声调词典检索部(12),该声调词典检索部(12)从声调词典中检索与从外部输入的记述信息及读音信息对应的声调信息,并获取附加该检索出的声调信息后的读音信息即带声调的读音信息;声音合成部(13),该声音合成部(13)根据由声调词典检索部获取到的带声调的读音信息来合成声音波形;及声音重放部(14),该声音重放部(14)根据由声音合成部合成后的声音波形来重放声音。

Description

声音合成装置
技术领域
本发明涉及例如在汽车导航装置等中输出引导声音等的声音合成装置,特别是涉及对输出的声音的声调进行控制的技术。
背景技术
以往,已知有被称为TTS(Text-to-Speech;文本声音转换)的技术,该TTS推断日文的汉字和假名夹杂的和汉混淆文的读音和声调并进行朗读。作为利用了该技术的装置,专利文献1披露了能够利用文本声音转换将接收到的电子邮件正确无误地加以朗读的电子邮件终端装置。
该电子邮件终端装置在个人信息适应变换部中,使用电子邮件的邮件地址、和姓名等个人信息,对应于个人信息对接收到的电子邮件信息进行修正,并添加补充信息。然后,在通报单元的文本声音转换部中,对该信息加工后的电子邮件进行文本声音转换并加以通报。
专利文献1:日本专利特开2001-325191号公报
然而,在上述的现有技术中,例如对于“三田”这样的记述存在诸如“サンダ”或“ミタ”的多种读法的单词,并不一定能够如用户所期待的那样朗读,有可能会发生误读。
另一方面,为了防止误读,已知有使用仅由不包含声调信息的“读音”构成的读音信息来进行朗读的方法,但根据该方法,存在如下问题,即,朗读变得无声调而平坦,难以让人听懂。
发明内容
本发明是为了解决上述问题而完成的,提供一种能以用户所期待的读音及声调输出声音的声音合成装置。
为了解决上述问题,本发明的声音合成装置包括:声调词典,该声调词典将记述语言的记述信息及表示读法的读音信息、与对该语言的读音的声调进行规定的声调信息相互对应来加以存储;声调词典检索部,该声调词典检索部从声调词典中检索与从外部输入的记述信息及读音信息对应的声调信息,并获取附加该检索出的声调信息后的读音信息即带声调的读音信息;声音合成部,该声音合成部根据由声调词典检索部获取到的带声调的读音信息来合成声音波形;及声音重放部,该声音重放部根据由声音合成部合成后的声音波形来重放声音。
根据本发明的声音合成装置,由于采用如下结构,即,从声调词典中读出与从外部输入的记述信息及读音信息对应的带声调的读音信息,根据该读出的带声调的读音信息产生声音,因此不会发生误读,而且能以用户所期待的声调输出声音,
附图说明
图1是表示本发明的实施方式1的声音合成装置的结构的方框图。
图2是表示应用了本发明的实施方式1的声音合成装置的汽车导航装置的结构的方框图。
图3是表示应用了本发明的实施方式1的声音合成装置的汽车导航装置中使用的登录地信息编辑画面的例子的图。
图4是表示将本发明的实施方式1的声音合成装置应用于汽车导航装置时的声调词典检索部中执行的处理的流程图。
图5是用于说明应用了本发明的实施方式1的声音合成装置的汽车导航装置的动作的图。
图6是表示本发明的实施方式2的声音合成装置的结构的方框图。
图7是表示应用了本发明的实施方式2的声音合成装置的汽车导航装置的结构的方框图。
图8是表示应用了本发明的实施方式2的声音合成装置的汽车导航装置中使用的登录地信息编辑画面的例子的图。
图9是表示将本发明的实施方式2的声音合成装置应用于汽车导航装置时的声调词典检索部中执行的处理的流程图。
图10是用于说明应用了本发明的实施方式2的声音合成装置的汽车导航装置的动作的图。
标号说明
1、1a  声音合成装置,11 声调词典,12、12a 声调词典检索部,13 声音合成部,14 声音重放部,15 声调检索失败处理部
具体实施方式
下面,参照附图详细说明本发明的实施方式。
实施方式1.
图1是表示本发明的实施方式1的声音合成装置1的结构的方框图。该声音合成装置1包括声调词典11、声调词典检索部12、声音合成部13、及声音重放部14。
声调词典11将用于记述语言的记述信息及表示读法的读音信息、与对该语言的读音的声调进行规定的声调信息相互对应来加以存储。声调词典检索部12对该声调词典11进行访问。
声调词典检索部12将从外部输入的记述信息及读音信息发送到声调词典11,从声调词典11中检索与这些信息对应的声调信息,获取附加该检索出的声调信息后的读音信息(以下称为“带声调的读音信息”)。由该声调词典检索部12获取到的带声调的读音信息被发送到声音合成部13。
声音合成部13根据从声调词典检索部12发送来的带声调的读音信息来合成声音波形。由该声音合成部13合成后的声音波形被发送到声音重放部14。
声音重放部14例如由扬声器构成,根据从声音合成部13发送来的声音波形输出声音。
图2是表示应用了本发明的实施方式1的声音合成装置1的汽车导航装置的结构的方框图。该汽车导航装置包括声音合成装置1、登录地信息编辑部21、及登录地引导处理部22。
登录地信息编辑部21将如图3所示的登录地信息编辑画面输出到未图示的显示装置。用户可使用该登录地信息编辑画面,输入登录地的记述和读音。图3示出输入“自宅”作为登录地的记述、输入“ジタク”作为登录地的读音的例子。登录地信息编辑部21将使用该登录地信息编辑画面输入的登录地的记述及读音加以存储,以分别作为登录地的记述信息及读音信息。该登录地信息编辑部21中存有的记述信息及读音信息被登录地引导处理部22读出。
登录地引导处理部22在检测出由从未图示的当前位置检测装置获取到的当前位置数据所示的当前位置接近登录地的情况下,从登录地信息编辑部21中读出与该登录地对应的记述信息及读音信息,发送到声音合成装置1。由此,如上所述,在声音合成装置1中合成声音并加以输出。
接着,参照图4所示的流程图及图2所示的汽车导航装置的方框图,以声调词典检索部12中执行的处理为中心,说明应用于上述汽车导航装置的实施方式1的声音合成装置1的动作。
现假设利用登录地信息编辑部21的处理已登录如图3所示的登录地信息。登录地引导处理部22在检测出接近登录地时,从登录地信息编辑部21中,将作为该登录地的记述信息存有的“自宅”及作为读音信息存有的“ジタク”加以读出,发送到声音合成装置1的声调词典检索部12。
声调词典检索部12首先从登录地引导处理部22接受记述信息“自宅”和读音信息“ジタク”(步骤ST11)。接着,声调词典检索部12从声调词典11中,检索与记述信息“自宅”及读音信息“ジタク”对应的声调信息(步骤ST12)。在该步骤ST12中,若检索出对应的声调信息,则声调词典检索部12从声调词典11获取带声调的读音信息“ジ’タク”。带声调的读音信息的声调位置用“’”符号来表示。
接着,声调词典检索部12将步骤ST12中从声调词典11获取到的带声调的读音信息“ジ’タク”发送到声音合成部13(步骤ST13)。此后,声音合成部13根据从声调词典检索部12发送来的带声调的读音信息“ジ’タク”来合成声音波形,并将其发送到声音重放部14。声音重放部14根据从声音合成部13发送来的声音波形,输出声音。由此,如图5所示,在当前位置(本车位置)接近登录地时,不会发生误读,而且以适当的声调输出读作“ジタク”的合成声音。
如上所述,根据本发明的实施方式1的声音合成装置,由于采用如下结构,即,从声调词典11中读出与从外部输入的记述信息及读音信息对应的带声调的读音信息,而产生声音,因此不会发生误读,而且能以用户所期待的声调输出声音。
实施方式2.
图6是表示本发明的实施方式2的声音合成装置1a的结构的方框图。该声音合成装置1a采用如下结构,即,通过对图1所示的实施方式1的声音合成装置1的声调词典检索部12添加声调检索失败处理部15,从而变更为新的声调词典检索部12a。
在声调词典检索部12a未能从声调词典11中检索出声调信息的情况下,声调检索失败处理部15将从外部输入的、未附加声调信息的读音信息发送到声音合成部13。
图7是表示应用了上述实施方式2的声音合成装置1a的汽车导航装置的结构的方框图。该汽车导航装置仅在声音合成装置1被变更为声音合成装置1a这一点上与实施方式1的汽车导航装置不同。
这里,用户使用如图8所示的登录地信息编辑画面,输入“自宅”作为登录地的记述,输入与登录地的记述不同的“ツキマシタ”作为登录地的读音,登录地信息编辑部21将这些被输入的登录地的记述及读音分别作为登录地的记述信息及读音信息加以存储。在这种情况下,声调词典11中对于记述信息“自宅”及读音信息“ジタク”存储有“ジ’タク”的声调信息,而不存在与“ツキマシタ”对应的声调信息。
接着,参照图9所示的流程图及图7所示的汽车导航装置的方框图,以声调词典检索部12a中执行的处理为中心,说明应用于上述汽车导航装置的实施方式2的声音合成装置1a的动作。
在已登录如图8所示的登录地信息的状态下,登录地引导处理部22在检测出接近登录地时,从登录地信息编辑部21中,将作为该登录地的记述信息存有的“自宅”及作为读音信息存有的“ツキマシタ”加以读出,发送到声音合成装置1a的声调词典检索部12a。
声调词典检索部12a首先从登录地引导处理部22接受记述信息“自宅”和读音信息“ツキマシタ”(步骤ST21)。接着,声调词典检索部12a从声调词典11中,检索与记述信息“自宅”及读音信息“ツキマシタ”对应的声调信息(步骤ST22)。
接着,声调词典检索部12a检查声调词典11中是否存在与记述信息及读音信息对应的声调信息(步骤ST23)。在该步骤ST23中,若判断为存在与记述信息及读音信息对应的声调信息,则与上述实施方式1的声音合成装置的动作中说明的情况相同,即,与登录地信息为记述信息“自宅”及读音信息“ジタク”的情况相同,声调词典检索部12a从声调词典11获取带声调的读音信息。
接着,声调词典检索部12a将步骤ST22中从声调词典11获取到的带声调的读音信息发送到声音合成部13(步骤ST24)。此后,声音合成部13根据从声调词典检索部12发送来的带声调的读音信息来合成声音波形,并将其发送到声音重放部14。声音重放部14根据从声音合成部13发送来的声音波形,输出声音。由此,与上述实施方式1的声音合成装置1相同,在当前位置(本车位置)接近登录地时,不会发生误读,而且以用户所期待的声调输出合成声音。
在上述步骤ST23中,若判断为声调词典11中不存在与记述信息及读音信息对应的声调信息,则声调词典检索部12a的声调检索失败处理部15将步骤ST21中输入的读音信息“ツキマシタ”发送到声音合成部13(步骤ST25)。此后,声音合成部13根据从声调词典检索部12发送来的未附加声调信息的读音信息“ツキマシタ”来合成声音波形,并将其发送到声音重放部14。声音重放部14根据从声音合成部13发送来的声音波形,输出声音。由此,如图10所示,在当前位置(本车位置)接近登录地时,输出读作“ツキマシタ”的合成声音,虽然不是用户所期待的声调,但不会发生误读。
如上所述,根据本发明的实施方式2的声音合成装置,由于采用如下结构,即,即使声调词典11中不存在与从外部输入的记述信息及读音信息对应的声调信息时,也产生无声调的声音,因此虽然不是用户所期待的声调,但也能输出合成声音而不发生误读。
此外,上述实施方式1及实施方式2的声音合成装置是以日文的和汉混淆文作为声音合成的对象,但也可应用于中文。与中文的“读音”相当的拼音(pinyin)中包含称为四声的声调信息。因而,基本上能以正确的声调合成声音,而不会仅用拼音发生误读。然而,由于根据不含四声的拼音和汉字能容易理解声调,因此通常很少输入四声。
因此,若使用“汉字”作为记述信息,使用“无四声的拼音”作为读音信息,使用“有四声的拼音”作为声调信息,则本发明也可应用于中文。

Claims (2)

1.一种声音合成装置,其特征在于,包括:
声调词典,该声调词典将记述语言的记述信息及表示读法的读音信息、与对该语言的读音的声调进行规定的声调信息相互对应来加以存储;
声调词典检索部,该声调词典检索部从所述声调词典中检索与从外部输入的记述信息及读音信息对应的声调信息,并获取附加该检索出的声调信息后的读音信息即带声调的读音信息;
声音合成部,该声音合成部根据由所述声调词典检索部获取到的带声调的读音信息来合成声音波形;及
声音重放部,该声音重放部根据由所述声音合成部合成后的声音波形来重放声音。
2.如权利要求1所述的声音合成装置,其特征在于,
声调词典检索部包括声调检索失败处理部,在未能从声调词典中检索出声调信息的情况下,该声调检索失败处理部将从外部输入的未附加声调信息的读音信息发送到声音合成部,
声音合成部根据从所述声调检索失败处理部发送来的未附加声调信息的读音信息来合成声音波形。
CN200910159280XA 2008-08-06 2009-08-05 声音合成装置 Expired - Fee Related CN101645266B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008203082A JP2010039277A (ja) 2008-08-06 2008-08-06 音声合成装置
JP2008-203082 2008-08-06
JP2008203082 2008-08-06

Publications (2)

Publication Number Publication Date
CN101645266A true CN101645266A (zh) 2010-02-10
CN101645266B CN101645266B (zh) 2011-11-02

Family

ID=41657119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910159280XA Expired - Fee Related CN101645266B (zh) 2008-08-06 2009-08-05 声音合成装置

Country Status (2)

Country Link
JP (1) JP2010039277A (zh)
CN (1) CN101645266B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719640A (zh) * 2014-12-22 2016-06-29 卡西欧计算机株式会社 声音合成装置及声音合成方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03174596A (ja) * 1989-12-02 1991-07-29 Toshiba Corp 音声応答装置
JPH05189194A (ja) * 1992-01-10 1993-07-30 Toshiba Corp 文書読み上げ装置
JPH096378A (ja) * 1995-06-21 1997-01-10 Oki Electric Ind Co Ltd テキスト音声変換装置
JP3513988B2 (ja) * 1995-07-20 2004-03-31 ソニー株式会社 ナビゲーションシステム
JP2005309327A (ja) * 2004-04-26 2005-11-04 Mitsubishi Electric Corp 音声合成装置
JP2006094126A (ja) * 2004-09-24 2006-04-06 Canon Inc 音声合成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719640A (zh) * 2014-12-22 2016-06-29 卡西欧计算机株式会社 声音合成装置及声音合成方法
CN105719640B (zh) * 2014-12-22 2019-11-05 卡西欧计算机株式会社 声音合成装置及声音合成方法

Also Published As

Publication number Publication date
CN101645266B (zh) 2011-11-02
JP2010039277A (ja) 2010-02-18

Similar Documents

Publication Publication Date Title
US11404043B2 (en) Systems and methods for providing non-lexical cues in synthesized speech
US11922924B2 (en) Multilingual neural text-to-speech synthesis
US8249858B2 (en) Multilingual administration of enterprise data with default target languages
US8594995B2 (en) Multilingual asynchronous communications of speech messages recorded in digital media files
Kishore et al. Unit size in unit selection speech synthesis.
CN102725790B (zh) 识别词典制作装置及声音识别装置
Ostendorf et al. Human language technology: Opportunities and challenges
JP6806662B2 (ja) 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法
US9196251B2 (en) Contextual conversion platform for generating prioritized replacement text for spoken content output
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
Kishore et al. Experiments with unit selection speech databases for Indian languages
JP7110055B2 (ja) 音声合成システム、及び音声合成装置
JP7034027B2 (ja) 認識装置、認識方法及び認識プログラム
US20080243510A1 (en) Overlapping screen reading of non-sequential text
JP2012177815A (ja) 音響モデル学習装置、および音響モデル学習方法
CN101645266B (zh) 声音合成装置
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
WO2004109658A1 (ja) 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体
Kumar et al. An automatic spontaneous speech recognition system for Punjabi language
CN111489742A (zh) 声学模型训练方法、语音识别方法、装置及电子设备
Adell Mercado et al. Buceador, a multi-language search engine for digital libraries
Carson-Berndsen Multilingual time maps: portable phonotactic models for speech technology
Chaudhury et al. Symbol based concatenation approach for Text to Speech System for Hindi using vowel classification technique
Chaudhur et al. Vowel classification based approach for Telugu Text-to-Speech System using symbol concatenation
Jayalakshmi et al. Augmenting Kannada Educational Video with Indian Sign Language Captions Using Synthetic Animation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111102

Termination date: 20210805