CN101645266A

CN101645266A - 声音合成装置

Info

Publication number: CN101645266A
Application number: CN200910159280A
Authority: CN
Inventors: 竹里尚嘉; 古田训; 藤井洋一
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-08-06
Filing date: 2009-08-05
Publication date: 2010-02-10
Anticipated expiration: 2029-08-05
Also published as: CN101645266B; JP2010039277A

Abstract

本发明提供能以用户所期待的读音及声调输出声音的声音合成装置。该声音合成装置包括：声调词典(11)，该声调词典(11)将用于记述语言的记述信息及表示读法的读音信息、与对该语言的读音的声调进行规定的声调信息相互对应来加以存储；声调词典检索部(12)，该声调词典检索部(12)从声调词典中检索与从外部输入的记述信息及读音信息对应的声调信息，并获取附加该检索出的声调信息后的读音信息即带声调的读音信息；声音合成部(13)，该声音合成部(13)根据由声调词典检索部获取到的带声调的读音信息来合成声音波形；及声音重放部(14)，该声音重放部(14)根据由声音合成部合成后的声音波形来重放声音。

Description

声音合成装置

技术领域

本发明涉及例如在汽车导航装置等中输出引导声音等的声音合成装置，特别是涉及对输出的声音的声调进行控制的技术。

背景技术

以往，已知有被称为TTS(Text-to-Speech；文本声音转换)的技术，该TTS推断日文的汉字和假名夹杂的和汉混淆文的读音和声调并进行朗读。作为利用了该技术的装置，专利文献1披露了能够利用文本声音转换将接收到的电子邮件正确无误地加以朗读的电子邮件终端装置。

该电子邮件终端装置在个人信息适应变换部中，使用电子邮件的邮件地址、和姓名等个人信息，对应于个人信息对接收到的电子邮件信息进行修正，并添加补充信息。然后，在通报单元的文本声音转换部中，对该信息加工后的电子邮件进行文本声音转换并加以通报。

专利文献1：日本专利特开2001-325191号公报

然而，在上述的现有技术中，例如对于“三田”这样的记述存在诸如“サンダ”或“ミタ”的多种读法的单词，并不一定能够如用户所期待的那样朗读，有可能会发生误读。

另一方面，为了防止误读，已知有使用仅由不包含声调信息的“读音”构成的读音信息来进行朗读的方法，但根据该方法，存在如下问题，即，朗读变得无声调而平坦，难以让人听懂。

发明内容

本发明是为了解决上述问题而完成的，提供一种能以用户所期待的读音及声调输出声音的声音合成装置。

为了解决上述问题，本发明的声音合成装置包括：声调词典，该声调词典将记述语言的记述信息及表示读法的读音信息、与对该语言的读音的声调进行规定的声调信息相互对应来加以存储；声调词典检索部，该声调词典检索部从声调词典中检索与从外部输入的记述信息及读音信息对应的声调信息，并获取附加该检索出的声调信息后的读音信息即带声调的读音信息；声音合成部，该声音合成部根据由声调词典检索部获取到的带声调的读音信息来合成声音波形；及声音重放部，该声音重放部根据由声音合成部合成后的声音波形来重放声音。

根据本发明的声音合成装置，由于采用如下结构，即，从声调词典中读出与从外部输入的记述信息及读音信息对应的带声调的读音信息，根据该读出的带声调的读音信息产生声音，因此不会发生误读，而且能以用户所期待的声调输出声音，

附图说明

图1是表示本发明的实施方式1的声音合成装置的结构的方框图。

图2是表示应用了本发明的实施方式1的声音合成装置的汽车导航装置的结构的方框图。

图3是表示应用了本发明的实施方式1的声音合成装置的汽车导航装置中使用的登录地信息编辑画面的例子的图。

图4是表示将本发明的实施方式1的声音合成装置应用于汽车导航装置时的声调词典检索部中执行的处理的流程图。

图5是用于说明应用了本发明的实施方式1的声音合成装置的汽车导航装置的动作的图。

图6是表示本发明的实施方式2的声音合成装置的结构的方框图。

图7是表示应用了本发明的实施方式2的声音合成装置的汽车导航装置的结构的方框图。

图8是表示应用了本发明的实施方式2的声音合成装置的汽车导航装置中使用的登录地信息编辑画面的例子的图。

图9是表示将本发明的实施方式2的声音合成装置应用于汽车导航装置时的声调词典检索部中执行的处理的流程图。

图10是用于说明应用了本发明的实施方式2的声音合成装置的汽车导航装置的动作的图。

标号说明

1、1a 声音合成装置，11 声调词典，12、12a 声调词典检索部，13 声音合成部，14 声音重放部，15 声调检索失败处理部

具体实施方式

下面，参照附图详细说明本发明的实施方式。

实施方式1.

图1是表示本发明的实施方式1的声音合成装置1的结构的方框图。该声音合成装置1包括声调词典11、声调词典检索部12、声音合成部13、及声音重放部14。

声调词典11将用于记述语言的记述信息及表示读法的读音信息、与对该语言的读音的声调进行规定的声调信息相互对应来加以存储。声调词典检索部12对该声调词典11进行访问。

声调词典检索部12将从外部输入的记述信息及读音信息发送到声调词典11，从声调词典11中检索与这些信息对应的声调信息，获取附加该检索出的声调信息后的读音信息(以下称为“带声调的读音信息”)。由该声调词典检索部12获取到的带声调的读音信息被发送到声音合成部13。

声音合成部13根据从声调词典检索部12发送来的带声调的读音信息来合成声音波形。由该声音合成部13合成后的声音波形被发送到声音重放部14。

声音重放部14例如由扬声器构成，根据从声音合成部13发送来的声音波形输出声音。

图2是表示应用了本发明的实施方式1的声音合成装置1的汽车导航装置的结构的方框图。该汽车导航装置包括声音合成装置1、登录地信息编辑部21、及登录地引导处理部22。

登录地信息编辑部21将如图3所示的登录地信息编辑画面输出到未图示的显示装置。用户可使用该登录地信息编辑画面，输入登录地的记述和读音。图3示出输入“自宅”作为登录地的记述、输入“ジタク”作为登录地的读音的例子。登录地信息编辑部21将使用该登录地信息编辑画面输入的登录地的记述及读音加以存储，以分别作为登录地的记述信息及读音信息。该登录地信息编辑部21中存有的记述信息及读音信息被登录地引导处理部22读出。

登录地引导处理部22在检测出由从未图示的当前位置检测装置获取到的当前位置数据所示的当前位置接近登录地的情况下，从登录地信息编辑部21中读出与该登录地对应的记述信息及读音信息，发送到声音合成装置1。由此，如上所述，在声音合成装置1中合成声音并加以输出。

接着，参照图4所示的流程图及图2所示的汽车导航装置的方框图，以声调词典检索部12中执行的处理为中心，说明应用于上述汽车导航装置的实施方式1的声音合成装置1的动作。

现假设利用登录地信息编辑部21的处理已登录如图3所示的登录地信息。登录地引导处理部22在检测出接近登录地时，从登录地信息编辑部21中，将作为该登录地的记述信息存有的“自宅”及作为读音信息存有的“ジタク”加以读出，发送到声音合成装置1的声调词典检索部12。

声调词典检索部12首先从登录地引导处理部22接受记述信息“自宅”和读音信息“ジタク”(步骤ST11)。接着，声调词典检索部12从声调词典11中，检索与记述信息“自宅”及读音信息“ジタク”对应的声调信息(步骤ST12)。在该步骤ST12中，若检索出对应的声调信息，则声调词典检索部12从声调词典11获取带声调的读音信息“ジ’タク”。带声调的读音信息的声调位置用“’”符号来表示。

接着，声调词典检索部12将步骤ST12中从声调词典11获取到的带声调的读音信息“ジ’タク”发送到声音合成部13(步骤ST13)。此后，声音合成部13根据从声调词典检索部12发送来的带声调的读音信息“ジ’タク”来合成声音波形，并将其发送到声音重放部14。声音重放部14根据从声音合成部13发送来的声音波形，输出声音。由此，如图5所示，在当前位置(本车位置)接近登录地时，不会发生误读，而且以适当的声调输出读作“ジタク”的合成声音。

如上所述，根据本发明的实施方式1的声音合成装置，由于采用如下结构，即，从声调词典11中读出与从外部输入的记述信息及读音信息对应的带声调的读音信息，而产生声音，因此不会发生误读，而且能以用户所期待的声调输出声音。

实施方式2.

图6是表示本发明的实施方式2的声音合成装置1a的结构的方框图。该声音合成装置1a采用如下结构，即，通过对图1所示的实施方式1的声音合成装置1的声调词典检索部12添加声调检索失败处理部15，从而变更为新的声调词典检索部12a。

在声调词典检索部12a未能从声调词典11中检索出声调信息的情况下，声调检索失败处理部15将从外部输入的、未附加声调信息的读音信息发送到声音合成部13。

图7是表示应用了上述实施方式2的声音合成装置1a的汽车导航装置的结构的方框图。该汽车导航装置仅在声音合成装置1被变更为声音合成装置1a这一点上与实施方式1的汽车导航装置不同。

这里，用户使用如图8所示的登录地信息编辑画面，输入“自宅”作为登录地的记述，输入与登录地的记述不同的“ツキマシタ”作为登录地的读音，登录地信息编辑部21将这些被输入的登录地的记述及读音分别作为登录地的记述信息及读音信息加以存储。在这种情况下，声调词典11中对于记述信息“自宅”及读音信息“ジタク”存储有“ジ’タク”的声调信息，而不存在与“ツキマシタ”对应的声调信息。

接着，参照图9所示的流程图及图7所示的汽车导航装置的方框图，以声调词典检索部12a中执行的处理为中心，说明应用于上述汽车导航装置的实施方式2的声音合成装置1a的动作。

在已登录如图8所示的登录地信息的状态下，登录地引导处理部22在检测出接近登录地时，从登录地信息编辑部21中，将作为该登录地的记述信息存有的“自宅”及作为读音信息存有的“ツキマシタ”加以读出，发送到声音合成装置1a的声调词典检索部12a。

声调词典检索部12a首先从登录地引导处理部22接受记述信息“自宅”和读音信息“ツキマシタ”(步骤ST21)。接着，声调词典检索部12a从声调词典11中，检索与记述信息“自宅”及读音信息“ツキマシタ”对应的声调信息(步骤ST22)。

接着，声调词典检索部12a检查声调词典11中是否存在与记述信息及读音信息对应的声调信息(步骤ST23)。在该步骤ST23中，若判断为存在与记述信息及读音信息对应的声调信息，则与上述实施方式1的声音合成装置的动作中说明的情况相同，即，与登录地信息为记述信息“自宅”及读音信息“ジタク”的情况相同，声调词典检索部12a从声调词典11获取带声调的读音信息。

接着，声调词典检索部12a将步骤ST22中从声调词典11获取到的带声调的读音信息发送到声音合成部13(步骤ST24)。此后，声音合成部13根据从声调词典检索部12发送来的带声调的读音信息来合成声音波形，并将其发送到声音重放部14。声音重放部14根据从声音合成部13发送来的声音波形，输出声音。由此，与上述实施方式1的声音合成装置1相同，在当前位置(本车位置)接近登录地时，不会发生误读，而且以用户所期待的声调输出合成声音。

在上述步骤ST23中，若判断为声调词典11中不存在与记述信息及读音信息对应的声调信息，则声调词典检索部12a的声调检索失败处理部15将步骤ST21中输入的读音信息“ツキマシタ”发送到声音合成部13(步骤ST25)。此后，声音合成部13根据从声调词典检索部12发送来的未附加声调信息的读音信息“ツキマシタ”来合成声音波形，并将其发送到声音重放部14。声音重放部14根据从声音合成部13发送来的声音波形，输出声音。由此，如图10所示，在当前位置(本车位置)接近登录地时，输出读作“ツキマシタ”的合成声音，虽然不是用户所期待的声调，但不会发生误读。

如上所述，根据本发明的实施方式2的声音合成装置，由于采用如下结构，即，即使声调词典11中不存在与从外部输入的记述信息及读音信息对应的声调信息时，也产生无声调的声音，因此虽然不是用户所期待的声调，但也能输出合成声音而不发生误读。

此外，上述实施方式1及实施方式2的声音合成装置是以日文的和汉混淆文作为声音合成的对象，但也可应用于中文。与中文的“读音”相当的拼音(pinyin)中包含称为四声的声调信息。因而，基本上能以正确的声调合成声音，而不会仅用拼音发生误读。然而，由于根据不含四声的拼音和汉字能容易理解声调，因此通常很少输入四声。

因此，若使用“汉字”作为记述信息，使用“无四声的拼音”作为读音信息，使用“有四声的拼音”作为声调信息，则本发明也可应用于中文。

Claims

1.一种声音合成装置，其特征在于，包括：

声调词典，该声调词典将记述语言的记述信息及表示读法的读音信息、与对该语言的读音的声调进行规定的声调信息相互对应来加以存储；

声调词典检索部，该声调词典检索部从所述声调词典中检索与从外部输入的记述信息及读音信息对应的声调信息，并获取附加该检索出的声调信息后的读音信息即带声调的读音信息；

声音合成部，该声音合成部根据由所述声调词典检索部获取到的带声调的读音信息来合成声音波形；及

声音重放部，该声音重放部根据由所述声音合成部合成后的声音波形来重放声音。

2.如权利要求1所述的声音合成装置，其特征在于，

声调词典检索部包括声调检索失败处理部，在未能从声调词典中检索出声调信息的情况下，该声调检索失败处理部将从外部输入的未附加声调信息的读音信息发送到声音合成部，

声音合成部根据从所述声调检索失败处理部发送来的未附加声调信息的读音信息来合成声音波形。