CN1435754A

CN1435754A - 文字声音变换装置及使用该装置的便携终端装置

Info

Publication number: CN1435754A
Application number: CN03103002A
Authority: CN
Inventors: 川岛隆宏
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2002-01-29
Filing date: 2003-01-27
Publication date: 2003-08-13
Anticipated expiration: 2023-01-27
Also published as: KR20030065350A; CN1292341C; JP2003223181A; HK1055490A1; KR100551668B1

Abstract

本发明涉及一种文字声音变换装置及使用该装置的便携终端装置，存储在便携终端装置的存储器中的文本数据被分割成图画文字(声调控制文字)和除此之外的文字数据，通过声调数据库将该图画文字变换成声调控制数据(例如，和音量、定音、发音速度相关的数据)。文字数据通过规定的声音合成方法变换成声音信号，此时是变换成具有以上述声调控制数据为基础的声调的。由此，生成具有期望声调的声音信号，可发出抑扬顿挫的声音。而且，也可以将基于效果音文字的效果音和声音混合后发音。

Description

文字声音变换装置及使用该装置的便携终端装置

技术领域

本发明涉及一种将电子邮件等的文本数据变换成声音的文字声音变换装置及使用该装置的便携终端装置。

背景技术

近年来，开发了各种便携终端装置，例如，开发了能通过声音合成技术将电子邮件的文字信息变换成声音并读出来的便携终端装置。

但是，在这种现有的便携终端装置中，电子邮件等的文字信息的最后的声调只准备了从其文章中推测出的几种模式，因此，通过计算机声音这种机械的单调的方法进行发声处理，和实际上人发出的声音是不同的，存在没有抑扬顿挫、用户听起来很困难的问题。

发明内容

本发明考虑并解决了上述问题，其目的在于提供一种文字声音变换装置和使用该装置的便携终端装置，可对应文字信息等的文章内容通过适当的发声方法来进行文字发音。

本发明的上述目的是这样实现的：一种文字声音变换装置，其中，包括：分割装置，将存储在存储器中的文本数据分割成声调控制文字和除此之外的文字数据；变换装置，将上述声调控制文字变换成用于控制应当发出的声音的声调的声调控制数据；声音信号生成装置，将上述除此之外的文字数据变换成具有以上述声调控制数据为基础的声调的声音信号。

本发明所述的文字声音变换装置，其中，上述声调控制文字是将可包含在上述文本数据中的文字和符号组合起来形成的图画文字。

本发明所述的文字声音变换装置，其中，上述声调控制数据是控制声音信号的定音的定音数据。

本发明所述的文字声音变换装置，其中，上述声调控制数据是控制声音信号的发音速度的速度数据。

本发明所述的文字声音变换装置，其中，上述声调控制数据是控制声音信号的音量的音量数据。

本发明所述的文字声音变换装置，其中，上述声音信号生成装置是通过共振峰合成方法生成声音信号。

本发明所述的文字声音变换装置，其中，上述声音信号生成装置是通过波形叠加方法生成声音信号。

本发明所述的文字声音变换装置，其中，还具有效果音生成装置，通过上述分割装置，根据从上述文本数据中分离的效果音文字生成表示规定效果音的效果音信号；将该效果音信号和上述声音信号混合后输出。

本发明所述的一种文字声音变换装置，其中，包括：分割装置，将存储在存储器中的文本数据分割成效果音文字和除此之外的文字数据；效果音生成装置，根据上述效果音文字，生成表示规定效果音的效果音信号；声音信号生成装置，将上述除此之外的文字数据变换成声音信号；混合装置，将上述效果音信号和上述声音信号混合后输出。

本发明所述的一种便携终端装置，其中，具有上面任一项所述的文字声音变换装置，将从外部接收的电子邮件作为文本数据，通过文字声音变换装置变换成声音信号后发音。

在根据本发明的文字声音变换装置中，通过文本解码将存储在存储器内的文本数据分割成图画文字(声调控制文字)以及除此之外的文字数据，该图画文字通过声调数据库变换成声调控制数据(例如，和音量、定音、发音速度有关的数据)。另一方面，文字数据通过规定的声音合成方法变换成声音信号，此时是变换成具有以上述声调控制数据为基础的声调的。由此，将具有期望声调的声音信号提供给扬声器，发出抑扬顿挫的声音。

由此，可将以可含有文本数据的效果音文字为基础的效果音和声音混合而进行发音。

这样，可对应电子邮件等的文章内容并且以期望的抑扬顿挫的声调读出文字信息。若将这种文字声音变换装置装配到便携终端装置中，可提高便利性。

附图说明

图1是根据本发明第一实施例的便携终端装置的结构方框图；

图2是实现便携终端装置的文字信息读出功能的结构方框图；

图3是图画文字声调控制数据对照表的内容的示意图；

图4是用于说明图2所示功能的动作的流程图；

图5是实现根据本发明第二实施例的便携终端装置的文字信息读出功能的结构方框图；

图6是用于说明图5所示功能的动作的流程图。

具体实施方式

下面参照附图并通过实施例详细说明本发明。

图1是根据本发明第一实施例的便携终端装置1的结构方框图。便携终端装置1是对应于所谓便携电话(portable telephones，cellphones，etc)和PHS(Personal Handyphone System)装置的装置。便携终端装置1具有通过声音读出接收的电子邮件的功能。此外，本发明的实施例不限于便携电话等，例如，PDA(Personal Digital Assistant)装置和个人计算机等也可实现。

图1中，符号2表示中央处理器(CPU)，控制便携终端装置1内的各个块。符号3表示存储规定程序的ROM(Read-Only Memory)，符号4表示各种数据存储用的闪速存储器等非易失性RAM(nonvolatileRandom-Access Memory)。符号5表示便携终端装置1通过无线通信(wirelesscommunication)和规定基站通信连接用的通信接口，符号6表示用于通过规定的连接码(未图示)将便携终端装置1连接到个人计算机等外部装置上的的串行接口。

符号7表示由液晶显示器(1iquid crystal display)和显示驱动电路组成的显示部，基于由上述CPU2提供的显示数据显示期望的图象。符号8表示由所谓十位按键(numeric keypads)和功能键以及键输入接口组成的操作部。符号9表示声音合成电路，将由上述CPU2经总线B提供的文本数据变换成声音信号并输出到扬声器(未图示)中。作为声音合成方法，使用共振峰(formant)合成方法和波形叠加方法。符号10表示效果音生成电路，其详细情况将在第二实施例中描述。

图2是表示上述便携终端装置1中电子邮件等文字读出功能的方框图，图4是该功能的流程图。

图2中，符号13表示电子邮件的文本数据，它通过上述通信接口5被接收并写入上述RAM4中(图4的步骤Sal)。通过由CPU2执行的文本解码14将存储在RAM4中的文本数据13分成表示图标和各种图画文字的图画文字数据(声调控制文字数据)和除此之外的文字数据(步骤Sa2)，图画文字数据输出到声调数据库15中，除此之外的文字数据输出到声音合成电路9中(步骤Sa3)。这里，图画文字是将在文本中使用的文字和符号等组合起来构成的，例如，或表示动物的形态，或表示人的表情(笑脸或哭相等)，近年来，特别是在年轻人中间得到广泛应用。另外，图画文字数据用作控制应该根据其文字数据发音的声音的声调的声调控制文字数据。

声调数据库15是预先设定在上述ROM3(或RAM4)中的数据库，包含图3所示的图画文字声调控制数据对照表15a和定音数据表、速度数据表、音量数据表(均未图示)。图画文字声调控制数据对照表15a(以下称为“对照表15a”)是写入和各图画文字对应的各数据表地址的表，例如，图画文字(^_^)对应于定音数据表的地址PA、速度数据表的地址CA、音量数据表的地址VA。

在定音数据表的各个地址中，随时间变化的定音数据和时间数据一起存储。速度数据表和音量数据表也同样构成。图2中，在从文本解码14向声调数据库15输出图画文字数据时，从对照表15a中读出和其图画文字数据对应的各表的地址，基于该地址，和时间数据一起从各个表中读出定音数据、速度数据和音量数据，输出到声音合成电路9中(步骤Sa4)。

声音合成电路9将从文本解码14输出的图画文字数据以外的文字数据变换成声音信号，并且，根据从上述声调数据库15输出的音量数据、定音数据、速度数据和时间数据控制其声音信号的音量、定音、发音速度并输出到扬声器11中(步骤Sa5)。由此，例如，在控制基于表示图3中符号15al所示笑的表情的图画文字数据发出的声音时，在增大音量、提高定音的同时，稍微加快发音速度，从而用欢乐的声音发声。在控制基于表示图3中符号15a2所示哭的表情的图画文字数据发出的声音时，在减小音量、降低定音的同时，稍微减缓发音速度，从而用悲伤的声音发音。而且，在控制基于表示符号15a3所示冷、汗和焦虑的表情的图画文字数据发出的声音时，减小音量，减缓发音速度，从而用没力气的声音发音。这样，对应图画文字的内容来控制音量、定音、发音速度，从而可改变声音发音的声调。

上述处理在文本数据13的发音处理全部结束之前反复进行(步骤Sa6-＞步骤Sa2～Sa5)。

下面，说明本发明的第二实施例。第二实施例的特征在于在图1所示的上述第一实施例的结构中还增加了效果音生成电路10。该效果音生成电路10是根据从预先存储在上述ROM3(或RAM4)中的波形数据库(未图示)中读出的PCM(Pulse Code Modulation)波形数据生成效果音的PCM音源电路，接收由上述CPU2经总线B提供的效果音文字数据，生成和该效果音文字数据对应的效果音并输出到扬声器11中。

这里，效果音文字例如是(笑)和(哭)等文字，和这些文字对应的效果音例如是表示笑声的“哇哈哈”和表示哭声的“呜呜”等声音。此外，作为效果音文字，例如也可以是(-_-III)等图画文字，和该图画文字数据对应的效果音是表示绝望的感情的“唉”这样的声音。

图5是根据本发明第二实施例的便携终端装置中表示读出电子邮件等文字信息功能的功能方框图，图6是该功能的流程图。

图5中，符号21表示电子邮件的文本数据，通过上述通信接口5被接收，写入到上述RAM4中(图6的步骤Sb1)。通过由上述CPU2执行的文本解码22将文本数据21分成图画文字数据(声调控制文字)、效果音文字数据和其它的文字数据(步骤Sb2)。其中，图画文字数据输出到声调数据库15中，另一方面，效果音文字数据输出到存储在ROM3中的波形数据库24中，其它的文字数据输出到声音合成电路9中(步骤Sb3、Sb4)。

在向声调数据库15输出图画文字数据时，和上述第一实施例相同，从声调数据库15中读出音量数据、定音数据、速度数据和时间数据并输出到声音合成电路9中(步骤Sb5)。声音合成电路9根据从文本解码22输出的文字数据生成声音信号，根据从上述声调数据库输出的各数据控制其音量、定音、发音速度并输出(步骤Sb6)。

在向波形数据库24输出效果音文字数据时，从该波形数据库24中读出和效果音文字数据对应的规定波形数据并输出到效果音生成电路10中(步骤Sb7)。效果音生成电路10根据波形数据生成效果音信号并输出(步骤Sb8)。将来自上述声音合成电路9和效果音生成电路10的输出信号混合(步骤Sb9)，输出到扬声器11中。

上述处理在文本数据21的发音处理完全结束之前反复进行(步骤Sb10→步骤Sb2～Sb9)。

此外，将声调数据库15存储在可追记的存储装置(例如非易失性RAM4)中，便携终端装置的用户操作上述操作部8，可将用于指示输入的图画文字数据和对应于该图画文字数据的声调控制形态的定音数据、速度数据及音量数据的各个地址追加注册到声调数据库15内的对照表15a中。由此，随文字数据生成的声音根据用户(或者操作者)的指示，根据追加注册在声调数据库15中的图画文字数据控制声音发声的声调。而且，不仅仅向对照表15a追加注册各个数据，而且也可由用户通过操作便携终端装置将预先存储的数据改写成新数据。或者，使用便携终端装置的通信功能，通过网络访问规定的服务器等，也可下载期望内容的声调数据库的内容。

而且，对于波形数据库也可与上述同样。即，将波形数据库存储在可追记的存储装置(例如非易失性RAM4)中，通过便携终端装置的用户指示向该波形数据库中追加注册或者上传效果音文字数据，要么总和预先存储该效果音文字数据的波形数据对应，要么通过从规定的服务器中下载未存储在波形数据库中的波形数据，可总是对应于期望的效果音文字数据。当然，也可以从规定的服务器下载和效果音文字数据以及波形数据总是对应的波形数据库的内容。

此外，可用微处理器实现上述便携终端装置的各个功能，或者，也可通过DSP(Digital Signal Processor)用专用电路来实现。

如上所述，本发明具有以下各种技术特征和效果。

(1)在本发明中，将存储在存储器内的文本数据分割成声调控制文字和除此之外的文字数据，将该声调控制文字变换成声调控制数据，另一方面，将文字数据变换成具有以声调控制数据为基础的声调的声音信号。即，通过与在便携终端装置的电子邮件等中使用的表情文字(即将文字和符号组合起来模仿人面部表情的标记)和图画文字等的声调控制文字对应的声调来发出声音。由此，可对应电子邮件作者的感情和意思读出文字信息，和现有的单调的计算机声音相比，可实现更有说服力的自动发声处理。而且，文字信息的读出不再是机械的，而变成更人性化的发音，对便携终端装置的用户来说具有容易听懂的效果。

(2)在上述声调控制数据中可包含和音量、定音和发音速度有关的数据。而且，作为声音信号生成方法，可采用共振峰合成方法和波形叠加方法。

(3)而且，可将存储在存储器中的文本数据分割成效果音文字和除此之外的文字数据。这种情况下，根据效果音文字生成效果音信号，和由文字数据变换生成的声音信号混合。由此，可在文字信息的读出上附加和电子邮件等中包含的效果音文字对应的效果音，可在文字信息读出中进一步反映电子邮件作者的感情和意思。

此外，本发明并不限于上述实施例，可在本发明的范围内进行各种变形。

Claims

1.一种文字声音变换装置，其特征在于，包括：

分割装置(14)，将存储在存储器中的文本数据(13)分割成声调控制文字和除此之外的文字数据；

变换装置(15)，将上述声调控制文字变换成用于控制应当发出的声音的声调的声调控制数据；

声音信号生成装置(9)，将上述除此之外的文字数据变换成具有以上述声调控制数据为基础的声调的声音信号。

2.根据权利要求1所述的文字声音变换装置，其特征在于，上述声调控制文字是将可包含在上述文本数据中的文字和符号组合起来形成的图画文字。

3.根据权利要求1或2所述的文字声音变换装置，其特征在于，上述声调控制数据是控制声音信号的定音的定音数据。

4.根据权利要求1或2所述的文字声音变换装置，其特征在于，上述声调控制数据是控制声音信号的发音速度的速度数据。

5.根据权利要求1或2所述的文字声音变换装置，其特征在于，上述声调控制数据是控制声音信号的音量的音量数据。

6.根据权利要求1或2所述的文字声音变换装置，其特征在于，上述声音信号生成装置是通过共振峰合成方法生成声音信号。

7.根据权利要求1或2所述的文字声音变换装置，其特征在于，上述声音信号生成装置是通过波形叠加方法生成声音信号。

8.根据权利要求1所述的文字声音变换装置，其特征在于，还具有效果音生成装置(10)，通过上述分割装置，根据从上述文本数据中分离的效果音文字生成表示规定效果音的效果音信号；将该效果音信号和上述声音信号混合后输出。

9.一种文字声音变换装置，其特征在于，包括：

分割装置(22)，将存储在存储器中的文本数据(21)分割成效果音文字和除此之外的文字数据；

效果音生成装置(10，24)，根据上述效果音文字，生成表示规定效果音的效果音信号；

声音信号生成装置(9)，将上述除此之外的文字数据变换成声音信号；

混合装置，将上述效果音信号和上述声音信号混合后输出。

10.一种便携终端装置，其特征在于，具有根据权利要求1至权利要求9中任一项所述的文字声音变换装置，将从外部接收的电子邮件作为文本数据，通过文字声音变换装置变换成声音信号后发音。