CN1622194A

CN1622194A - 乐音·语音再现装置和乐音·语音再现方法

Info

Publication number: CN1622194A
Application number: CNA2004100953808A
Authority: CN
Inventors: 川岛隆宏
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2003-11-26
Filing date: 2004-11-24
Publication date: 2005-06-01
Anticipated expiration: 2024-11-24
Also published as: CN100369107C; KR20050050583A; KR100650071B1; HK1073169A1; JP2005156946A

Abstract

本发明提供一种以人可直观把握的文本的记述可再现乐音、并且能够进行由文本记述的语言的再现的乐音·语音再现装置以及乐音·语音再现方法。在此，基于文本数据进行乐曲的再现，该文本数据包含有表现与构成乐曲的乐音对应的拟音的文本。另外，使用语音合成的字符串和由表现了与构成乐曲的乐音对应的拟音的文本构成的乐曲用文本混合在一起而进行记述的文本数据(即HV－Script)，解释该乐曲用文本，变换成乐音数据，再现规定的乐音，同时解释语音合成的字符串，再现语音。

Description

乐音·语音再现装置和乐音·语音再现方法

技术领域

本发明涉及一种乐音·语音再现装置和乐音·语音再现方法，特别是涉及一种基于文本数据而再现乐音以及语音的装置及方法。

背景技术

长期以来，作为再现乐曲等的方法公知有把符合MIDI(音乐设备数字接口：Musical instrument Digital Interface)标准的带有时间信息的语音数据提供给音源来再现规定的乐曲等的方法。另一方面，也公知这样的技术：如使用由MML(音乐宏语言：Music Macro Language)等记述的文本数据而制作乐曲的方法那样，使用规定的文字、符号，基于由文本形式记述的文本数据而进行发音。例如，日本专利公开公报特开2002-49371号中，公开了将构成乐曲的音符、休止符等用英文字母来表示的技术。

但是，在以MIDI标准等的带有时间信息的语音数据而由音源再现乐曲的方法中，为了输入该语音数据，需要MIDI音序器(MIDI sequencer)等专用的输入应用，存在着一般的消费者不熟悉、操作方法难以理解等问题。另外，关于按照MML等规定的文本文字、符号控制发音的方法，对于一般消费者来说是不熟悉和难以理解的。上述的日本专利公开公报的公开技术中，虽然能够以文本编辑而制作所使用的英文字母，但存在那些英文字母表示什么音，从直观上不能掌握的问题。

此外，语音合成通过文本形式记述的字符串来的方法也是公知的。该技术是将语音合成用的字符串以与人的声音接近的形式发音，没有对应于乐音的产生。

所以，希望有这样的技术开发：能够以由文本进行的记述而容易地进行乐音的再现，同时能够语音合成进一步混入到该文本中而记述的发音用的语言。

发明内容

本发明鉴于上述问题和希望而完成的，其目的在于提供一种乐音·语音再现装置和乐音·语音再现方法，以由人能够直观把握的文本进行的记述进行乐音的再现，并且能够也同时进行由文本记述的语言的再现。

本发明的第1特征是，乐音·语音再现装置中，基于由表现了构成乐曲的乐音的拟音的文本构成的文本数据，再现上述乐曲。

本发明的第2特征是，在乐音·语音再现装置中，针对表现上述文本数据中记述的拟音的各文本，至少定义了所发音的乐音的音色。

本发明的第3特征是，在乐音·语音再现装置中，针对表现了上述文本数据中记述的拟音的各文本，还定义了所发音的乐音的音高以及音长中的任意一个。

本发明的第4特征是，解释记述了语音合成的字符的字符串而产生语音的乐音·语音再现装置中，具有：变换部，其输入将上述字符串和由表现了构成乐曲的乐音的拟音的文本构成的乐曲用文本混合在一起进行记述的文本数据，解释上述乐曲用文本，变换成乐音数据；音源部，其再现上述乐音数据；语音再现部，其解释上述字符串而再现语音。

本发明的第5特征是，在适用于可语音合成以及乐音数据再现的乐音·语音再现装置的控制方法中，具有下述步骤：输入将记述了语音合成的字符的字符串和由表现了构成乐曲的乐音的拟音的文本构成的乐曲用文本混合在一起进行记述的文本数据的步骤；解释上述乐曲用文本而变换成乐音数据的步骤；再现上述乐音数据的步骤；解释上述字符串而再现语音的步骤。

本发明的第6特征是，在装载有语音合成功能以及乐音数据再现功能的计算机中所适用的程序中，具有下述步骤：输入将记述了语音合成的字符的字符串和由表现了构成乐曲的乐音的拟音的文本构成的乐曲用文本混合在一起进行记述的文本数据的步骤；解释上述乐曲用文本而变换成乐音数据的步骤；再现上述乐音数据的步骤；解释上述字符串而再现语音的步骤。

根据本发明，通过表现了拟音的字符而记述再现的乐音，人可直观把握该字符记述，具有工程师等专家以外的一般消费者也能容易理解的效果。

此外，因为用文本形式记述所再现的乐音和发音的语言(或者是附加有规定的韵律的语言)，所以可以使用所谓的文本编辑容易地记述。

另外，因为在1个文本文件里，可以在语音合成的语言中附加记述再现的乐音，所以用户可以轻易地组合语言和乐音进行再现。

附图说明

图1是示出本发明一个实施例的乐音·语音再现装置的构成的框图；

图2是包含韵律符号而记述的HV-Script的文本示例图；

图3A是示出韵律符号的例子的视图；

图3B是示出由韵律符号表示的语音再现时的频率控制特性的视图；

图3C是示出由韵律符号表示的语音再现时的频率控制特性的视图；

图4是HV-Script中所包含的音符单词的例子的视图；

图5是示出指定音符间隔、音符长度、以及速度(テンポ)的记述的例子的视图；

图6A是示出通过音符单词再现拟音时控制音符间隔和音符长度的例子的视图；

图6B是示出控制音符单词的速度的例子的视图；

图7是示出图1所示的HV音源的构成的框图；

图8是示出图7所示的共振峰生成部的结构的框图；

图9是示出乐音·语音再现装置的登录处理的流程图；

图10是示出乐音·语音再现装置的HV-Script解释处理的流程图；

图11是示出适用乐音·语音再现装置的便携电话机的结构的框图。

具体实施方式

参照附图详细说明本发明的最佳实施例。

图1是示出本发明一个实施例的乐音·语音再现装置的结构的框图。该乐音·语音再现装置使用被称为HV-Script(人声脚本，HV：Human Voice)的记述方法，它是文本文件，为了再现乐音和语音而包含规定的符号来记述。该HV-Script包含有成为语音合成的对象的发音字符串(utterance characterstring)和音符单词(note word)，该发音字符串包含有韵律符号(rhythm orintonation symbols)。另外，韵律符号是用于指定重音(accent)等的发音形式的符号。

图1中，附图标记1表示HV-Script播放器(HV-Script player)，进行HV-Script的再现以及停止等的控制。输入HV-Script，收到再现指示时，HV-Script播放器1开始该HV-Script的解释(translation)。即，对应于HV-Script的记述内容，控制HV驱动器(HV driver)2和音符单词变换器(noteword converter)5中的任意一个而进行处理。另外，在HV-Script内记述有音符单词的情况下，也要进行该音符间隔(或者是持续时间(duration))的时间管理。

HV驱动器2参照合成辞典用存储器3中所存储的合成辞典(sound/speech synthesis dictionary)，执行下面的处理。

人的声音具有依存于声带、口腔等形状的共振峰(formant，即固有的频率频谱)，合成辞典存储着与该共振峰相关的参数。合成辞典是数据库，将根据以实际的发音文字单位(例如日语的情况下为“あ”、“い”等文字单位)进行抽样、分析的结果而得到的参数，作为共振峰帧数据(formant framedata)，并以发音文字单位进行预先存储。该数据库还存储有对应于韵律符号而变更共振峰的参数的数据。

HV驱动器2，对HV-Script中的包含有韵律符号的发音字符串进行解释，使用合成辞典而作为表示标准的发音形式的共振峰帧数据，进一步变换为附加有由韵律符号指定的声调等的变更的共振峰帧列后，提供给HV音源4。HV音源4根据从HV驱动器2输出的共振峰帧列而生成发音信号，向加法器8输出。

下面针对韵律符号进行说明。

图2示出含有HV-Script的日语文章的一个例子。在此例中，由符号(1)所表示的专用控制字符(这里是“S”)围住的“か_3さがほ^5し_4い’ね$2-”的字符串部分相当于HV-Script，其他部分是通常的文本。该HV-Script“か_3さがほ^5し_4い’ね$2-”是使用在“かさがほしいね一”的语言中附加了希望的声调而进行语音合成用的韵律符号进行记述的。也就是说，符号“’”、“^”、“_”、“$”等相当于韵律符号，表示附加在其他的文字(即假名文字)上的声调的种类。相对于紧跟着该韵律符号之后记述的文字(在紧跟韵律符号之后记述了数值的情况下，是接着该数值的文字)而附加了限定的重音。

图3A示出上述的韵律符号(即韵律符号的代表例)的发音控制上的意思。也就是说，韵律符号“’”的意思是在词头音调上扬，指定图3B所示的频率控制特性(1)，韵律符号“^”的意思是发音中音调上扬，指定图3C所示的频率控制特性(3)。此外，韵律符号“_”的意思是在词头音调下降，指定图3B所示的频率控制特性(2)，韵律符号“$”的意思是发音中音调下降，指定图3C所示的频率控制特性(4)。即，使各韵律符号按照上述的频率控制特性而进行发音控制。通过该韵律符号进行希望的语言的语音合成。另外，附加于韵律符号之后的数值用于指定重音的变化量。例如，“か_3さが”中，表示在“さ”的词头音调只下降“3”的量，接下来的“が”维持该下降后的音调而进行发音，而“か”表示以标准的音调(或音高)进行发音。

如上所述，在使其发音的语言中所包含有的字符中附加重音(或者声调)时，在对应的字符之前包含图3A所示的韵律符号(表示声调的变化量)、数值而记述如图2所示那样的HV-Script型的文章。本实施例中，作为韵律符号，仅采用与音调控制相关的韵律符号进行了说明，除此以外，还可以使用控制声音的强弱、速度、音质等的韵律符号。

音符单词变换器5，把HV-Script中所含有的音符单词，参照缺省音符单词表(以及所登录的用户定义音符单词表)而变换为音符信息(或者乐音数据，musical tone data)，然后向音源7输出。符号6表示存储缺省(default)音符单词表的音符单词表用存储器。该缺省音符单词表中，如图4所示，对预先定义的每个音符单词定义“音色名(tone color name)”、“程序变换(program change)”、“音符号码(note number)”以及“发音长度(notelength)”。

这里，所谓音符单词是以表现人能够直观把握的拟音(例如“どん”、“ぱん”等声音)的字符或字符串为基础而记述的单词。这些音符单词如图4所示的例子那样，也可以增加表示音阶(tone pitch or musical scale)的符号(例如C3、C#3、C4、E3、F3、G3等)。

此外，HV-Script中，还使用指定将之后的字符、字符串视为音符单词的音符单词模式的规定的符号(本实施例中，该符号是“Z1”)，以及解除音符单词模式的符号(即“Z0”)。

音符单词表中，音色名表示再现对应的音符单词时的音色。另外，由程序变换(即音色数据)、音符号码(即，音高数据)以及发音长度(即，发音长度数据)构成的一系列的数据，相当于上述的音符信息。图4所示的例子是利用上述的MIDI标准，程序变换表示乐器的类别，音符号码表示音高，发音长度表示发音的音符的长度。另外，在图4中，作为发音长度而例示出了音符的类别，而作为实际的数据，定义有实现对应的发音长度的门时间。

除了上述以外，为了支援更详细的音符间隔、音符长度的输入，也可以定义如图5所示那样的数值记述(即指定音符间隔、音符长度、速度的记述)。图5中，X(数值)是将从前一发音到下一发音的时间间隔(或音符间隔)设定为所指定的数值。Y(数值)是指定将对应的发音仅延长与所指定的数值对应的时间而发音。关于这部分内容，在图6中例示出。此外，T(数值)指定速度，在图6B中例示出。

下面，对含有音符单词的HV-Script的记述例进行说明。

(例1)“えいとびいとだよZ1X400どんぱんどどぱんZ0いかが？”

该例中，符号Z1和Z0之间所夹的范围是音符单词。再现该记述时，“8ビ一トだよ”发音后，接着再现由鼓进行的8拍的节奏。在此，到最初的拟音“どん”发音为止有400ms的时间间隔。然后，发出“いかが？”这样的语言的声音。

(例2)“T100ぶE3ぶF3ぶんG3ぶんE4ぶんC4Y800”

本例文中，以数值(100)的速度按所记载的那样再现贝司的音色。最后的“ぶんC4Y800”是将音高C4的拟音“ぶん”的再现音延长800ms而进行发音。

另外，本实施例的乐音·语音再现装置的用户，可以把图1表示的用户数据用存储器10中所存储的用户定义音符单词表经由登录API(登录应用程序接口：Registered Application Program Interface)11，传送到音符单词表用存储器6而进行存储。音符单词变换器5，从HV-Script播放器接收音符单词后，参照音符单词表用存储器6的音符单词表，将该音符单词变换为音符信息而输出到音源7。音源7基于由音符单词变换器5提供的音符信息，生成乐音信号，而输出到加法器8。而作为音源，可以采用对应MIDI标准的FM音源(Frequency Modulation Sound Source)或者PCM音源(Pulse CodeModulation Sound Source)等。

加法器8把由HV音源4提供的发音信号和由音源7提供的乐音信号加算合成，将其加法结果输出到扬声器9。扬声器9基于从加算器8提供的合成信号而进行语音及乐音的发音。

接着，HV音源4的详细情况通过参照图7和图8所示的框图来说明。

HV音源4根据CSM(复合正弦波模式：Composite Sinusoidal WaveModel)语音合成方式来进行动作。一个音素(phoneme)(或者元音、辅音(vowel，consonant)等的语音构成要素)由8种共振峰构成，上述的合成辞典中，作为参数而存储着8组的共振峰频率、共振峰级别、以及音调信息等。

图1所示的HV音源4如图7所示，具有8个共振峰生成部40a～40h和一个音调生成部50，基于从发音用音序器(图中未示出)输出的有关共振峰的参数以及音调信息而在各个共振峰生成部40a～40h中生成的共振峰信号，在混音部60中合成而生成希望的音素。通过连续执行这样的音素生成过程，而合成希望的语音。另外，各个共振峰生成部40a～40h为了生成共振峰信号而生成作为其基础的基本波形(basic waveform)，而该基本波形的产生，可以使用例如公知的FM的波形发生器。音调生成部50具有通过运算生成音调(音高)的功能。发音的音素仅在对应于有声音(voiced sound)的情况下，将运算后的音调附加在所生成的音素上。

下面，参照图8说明各共振峰生成部40a～40h的结构。

各共振峰生成部40a～40h由波形发生器(waveform generator)41、噪音发生器(noise generator)42、加法器43、以及放大器44构成。

波形发生器41基于各音素的每个共振峰所指定的共振峰频率、共振峰的基本波形(正弦波、三角波等)、以及各波形的相位而顺序产生构成各音素的共振峰。噪音发生器42根据波形发生器41所产生的共振峰的类别、即有声音还是无声音(unvoiced sound)，而进行动作。无声音的情况下，生成噪音而提供给加法器43。

加法器43将由波形发生器41产生的共振峰和由噪音发生器42产生的噪音进行加算。该加法器43的加法结果，通过放大器44而被放大到规定的共振峰级别后，进行输出。

各共振峰生成部40a～40h的构成，与构成各音素的共振峰中的一个相关。一个音素是合成多个共振峰(本实施例中是8个)而形成的。所以，需要生成构成各音素的多个共振峰而进行合成。因此，形成如图7所示这样的构成，进行使用共振峰参数的语音合成。

如上所述，上述的CSM语音合成中，通过合成基于频率参数以及振幅参数等而生成的多个共振峰音，确定各音素的数据内容，组合多个音素而进行语音合成。比如，在语音合成“さくら”这样的词时，通过在每几毫秒到几十毫秒设定多组的频率·振幅参数等，如下所述合成6个音素而顺序进行发音。

/S/→/A/→/K/→/U/→/R/→/A/

提供给各共振峰生成部的参数，如上所述按各个音素预先定义，登录到上述合成辞典中。另外，关于与构成各字符的音素有关的信息、例如“さ”的情况下，表示该假名字符是由两个音素(即辅音和元音)/S/和/A/构成的信息，也登录到上述合成辞典中。并且，在通过韵律符号变更重音的情况下，对应于该韵律符号所适用的各音素的共振峰帧数据中要加上对应于韵律符号的变更，而提供给HV音源4。

下面使用图9和图10所示的流程图，说明本实施例的乐音·语音再现装置的动作。

首先，如图9所示，根据需要，用户输入用户定义音符单词表而进行登录(步骤S01)。用户在仅利用缺省音符单词表的情况下，该登录步骤S01可以省略。由用户输入、在用户数据用存储器10中所存储的用户定义音符单词表通过登录API11而从用户数据用存储器10读入，该用户定义音符单词表被存储在音符单词用存储器6中。

接着，由用户使用文本编辑而制作HV-Script，登录到HV-Script播放器中(步骤S02)。

接着，当由用户发出HV-Script解释开始指示时，执行图10所示的处理。

以下的说明中，在所登录的HV-Script中，记述着成为语音合成的对象的发音字符串，并且，该发音字符串中也记述有音符单词。

HV-Script播放器1，对应于用户发出的开始指示，开始HV-Script中所记述的字符串的解释。HV-Script播放器1顺序解释HV-Script中的记述，判断是否包含作为音符单词模式指定符号的“Z1”(步骤S11)。

当检测到音符单词模式指定符号“Z1”时，进一步判断是否包含音符单词模式解除符号“Z0”(步骤S12)。

步骤S12的判断结果是“No”的情况下，即，虽然检测到音符单词模式指定符号“Z1”，但没有检测到音符单词模式解除符号“Z0”的情况下，HV-Script播放器1将其以后顺序被解释的字符串中、直到下次出现的音符单词模式解除符号“Z0”之前的字符，作为音符单词进行解释，并向音符单词变换器5输出(步骤S13)。另外，在虽然检测到音符单词模式指定符号“Z1”，但在以后的字符串中完全不包含音符单词模式解除符号“Z0”的情况下，将音符单词模式指定符号“Z1”以后的直到最后的字符，作为音符单词进行解释，并向单词变换器5输出。

接收音符单词的数据的音符单词变换器5，参照音符单词用存储器6中所存储的缺省音符单词表和用户定义音符单词表，变换为该音符单词所对应的音符信息。并且，音符单词变换器5对作为音符单词的附带信息而记述的时间信息进行解释而进行时间管理，达到规定的时间时，向音源7输出必要的音符信息(步骤S14)。

从音符单词变换器5接收音符信息的音源7，基于该音符信息，产生乐音信号，通过加法器8向扬声器9输出(步骤S15)。由此，从扬声器9再现乐音。

另一方面，在步骤S11中判定HV-Script中不包含音符单词模式指定符号“Z1”时，或者在步骤S12中判断为检测到音符单词模式解除符号“Z0”时，在成为解释对象的字符之后的字符串中，将直到音符单词模式指定符号“Z1”之前的字符，作为发音字符串进行识别，向HV驱动器2输出(步骤S16)。

收到上述发音字符串的HV驱动器2，参照合成辞典用存储器3中所存储的合成辞典，变换为共振峰帧列。在发音字符串中包含有韵律符号时，生成附加有对应于该韵律符号的变更的共振峰帧列，并向HV音源4输出(步骤S17)。

HV音源4，基于从HV驱动器2提供的共振峰帧列，执行语音合成，产生语音信号，通过加法器8向扬声器9输出(步骤S18)。由此，由扬声器9再现语音合成后的发音字符串。

以后，根据步骤S19的判断，直到检测到HV-Script的最后的字符为止，HV-Script播放器1重复进行步骤S11～S19的处理。并且，在检测到HV-Script的最后的字符的时刻，结束图10所示的处理。

此外，图9和图10所示的流程图的内容是示例说明，本发明并不限于该处理内容。

图11中，符号21表示的是便携电话机的内部电路以及控制功能块的CPU(中央处理器：Central Processing Unit)。符号22表示向外部进行数据发送接收用的天线。符号23表示通信部，调制发送数据，经由天线22而进行发送，同时解调经由天线22而接收的接收数据。符号24表示语音处理部，便携电话机和外部的电话机等通话时，将从通信部23输出的通话对方的语音数据变换为语音信号而向耳机(earphone or ear speaker，图中未示)输出，同时将由麦克风(microphone，图中未示)拾取而生成的语音信号变换为语音数据，向通信部23输出。

符号25表示音源，与图1所示的HV音源4、音源7具有同样的功能。符号26表示扬声器，进行语音和乐音的发音。符号27表示接收用户的操作的操作部。符号28表示存储上述的有关HV-Script的文本数据和由用户定义的用户定义音符单词表等的RAM(随机存取存储器：Random-AccessMemory)。符号29表示存储由CPU21执行的程序以及合成辞典、缺省音符单词表等的ROM(只读存储器：Read-Only Memory)。符号30表示例如液晶显示器等的显示部，显示用户的操作情况、便携电话机的状态等。符号31表示振动器，来电时接收来自CPU21的指示而进行振动。上述的电路和功能块通过总线B而相互连接。

便携电话机具有基于实际的语音而生成波形数据的功能，由麦克风拾取的语音，通过语音处理部24而变换为波形数据，该波形数据存储在RAM28中。此外，通过通信部23而从Web服务器上下载乐曲乐句数据时，将该乐曲乐句数据存储在RAM28中。

CPU21按照ROM29中所存储的程序，进行与图1所示的HV-Script播放器1、HV驱动器2、以及音符单词变换器5同样的动作。即，CPU21从RAM28中读出HV-Script，对该HV-Script的记述内容进行解释。该HV-Script的记述中，以规定的专用控制字符围住的部分，是语音合成的发音对象的发音字符串，所以CPU21参照ROM29中所存储的合成辞典，把该发音字符串变换为共振峰帧列，向音源25输出。

另一方面，HV-Script内的记述中，音符单词模式指定符号“Z1”和音符单词模式解除符号“Z0”之间夹着的部分是乐音再现用的音符单词，所以CPU21参照RAM28中所存储的缺省音符单词表以及用户定义音符单词表，把该音符单词变换为音符信息，向音源25输出。

音源25在从CPU21提供共振峰帧列的情况下，基于该共振峰帧列而生成语音信号，输出到扬声器26。此外，从CPU21提供音符信息时，音源25基于该音符信息而生成乐音信号，输出到扬声器26。扬声器26基于语音信号或乐音信号而进行语音或乐音的发音。

通过用户对操作部27进行操作，启动对应于文本编辑的软件，可以在确认显示部30的显示内容的同时，作成HV-Script。另外，所作成的HV-Script也可以保存到RAM28中。

所作成的HV-Script也可以应用于来电旋律。这种情况下的动作如下所述。

将来电时使用HV-Script作为设定信息而预先存储在RAM28中的情况下，通信部23经由天线22而接收到从其他的便携电话机等发送的呼叫信息(call establishment information)时，通信部23通知CPU21来电。收到来电通知的CPU21，从RAM28中读出设定信息，由此从RAM28中读出该设定信息表示的HV-Script，开始该解释。以后的动作如前面描述的那样，按照HV-Script的记述，从扬声器26进行语音或乐音的发音。

此外，用户也可以使电子邮件(electronic mail)中包含HV-Script的文本数据，而向外部的终端发送。

即，HV-Script也可以如图2所示的文例那样，在由符号(1)表示的专用控制字符(S)所夹着的地方记述电子邮件的正文或者电子邮件的标题等。或者，在规定的附加文件(例如可以识别根据规定的扩展名而包含HV-Script的附加文件)中记述HV-Script，并添加到发送的电子邮件中也可以。然后，CPU21解释电子邮件的正文或者附加文件中所包含的HV-Script，在由用户进行规定的操作时，按照该HV-Script的记述，向语音处理部24提供再现指示也可以。另外，HV-Script如图2所示那样混在其他的字符串中的形式的情况下，CPU21对由专用控制字符夹着的部分以外的字符跳过不读，不作为语音合成或乐音再现的对象。

此外，HV-Script播放器1、HV驱动器2、波形再现播放器(即HV音源)4、以及乐句再现播放器(即音源)7的各个功能不必一定装载在CPU21中。这种情况下，音源25也可以装载任意的上述功能。另外，本发明的适用范围并不仅局限于便携电话机，例如PHS(个人手持系统，PersonalHandyphone System，日本的注册商标)、便携信息终端(PDA：Personal DigitalAssistant)等所谓的便携终端中也可以装载本实施例的乐音·语音再现装置的功能。

另外，实现图1所示的HV-Script播放器1、HV驱动器2、以及音符单词变换器5的各功能的程序被读入可语音合成和乐音再现的计算机系统中执行，从而也可以进行HV-Script的乐音以及语音的再现。并且，上述的“计算机系统”的概念是不仅计算机的硬件，还包括其周边设备、OS(操作系统：Operating System)等的软件。

此外，上述程序，也可以从在存储装置等中存储该程序的计算机系统，经规定的传送媒体(网络系统等)，通过传送媒体中的传送波，传送到其他的计算机系统中。上述的传送程序的“传送媒体”指的是由互联网等网络构成的通信网、电话线等的通信线路那样的、具有传送电子信息的功能的媒体。

并且，上述程序，不需要实现上述全部的功能，只实现其中一部分的功能也可以。进一步地，通过计算机系统中已经记录的既存程序之间的组合来实现上述功能、即通过差分文件(或差分程序)来实现上述功能也可以。

如上所述，本发明的实施例以及适用例参照附图进行了详细的说明，但本发明具体的构成以及动作并不局限于本实施例，不超出本发明要旨的范围的构成也包含在本发明的范围内。

Claims

1.一种乐音再现装置，其特征在于，包括：

存储部，其存储包含有表示拟音的文本的文本数据；

乐音信号生成部，其基于所存储的上述文本数据，产生与表示上述拟音的文本对应、并且由上述拟音表示的乐音信号。

2.如权利要求1所述的乐音再现装置，其特征在于，上述乐音生成部基于上述文本数据中所包含的文本，参照至少使该文本和规定的音色建立对应的表，由此以与上述文本对应的音色产生与表示上述拟音的文本对应、并且由上述拟音表示的乐音信号。

3.如权利要求1所述的乐音再现装置，其特征在于，上述乐音生成部基于上述文本数据中所包含的文本，参照至少使上述文本和规定的音高或者发音长度建立对应的表，由此以与上述文本对应的音高或者发音长度产生与表示上述拟音的文本对应、并且由上述拟音表示的乐音信号。

4.一种乐音·语音再现装置，其特征在于，包括：

存储部，其存储文本数据，该文本数据包含记述有使用于语音合成的字符的字符串以及表示拟音的文本；

变换部，其将表示上述拟音的文本变换为与表示该拟音的文本对应、并且由该拟音表示的乐音数据；

音源，其基于变换后的上述乐音数据而产生乐音信号；

语音再现部，其基于上述字符串而再现语音。

5.如权利要求4所述的乐音·语音再现装置，其特征在于，上述变换部基于上述文本数据中所包含的文本，通过参照至少使文本和规定的音色建立对应的表，将表示上述拟音的文本变换为包含由上述文本指示的音色的乐音数据。

6.如权利要求4所述的乐音·语音再现装置，其特征在于，上述变换部基于上述文本数据中所包含的文本，通过参照至少使文本和音高或者发音长度建立对应的表，将表示上述拟音的文本变换为包含与上述文本对应的音高或者发音长度的乐音数据。

7.一种乐音再现方法，其特征在于，存储包含有表示拟音的文本的文本数据；基于上述文本数据，产生与表示上述拟音的文本对应、并且由上述拟音表示的乐音信号。

8.一种乐音·语音再现方法，其特征在于，存储文本数据，该文本数据包含记述有使用于语音合成的字符的字符串以及表示拟音的文本；将表示上述拟音的文本变换为与表示该拟音的文本对应、并且由该拟音表示的乐音数据；基于变换后的上述乐音数据而产生乐音信号；基于上述字符串而再现语音。