CN1503219A

CN1503219A - 乐音语音再现装置及其控制方法、存储媒体及服务器装置

Info

Publication number: CN1503219A
Application number: CNA2003101163027A
Authority: CN
Inventors: ¡; 川嶋隆宏
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2002-11-19
Filing date: 2003-11-19
Publication date: 2004-06-09
Anticipated expiration: 2023-11-19
Also published as: US7230177B2; KR20040044349A; CN1223983C; JP2004170618A; HK1063373A1; KR100582154B1; TW200501056A; TWI251807B; US20040099126A1; JP3938015B2; CN2705856Y

Abstract

一种可同步地再现乐曲顺序数据和语音再现顺序数据的顺序数据交换格式的文件的乐音和语音再现装置及其控制方法、存储媒体、服务器装置及计算机程序。文件成为字节片构造，在内部包含内容信息字节片、任选数据字节片、语音再现用的HV路径字节片，该内容信息字节片包含管理用的信息。包含于HV路径字节片的语音再现顺序数据可选择由示出合成的语音的读法的文本信息和指定语音表达的韵律符号构成的文本记述型的信息、由示出合成的语音的音素信息和韵律控制信息构成的音素记述型的信息、或由示出再现的语音的各帧时间的共振峰控制信息构成的共振峰帧记述型的信息中的任一个。HV路径字节片可与乐曲路径字节片等同样地包含在SMAF文件中。

Description

乐音语音再现装置及其控制方法、存储媒体及服务器装置

技术领域

本发明涉及一种乐音和语音再现装置及其控制方法、存储媒体、服务器装置及计算机程序。

背景技术

作为发布或相互利用通过声源表现音乐用的数据的数据交换格式，已知有SMF(标准MIDI文件格式：Standard MIDI file format)和SMAF(合成音乐移动应用格式：Synthetic Music Mobile Application Format)等。SMAF为用于在携带终端等表现多媒体内容的数据格式规格(参照非专利文献1)。

下面参照图15说明SMAF。

在该图中，符号100为SMAF文件，被称为字节片(chunk)的数据块为基本构造。字节片由固定长度(8字节)的标题部和任意长度的正文部构成，标题部还分成4字节的字节片ID和4字节的字节片大小。字节片ID用作字节片的识别符，字节片大小表示正文部的长度。SMAF文件自身和包含于其中的各种数据都成为字节片构造。

如该图所示那样，SMAF文件100包括存储管理用信息的内容信息字节片(Contents Info Chunk)101和包含相对输出器件的顺序数据的1个以上的路径字节片102～108。顺序数据为按时间定义相对输出器件的控制的数据表现。包含于1个SMAF文件100的所有顺序数据定义为在时刻0同时开始再现的数据，结果同步地再现所有顺序数据。

顺序数据按事件与持续时间的组合表现。事件为相对与顺序数据对应的输出器件的控制内容的数据表现，持续时间为表现事件与事件之间的经过时间的数据。事件的处理时间实际上不为0，但作为SMAF的数据表现看成0，时间的经过全部按持续时间表示。实施某一事件的时刻可通过累计从该顺序数据的头部起的持续时间而单一地确定。事件的处理时间以不对下一事件的处理开始时刻产生影响为原则。因此，夹住值为0的持续时间连续的事件被解释为同时实施。

在SMAF中，作为上述输出器件，定义为按与MIDI(电子乐器数字接口国际标准：musical instrument digital interface)相当的控制数据进行发音的声源器件111、进行PCM数据的再现的PCM声源器件(PCM解码器)112、进行文本和图像显示的LCD等显示器件113等。

在路径字节片中，对应于定义的各输出器件，具有乐曲路径字节片102～105、PCM语音路径字节片106、图像路径字节片107、及主路径字节片108。在这里，除主路径字节片外的乐曲路径字节片、PCM语音路径字节片、及图像路径字节片最大分别可记述到256路径。

在图示例中，乐曲路径字节片102～105存储用于再现声源器件111的顺序数据，PCM语音路径字节片106按事件形式存储由PCM声源器件112发音的ADPCM或MP3、TwinVQ等wave数据，图像路径字节片107存储背景画和插入静止画、文本数据和用于由显示器件113对其进行再现的顺序数据。另外，在主路径字节片108存储用于控制SMAF定序器自身的顺序数据。

另一方面，作为语音合成的手法，常见的有LPC等滤波器合成方式和复合正弦波语音合成法等波形合成方式。复合正弦波语音合成法(CSM法)为由多个正弦波的和将语音信号模型化、进行语音合成的方式，可由简单的合成法合成优良的语音(参照非专利文献2)。

另外，还提出有通过使用声源进行语音合成，从而产生歌声的语音合成装置(参照专利文献1)。

非专利文献1：

SMAF技术规格书 3.06版雅马哈株式会社，(2002年10月18日检索)，互联网<URL：http：∥smaf.yamaha.co.jp>

非专利文献2：

嵯峨山茂树、板仓文忠，“复合正弦波语音合成方式的研究和合成器的试制”，日本音响学会，语音研究会资料，资料编号S80-12(1980-5)，P.93-100，(1980.5.26)

专利文献1：

特开平9-50287号公报

如上所述，SMAF包含与MIDI相当的数据(乐曲数据)、PCM语音数据、文本和图像的显示数据等各种顺序数据，可在时间上同步地再现整个顺序。

然而，关于在SMF和SMAF表现语音(人声)未进行定义。

因此，虽然也可考虑放大SMF等的MIDI事件来合成语音，但在该情况下，当仅将语音部分一次取出而进行语音合成时，存在处理复杂的问题。

发明内容

因此，本发明的目的在于提供一种可再现具有柔性而且可同步地再现乐曲顺序等和语音再现顺序的顺序数据的数据交换格式的文件的乐音和语音再现装置及其控制方法、可传送该数据交换格式的数据的服务器装置、及存储该数据交换格式的文件的存储媒体、以及计算机程序。

为了达到上述目的，本发明所述的乐音和语音再现装置，包含第1存储部、控制部、及声源；其中，上述第1存储部存储包含乐曲部和语音部的乐曲数据文件，上述乐曲部包含指示乐音的生成的一连串的乐音生成事件，上述语音部为语音再现顺序数据，该语音再现顺序数据包含指示一连串的语音的再现的语音再现事件数据、和将实施该语音再现事件的时刻作为从前一语音再现事件数据的经过时间而指定的持续时间数据的组合，上述控制部读出存储于上述第1存储部的上述乐曲数据文件，上述声源根据包含于上述读出的乐曲数据文件中的上述乐曲部而生成乐音，根据包含于上述读出的乐曲数据文件中的上述语音部而生成语音，由此合成上述生成的乐音和语音并输出。

另外，本发明所述的乐音和语音再现装置，其中，在包含于上述读出的乐曲数据文件中的上述语音部内的语音再现事件数据指示用于生成共振峰的共振峰控制信息的再现的情况下，上述声源根据包含于上述语音再现顺序数据而且由该数据指示的上述共振峰控制信息而生成上述语音。

另外，本发明所述的乐音和语音再现装置，其中，包含第2存储部和第3存储部，该第2存储部存储第1词典数据，该第1词典数据记录了表示合成的语音的读法的文本信息以及韵律符号、与音素信息以及韵律控制信息的对应关系；该第3存储部存储第2词典数据，该第2词典数据存储与合成的语音对应的音素信息以及韵律控制信息、与用于生成共振峰的共振峰控制信息的对应关系，上述控制部，当包含于上述读出的乐曲数据文件的上述语音部内的语音再现事件数据指示再现包含文本信息和韵律符号的文本记述型的信息时，参照存储于上述第2存储部的上述第1词典数据，获得与由该数据指示的文本信息以及韵律符号对应的音素信息以及韵律控制信息，参照存储于上述第3存储部的上述第2词典的数据，读出与上述获得的音素信息以及韵律控制信息对应的共振峰控制信息，上述声源根据读出的上述共振峰控制信息生成上述语音。

另外，本发明所述的乐音和语音再现装置，其中，包含第2存储部，该第2存储部存储词典数据，该词典数据存储音素信息以及韵律控制信息、与用于生成共振峰的共振峰控制信息的对应关系，上述控制部，当包含于上述读出的乐曲数据文件的上述语音部内的语音再现事件数据指示再现包含与合成的语音对应的音素信息和韵律控制信息的音素记述型的信息时，参照存储于上述第2存储部的上述词典数据，获得与由该语音再现事件数据指示的音素信息以及韵律控制信息对应的共振峰控制信息，上述声源根据获得的上述共振峰控制信息生成上述语音。

另外，本发明所述的乐音和语音再现装置，其中，上述控制部判别包含于存储到上述第1存储部的上述乐曲数据文件中的语音部的格式类型，在该格式类型为需要格式变换的类型的情况下，将上述语音部的格式类型变换成别的格式类型，上述声源根据变换为上述别的格式的语音部生成语音。

另外，本发明所述的乐音和语音再现装置，其中，上述控制部的上述语音部的格式变换参照存储于第2存储部的词典数据进行。

另外，本发明所述的乐音和语音再现装置，其中，上述语音部包含指定示出上述语音部的语言类别的语言类型的数据。

另外，本发明所述的乐音和语音再现装置，其中，上述语音为人声。

本发明所述的存储媒体，存储由声源器件使人声再现用的语音再现顺序数据，其中，上述语音再现顺序数据具有由包含管理用的信息的内容数据字节片和包含语音顺序数据的路径字节片构成的数据构造，上述语音顺序数据按时间顺序配置指示人声再现的语音再现事件数据、和将实施该语音再现事件的时刻作为从前一语音再现事件数据的经过时间而指定的持续时间数据的组合。

另外，本发明所述的存储媒体，其中，上述语音再现事件数据为指示再现文本记述型的信息、音素记述型的信息、或者共振峰帧记述型的信息的数据，该文本记述型的信息由示出由上述声源器件再现的人声的读法的文本信息和指定人声表达的韵律符号构成，音素记述型的信息由示出由上述声源器件再现的人声的音素信息和韵律控制信息构成，共振峰帧记述型的信息由示出由上述声源器件再现的人声的各帧时间的共振峰控制信息构成。

本发明所述的存储顺序数据的存储媒体，存储由声源器件使乐声和人声再现用的顺序数据，其中，上述顺序数据具有由乐曲顺序数据和语音再现顺序数据构成的数据构造，上述乐曲顺序数据按时间顺序配置指示乐音的生成的乐音生成事件数据、和将实施该乐音生成事件的时刻作为从前一乐音生成事件的经过时间而指定的持续时间数据的组合，上述语音再现顺序数据按时间顺序配置指示人声再现的语音再现事件数据、和将实施该语音再现事件的时刻作为从前一语音再现事件的经过时间而指定的持续时间数据的组合，上述声源器件同时开始上述乐曲顺序数据和上述语音再现顺序数据的再现，从而可在同一时间轴上再现上述乐音和上述人声。

另外，本发明所述的存储顺序数据的存储媒体，其中，上述乐曲顺序数据和语音再现顺序数据分别包含于不同的字节片中。

另外，本发明所述的存储顺序数据的存储媒体，其中，上述语音再现事件数据为指示再现文本记述型的信息、音素记述型的信息、或者共振峰帧记述型的信息的数据，该文本记述型的信息由示出由上述声源器件再现的人声的读法的文本信息和指定人声表达的韵律符号构成，音素记述型的信息由示出由上述声源器件再现的人声的音素信息和韵律控制信息构成，共振峰帧记述型的信息由示出由上述声源器件再现的人声的各帧时间的共振峰控制信息构成。

本发明所述的服务器装置，包含存储部和发送部，其中，上述存储部存储包含乐曲顺序数据和语音再现顺序数据的乐曲文件，上述乐曲顺序数据按时间顺序配置相对声源器件指示乐声的生成的乐音生成事件数据、和将实施该乐音生成事件的时刻作为从前一乐音生成事件的经过时间而指定的持续时间数据的组合，上述语音再现顺序数据按时间顺序配置相对声源器件指示语音再现的语音再现事件数据、和将实施该语音再现事件的时刻作为从前一语音再现事件的经过时间而指定的持续时间数据的组合，上述发送部根据来自可连接的客户终端装置的要求传送上述乐曲文件。

另外，本发明所述的服务器装置，其中，上述语音再现事件数据为指示再现文本记述型的信息、音素记述型的信息、或者共振峰帧记述型的信息的数据，该文本记述型的信息由示出由上述声源器件再现的语音的读法的文本信息和指定语音表达的韵律符号构成，音素记述型的信息由示出由上述声源器件再现的语音的音素信息和韵律控制信息构成，共振峰帧记述型的信息由示出由上述声源器件再现的语音的各帧时间的共振峰控制信息构成。

附图说明

图1是示出本发明的语音再现顺序数据的数据交换格式的一实施形式的视图；

图2是示出作为一个数据字节片包含HV路径字节片的SMAF文件的例子的视图；

图3是示出生成本发明的数据交换格式的系统和利用该数据交换格式文件的系统的示意构成的一例的视图；

图4是示出声源部的示意构成的一例的视图；

图5A、图5B、图5C是用于说明TSeq型、PSeq型、及FSeq型这样3种格式类型的不同的视图；

图6A是示出顺序数据的构成的视图；

图6B是示出持续时间与选通时间的关系的视图；

图7A是示出TSeq数据字节片的一例的视图；

图7B是用于说明其再现时间处理的视图；

图8是用于说明韵律控制信息的视图；

图9是示出选通时间与滞后时间的关系的视图；

图10是示出共振峰的电平与中心频率的视图；

图11是示出FSeq数据字节片的正文部的数据的视图；

图12是相对于作为一个语音再现装置的便携通信终端传送本发明的数据交换共振峰的文件的内容数据传送系统的示意构成的一例的视图；

图13是示出便携通信终端的一构成例的框图；

图14是示出再现本发明的数据交换格式的文件的处理流程的流程图；

图15是用于说明SMAF的概念的视图。

具体实施方式

图1为示出本发明的语音再现顺序数据的数据交换格式的一实施形式的视图。在该图中，1为具有本发明的数据交换格式的文件。该文件1与上述SMAF文件同样，以字节片构造为基本构造，具有标题部和正文部(文件字节片)。

在上述标题部包含用于识别文件的文件ID(字节片ID)和表示后续的正文部的长度的字节片大小。

正文部为字节片列，在图示例中，包含内容信息字节片(Contets InfoChunk)2、任选数据字节片(Optional Data Chunk)3、及含有语音再现顺序数据的HV(人声)路径字节片4。在图1中作为HV路径字节片4仅记载1个HV路径字节片#00，但可在文件1中包含多个HV路径字节片4。

另外，在本发明中，作为含于上述HV路径字节片4的语音再现顺序数据，定义3个格式类型(TSeq型、PSeq型、及FSeq型)。下面对其进行说明。

在上述内容信息字节片2中存储包含的内容的级别、种类、著作权信息、种类名、曲名、艺术家名、作词/作曲者名等的管理用的信息。另外，也可设置存储上述著作权信息、种类名、曲名、艺术家名、作词/作曲者名等信息的任选数据字节片3。

图1所示语音再现顺序数据的数据交换格式可单独地再现语音(例如人的声音)，但作为一个数据字节片可在上述SMAF文件中包含上述HV路径字节片4。

图2为示出具有作为一个数据字节片包含上述HV路径字节片4的本发明的顺序数据的数据交换格式的文件构造的视图。该文件可扩展SMAF文件，使得包含语音再现顺序数据。在图2中，具有数据交换格式的文件100，被称为字节片的数据块为基本构造。字节片由固定长度(8字节)的标题部和任意长度的正文部构成，标题部还分成4字节的字节片ID和4字节的字节片大小。字节片ID用作字节片的识别符，字节片大小表示正文部的长度。本文件100，自身和包含于其中的各种数据也都成为字节片构造。

如该图所示，文件100包括存储管理用信息的内容信息字节片(ContentsInfo Chunk)101和包含相对输出器件的顺序数据的1个以上的路径字节片102～108。顺序数据为按时间定义相对输出器件的控制的数据表现。包含于1个文件100的所有顺序数据定义为在时刻0同时开始再现的数据，结果同步地再现所有顺序数据。

在SMAF中，作为上述输出器件，定义为按与MIDI(电子乐器数字接口国际标准：musical instrument digital interface)相当的控制数据进行发音的声源器件、进行PCM数据的再现的PCM声源器件(PCM解码器)、进行文本和图像显示的LCD等显示器件等。

在图示例中，乐曲路径字节片102～105存储用于再现声源器件的顺序数据，PCM语音路径字节片106按事件形式存储由PCM声源器件发音的ADPCM或MP3、TwinVQ等wave数据，图像路径字节片107存储背景画和插入静止画、文本数据和用于由显示器件对其进行再现的顺序数据。另外，在主路径字节片108存储用于控制SMAF定序器自身的顺序数据。

如该图所示，上述语音再现顺序数据的数据交换格式的HV路径字节片4与上述乐曲路径字节片102～105、PCM语音路径字节片106、图像路径字节片107等一起存储于SMAF文件100中，从而可与乐曲的演奏和图像、文本的表示同步地再现语音，例如可相对乐音实现由声源发出的内容等。

图3为示出生成上述图2所示本发明的数据交换格式的文件的系统和利用该数据交换格式文件的系统的示意构成的一例的视图。

在该图中，21为SMF和SMAF等乐曲数据文件，22为与再现的语音对应的文本文件，23为用于生成本发明的数据交换格式的文件的数据格式制作工具(编写工具)，24为具有本发明的数据交换格式的文件。

编写工具23输入示出再现的语音的读法的语音合成用文本文件22，进行编集作业等，生成与其对应的语音再现顺序数据。然后，在SMF和SMAF等乐曲数据文件21加入该生成的语音再现顺序数据，生成基于本发明的数据交换格式规格的文件(包含上述图2所示HV路径字节片的SMAF文件)24。

生成的文件24传送到利用装置25(后面所述的便携通信终端51等)，该利用装置25具有定序器26和声源部27，该定序器26按由包含于顺序数据中的持续时间规定的时刻将控制参数供给到声源部27，该声源部27根据从定序器26供给的控制参数再现输出语音，因此，与乐曲等一起同步地再现语音。

图4为示出上述声源部27的示意构成的一例的视图。

在该图所示例中，声源部27具有多个共振峰生成部28和1个音调生成部29，根据从上述定序器26输出的共振峰控制信息(用于生成各共振峰的共振峰频率、电平等参数)和音调信息在各共振峰生成部28产生对应的共振峰信号，在混合部30将其相加，从而生成对应的语音合成输出。各共振峰生成部28为了产生共振峰信号而产生成为其基础的基本波形，但在该基本波形的发生中可利用例如公知的FM声源的波形发生器。

如上述那样，在本发明中，对包含于上述HV路径字节片4的语音再现顺序数据中准备3个格式类型，可任意地选择使用。下面对其进行说明。

为了记述再现的语音，具有与再现的语音对应的文字信息、不依存于语言的发音信息、示出语音波形本身的信息等抽象度不同的各种阶段的记述方法，但在本发明中，定义(a)文本记述型(TSeq型)、(b)音素记述型(PSeq型)、及(c)共振峰帧记述型(FSeq型)这样3种格式类型。

首先，参照图5A～图5C说明该3个格式类型的不同。

(a)文本记述型(TSeq型)

TSeq型为由文本表述对于应发音的语音进行记述的格式，包含按照各语言的文字码(文本信息)和指示重音等的语音表达的符号(韵律符号)。该格式的数据可使用编集器等直接生成。当再现时，如图5A所示那样，由中间件处理先将该TSeq型的顺序数据变换成PSeq型(第1转换处理)，然后，将PSeq型变换成FSeq型(第2转换处理)，输出到上述声源部27。

在这里，从TSeq型变换到PSeq型的第1转移处理参照第1词典数据(存储在装置的ROM和RAM内)进行，该第1词典存储作为不依存于语言的信息的文字码(例如平假名和片假名等文本信息)和韵律符号、示出不依存于与其对应的语言的发音的信息(音素)和用于控制韵律的韵律控制信息；作为从PSeq型向FSeq型的变换的第2转移处理通过参照第2词典数据(存储在装置的ROM和RAM内)进行，该第2词典存储各音素和韵律控制信息和与其对应的共振峰控制信息(用于生成各共振峰的共振峰的频率、带宽、电平等参数)。

(b)音素记述型(PSeq型)

PSeq用于按与由SMF定义的MIDI事件类似的形式记述与应发音的语音相关的信息，作为语音记述以不依存于语言的音素单位为基础。如图5B所示那样，在使用上述编写工具等实施的数据制作处理中，先生成TSeq型的数据文件，由第1转换处理将其变换成PSeq型。当再现该PSeq型时，由作为中间件处理实施的第2转换处理将PSeq型的数据文件变换成FSeq型，输出到声源部27。

(c)共振峰帧记述型(FSeq型)

FSeq型为将共振峰控制信息表达为帧数据列的格式。如图5C所示，在数据制作处理中，进行TSeq型→第1转换处理→PSeq型→第2转换处理→FSeq型的变换。另外，也可以根据采样的波形数据由作为与通常的语音分析处理同样的处理的第3转换处理生成FSeq型的数据。当再现时，可直接将该FSeq型的文件输出到上述声源部进行再现。

这样，在本发明中，定义抽象度不同的3种格式类型，可相应于各个的情况选择所期望的类型。另外，通过作为中间件处理实施用于再现语音的上述第1转换处理和上述第2转换处理，从而可减轻应用的负担。

下面，详细说明上述HV路径字节片4(图1)的内容。

如上述图1所示那样，在各HV路径字节片4记述分别指定示出包含于该HV路径字节片的语音再现顺序数据为上述3种格式类型中的哪一类型的格式类型(Format Type)、示出使用的语言类别的语言类型(Language Type)和时基(Timebase)的数据。

表1示出格式类型(Format Type)的例子。

表1

格式类型	说明
格式类型	说明	0x00	TSeq型
0x01	PSeq型	0x00	TSeq型
0x01	PSeq型	0x02	FSeq型

表2示出语言类型(Language Type)的例子。

表2

语言类型	说明
语言类型	说明	0x00	Shift-JIS
0x02	EUC-KR(KS)	0x00	Shift-JIS

其中，仅示出日语(0x00；0x表示16进制。以下相同。)和韩语(0x01)，但中文、英语、台湾语等其它语言也可同样地定义。

时基(Timebase)用于确定包含于该路径字节片的顺序数据字节片内的持续时间和选通时间的基准时间。在该实施形式中，虽然设为20msec，但可设定为任意的值。

表3

时基	说明
时基	说明	0x11	20msec

下面进一步详细说明上述3种格式类型的数据的详细内容。

(a)Tseq型(格式类型＝0x00)

如上述那样，该格式类型为使用由文本表述进行的顺序表达(TSeq：textsequence)的格式，包含顺序数据字节片5和n个(n为1以上的整数)的TSeq数据字节片(TSeq#00～TSeq#n)6、7、8(图1)。由包含于顺序数据的语音再现事件(对事件的注释)指示包含于TSeq数据字节片的数据的再现。

(a-1)顺序数据字节片

顺序数据字节片与SMAF的顺序数据字节片同样包含按时间顺序配置持续时间和事件的组合的顺序数据。图6A为示出顺序数据的构成的视图。在这里，持续时间表示事件与事件间的时间。先头的持续时间(Durationl)示出从时刻0起的经过时间。图6B为示出在事件为注释信息的情况下持续时间与包含于注释信息的选通时间的关系的视图。如该图所示，选通时间示出该注释信息的发音时间。图6A、图6B示出的顺序数据字节片的构造在PSeq型和FSeq型的顺序数据字节片中也同样。

作为由该顺序数据字节片支持的事件，具有以下3种事件。以下所述的初始值为没有事件指定时的缺省值。

(a-1-1)注释信息“0x9n kk gt”

其中，n：通道编号(0x0[固定])，kk：TSeq数据编号(0x00～0x7F)，gt：选通时间(1～3字节)。

注释信息为解释用通道编号n指定的通道的由TSeq数据编号kk指定的TSeq数据字节片、开始发音的信息。对选通时间gt为“0”的注释信息不进行发音。

(a-1-2)音量“0xBn 0x07 vv”

其中，n：通道编号(0x0[固定])，vv：控制值(0x00～0x7F)。通道音量的初始值为0x64。

音量为对指定通道的音量进行指定的信息。

(a-1-3)音场位置“0xBn 0x0A vv”

其中，n：通道编号(0x0[固定])，vv：控制值(0x00～0x7F)。音场位置初始值为0x40(中心)。

音场位置信息为对指定通道的立体音场位置进行指定的信息。

(a-2)TSeq数据字节片(Tseq#00～TSeq#n)

TSeq数据字节片作为语音合成用的信息为包含描述关于语言和文字码的信息、发音的音的设定、(合成的)读法信息的文本等的说话用格式，按标记形式书写。该TSeq数据字节片为了使用户的输入容易而成为文本输入。

标记为以“＜”(0x3C)开始、控制标记和值接在其后的形式，TSeq数据字节片按标记的列构成。但是，不包含空格，不能在控制标记和值中使用“＜”。另外，控制标记必须为1个文字。控制标记和其有效值在以下表4中示出其例。

表4

标记		值	意义
标记		值	意义	L	(0x4C)	Language	语言信息
C	(0x43)	code	文字码名	L	(0x4C)	Language	语言信息
C	(0x43)	code	文字码名	T	(0x54)	全角文字列	合成用文本
P	(0x50)	0-	无音的插入	T	(0x54)	全角文字列	合成用文本
P	(0x50)	0-	无音的插入	S	(0x53)	0-127	再现速度
V	(0x56)	0-127	音量	S	(0x53)	0-127	再现速度
V	(0x56)	0-127	音量	N	(0x4E)	0-127	音的高度
G	(0x47)	0-127	音色选择	N	(0x4E)	0-127	音的高度
G	(0x47)	0-127	音色选择	R	(0x52)	None	复位
Q	(0x51)	None	结束	R	(0x52)	None	复位

下面进一步说明上述控制标记中的文本标记“T”。

文本标记“T”后续的值包括由全角平假名文字列记述的读法信息(日语的情况下)和指示语音表达的韵律符号(Shift-JIS码)。在文末没有句子的分隔符号时意义与按“。”结束为相同意义。

以下所示为韵律符号，接在读法信息的文字后。

“、”(0x8141)：句子的分隔(通常的语调)。

“。”(0x8142)：句子的分隔(通常的语调)。

“？”(0x8148)：句子的分隔(疑问的语调)。

“′”(0x8166)：提高音调的重音(变化后的值直到句子分隔有效)。

“_”(0x8151)：降低音调的重音(变化后的值直到句子分隔有效)。

“-”(0x815B)：长音(使紧接其前的文字发长音。多个时变得更长。)

图7A为示出TSeq数据字节片的数据的一例的视图，图7B为用于说明其再现时间处理的视图。

由最初的标记“＜LJAPANESE”表示为日语，由“＜CS-JIS”指定文字码为Shift-JIS，由“＜G4”指定音色选择(程序转变)，由“＜V1000”指定音量的设定，由“＜N64”指定音的高度。“＜T”表示合成用文本，“＜P”表示由其值规定的msec单位的无音期间的插入。

如图7B所示，该TSeq数据字节片的数据从由持续时间指定的开始时刻隔开1000msec的无音期间后，发音“い′や---、き_よ-わ′さ_むい_ね-。”，此后隔开1500msec的无音期间后发音为“こ′のままい_つたら、は′ちが_つわ、た′いへ′ん_やわ-。”。其中相应于“′”、“_”、“-”进行分别与其对应的重音和长音的控制。

这样，TSeq型由于为按标记形式记述用于产生分别对各国语特别化的发音的文字码和语音表达(重音等)的格式，所以，可使用编辑器等直接生成。因此，TSeq数据字节片的文件可由文本基容易地加工，例如，可容易地通过从记述的文章改变语调、或者加工语尾从而与方言对应。另外，还可容易地仅替换文章中的特定单词。另外，具有数据尺寸小这样的优点。

另一方面，存在这样的缺点，即，用于解释该TSeq型数据字节片的数据、进行语音合成的处理负荷变大，难以进行更细致的音调控制，如扩展格式、增加复杂的定义，则对使用者不友好，依存于语言(文字)码等(例如在日语的情况下Shift-JIS较一般，但在其它国家的语言的情况下，需要按与其对应的文字码定义格式)。

(b)PSeq型(格式类型＝0x01)

该PSeq为使用由类似MIDI事件的形式的音素实现的顺序表达(PSeq：phoneme sequence)的格式类型。该形式由于记述了音素，所以，不依存于语言。音素可由示出发音的文字信息表达，例如，可与多种语言通用地使用ASCII码(美国信息交换标准码)。

如上述图1所示那样，该PSeq型包含设定数据字节片9、词典数据字节片10、及顺序数据字节片11。由顺序数据中的语音再现事件(注释信息)指定的通道的音素和韵律控制信息的再现。

(b-1)设定数据字节片(任选)

为存储声源部分的音色数据等的字节片，存储专用信息的排列。在该实施形式中，包含的专用信息为HV音色参数登录信息。

HV音色参数登录信息为“0xF0 Size 0x43 0x79 0x07 0x7F 0x01 PC data…0xF7”这样的格式，PC：程序编号(0x02～0x0F)，data：HV音色参数。

该信息登录相应的程序编号PC的HV音色参数。

HV音色参数如以下表5所示。

表5

#0	基本语音编号
#0	基本语音编号	#1	音调变化量〔Cent〕
#2	共振峰频率变化量1	#1	音调变化量〔Cent〕
#2	共振峰频率变化量1	#3	共振峰频率变化量2
#4	∶	#3	共振峰频率变化量2
#4	∶	#5	共振峰频率变化量n
#6	共振峰电平变化量1	#5	共振峰频率变化量n
#6	共振峰电平变化量1	#7	共振峰电平变化量2
#8	∶	#7	共振峰电平变化量2
#8	∶	#9	共振峰电平变化量n
#10	运算符波形选择1	#9	共振峰电平变化量n
#10	运算符波形选择1	#11	运算符波形选择2
#12	∶	#11	运算符波形选择2
#12	∶	#13	运算符波形选择n

如表5所示，作为HV音色参数，包含音调变化量、相对第1～第n(n为2以上的整数)的各共振峰的共振峰频率变化量、共振峰电平变化量、及运算符波形选择信息。如上述那样，在处理装置内存储记述了各音素和与其对应的共振峰控制信息(共振峰的频率、带宽、电平等)的预置词典(第2词典)，HV音色参数规定相对存储于该预置词典的参数的变化量。这样，对所有的音素进行同样的改变，可改变合成的语音的声质。

由该HV音色参数，可登录与0x02～0x0F对应的数(即，程序编号的数)的音色。

(b-2)词典数据字节片(Dictionary Data Chunk)(任选)

在该字节片中，存储包含与语言类别对应的词典数据、例如与上述预置词典比较的差分数据和未由预置词典定义的音素数据等的词典数据。这样，可合成音色不同的具有个性的语音。

(b-3)顺序数据字节片(Sequence Data Chunk)

与上述顺序数据字节片同样，包含按时间顺序配置持续时间与事件的组合的顺序数据。

下面列举由该PSeq型的顺序数据字节片支持的事件(信息)。读入侧忽略这些信息以外的内容。另外，以下记述的初始设定值为未指定事件时的缺省值。

(b-3-1)注释信息“0x9n Nt Vel Gatetime Size data…”

其中，n：通道编号(0x0[固定])，Nt：注释编号(绝对值注释指定：0x00～0x7F，相对值注释指定：0x80～0xFF)，Vel：速度(0x00～0x7F)，Gatetime：选通时间长度(可变)，Size：数据部的大小(可变长度)。

根据该注释信息开始指定通道的语音的发音。

注释编号的MSB为将解释切换到绝对值或相对值的标志。MSB以外的7位表示注释编号。语音的发音仅为单音，所以，选通时间重合的情况下按后到优先的顺序发音。在编写工具等中，最好不生成具有重合的数据地设置限制。

数据部包含音素和与其对应的韵律控制信息(音调转折、音量)，包括由下表6所示数据构造。

表6

#0	滞后
#0	滞后	#1	音素数〔＝n〕
#2	音素1	#1	音素数〔＝n〕
#2	音素1	#3	∶
#4	音素n	#3	∶
#4	音素n	#5	音素音调转折数〔＝N〕
#6	音素音调转折位置1	#5	音素音调转折数〔＝N〕
#6	音素音调转折位置1	#7	音素音调转折1
#8	∶	#7	音素音调转折1
#8	∶	#9	音素音调转折位置N
#10	音素音调转折N	#9	音素音调转折位置N
#10	音素音调转折N	#11	音素音量数〔＝M〕
#12	音素音量位置1	#11	音素音量数〔＝M〕
#12	音素音量位置1	#13	音素音量1
#14	∶	#13	音素音量1
#14	∶	#15	音素音量位置M
#16	音素音量M	#15	音素音量位置M

如表6所示，数据部包括音素的数n(#1)、例如由ASCII码记述的各音素(音素1～音素n)(#2～#4)、及韵律控制信息构成。韵律控制信息为音调转折和音量，关于音调转折，将该发音区间分成由音素音调转折数(#5)规定的N个区间、由指定各区间的音调转折的音调转折信息(音素音调转折位置1、音素音调转折1(#6～#7)～音素音调转折位置N、音素音调转折N(#9～#10)构成，关于音量，将其发音区间分成由音素音量数(#11)规定的M个区间、由指定各区间的音量的音量信息(音素音量位置1、音素音量1(#12、#13)～音素音量位置M、音素音量M(#15、#16))构成。

图8为用于说明上述韵律控制信息的视图。其中，发音的文字信息以“ohayou”的情况为例。在该例子中，N＝M＝128。如该图所示那样，将与发音的文字信息(“ohayou”)对应的区间分成128(＝N＝M)的区间，控制韵律，使得按上述音调转折信息和音量信息表达各点的音调和音量。

图9为示出上述选通时间长度(Gatetime)与滞后时间(Delay Time(#0))的关系的视图。如该图所示，由滞后时间可使实际的发音比由持续时间规定的时刻晚。而且Gate time＝0为禁止。

(b-3-2)程序转变“0xCn pp”

其中，n：通道编号(0x0[固定])，pp：程序编号(0x00～0xFF)。另外，程序编号的初始值为0x00。

根据该程序转变信息对指定的通道的音色进行设定。其中，通道编号为0x00：男声预置音色，0x01：女声预置音色，0x02～0x0F：扩展音色。

(b-3-3)控制转变

作为控制转变信息，具有以下信息。

(b-3-3-1)通道音量“0xBn 0x07 vv”

其中，n：通道编号(0x0[固定])，vv：控制值(0x00～0x7F)。另外，通道音量的初始值为0x64。

该通道音量信息的目的是对指定通道的音量进行指定，用于设定通道间的音量平衡。

(b-3-3-2)音场位置“0xBn 0x0A vv”

该信息用于对指定通道的立体音场位置进行指定。

(b-3-3-3)表达式“0xBn 0x0B vv”

其中，n：通道编号(0x0[固定])，vv：控制值(0x00～0x7F)。该表达式信息的初始值为0x7F(最大值)。

该信息指定按指定通道的通道音量设定的音量的变化。这用于在乐曲中使音量变化。

(b-3-3-4)音调转折“0xEn 11 mm”

其中，n：通道编号(0x0[固定])，11：转折值LSB(0x00～0x7F)，mm：转折值MSB(0x00～0x7F)。音调转折的初始值为MSB0x40，LSB0x00。

该信息使指定通道的音调上下变化。变化幅度(音调转折范围)的初始值为±2半音，按0x00/0x00朝下方向的音调转折为最大。按0x7F/0x7F朝上方的音调转折为最大。

(b-3-3-5)音调转折灵敏度“0x8n bb”

其中，n：通道编号(0x0[固定])，bb：数据值(0x00～0x18)。该音调转折的灵敏度的初始值为0x02。

该信息进行指定通道的音调转折的灵敏度设定。单位为半音。例如，bb＝01时成为±1半音(变化范围共2半音)。

这样，PSeq型的格式类型以由示出发音的文字信息表达的音素单位为基础，以类似于MIDI事件的形式记述语音信息，数据大小比TSeq型大，但比FSeq型小。

这样，具有这样的优点：可与MIDI同样地控制时间轴上的细微的音调和音量、由于按音素基记述而没有语言依存性、可细微地编集音色(音质)、可进行与MIDI类似的控制、易于追加安装到过去的MIDI设备。

另一方面，虽然不能进行文章和单词级别的加工、在处理侧比TSeq型轻，但具有施加了解释格式、进行语音合成的处理负荷的缺点。

(c)共振峰帧记述(FSeq)型(共振峰类型＝0x02)

为将共振峰控制信息(用于生成各共振峰的、共振峰频率和增益等参数)表达为帧数据列的共振峰。即，在一定时间(帧)期间，发音的语音的共振峰等为一定，使用更新与对各帧发音的语音对应的共振峰控制信息(各共振峰频率和增益等)的顺序表达(FSeq：formant sequence)。指示由包含于顺序数据的注释信息指定的FSeq数据字节片的数据的再现。

该格式类型包含顺序数据字节片和n个(n为1以上的整数)的FSeq数据字节片(FSeq#00～FSeq#n)。

(c-1)顺序数据字节片

与上述顺序数据字节片同样包含按时间顺序配置持续时间和事件的组合的顺序数据。

下面，列举按该顺序数据字节片支持的事件(信息)。读入侧忽略这些信息以外的内容。另外，以下记述的初始设定值为未指定事件时的缺省值。

(c-1-1)注释信息“0x9n kk gt”

其中，n：通道编号(0x0[固定])，kk：FSeq数据编号(0x00～0x7F)，gt：选通时间(1～3字节)。

该信息为解释指定通道的FSeq数据编号的FSeq数据字节片、开始发音的信息。对选通时间为“0”的注释信息不进行发音。

(c-1-2)音量“0xBn 0x07 vv”

该信息为对指定通道的音量进行指定的信息。

(c-1-3)音场位置“0xBn 0x0A vv”

该信息为对指定通道的立体音场位置进行指定的信息。

(c-2)FSeq数据字节片(FSeq#00～FSeq#n)

FSeq数据字节片由FSeq帧数据列构成。即，将语音信息按具有规定时间长度(例如20msec)的各帧切出，将分析各帧期间内的语音数据获得的共振峰控制信息(共振峰频率和增益等)作为表示各帧的语音数据的帧数据列表达的格式。

表7示出FSeq的帧数据列。

表7

#0	运算符波形1
#0	运算符波形1	#1	运算符波形2
#2	∶	#1	运算符波形2
#2	∶	#3	运算符波形n
#4	共振峰电平1	#3	运算符波形n
#4	共振峰电平1	#5	共振峰电平2
#6	∶	#5	共振峰电平2
#6	∶	#7	共振峰电平n
#8	共振峰频率1	#7	共振峰电平n
#8	共振峰频率1	#9	共振峰频率2
#10	∶	#9	共振峰频率2
#10	∶	#11	共振峰频率n
#12	有声/无声切换	#11	共振峰频率n

在表7中，#0～#3为指定用于语音合成的多个(在该实施形式中为n个)的共振峰波形的种类(正弦波、矩形波等)的数据。#4～#11为根据共振峰电平(振幅)(#4～#7)和中心频率(#8～#11)规定n个共振峰的参数。#4和#8为规定第1共振峰(#0)的参数，以下同样，#5～#7和#9～#11为规定第2共振峰(#1)～第n共振峰(#3)的参数。另外，#12为示出无声/有声的标志(flag)等。

图10为示出共振峰的电平与中心频率的视图，在该实施形式中，使用第1～第n共振峰的n个共振峰的数据。如上述图4所示那样，关于各帧的第1～第n共振峰的参数和音调频率的参数供给到上述声源部27的共振峰生成部和音调生成部，其帧的语音合成输出如上述那样生成输出。

图11为示出上述FSeq数据字节片的正文部的数据的视图。上述表7所示FSeq的帧数据列中的#0～#3为指定各共振峰的波形的种类的数据，没有对各帧指定的必要。因此，如图11所示那样，最初的帧为上述表7所示所有的数据，后续的帧为上述表7的#4以后的数据即可。通过使FSeq数据字节片的正文部如图11所示那样，可减少总数据量。

这样，FSeq型为将共振峰控制信息(各共振峰频率和增益等)表达为帧数据列的格式，所以，通过将FSeq型的文件原样输出到声源部，从而可再现语音。因此，处理侧不需要语音合成处理，CPU仅每隔预定时间进行更新帧的处理即可。可通过相对已存储的发音数据，施加一定的偏移，从而可改变音色(声质)。

但是，FSeq型的数据的文章和单词的加工较困难，不能细微地编集音色(声质)或改变时间轴上的发音长度和共振峰位移。虽然可控制时间轴上的音调和音量，但由于按原来的数据的偏移进行控制，所以，存在控制困难而且处理负荷增大的缺点。

下面，说明利用具有上述顺序数据的数据交换格式的文件的系统。

图12为示出相对作为再现上述语音再现顺序数据的语音再现装置的1个的携带通信终端发送上述数据交换格式的文件的内容数据传送系统的示意构成的视图。

在该图中，51为便携通信终端，52为基地台，53为集中上述多个基地台的移动交换台，54为管理多个移动交换台并成为公共网等固定网或互联网55的网关的网关台，56为连接于互联网55的下载中心的服务器计算机。

内容数据制作公司57关于上述图3说明那样，使用专用的编写工具等根据SMF和SMAF等乐曲数据和语音合成用文本文件生成具有本发明的数据交换格式的文件，输送到服务器计算机56。

在服务器计算机56存储由内容数据制作公司57制作的具有本发明的数据交换格式的文件(包含上述HV路径字节片的SMAF文件等)，对应于从便携通信终端51或图中未示出的计算机等访问的用户的请求，传送包含对应的上述语音再现顺序数据的乐曲数据等。

图13为示出作为语音再现装置的一例的上述便携通信终端51的一构成例的框图。

在该图中，61为进行该装置全体的控制的中央处理装置(CPU)，62为存储各种通信控制程序、用于乐曲再现的程序等控制程序、及各种常数数据等的ROM，63为用作工作区域并存储乐曲文件和各种应用程序等的RAM，64为由液晶显示装置(LCD)等构成的显示部，65为振动器，66为具有多个操作按钮等的输入部，67为由调制解调部等构成的、连接于天线68的通信部。

另外，69为连接于送话麦克风和受话扬声器、具有进行用于通话的语音信号的编码和解码的功能的语音处理部，70是根据在存储于上述RMA63等的乐曲文件中所包含的乐曲部再现乐曲、并基于包含在乐曲文件中的语音部再现语音(例如人的声音)、输出到扬声器71的声源部，72为用于进行上述各构成部分间的数据传送的总线。

用户使用上述便携通信终端51访问上述图12所示下载中心的服务器56，下载包含上述3个格式类型中的所期望的类型的语音再现顺序数据的本发明的数据交换格式的文件，存储于上述RAM63等，可原样再现，或用作收到乐曲。

图14为示出再现从上述服务器计算机56下载后存储于上述RAM63的本发明的数据交换格式的文件的处理的流程和流程图。在这里，说明下载的文件在上述图2所示格式下为具有乐曲路径字节片和HV路径字节片的文件的情况。

当存在乐曲再现的开始指示时、或在作为接收乐曲而使用的情况下发生信号收到而开始处理时，CPU61从上述RAM63读取下载的文件，分离包含于下载的文件中的语音部(HV路径字节片)和乐曲部(乐曲路径字节片)(步骤S1)。然后，关于语音部，当该格式类型为(a)TSeq型时，CPU61实施将TSeq型变换到PSeq型的第1转换处理和将PSeq型变换到FSeq型的第2转换处理，变换成FSeq型，当为(b)PSeq型时，进行上述第2转换处理，变换到FSeq型，当为(c)FSeq型时，原样进行与格式类型相应的处理，变换为FSeq型的数据(步骤S2)，对各帧更新各帧的格式控制数据，供给到声源70(步骤S3)。另一方面，关于乐曲部，声源70内的定序器解释包含于乐曲路径字节片的发音(note on)和程序转变等的乐音生成事件，解释得到的乐音发生参数按预定的时刻供给到声源70内(步骤S4)。这样，合成语音和乐曲(步骤S5)后输出(步骤S6)。

另外，在上述第1转换处理中使用的上述第1词典数据以及在上述第2转换处理中使用的上述第2词典数据存储在ROM62或者RAM63中。

还有，步骤S1～S3的各处理，不是由CPU61，而是由声源70内的定序器进行也可以。这种情况下，上述第1词典以及第2词典也可以存储在声源70内。另外，步骤S4的再声源70内的定序器内进行的各功能，不是由定序器，而是由CPU61进行也可以。

关于上述图3，如说明的那样，本发明的数据交换格式可以通过在SMF和SMAF等已有的乐曲数据21中附加根据语音合成用文本数据22生成的语音再现顺序数据而制作，所以，在如上述那样用于接收乐曲等情况下，可提供具有多种娱乐性的服务。

另外，在上述说明中，为再现从下载中心的服务器计算机56下载的语音再现顺序数据的情况，但也可由语音再现装置生成上述本发明的数据交换格式的文件。

在上述便携通信终端51中，从输入部66输入与希望发声的文本对应的上述TSeq型的TSeq数据字节片。例如，输入“＜Tお′つはよ-、げ_んき？”。然后，将其原样或进行第1、第2转换处理后作为上述3个格式中的任一个语音再现顺序数据，变换到本发明的数据交换格式的文件后保存。然后，将该文件附到邮件中发送到对方终端。

在接收到该邮件的对方的便携通信终端，解释接收到的文件的类型，进行对应的处理，使用该声源部再现该语音。

这样，通过在由便携通信终端发送数据之前进行加工，可提供具有多种娱乐性的服务。在该情况下，由各加工方法选择对服务最适合的语音合成用格式种类。

另外近年来，在便携通信终端，可下载Java(TM)的应用程序加以实施。因此，可使用Java(TM)应用程序进行更多种类的处理。

即，在便携通信终端上输入希望发声的文本。然后，由Java(TM)应用程序接收输入的文本数据，粘贴与该文本一致的图像数据(例如正在说话的脸)，变换到本发明的数据交换格式的文件(具有HV路径字节片和图像路径字节片的文件)，从Java(TM)应用程序经由API将本文件发送到中间件(定序器、控制声源和图像的软件模块)。中间件解释送来的文件·格式，在由声源再现语音的同时由显示部同步地显示图像。

这样，可由Java(TM)应用的编程提供具有多种娱乐性的服务。在该情况下，由各加工方法选择对服务最适合的语音合成用格式种类。

在上述实施形式中，使包含于HV路径字节片的语音再现顺序数据的格式为对应于3个类型的不同的格式，但不限于此。例如，如上述图1所示那样，(a)TSeq型和(c)FSeq型都具有顺序数据字节片和TSeq或FSeq数据字节片，基本的构造相同，所以，也可将其统一，按数据字节片的电平识别为TSeq型的数据字节片还是为FSeq型的数据字节片。

另外，记载于上述各表的数据的定义都不过为一例，可任意地改变。

如以上说明的那样，按照本发明的语音再现顺序数据的数据交换格式，可表达用于语音再现的顺序，同时可在不同的系统或装置之间发布或交换语音再现顺序数据。

另外，按照将乐曲顺序数据和语音再现顺序数据包含于各不同的字节片中的本发明的顺序数据的数据交换格式，可由1个格式·文件使语音再现顺序与乐曲顺序同步地再现。

另外，可独立地记述乐曲顺序数据和语音再现顺序数据，可容易地仅取出一方使其再现。

另外，按照可选择3个格式类型的本发明的数据交换格式，考虑到语音再现的用途和处理侧的负荷，可选择最佳的格式类型。

Claims

1.一种乐音和语音再现装置，包含第1存储部、控制部、及声源；其特征在于，

上述第1存储部存储包含乐曲部和语音部的乐曲数据文件，上述乐曲部包含指示乐音的生成的一连串的乐音生成事件，上述语音部为语音再现顺序数据，该语音再现顺序数据包含指示一连串的语音的再现的语音再现事件数据、和将实施该语音再现事件的时刻作为从前一语音再现事件数据的经过时间而指定的持续时间数据的组合，

上述控制部读出存储于上述第1存储部的上述乐曲数据文件，

上述声源根据包含于上述读出的乐曲数据文件中的上述乐曲部而生成乐音，根据包含于上述读出的乐曲数据文件中的上述语音部而生成语音，由此合成上述生成的乐音和语音并输出。

2.根据权利要求1所述的乐音和语音再现装置，其特征在于，在包含于上述读出的乐曲数据文件中的上述语音部内的语音再现事件数据指示用于生成共振峰的共振峰控制信息的再现的情况下，上述声源根据包含于上述语音再现顺序数据而且由该数据指示的上述共振峰控制信息而生成上述语音。

3.根据权利要求1所述的乐音和语音再现装置，其特征在于，包含第2存储部和第3存储部，该第2存储部存储第1词典数据，该第1词典数据记录了表示合成的语音的读法的文本信息以及韵律符号、与音素信息以及韵律控制信息的对应关系；该第3存储部存储第2词典数据，该第2词典数据存储与合成的语音对应的音素信息以及韵律控制信息、与用于生成共振峰的共振峰控制信息的对应关系，

上述控制部，当包含于上述读出的乐曲数据文件的上述语音部内的语音再现事件数据指示再现包含文本信息和韵律符号的文本记述型的信息时，参照存储于上述第2存储部的上述第1词典数据，获得与由该数据指示的文本信息以及韵律符号对应的音素信息以及韵律控制信息，参照存储于上述第3存储部的上述第2词典的数据，读出与上述获得的音素信息以及韵律控制信息对应的共振峰控制信息，

上述声源根据读出的上述共振峰控制信息生成上述语音。

4.根据权利要求1所述的乐音和语音再现装置，其特征在于，包含第2存储部，该第2存储部存储词典数据，该词典数据存储音素信息以及韵律控制信息、与用于生成共振峰的共振峰控制信息的对应关系，

上述控制部，当包含于上述读出的乐曲数据文件的上述语音部内的语音再现事件数据指示再现包含与合成的语音对应的音素信息和韵律控制信息的音素记述型的信息时，参照存储于上述第2存储部的上述词典数据，获得与由该语音再现事件数据指示的音素信息以及韵律控制信息对应的共振峰控制信息，

上述声源根据获得的上述共振峰控制信息生成上述语音。

5.根据权利要求1所述的乐音和语音再现装置，其特征在于，上述控制部判别包含于存储到上述第1存储部的上述乐曲数据文件中的语音部的格式类型，在该格式类型为需要格式变换的类型的情况下，将上述语音部的格式类型变换成别的格式类型，

上述声源根据变换为上述别的格式的语音部生成语音。

6.根据权利要求5所述的乐音和语音再现装置，其特征在于，上述控制部的上述语音部的格式变换参照存储于第2存储部的词典数据进行。

7.根据权利要求1所述的乐音和语音再现装置，其特征在于，上述语音部包含指定示出上述语音部的语言类别的语言类型的数据。

8.根据权利要求1～7中任意一项所述的乐音和语音再现装置，其特征在于，上述语音为人声。

9.一种存储媒体，存储由声源器件使人声再现用的语音再现顺序数据，其特征在于，

上述语音再现顺序数据具有由包含管理用的信息的内容数据字节片和包含语音顺序数据的路径字节片构成的数据构造，

上述语音顺序数据按时间顺序配置指示人声再现的语音再现事件数据、和将实施该语音再现事件的时刻作为从前一语音再现事件数据的经过时间而指定的持续时间数据的组合。

10.根据权利要求9所述的存储媒体，其特征在于，上述语音再现事件数据为指示再现文本记述型的信息、音素记述型的信息、或者共振峰帧记述型的信息的数据，该文本记述型的信息由示出由上述声源器件再现的人声的读法的文本信息和指定人声表达的韵律符号构成，音素记述型的信息由示出由上述声源器件再现的人声的音素信息和韵律控制信息构成，共振峰帧记述型的信息由示出由上述声源器件再现的人声的各帧时间的共振峰控制信息构成。

11.一种存储顺序数据的存储媒体，存储由声源器件使乐声和人声再现用的顺序数据，其特征在于，

上述顺序数据具有由乐曲顺序数据和语音再现顺序数据构成的数据构造，

上述乐曲顺序数据按时间顺序配置指示乐音的生成的乐音生成事件数据、和将实施该乐音生成事件的时刻作为从前一乐音生成事件的经过时间而指定的持续时间数据的组合，

上述语音再现顺序数据按时间顺序配置指示人声再现的语音再现事件数据、和将实施该语音再现事件的时刻作为从前一语音再现事件的经过时间而指定的持续时间数据的组合，

上述声源器件同时开始上述乐曲顺序数据和上述语音再现顺序数据的再现，从而可在同一时间轴上再现上述乐音和上述人声。

12.根据权利要求11所述的存储顺序数据的存储媒体，其特征在于，上述乐曲顺序数据和语音再现顺序数据分别包含于不同的字节片中。

13.根据权利要求11或12所述的存储顺序数据的存储媒体，其特征在于，上述语音再现事件数据为指示再现文本记述型的信息、音素记述型的信息、或者共振峰帧记述型的信息的数据，该文本记述型的信息由示出由上述声源器件再现的人声的读法的文本信息和指定人声表达的韵律符号构成，音素记述型的信息由示出由上述声源器件再现的人声的音素信息和韵律控制信息构成，共振峰帧记述型的信息由示出由上述声源器件再现的人声的各帧时间的共振峰控制信息构成。

14.一种服务器装置，包含存储部和发送部，其特征在于，

上述存储部存储包含乐曲顺序数据和语音再现顺序数据的乐曲文件，上述乐曲顺序数据按时间顺序配置相对声源器件指示乐声的生成的乐音生成事件数据、和将实施该乐音生成事件的时刻作为从前一乐音生成事件的经过时间而指定的持续时间数据的组合，上述语音再现顺序数据按时间顺序配置相对声源器件指示语音再现的语音再现事件数据、和将实施该语音再现事件的时刻作为从前一语音再现事件的经过时间而指定的持续时间数据的组合，

上述发送部根据来自可连接的客户终端装置的要求传送上述乐曲文件。

15.根据权利要求14所述的服务器装置，其特征在于，上述语音再现事件数据为指示再现文本记述型的信息、音素记述型的信息、或者共振峰帧记述型的信息的数据，该文本记述型的信息由示出由上述声源器件再现的语音的读法的文本信息和指定语音表达的韵律符号构成，音素记述型的信息由示出由上述声源器件再现的语音的音素信息和韵律控制信息构成，共振峰帧记述型的信息由示出由上述声源器件再现的语音的各帧时间的共振峰控制信息构成。

16.一种乐音和语音再现装置的控制方法，该乐音和语音再现装置包含存储部和声源，其特征在于，

实施将包含乐曲部和语音部的乐曲数据文件存储于上述存储部的步骤，在此，上述乐曲部包含指示乐音的生成的一连串的乐音生成事件，上述语音部为语音再现顺序数据，该语音再现顺序数据包含指示一连串的语音的再现的语音再现事件数据、和将实施该语音再现事件的时刻作为从前一语音再现事件数据的经过时间而指定的持续时间数据的组合；

接着，实施将存储于上述存储部的上述乐曲数据文件读出的步骤；

然后进一步实施这样的步骤，即控制上述声源，根据包含于上述读出的乐曲数据文件的乐曲部而生成乐音，根据包含于上述读出的乐曲数据文件的上述语音部而生成语音，由此合成上述生成的乐音和语音并输出。

17.一种计算机程序，用于控制包含存储部和声源的乐音和语音再现装置，其特征在于，

包括将包含乐曲部和语音部的乐曲数据文件存储于上述存储部的步骤，在此，上述乐曲部包含指示乐音的生成的一连串的乐音生成事件，上述语音部为语音再现顺序数据，该语音再现顺序数据包含指示一连串的语音的再现的语音再现事件数据、和将实施该语音再现事件的时刻作为从前一语音再现事件数据的经过时间而指定的持续时间数据的组合；

另外，还包括将存储于上述存储部的上述乐曲数据文件读出的步骤；

还包括这样的步骤，即控制上述声源，根据包含于上述读出的乐曲数据文件的乐曲部而生成乐音，根据包含于上述读出的乐曲数据文件的上述语音部而生成语音，由此合成上述生成的乐音和语音并输出。