CN1117344C

CN1117344C - 声音合成方法和装置、用于声音合成的词典构筑方法

Info

Publication number: CN1117344C
Application number: CN00120198A
Authority: CN
Inventors: 笠井�治; 溝口稔幸
Original assignee: Konami Corp; Konami Computer Entertainment Co Ltd
Current assignee: Konami Computer Entertainment Co Ltd; Konami Group Corp
Priority date: 1999-07-21
Filing date: 2000-07-21
Publication date: 2003-08-06
Anticipated expiration: 2020-07-21
Also published as: EP1071073A2; US6826530B1; JP2001034282A; CN1282017A; HK1034129A1; EP1071073A3; KR100522889B1; KR20010021104A; TW523734B

Abstract

设定讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务(S1)，构筑与各任务对应的单词词典、韵律词典和波形词典(S2)，在由游戏系统等输入要合成的字符串及指定任务时采用该指定任务的单词词典、韵律词典和波形词典进行声音合成处理(S3)，由此可生成反映讲话者个性和讲话时的感情、状况、讲话内容的声音信息。

Description

声音合成方法和装置、用于声音合成的词典构筑方法

技术领域

本发明涉及适用于视频游戏等的声音合成方法、用于声音合成的词典构筑方法、声音合成装置及记录声音合成程序的计算机可读媒体。

背景技术

近年来，随着电话报时、银行ATM声音引导之类需反复输出声音信息(人所讲的言词)的服务的普及和各种电气制品等人机界面要求的提高，希望由机械输出声音信息的需求增大。

作为以往输出声音信息的方法，有一种真人朗读预定的引导词或文章并把它预先存储在存储装置中，然后在所需场面原样重现加以输出的方法(下文称为记录重现法)。还有一种在存储装置中存储与构成声音信息的各种词对应的声音数据，然后根据任意输入的字符串(文本)，组合该声音数据加以输出的方法(所谓声音合成方法)。

在上述记录重现方法中，可输出高品质的声音信息。但另一方面，也有不能输出确定的引导词和文章以外的声音信息，而且需要容量与引导词和文章数量成比例的存储装置这些缺陷。

另一方面，在声音合成方法中，可输出对应于任意输入的字符串，即对应于任意词的声音信息，且与上述记录重现方法相比，其需要的存储容量也小。但是，存在有些字符串变成留有不自然感的声音信息这样的缺陷。

可是，在近来视频游戏中，随着游戏机主体性能的提高和存储媒体存储容量的增加，游戏中登场角色的声音信息与BGM和效果音一起输出的可能性增大。

这时，在视频游戏这种娱乐性高的场合，强烈希望每个游戏角色输出音质不同的声音信息，而且输出反映讲话时感性、状况的声音信息。进而，也迫切希望由游戏角色念游戏者任意输入、设定的游戏者角色姓名(称呼)。

如果要用上述的记录重现方法实现适合上述希望的声音信息输出，则必须对游戏者任意输入、设定的游戏者角色姓名(称呼)这种遍及几千至几万词全部进行声音收录、重现。为此，收录所需时间和费用、必需的存储装置容量变得十分庞大，事实上，不可能实施。

另一方面，用声音合成方法，任意输入、设定的游戏者角色姓名发声比较容易。但，以往的声音合成方法仅以产生明了的自然声音信息为目标，因而根本不能合成与讲话人的个性、讲话时的感性和状况相应的声音信息，即不能根据每个游戏角色输出音质不同的声音信息，不能输出反映游戏角色的感情、状况的声音信息。

发明内容

本发明的目的在于提供一种适合视频游戏这种娱乐性高的用途且能产生与讲话者的个性、讲话时的感情和状况或各种讲话内容相应的声音信息的声音合成方法，用于声音合成的词典构筑方法，声音合成装置及记录声音合成程序的计算机可读媒体。

为了达到上述目的，本发明的一种采用单词词典、韵律词典和波形词典生成声音信息的声音合成方法，该方法包括下述步骤：设定讲话者或讲话时感情、状况或讲话内容中至少一个不同的多个声音合成处理作业单位(下文称为任务)；至少构筑与各任务对应的韵律词典和波形词典；在与任务指定的同时输入要合成的字符串时，用与该任务对应的单词词典、韵律词典和波形词典进行声音合成处理。

根据本发明，声音合成处理分成：多个讲话者，讲话时的多个感情、状况，多个讲话内容等任务，每个任务构筑词典进行声音合成，因此易于产生与讲话者个性、讲话时的感情与状况、讲话内容对应的声音信息。

上述多个任务中的每个任务的词典，由下述步骤构筑：生成与任务对应的单词词典；从单词词典的全部单词中选出可成为模型的字符串生成声音收录脚本；按照声音收录脚本收录讲话者的声音；由所述收录的声音构筑韵律词典和波形词典；对各任务进行上述步骤。

上述每个任务的词典由下述步骤构筑：生成与任务对应的单词词典和单词变形现则；按照与所述任务对应的单词变形规则，对与任务对应的单词词典中包含的全部单词进行变形处理；从经变形处理的单词词典中的全部单词选出可成为模型的字符串生成声音收录脚本；根据声音收录脚本收录讲话者的声音；从所述收录的声音构筑韵律词典和波形词典；对各任务进行上述步骤。

每个上述任务的词典由下述步骤构筑：生成与任务对应的单词变形规则；按照与任务对应的单词变形规则，对单词词典所包含的全部单词进行变形处理；从经变形处理的单词词典中的全部单词选出可成为模型的字符串生成声音收录脚本；根据声音收录脚本收录讲话者的声音；从所述收录的声音构筑韵律词典和波形词典；对各任务进行上述步骤。

根据本发明，可简单生成与任务相应的声音收录脚本，根据该脚本收录声音构筑各词典，进行字符串变形处理，由此，可不增加词典容量，易于生成含多样表现内容的声音信息。

采用这些词典的声音合成方法包括下述步骤：根据与要合成的字符串一起输入的任务指定，切换单词词典、韵律词典和波形词典；采用切换后的单词词典、韵律词典和波形词典，对与要合成的字符串对应的声音信息进行合成处理。

这时，在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典时，该声音合成处理包括下述步骤：从单词词典判定要合成的字符串的语调类型；根据要合成的字符串与语调类型，从韵律词典选择韵律模型数据；根据选择的韵律模型数据，从波形词典选择与要合成的字符串各字符对应的波形数据；相互连接所述选择的波形数据。

采用这些词典的另一声音合成方法，包括下述步骤：根据与要合成的字符串一起输入的任务指定，切换单词词典、韵律词典、波形词典和单词变形规则；按照单词变形规则对要合成的字符串进行变形处理；采用切换后的单词词典、韵律词典和波形词典对与变形处理后的字符串对应的声音信息进行合成处理。

采用这些词典的另一声音合成方法，包括下述步骤：根据与要合成的字符串一起输入的任务指定，切换韵律词典、波形词典和单词变形规则；按照单词变形规则对要合成的字符进行变形处理；采用单词词典、切换后的韵律词典和波形词典，对与变形处理后的字符串对应的声音信息进行合成处理。

这时，在各词典是收录许多至少含一个字符的单词及其语词类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典且单词变形规则是收录字符串变形规则的单词变形规则时，该声音合成处理包括下述步骤：从单词词典或单词变形规则判定要合成的字符串的语调类型；根据要合成的字符串与语调类型，从韵律词典选择韵律模型数据；根据选择的韵律模型数据，从波形词典选择与要合成的字符串的各字符对应的波形数据；相互连接所述选择的波形数据。

采用上述词典的声音合成装置包括：根据与要合成的字符串一起输入的任务指定，切换单词词典、韵律词典和波形词典的单元；采用切换后的单词词典、韵律词典和波形词典，对与要合成的字符串对应的声音信息进行合成处理的单元。

采用上述词典的另一声音合成装置包括：根据与要合成的字符串一起输入的任务指定，切替单词词典、韵律词典、波形词典和单词变形规则的单元；按照单词变形规则对要合成的字符串进行变形处理的单元；采用切换后的单词词典、韵律词典和波形词典，对与变形处理后的字符串对应的声音信息进行合成处理的单元。

采用上述词典的另一声音合成装置包括：根据与要合成的字符串一起输入的任务指定，切换韵律词典、波形词典和单词变形规则的单元；按照单词变形规则对要合成的字符串进行变形处理的单元；采用单词词典、切换后的韵律词典和波形词典对与变形处理后的字符串对应的声音信息进行合成处理的单元。

上述声音合成装置通过一种记录声音合成程序的计算机可读媒体加以实现，该媒体在所述程序被计算机读取时，使该计算机在功能上包括下述单元：与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典和波形词典；根据与要合成的字符串一起输入的任务指定切换单词词典、韵律词典和波形词典的单元；采用切换后的单词词典、韵律词典和波形词典对与要合成的字符串对应的声音信息进行合成处理的单元。

上述声音合成装置通过一种记录声音合成程序的计算机可读媒体加以实现，该媒体在所述程序被计算机读取时，使该计算机在功能上包括下述单元：与讲话者或讲话时的感情、状况或进话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典、波形词典和单词变形规则；根据与要合成的字符串一起输入的任务指定，切换单词词典、韵律词典、波形词典和单词变形规则的单元；按照单词变形规则对要合成的字符串进行变形处理的单元；采用切换后的单词词典、韵律词典和波形词典对与变形处理后的字符串对应的声音信息进行合成处理的单元。

上述声音合成装置通过一种记录声音合成程序的计算机可读媒体加以实现，该媒体在所述程序被计算机读取时，使该计算机在功能上包括下述单元：单词词典、及与讲话者或讲话时的感情、状态之一不同的多个声音合成处理任务分别对应的韵律词典、波形词典和单词变形规则；根据与要合成的字符串一起输入的任务指定切换韵律词典、波形词典和单词变形规则的单元；按照单词变形规则对要合成的字符串进行变形处理的单元；采用单词词典、切换后的韵律词典和波形词典，对与变形处理后的字符串对应的声音信息进行合成处理的单元。

附图说明

通过以下说明及附图，本发明的上述和其它目的、特征、优点会变得更为明了。

图1是整体表示本发明声音合成方法的流程图。

图2是任务说明图。

图3是具体任务一个例子的示图。

图4是表示本发明用于声音合成的词典构筑方法的流程图。

图5是单词变形规则一个例子示图。

图6是选出的字符串一个例子示图。

图7是根据单词词典、单词变形规则、字符串选出规则产生声音收录脚本的情况的一个例子示图。

图8是表示本发明声音合成方法的流程图。

图9是本发明声音合成装置的功能框图。

具体实施方式

下面叙述本发明的最佳实施例。

图1是表示本发明的声音合成方法(含用于声音合成的词典构筑的广义声音合成方法)的整体流程图。

首先，设定多个声音合成处理任务，这些任务中讲话者或讲话时的感情、状况或讲话内容中至少有一个不同(S1)。根据声音合成目的由手工操作进行该作业。

图2用于说明任务，图1，A1、A2、A3表示多个不同讲话者，B1、B2、B3表示多个不同感情、状况，C1、C2、C3表示多个不同讲话内容。这里，所谓讲话内容不仅表示单一的词，还表示向对方招呼的词、高兴时发出的言词等根据一定定义的词集合。

图2中，讲话者A1，在感情、状况为B1时发表内容为C1的讲话这种情况(A1-B1-C1)为一个任务。讲话者A1在感情、状况为B2时发表内容C1的讲话这种情况(A1-B2-C1)为另一个任务。同样，讲话者A2在感情、状况为B1时发表内容为C2的讲话这种情况(A2-B1-C2)，讲话者A2在感情、状况为B2时发表内容为C3的讲话这种情况(A2-B2-C3)，讲话者A3在感情、状况为B3时发表内容为C2的讲话这种情况(A3-B3-C2)各自为另一任务。

这里，常常不必设定包罗全部多个讲话者、多种讲话时感情，状况、多种讲话内容的任务。即，即使如果对讲话者A1设定感情、状况B1，B2，B3且对感情、状况B1，B2，B3各自设定讲话内容C1、C2、C3，设定全部9种任务，有时对讲话者A2也仅设定感情、状况B1、B2，且对该感情、状况B1仅设定讲话内容C1、C2，对感情、状况B2仅设定讲话内容C3，即仅全部设定3种任务。设定怎样的任务根据声音合成目的任意决定。

虽然这里讲话者、讲话时的感情、状况及讲话内容均以多个进行说明，但也可按照声音合成的目的，把其中任1或2项限定为一种设定任务。

图3表示具体任务的一个例子，这里以视频游戏中合成游戏角色的声音信息为例，尤其表示讲话内容仅限于对游戏者角色的招呼这一例子。

在图3中，对名为“黑卡利(ひカリ)”的讲话者(游戏角色)设定“幼年时的普通招呼”、“成为高中生时的普通招呼”、“成为高中生时电话中的普通呼”、“自白、重逢时富感情的招呼”这4种感情、状况，这些分别设定作为任务1、2、3、4。对名为“阿卡奈(あカね)”的讲话者设定“普通招呼”、“电话中普通招呼”，“自白、放学时亲切的招呼”这3种感情、状况，这些分别设定作为任务5、6、7。

各任务中的信息例子示出附加后述的每个任务的单词变形处理后的例子。图中“奇亚恩(ちやん)”、“库恩(くん)(君)”是日语中的敬称。

然后，对每个如上所述设定的任务构筑声音合成所必需的词典，即单词词典、韵律词典和波形词典(S2)。

这里，所谓单词词典是指收录许多包含至少一个字符的单词及其语调类型的部分，若以例如图3中说明的任务而言，单词词典是收录预想输入的许多表示游戏者角色姓名的单词及其语调类型的部分。所谓韵律词典是指收录韵律模型数据中代表性的韵律模型数据的部分，该韵律模型数据对收录于单词词典的单词表示韵律。所谓波形词典是指把收录声音作为合成单位的声音数据(音素片)加以收录的部分。

如果加以后文所述的单词变形处理，则讲话者或感情、状况不同的任务可共用单词词典，特别如果讲话内容限定一种，则可仅为一个单词词典。

通过未图示的输入单元和游戏系统等，输入要合成的字符串和指定任务时，采用与该任务对应的单词词典、韵律词典及波形词典进行声音合成处理(S3)。

图4是表示用于本发明声音全成的词典构筑方法的流程图。

首先，用手工操作生成与上述设定的多个任务的讲话者，讲话时的感情、状况，讲话内容相应的单词词典(S21)。这时，根据需要，产生单词变形规则(S22)。

这里，所谓单词变形规则是确定把收录于单词词典的单词变换处理成与讲话者或感情、状况不同的任务所对应的单词的规则。通过该变换处理，如上所述，可把一个单词词典作为与讲话者或感情状况不同的任务虚拟对应的多个单词词典使用。

图5表示单词变形规则的一个例子，在这里表示与图3中说明过的“任务5”对应的变形规则，即从姓名(游戏者角色名)生成2拍(モ—ラ)(日文字母计数单位)外号名作为对游戏角色招呼时的规则为例子。

接着，从上述产生的单词词典或单词词典和单词变形规则，选择与某任务对应的单词词典或单词词典和单词变形规则(S23)。这对，若有单词变形规则就进行单词变形处理(S24)。

单词变形处理，根据与任务对应的单词变形规则，对与该任务对应的单词词典中所包含的全部单词进行变形处理。

对图3、图5的例子而言，这种处理是：逐个取出收录于单词词典的游戏角色名，若是2拍以上的通常名，则在最前面2拍所对应的字符后附加“库恩”；如果是1拍的名字，则在该1拍所对应的字符上附加“—(长音)”及“库恩”；如果是其它特殊的名字，则附加长音、促音、拨音等变形，生成外号名；或在生成外号名时，还进行使语调为第一拍升高等的对语调的变形处理。

接着，从收录于上述单词词典的全部单词中或对之加以单词变形处理的全部单词中，根据字符串选出规则，选出字符串，生成声音收录脚本(S25)。

所谓字符串选出规则是从收录于单词词典的全部单词或对之附加单词变形处理的全部单词中选出可成为模型的字符串的规则。例如，在从上述收录许多游戏者角色名的单词词典中，选出可成为模式的字符串，即选出名字时，可采用：(1)从1拍至6拍的名字，(2)至少采用一个每拍分别不同的语调类型的单词。根据该规则选出的字符串的一个例子示于图6。

单词词典所含的单词，如果词典产生时使讲话内容的定义越窄，则限定模式、类似度大的单词越多。在单词词典中包含很多类似度大的单词时，向各单词赋予表示其重要度、出现概率(频度)的信息，把利用该信息的选择基准与上述拍数和指定的语调类型等一起包含在字符串选出规则中，由此，在声音收录脚本中，包含实际声音合成中作为要合成的字符串输入的字符串或与其类似的字符串的概率高，从而，可提高实际声音合成的品位。

接着，按照如上所述生成的任务所对应的声音收录脚本，收录讲话者的声音(S26)。这时一种通常的工序：在演播室邀请与任务相应的讲话者(配声演员等)按照脚本讲，用话筒收录其声音，记录在录音机中。

最后，由收录的声音构筑韵律词典和波形词典(S27)。根据该收录声音构筑词典的详细处理，不是本申请的对象，可照用公知的算法和处理方法，因而这里省略其说明。

对全部任务重复进行上述处理(S28)。在如上所述，通过单词变形处理，把一个单词词典作为与讲话者或感情、状况不同的任务虚拟对应的多个单词词典处理时，单词词典按原样，仅对应于单词变形规则不同的任务进行选择。S24～S27的处理不必对每个任务全部顺序进行，也可同时并行进行。

图7示出一个例子：根据与任务对应的单词变形规则，对收录在预定任务所对应的单词词典中的单词进行变形处理，进而，产生按字符串选出规则选出并与预定任务对应的声音收录脚本。

这里，单词变形规则是图3说明过的“任务2”所对应的变形规则，即在名字(游戏角色名)上附加“库恩”作为对游戏角色的招呼加以生成时的规则。字符串选择规则是：(1)变形后在3拍至8拍以内，(2)至少采用一个全部拍中每个均不同的语调类型的单词，(3)出现概率高的词优先，(4)预定收录在脚本中的字符串个数(超过该指定的时刻选择结束)。

在本例中，虽然“阿基约希库恩(あきよレくん)”、“姆茨约希库恩(むつよレくん)”均是6拍，且同样具有中间拍升高型语调类型(图中实线所示)，但“阿基约希”出现的概率高，因而选择“阿基约希库恩”，输出至脚本。又，“沙爱摩恩扎部劳乌库恩(さえもんさぶろぅくん)”是10拍，因而不输出至脚本。

在上述用于声音合成的词典构筑方法中，包含人工操作的生成词典及声音收录等现场作业，因而不能通过装置或程序来实现全部工序，但对于单词变形工序、字符串选出工序，可通过按照各自规则进行处理的装置或程序来实现。

图8是表示声音合成方法(这里，是采用如上所述生成的每个任务的单词词典、韵律词典和波形词典，进行实际声音合成的狭义的声音合成方法)的流程图。

首先，当通过没有图示的输入单元和游戏系统等输入要合成的字符串和指定任务时，根据该指定的任务，切换单词词典、韵律词典和波形词典，在词典构筑阶段进行单词变形处理时还切换单词变形规则(S31)。

接着，在词典构筑阶段进行单词变形处理时，按照上述切换的单词变形规则，对要合成的字符串进行单词变形处理(S32)。这里所用的单词变形规则，基本上按原样使用词典构筑阶段所用的规则。

接着，由单词词典或单词变形规则判定要合成字符串的语调类型(S33)。具体而言，比较要合成的字符串与收录在单调词典的单词，若是同一单词，则采用其语调类型；若不是，则采用同一拍数的单词中具有类似字符串的单词的语调类型。在没有同一单词时，操作者(游戏者)可从与要合成的字符串相同拍数的单词中可出现的全部语调类型中，通过未图示的输入单元任意进行选择。

这时，在上述单词变形处理阶段，对上述词典构筑中已说明的语调进行变形处理时，采用按照上述单词变形规则的语调类型。

接着，根据要合成的字符串与语调类型，从韵律词典选择韵律模型数据(S34)，根据选择的韵律模型数据，从波形词典选择与要合成的字符串的各字符对应的波形数据(S35)，该选择的波形数据彼此连接(S36)，生成合成声音数据。

关于S34～S36的处理细节，不是本申请的对象，可原样采用公知的算法和处理方法，因而省略其说明。

图9是本发明声音合成装置的功能框图，图中，11-1、11-2、……11-11是任务1、任务2……任务n所用的词典，12-1、12-2、……12-n是任务1、任务2、……任务n所用变形规则，13是词典、变形规则切换单元，14是单词变形单元，15是语调类型判定单元，16是韵律模型选择单元，17是波形选择单元，18是波形连接单元。

任务1～任务n所用词典11-1～11-n，分别是任务1～任务n用的单词词典、韵律词典和波形词典(的存储部)。任务1～任务n用变形规则12-1～12-n分别是任务1～任务n用的单词变形规则(的存储部)。

词典、变形规则切换单元13，根据与要合成的字符串一起输入的指定任务，切换使用的任务1～任务n用词典11-1～11-n及任务1～任务n用变形规则12-1～12-n并分别选择该词典和规则中之一，向各部分提供。

单向变形单元14，按照上述选择的单词变形规则，对要合成的字符串进行变形处理。语调类型判定单元15，根据选择的单词词典或单词变形规则，判定要合成的字符串的语调类型。

韵律模型选择单元，根据要合成的字符串与语调类型，从选择的韵律词典选择韵律模型数据。波形选择单元17，根据选择的韵律模拟数据，从选择的波形词典选择与要合成字符串的各字符对应的波形数据。波形连接单元18相互连接选择的波形数据，生成合成声音数据。

本说明书记载的最佳形态仅是例示，而不是用以限定。发明范围由所附权利要求所示，落入该权利要求精神中的全部变形均包含在本发明中。

Claims

1.一种采用单词词典、韵律词典和波形词典生成声音信息的声音合成方法，其特征在于，该方法包括下述步骤：

设定讲话者或讲话时感情、状况或讲话内容中至少一个不同的多个声音合成处理任务；

至少构筑与各任务对应的韵律词典和波形词典；

在与任务指定的同时输入要合成的字符串时，用与该任务对应的单词词典、韵律词典和波形词典进行声音合成处理。

2.一种用于声音合成的词典构筑方法，是一种构筑讲话者或讲话时感情、状况或讲话内容中至少一个不同的多个声音合成处理任务各自对应的单词词典、韵律词典和波形词典的词典构筑方法，其特征在于，该方法包括下述步骤：

生成与任务对应的单词词典；

从单词词典的全部单词中选出可成为模型的字符串生成声音收录脚本；

按照声音收录脚本收录讲话者的声音；

由所述收录的声音构筑韵律词典和波形词典；

对各任务进行上述步骤。

3.一种用于声音合成的词典构筑方法，是一种构筑讲话者或讲话时感情、状况或讲话内容中至少一个不同的多个声音合成处理任务各自对应的单词词典、韵律词典和波形词典的词典构筑方法，其特征在于，该方法包括下述步骤：

生成与任务对应的单词词典和单词变形规则；

按照与所述任务对应的单词变形规则，对与任务对应的单词词典中包含的全部单词进行变形处理；

从经变形处理的单词词典中的全部单词选出可成为模型的字符串生成声音收录脚本；

根据声音收录脚本收录讲话者的声音；

由所述收录的声音构筑韵律词典和波形词典；

对各任务进行上述步骤。

4.一种用于声音合成的词典构筑方法，是一种构筑单词词典、与讲话者或讲话时的感情、状况之一不同的多个声音合成处理任务分别对应的韵律词典和波形词典的词典构筑方法，其特征在于，该方法包括下述步骤：

生成与任务对应的单词变形规则；

按照与任务对应的单词变形规则，对单词词典所包含的全部单词进行变形处理；

根据声音收录脚本收录讲话者的声音；

由所述收录的声音构筑韵律词典和波形词典；

对各任务进行上述步骤。

5.一种采用与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典和波形词典进行声音合成的方法，其特征在于，该方法包括下述步骤：

根据与要合成的字符串一起输入的任务指定，切换单词词典、韵律词典和波形词典；

采用切换后的单词词典、韵律词典和波形词典，对与要合成的字符串对应的声音信息进行合成处理。

6.如权利要求5所述的声音合成方法，其特征在于，在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典时，该声音合成处理包括下述步骤：

从单词词典判定要合成的字符串的语调类型；

根据要合成的字符串与语调类型，从韵律词典选择韵律模型数据；

根据选择的韵律模型数据，从波形词典选择与要合成的字符串各字符对应的波形数据；

相互连接所述选择的波形数据。

7.一种采用与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典和波形词典及单词变形规则进行声音合成的方法，其特征在于，该方法包括下述步骤：

根据与要合成的字符串一起输入的任务指定，切换单词词典、韵律词典、波形词典和单词变形规则；

按照单词变形规则对要合成的字符串进行变形处理；

采用切换后的单词词典、韵律词典和波形词典对与变形处理后的字符串对应的声音信息进行合成处理。

8.如权利要求7所述的声音合成方法，其特征在于，在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典时，该声音合成处理包括下述步骤：

从单词词典或单词变形规则判定要合成的字符串的语调类型；

根据要合成的字符串和语调类型，从韵律词典选择韵律模型数据；

根据选择的韵律模型数据，从波形词典选择与要合成的字符串的各字符对应的波形数据；

相互连接所述选择的波形数据。

9.一种采用单词词典、与讲话者或讲话时的感情、状况之一不同的多个声音合成处理任务分别对应的韵律词典、波形词典和单词变形规则的声音合成方法，其特征在于，该方法包括下述步骤：

根据与要合成的字符串一起输入的任务指定，切换韵律词典、波形词典和单词变形规则；

按照单词变形规则对要合成的字符进行变形处理；

采用单词词典、切换后的韵律词典和波形词典，对与变形处理后的字符串对应的声音信息进行合成处理。

10.如权利要求9所述的声音合成方法，其特征在于，在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典且单词变形规则是收录字符串变形规则的单词变形规则时，该声音合成处理包括下述步骤：

相互连接所述选择的波形数据。

11.一种采用与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典和波形词典的声音合成装置，其特征在于，它包括：

根据与要合成的字符串一起输入的任务指定，切换单词词典、韵律词典和波形词典的单元；

采用切换后的单词词典、韵律词典和波形词典，对与要合成的字符串对应的声音信息进行合成处理的单元。

12.如权利要求11所述的声音合成装置，其特征在于，在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典时，声音合成处理单元包括：

由单词词典判定要合成字符串的语调类型的单元；

根据要合成的字符串和语调类型，从韵律词典选择韵律模型数据的单元；

根据选择的韵律模型数据，从波形词典选择与要合成的字符串的各字符对应的波形数据的单元；

相互连接所述选择的波形数据的单元。

13.一种采用与讲话者或讲话时的感情、状况或讲话内容中至少一个不同的多个声音合成处理任务分别对应的单词词典、韵律词典和波形词典及单词变形规则的声音合成装置，其特征在于，它包括：

根据与要合成的字符串一起输入的任务指定，切替单词词典、韵律词典、波形词典和单词变形规则的单元；

按照单词变形规则对要合成的字符串进行变形处理的单元；

采用切换后的单词词典、韵律词典和波形词典，对与变形处理后的字符串对应的声音信息进行合成处理的单元。

14.如权利要求13所述的声音合成装置，其特征在于，在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典且单词变形规则是收录字符串变形规则的单词变形规则时，声音合成处理单元包括：

由单词词典或单词变形规则判定要合成字符串的语调类型的单元；

根据要合成字符串与语调类型，从韵律词典选择韵律模型数据的单元；

根据选择的韵律模型数据，从波形词典选择与要合成字符串各字符对应的波形数据的单元；

相互连接所述选择的波形数据的单元。

15.一种采用单词词典、与讲话者或讲话时的感情、状况之一不同的多个声音合成处理任务分别对应的韵律词典、波形词典和单词变形规则的声音合成装置，其特征在于，它包括：

根据与要合成的字符串一起输入的任务指定，切换韵律词典、波形词典和单词变形规则的单元；

按照单词变形规则对要合成的字符串进行变形处理的单元；

采用单词词典、切换后的韵律词典和波形词典对与变形处理后的字符串对应的声音信息进行合成处理的单元。

16.如权利要求15所述的声音合成装置，其特征在于，在各词典是收录许多至少含一个字符的单词及其语调类型的单词词典、收录表示对收录于所述单词词典中的单词的韵律的韵律模型数据中的代表性韵律数据的韵律词典、把收录声音作为合成单位的声音数据加以收录的波形词典且单词变形规则是收录字符串变形规则的单词变形规则时，声音合成处理单元包括：

从单词词典或单词变形规则判定要合成字符串的语调类型的单元；

根据要合成字符串与语调类型从韵律词典选择韵律模型数据的单元；

根据选择的韵律模型数据，从波形词典选择与要合成的字符串各字符对应的波形数据的单元；

相互连接所述选择的波形数据的单元。