CN1234109C

CN1234109C - 语调生成方法、语音合成装置、语音合成方法及语音服务器

Info

Publication number: CN1234109C
Application number: CNB028163397A
Authority: CN
Inventors: 齐藤隆; 阪本正治
Original assignee: International Business Machines Corp
Current assignee: New York, Ang communications company
Priority date: 2001-08-22
Filing date: 2002-08-01
Publication date: 2005-12-28
Anticipated expiration: 2022-08-01
Also published as: JPWO2003019528A1; US20050114137A1; US7502739B2; CN1545693A; WO2003019528A1; JP4056470B2

Abstract

本发明可提供一种能够实现一种在语音合成的语调模式的生成中，有效地活用存储于数据库中的实际讲话的F0模式，自然性高并且可以灵活而正确地再现讲话者的讲话特征的语音合成系统。在生成语音合成的语调的语调生成方法中，根据作为语音合成的对象的文本的语言信息，预测该文本的语调的轮廓，根据预测的语调的轮廓，从存储实际讲话的语调模式数据库中选择语调模式作为文本的语调模式。并且，在语调模式的轮廓预测及语音的波形元素的选择中反映预先被录音的语音的特征。

Description

语调生成方法、语音合成装置、语音合成方法及语音服务器

技术领域

本发明涉及语音合成方法及其装置，特别涉及在语音的语调的生成方法中具有特征的语音合成方法及其装置。

背景技术

在利用对文本数据进行语音输出的语音合成方式的语音合成(文本语音合成)技术中，生成接近人讲话的自然语调是一个很大的课题。

历来，广泛利用的语调控制方法，是以藤崎模型为代表的重音分量和声调分量重叠产生的语调模式的生成模型。此模型，可与物理的说话现象相对应，可以灵活表现位置、语调的重建等等。

不过，这种模型，与语音的语言信息的对应很复杂，所以很困难。因此，控制在语音合成之际实际使用的重音、声调分量的大小、时间上的配置等等的参数，基于言语信息的精密控制是困难的，结果，进行过度简化而只表现基本的韵律特征的情况很多。这种情况，在历来的语音合成中，成为难以控制讲话者特征及讲话风格等一个原因。

与此相对，近年来，为了生成自然性更高的韵律，提出了采用基于实际语音现象的数据库(素材库)的技术。

作为这种现有技术，比如，存在在特开2000-250570号公报公开的技术及在特开平10--116089号公报中公开的技术。

在这些公报中所描述的技术，是从存储于数据库中的实际语音的语调的基频(F0)模式之中选择适当的F0模式，应用于作为语音合成对象的文本(以下称其为对象文本)，判断模式并进行语音合成。由此，与由上述的重音分量和声调分量产生的语调模式的生成模型相比较，可实现由良好韵律产生的语音合成。

利用这些F0模式的语音合成技术中的任何一种都是根据对象文本的语言信息(词类、重音位置、重音短语等的信息)，判断或预测规定韵律的范畴，将属于数据库的该韵律范畴F0模式应用于对象文本作为语调模式。

另外，在有多个F0模式属于预定的韵律范畴时，以平均化及采用平均最接近的采样等适当方法选择一个具有代表性的F0应用于对象文本。

不过，利用现有的F0模式的语音合成技术，如上所述，因为是利用韵律范畴使语言信息与F0模式直接对应而判断对象文本的语调模式，所以存在合成语音的品质依赖于针对对象文本进行的韵律范畴的判断，或者不能将适当的F0模式应用于不能分类为数据库中的F0模式的韵律范畴的限制。

此外，在判断对象文本的韵律范畴时，该对象文本的语言信息，即重音的位置、及短音节(mora)和在语音的前后是否存在停顿(静音区间)这样一些信息有很大的影响。因此，即使是存在具有与实际讲话的音调，高度类似的模式形状的F0模式，因为这些语言信息不同，也会产生不能应用于韵律范畴不同的场合的徒劳无功。

另外，在上述现有的语音合成技术中，由于重视作为F0模式的数据的处理难易程度，进行模式形状本身的平均化及模型化，在表现数据库的F0变动上是受到限制的。

就是说，合成的语音，很难灵活地合成为以如朗读样的标准的语调统一的、具有动态特征的语音(比如，含有感情的讲话的语音及赋予以配音等进行的特定的角色为特征的语音)。

但是，文本语音合成(TTS：Text-speech Synthesis)，是以任意的文句的语音合成为目的的技术，但在实际上应用合成语音的领域中，也有很多比较有限的语汇及句型可以应用的情况。比如，CTI(Computer Telephony Intergration)系统及汽车导航系统等的应答语音及机器人的语音对话功能的应答句就是典型的例子。

在将语音合成技术应用于这些领域时，因为对于确定的语汇及句型可以预先准备实际语音的数据，所以在强烈要求语音的自然性时，优先利用的不是合成语音而是实际语音(录音语音)。不过，如果考虑未登录语的合成、语汇·句型的添加变更等的处理的难易程度以及任意文句的扩展，则合成语音担负的作用极大。

从这一背景出发，在语汇比较有限的任务中，研究了利用录音语音提高合成语音的自然性的方法。作为混合录音语音和合成语音的现有技术，比如，存在在下面的文献1-3中公开的技术。

文献1：A.W.Black et al.，″Limited Domain Synthesis″，Proc.of ICSLP 2000.

文献2：R.E.Donovan et al.，″Phrase Splicing and VariableSubstitution Using the IBM Trainable Speech Sythesis System″，Proc.of ICASSP 2000.

文献3：片江他：利用句型-韵律数据库的定型句合成系统，音响学会讲演论文集，2-4-6，Mar，1996.

在文献1或文献2公开的现有技术，录音语音的语调，基本上按照其原样利用。因而，作为录音语音使用的短语，必须在实际使用的语境中录音。另一方面，在文献3中公开的技术，是将生成F0模式用的模型的参数从实际语音中抽取而应用于具有可变空位的定型句的合成。因而，如果是相同形式的句子，即使是对于不同的短语也可能生成语调，但仍然遗留有只能处理对应的定型句的限制。

此处，如果考虑将合成语音的短语插入到录音语音的短语之间，或连接到其前后的情况，假如实际语音的各个讲话的抑扬顿挫、强调及感情的程度、讲话意图的差异等等种种讲话的动作，则不能说固定值的合成短语的语调一定适合各个录音短语的环境。

不过，在上述文献1-3中公开的现有技术中，为考虑这些实际语音的讲话的动作，就成为语音合成的语调生成的很大的限制。

于是，本发明的一个目的是要在语音合成的语调模式的生成中，实现一种自然性高并且可以灵活而正确地再现讲话者的讲话特征的语音合成系统。

另外，本发明的另一目的是在语音合成中，对于实际讲话语调的F0模式的数据库(素材库)，可以通过不取决于韵律范畴而收缩F0模式，有效地活用存储于数据库中的实际讲话的F0模式。

此外，本发明的另一目的是在混合录音语音和合成语音的语调时进行平滑连接。

发明内容

为达到上述目的的本发明的特征在于，在生成语音合成的语调的语调生成方法中，根据作为语音合成的对象的文本的语言信息，预测该文本的语调的轮廓，根据预测的语调的轮廓，从存储实际讲话的语调模式数据库中选择语调模式作为文本的语调模式。

此处，这种语调轮廓的预测，可以根据利用文本的语言信息进行分类的韵律范畴进行。

此外，在此语调生成方法中，其构成可以是，在选择语调模式之后，根据预测的上述语调的轮廓，对所选择的该语调模式的频率级进行调整。

另外，本发明的特征在于，在进行语音合成的语调生成的语调生成方法中，包含对构成作为语音合成的对象的文本的每个假定重音短语预测语调的轮廓的步骤；根据预测的每个假定重音短语的语调的轮廓，从存储实际讲话的语调的数据库中选择语调模式的步骤；和将选择的每个假定重音短语的语调模式进行连接的步骤。

更优选的是这一预测语调轮廓的步骤，包含在预测预定的上述假定重音短语的轮廓之际，在上述文本中该假定重音短语的紧前方存在另一个假定重音短语的场合，对该紧前方的另一个假定重音短语的语调的轮廓的预测结果进行参考而对该预定的假定重音短语的语调的轮廓进行预测的步骤。

再更优选的是这一预测语调轮廓的步骤，在假定重音短语存在于存储于预定的存储装置中的预先被录音的录音语音的短语中的场合，从存储装置取得与此短语的此假定重音短语相对应的部分的语调有关的信息并将此语调的轮廓作为预测结果。

于是，此外，这一预测语调轮廓的步骤，在上述文本中在该假定重音短语的紧前方存在另一个假定重音短语的场合，对该紧前方的另一个假定重音短语的语调的轮廓的预测结果进行参考而对假定重音短语的语调的轮廓进行预测的步骤；在文本中预定的假定重音短语的前后至少一方存在与存储于预定的存储装置中的预先被录音的录音语音的短语相对应的另一个假定重音短语的场合，参考针对与该录音语音的短语相对应的另一个假定重音短语的语调的轮廓的预测结果而预测假定重音短语的语调的轮廓的步骤。

另外，此语调模式选择步骤，更详言之，包含从存储于数据库中的实际讲话的语调模式之中，选择始端终端间距离接近假定重音短语的语调的轮廓的语调模式的步骤以及在所选择的语调模式中选择针对假定重音短语的音韵类的距离最小的语调模式的步骤。

另外，本发明可以包括分析作为处理对象的文本取得语言信息的文本分析单元；存储实际讲话的语调模式的数据库；用来生成对文本进行语音输出的韵律的韵律控制单元；以及根据由此韵律控制单元生成的韵律生成语音的语音生成单元的语音合成装置而实现。此韵律控制单元包括：根据由文本分析单元取得的语言信息对构成此文本的每个假定重音短语预测语调的轮廓的轮廓预测单元；根据由此轮廓预测单元预测的语调的轮廓从数据库中选择语调模式的形状元素选择单元；以及将此形状元素选择单元所选择的每个假定重音短语的语调模式连接起来生成全部文本的语调模式的形状元素连接单元。

更详言之，此轮廓预测单元，至少利用对假定重音短语的音段内的频率级的最大值、此音段的始端及终端的相对级偏移规定此假定重音短语的语调的轮廓。

另外，此形状元素选择单元，不是利用韵律范畴，而是从存储于数据库中的实际讲话的全部语调模式之中选择形状近似语调的轮廓者作为语调模式。

此外，此形状元素连接单元，将所选择的每个假定重音短语的语调模式，根据语调的轮廓调整频率级之后进行连接。

此外，此语音合成装置，其构成可以还包括容纳有关预先被录音的录音语音的语调的信息的另外的数据库。在此场合，轮廓预测单元，在假定重音短语存在于登录于另外的数据库中的录音短语中时，从这样的另外的数据库取得有关此录音短语的与此假定重音短语相对应的部分的语调的信息。

根据本发明，提供一种语音合成装置，进行文本语音合成，其特征在于：包括，分析作为处理对象的文本取得语言信息的文本分析单元；存储根据讲话特征准备的多个实际讲话的语调模式的数据库；利用存储于上述数据库中的语调模式生成用来对上述文本进行语音输出的韵律的韵律控制单元；以及根据由上述韵律控制单元生成的韵律生成语音的语音生成单元，通过切换使用上述数据库，进行反映上述讲话特征的语音合成，上述韵律控制单元具有，根据由上述文本分析单元取得的语言信息对构成上述文本的每个假定重音短语预测语调的轮廓的轮廓预测单元；根据由上述轮廓预测单元预测的上述语调的轮廓从上述数据库中选择语调模式的形状元素选择单元；以及将上述形状元素选择单元所选择的上述每个假定重音短语的语调模式连接起来生成上述文本整体的语调模式的形状元素连接单元。

根据本发明，提供一种语音合成装置，进行文本语音合成，其特征在于：包括，分析作为处理对象的文本取得语言信息的文本分析单元；存储有关讲话特征的信息的第一数据库；存储有关预先被录音的录音语音的波形的信息的第二数据库；音韵时长预测单元，根据从上述文本分析单元取得的语言信息生成应合成的音韵串的时长；语调模式生成单元，对构成上述文本的每个假定重音短语预测语调的轮廓，选择存储于上述数据库中的语调模式，按照所生成的应合成的韵律的时长调整所选择的语调模式，并将调整后的语调模式连接起来生成上述文本整体的语调模式；按照上述所生成的应合成的韵律的时长和上述语调模式生成单元所生成的上述文本整体的语调模式，选择针对上述文本的合成单位的波形元素的合成单位选择单元；将由上述合成单位选择单元所选择的波形元素结合生成合成语音的语音生成单元；上述合成单位选择单元从上述第一及第二数据库的信息中选择针对与录音语音的边界部分相对应的上述文本的合成单位的波形元素。

根据本发明，提供一种语音服务器，对应于经电话网实现的访问要求提供语音对话型的内容，其特征在于：包括，用来合成输出到上述电话网的语音的语音合成引擎和用来识别经上述电话网输入的语音的语音合成引擎；上述用来合成输出到上述电话网的语音的语音合成引擎，根据执行应用程序得到的文本的语言信息，对构成该文本的每个假定重音短语预测语调的轮廓，根据预测的上述每个假定重音短语的语调的轮廓，从存储实际讲话的语调模式的数据库中选择语调模式，将所选择的上述每个假定重音短语的语调连接起来而生成针对上述文本的语调模式，根据该语调模式合成语音并输出到电话网。

根据本发明，提供一种语音合成方法，进行文本语音合成，其特征在于：其构成包括：分析作为处理对象的文本取得语言信息；根据所取得的语言信息对构成上述文本的每个假定重音短语预测语调的轮廓；根据所预测的上述语调的轮廓从存储实际讲话的语调模式的数据库中选择语调模式；将所选择的上述每个假定重音短语的语调模式连接起来生成上述文本整体的语调模式；以及根据所生成的语调模式生成语音。

根据本发明，提供一种语音合成方法，进行文本语音合成，其特征在于：包括，分析作为处理对象的文本取得语言信息；将根据讲话特征准备的多个实际讲话的语调模式存储到数据库中；利用数据库中所存储的语调模式生成用来对上述文本进行语音输出的韵律；以及根据生成的韵律生成语音，通过切换使用上述数据库，进行反映上述讲话特征的语音合成，其中生成韵律的步骤包括，根据取得的语言信息对构成上述文本的每个假定重音短语预测语调的轮廓；根据预测的上述语调的轮廓从上述数据库中选择语调模式；以及将所选择的上述每个假定重音短语的语调模式连接起来生成上述文本整体的语调模式。

根据本发明，提供一种语音合成方法，进行文本语音合成，其特征在于：包括，分析作为处理对象的文本取得语言信息；将有关讲话特征的信息存储到第一数据库；将有关预先被录音的录音语音的波形的信息存储到第二数据库；根据取得的语言信息生成应合成的音韵串的时长；对构成上述文本的每个假定重音短语预测语调的轮廓，选择存储于上述数据库中的语调模式；按照所生成的应合成的韵律的时长调整所选择的语调模式，并将调整后的语调模式连接起来生成上述文本整体的语调模式；按照上述所生成的应合成的韵律的时长和所生成的上述文本整体的语调模式，选择针对上述文本的合成单位的波形元素；将所选择的波形元素结合生成合成语音；其中从上述第一及第二数据库的信息中选择针对与录音语音的边界部分相对应的上述文本的合成单位的波形元素。

根据本发明，提供一种语音合成方法，对应于经电话网实现的访问要求提供语音对话型的内容，其特征在于：包括，合成输出到上述电话网的语音和识别经上述电话网输入的语音；上述合成输出到上述电话网的语音的步骤，根据执行应用程序得到的文本的语言信息，对构成该文本的每个假定重音短语预测语调的轮廓，根据预测的上述每个假定重音短语的语调的轮廓，从存储实际讲话的语调模式的数据库中选择语调模式，将所选择的上述每个假定重音短语的语调连接起来而生成针对上述文本的语调模式，根据该语调模式合成语音并输出到电话网。

此外还有，本发明可以作为利用计算机执行上述的语调生成方法或使计算机作为上述语音合成装置工作的程序而实现。

此程序，可通过存储于磁盘、光碟、半导体存储器及其他记录媒体上进行分发或经由网络分发而提供。

此外，本发明，可以作为配备上述语音合成装置的功能而提供的电话对应型的服务的语音服务器而实现。

附图说明

图1为示出适于实现本实施方式的语音合成技术的计算机装置的硬件构成例的示意图。

图2为示出利用图1所示的计算机装置实现的本实施方式的语音合成系统的构成图。

图3为说明在本实施方式中预测F0形状目标之际将讲话方面的限制组合到预测模型中的方式的说明图。

图4为说明利用本实施方式的韵律控制单元进行的语音合成的动作的流程的流程图。

图5为示出利用本实施方式的轮廓预测单元所预测的F0形状目标的模式形状的示例的示图。

图6为示出利用本实施方式的最优形状元素选择单元所选择的最优F0形状元素的模式形状的示例的示图。

图7为示出将图6所示的最优F0形状元素的F0模式与位于其紧前方的假定重音短语的F0模式相连接的情况的示图。

图8为示出利用本实施方式生成的语调模式和实际讲话生成的语调模式的比较例的示图。

图9为示出利用本实施方式对图8的每个对象文本的假定重音短语选择的最优F0形状元素的示图。

图10为示出安装本实施方式的语音合成系统的语音服务器的构成例的示图。

图11为示出利用本发明的另一实施方式的语音合成系统的构成的示图。

图12为说明在本实施方式中在利用录音语音产生的两个短语中间插入由合成语音产生的短语时的F0模式的轮廓预测的示图。

图13为说明利用本实施方式的F0模式生成单元产生的F0模式的生成处理的流程的流程图。

图14为说明利用本实施方式的合成单位选择单元产生的合成单位元素的生成处理的流程的流程图。

具体实施方式

下面根据附图示出的实施方式对本发明予以详细说明。

图1所示的计算机装置的构成包括：CPU(中央处理装置)101、经系统总线与CPU101相连接的M/B(主板)芯片组102及主存储器103、经PCI总线等高速总线与M/B(主板)芯片组102相连接的视频卡104、声卡105、硬盘106及网络接口107、还有从此高速总线经桥接电路110及ISA总线等低速总线与M/B(主板)芯片组102相连接的软盘驱动器108及键盘109。另外，声卡105与进行语音输出的扬声器111相连接。

另外，图1不过是实现本实施方式的计算机装置的构成的示例，如果可以应用本实施方式，也可以采取其他种种的系统构成。比如，可以设置语音机构作为M/B(主板)芯片组102的功能来代替声卡105。

参照图2，可知本实施方式的语音合成系统包含：分析作为语音合成的对象的文本的文本分析单元10；用来添加语音合成的讲话的韵律的韵律控制单元20；生成语音波形的语音生成单元30以及存储利用实际讲话产生的语调的F0模式的F0形状数据库40。

图2所示的文本分析单元10及韵律控制单元20，是通过由扩展到图1所示的主存储器103的程序控制CPU101而实现的虚拟软件块。控制CPU101而使这些功能实现的该程序，可通过存储于磁盘及光碟、半导体存储器及其他记录媒体上进行分发或经由网络分发而提供。在本实施方式中，是经图1所示的网络接口107及软盘驱动器108、未图示的CD-ROM驱动器等输入该程序而存放于硬盘106中。于是，将存放于硬盘106中的程序读入到主存储器103、进行扩展并由CPU101执行而实现图2所示的各构成单元的功能。

文本分析单元10，输入成为语音合成的对象的文本(输入文本串)进行句法分析等语言分析处理。由此，作为处理对象的输入的文本串被分解为各个单词而被赋予有关读音及重音的信息。

韵律控制单元20，根据由文本分析单元10产生的分析结果，进行添加讲话韵律的处理，具体言之，就是对构成发声的各音素确定音高、音长及音强，进行语音位置的设定处理。在本实施方式中，为了实施这一处理，如图2所示，设置有轮廓预测单元21、最优形状元素选择单元22及形状元素连接单元23。

语音生成单元30，比如，由图1所示的声卡105实现，接受由韵律控制单元20进行的处理的结果，将音素相应于以音节等存储的合成单位进行连接并进行生成语音波形(语音信号)的处理。所生成的语音波形，经扬声器111输出。

F0形状数据库40，比如，由图1所示的硬盘106实现，将利用预先收集的实际讲话产生的语调的F0模式分类为韵律范畴进行存储。并且，此F0形状数据库40，相应于意欲合成的语音的风格准备数个种类，可以切换使用。比如，除了存储标准的朗读调的F0模式的F0形状数据库40之外，可以还准备阳刚调的讲话及阴沉调的讲话、包含发怒的讲话这样一些带有感情的讲话的F0模式的F0形状数据库40。另外，也可以使用存储有以动画及电影的配音方式进行的那种带有特定的角色的特征的特殊的讲话的F0模式的F0形状数据库40。

下面对本实施方式的韵律控制单元20的功能予以详细说明。

韵律控制单元20，对于每一句都将由文本分析单元10分析的对象文本取出，通过应用存储于F0形状数据库40中的语调的F0模式而生成该对象文本的语调(关于韵律的重音及停顿的信息可由利用文本分析单元10分析的语言信息得到)。

在本实施方式中，在由存储于数据库中的实际讲话的语调的F0模式中抽出F0模式之际，进行不取决于韵律范畴的检测。不过，在本实施方式中，取决于这一韵律范畴的文本的区别本身对于利用轮廓预测单元21进行F0形状目标预测的处理也是必需的。

然而，由于对韵律范畴的选择，重音的位置及短音节、以及在语音的前后是否有停顿这样的语言信息具有很大的影响，所以如果在抽取F0模式之际也利用韵律范畴，则除了语调的模式形状之外，重音的位置及有无短音节这样的要素对检索都有影响，具有最优模式形状的F0模式会从检索中漏掉。

因此，在确定F0模式的阶段，本实施方式提供的不取决于模式形状的只与模式形状对称的检索是有用的。

下面，对于在本实施方式的韵律控制中，作为针对对象文本应用F0模式之际的单位的F0形状元素单位予以定义。

在本实施方式中，不管在实际的讲话中是否形成重音短语，是以可形成重音短语的语言上的音段单位(以下称此音段单位为假定重音短语)切出的实际语音的F0音段作为F0形状元素的单位。各F0形状元素，是由在构成短音节的元音的中心部的F0值(三点中值)采样表示的。另外，在F0形状数据库40中，以此F0形状元素作为单位存储实际讲话的语调的F0模式。

在本实施方式的韵律控制单元20中，轮廓预测单元21，输入有关作为利用文本分析单元10产生的语言处理的结果给出的假定重音短语的语言信息(重音型、短语的长度(短音节数)、构成短语的短音节的音韵类)和关于在假定重音短语之间有无停顿的信息，根据这些信息，预测每个假定重音短语的F0模式的轮廓。将此预测的F0模式的轮廓称为F0形状目标。

此处，预定的假定重音短语的F0形状目标，是由该假定重音短语的音段内的频率级的最大值(最大F0值)、自模式始端点的最大F0值的相对级偏移(始端偏移)、自模式终端点的最大F0值的相对级偏移(终端偏移)三个参数规定的。

就是说，F0形状目标的预测，是根据以上述语言信息进行分类的韵律范畴，利用统计模型对此三个参数进行预测的处理。

预测的F0形状目标，临时保持于图1所示的CPU101的高速缓存及主存储器103中。

另外，在本实施方式中，在上述语言信息之外，将讲话方面的限制组合到预测模型中。就是说，采纳一直到现在的假定重音短语的紧前方实现的语调对下一个讲话的语调级等给予影响的假定，将对于紧前方的假定重音短语的音段的预测结果反映在对于处理中的假定重音短语的音段的F0形状目标的预测上。

图3为说明将讲话方面的限制组合到预测模型中的方式的说明图。

如图3所示，对于正在执行预测的假定重音短语(当前假定重音短语)的最大F0值的预测上合并已经结束预测的紧前方的假定重音短语的最大F0值。另外，在当前假定重音短语的始端偏移及终端偏移的预测上合并紧前方的假定重音短语的最大F0值及当前假定重音短语的最大F0值。

另外，轮廓预测单元21的预测模型的学习，是利用对每个假定重音短语得到的最大F0值的实测值范畴化的值。就是说，轮廓预测单元21，将F0形状目标作为预测之际的预测主要因素，在基于上述的语言信息的韵律范畴之上增加此假定重音短语每一个的最大F0值的实测值的范畴执行用于预测的统计处理。

最优形状元素选择单元22，从存储于F0形状数据库40中的F0形状元素(F0模式)之中，选择对处理中的当前假定重音短语适用的F0形状元素的候补。此选择，包括根据利用轮廓预测单元21预测的F0形状目标大致抽取F0形状元素的预备选择和根据当前假定重音短语的音韵类进行适用于该当前假定重音短语的最佳F0形状元素的选择。

在预备选择中，最优形状元素选择单元22，首先取得利用轮廓预测单元21预测的当前假定重音短语的F0形状目标，在规定该F0形状目标的参数之中，利用两个始端偏移和终端偏移，计算始端和终端间的距离。于是，从存储于F0形状数据库40中的F0形状目标之中，选择计算出的始端终端间距离接近F0形状目标的始端终端间距离(比如小于预先设定的阈值)的全部F0形状元素作为最优F0形状元素的候补。所选择的F0形状元素，相应于与F0形状目标的轮廓的距离进行排位，并保持于CPU101的高速缓存及主存储器103中。

此处所谓的F0形状元素和F0形状目标的轮廓之间的距离，是规定该F0形状目标的参数之中的始端偏移及终端偏移和与所选择的F0形状元素的参数相当的值互相近似的程度。利用这两个参数，表示F0形状元素和F0形状目标的轮廓的形状的差异。

之后，最优形状元素选择单元22，对作为通过预备选择按照和目标轮廓的距离进行排位的最优F0形状元素的候补的各F0形状元素，计算构成当前假定重音短语的音韵类的距离。此处所谓的音韵类的距离，是F0形状元素和当前假定重音短语的音韵(音素)的排列上的近似的程度。在此音韵排列的评价中，使用对每个短音节定义的音韵类。此音韵类，是考虑到有无辅音及对辅音进行调音的样式的差异对短音节进行分类的结果。

就是说，此处，对于在预备选择中所选择的全部F0形状元素，计算与当前假定重音短语的短音节序列的音韵类的一致度，求出音韵类的距离，对各F0形状元素的音韵的排列进行评价。于是，将所得到的音韵类的距离最小的F0形状元素选择为最优F0形状元素。利用此音韵类间距离的比较，可反映出F0形状易于受到与该F0形状元素相对应的假定重音短语的构成音韵的影响。所选择的最优F0形状元素，保持于CPU101的高速缓存及主存储器103中。

形状元素连接单元23，利用最优形状元素选择单元22取得所选择的最优F0形状元素进行顺序连接，可得到针对作为韵律控制单元20的处理单位的一句的最终的语调模式。

最优F0形状元素的连接，具体言之，可通过下面的两种处理进行。

首先，将所选择的最优F0形状元素设定在合适的频率级上。这就是使所选择的最优F0形状元素的频率级的最大值与经过轮廓预测单元21处理而得到的对应的假定重音短语的音段的最大F0值匹配。此时，该最优F0形状元素本身没有任何变形。

其次，形状元素连接单元23，对每个短音节调整F0形状元素的时间轴，以使与应该合成的音韵串的时间配置相符合。此处所谓的应该合成的音韵串的时间配置，是根据对象文本的音韵串设定的各个音韵的持续时长。此音韵串的时间配置，是利用未图示的现有技术的音韵时长预测模块进行设定的。

之后，在此阶段，对F0的实际模式(由实际讲话产生的语调模式)施加变形。不过，在本实施方式中，因为是由最优形状元素选择单元22利用音韵类间距离选择最优F0形状元素，对该F0模式而言难以产生过度的变形。

以如上所述方式生成全部对象文本的语调模式并输出到语音生成单元30。

如上所述，在本实施方式中，利用最优形状元素选择单元22，从存储于F0形状数据库40中的全部F0形状元素之中，与韵律范畴无关地选择模式形状最近似F0形状目标的F0形状元素，用作假定重音短语的语调模式。就是说，作为最优F0形状元素选择的F0形状元素，与重音的位置及有无停顿等语言信息分离，只根据F0模式的形状进行选择。

因此，从生成语调模式的观点出发，可以不受语言信息的影响而有效地活用存储于F0形状数据库40中的F0形状元素。

此外，由于在选择F0形状元素时不考虑韵律范畴，在对开放数据的文本进行语音合成时，即使是不存在适合预定的假定重音短语的韵律范畴，也可以选择与F0形状目标相对应的F0形状元素而应用于该假定重音短语。在此场合，由于该假定重音短语不与既存的韵律范畴相当，可以认为该F0形状目标的预测本身的准确度降低。不过，与历来在这种场合，由于韵律范畴不能分类而不能合适地使用存储于数据库中的F0模式的情况不同，根据本实施方式，由于是只根据F0形状元素的模式形状进行检索，在预测的F0形状目标的准确度范围内，可以选择合适的F0形状元素。

另外，在本实施方式中，从存储于F0形状数据库40中的实际讲话产生的全部F0形状元素之中，选择最优F0形状元素而不进行平均化及模型化的处理。所以，虽然通过调整形状元素连接单元23的时间轴多少可使F0形状元素发生变形，但由实际讲话产生的F0模式的细节可以在合成语音上得到一定程度的反映。

因此，可以生成接近实际讲话的自然性高的语调模式。特别是，可以灵活而正确地再现由于语尾的音高上扬或延伸的语调的微妙的差异而产生的讲话特征(讲话者的习惯)。

由此，可以准备存储包含感情的讲话的F0形状元素的F0形状数据库40及存储动画等的配音的具有特征的角色的特殊的讲话的F0形状元素的F0形状数据库40，通过适当地切换，可能合成讲话特征不同的多种语音。

图4为说明利用上述的韵律控制单元20进行的语音合成的动作的流程的流程图。另外，图5至图7为示出在图4所示的动作的各个阶段取得的F0模式的形状的示图。

如图4所示，韵律控制单元20，如果将关于对象文本的由文本分析单元10得到的分析结果输入(步骤401)，则首先，由轮廓预测单元21，对每一个假定重音短语进行F0形状目标的预测。

就是说，根据作为由文本分析单元10产生的分析结果的语言信息，预测假定重音短语的音段内的最大F0值(步骤402)，接着，根据由该语言信息及在步骤402中决定的最大F0值来预测始端偏移及终端偏移(步骤403)。此F0形状目标的预测，是从前头开始顺序地对构成对象文本的假定重音短语执行。所以，关于第二个以下的假定重音短语，由于在其紧前方已经存在预测处理结束的假定重音短语，如上所述，最大F0值、始端偏移及终端偏移的预测，也可利用此紧前方的假定重音短语的预测结果。

图5为示出如此得出的F0形状目标的模式形状的一例。

之后，关于各假定重音短语，根据F0形状目标，由最优形状元素选择单元22进行预备选择(步骤404)。具体说，首先，将始端终端间距离接近F0形状目标的F0形状元素，从F0形状数据库40中检出作为最优F0形状元素。于是，对于所选择的全部F0形状元素，将作为始端偏移及终端偏移的要素的二维矢量定义为形状矢量。其次，对F0形状目标和各F0形状元素，计算形状矢量间的距离，并将F0形状元素按照其距离降序排列。

之后，对于通过预备选择抽取的最优F0形状元素的候补，进行音韵排列评价，将与F0形状目标对应的假定重音短语的音韵排列中的音韵类的距离最小的F0形状元素选作最优F0形状元素(步骤405)。

图6为示出如此选择的最优F0形状元素的模式形状的示例的示图。

其后，由形状元素连接单元23将对于各假定重音短语选择的最优F0形状元素进行连接。

就是说，对各最优F0形状元素的频率级的最大值进行设定使其与对应的F0形状目标的最大F0值符合(步骤406)，接着，对各最优F0形状元素的时间轴进行调整使其与应该合成的音韵串的时间配置符合(步骤407)。

下面，对于将本实施方式应用于实际的文本而生成语调模式的具体示例予以说明。

在图8中，对“それは泥沼のような逆境から抜け出したという、切ないほどの願望たろうか”这样的文本进行语调模式比较。

如图所示，这一段文本，可分解为10个假定重音短语“それわ”、“どろぬまの”、“よ^—な”、“ぎゃっきよ—”、“から”、“ぬけだした^いと”、“いう”、“せつな^いほどの”、“がんぼ—”及“だろおか”。

于是，以各假定重音短语作为对象，进行最优F0形状元素的检出。

图9为示出利用本实施方式对上述的每个对象文本的假定重音短语选择的最优F0形状元素的示图。在各假定重音短语的一栏中，上段表示输入的假定重音短语的环境属性，下段表示所选择的最优F0形状元素的属性信息。

参照图9，可见，对于上述10个假定重音短语分别选择的F0形状元素并列如下：

“それわ”对“これが”、“どろぬまの”对“よろこびも”、

“よ^-な”对“ま^っき”、“ぎゃっきよ—”对“しゅっきん”、

“から”对“よび”、“ぬけだした^いと”对“ねじまげた^のだ”、

“いう”对“いう”、“せつな^いほどの”对“じゅっぷ^んかんの”、

“がんぼ—”对“ほんぼい”、“だろ^おか”对“みえ^ると”。

连接这些F0形状元素而得到的文本的全部语调模式，如图8所示，成为极接近实际讲话的同一文本的语调模式。

如上合成的语音合成系统，可以用在将合成语音作为输出的种种系统中及采用这种系统的服务中。比如，向作为来自电话网的访问提供电话对应型的服务的语音服务器的TTS(Text-speech Synthesis)引擎，就可以采用本实施方式的语音合成系统。

图10所示的语音服务器1010，在与WEB应用服务器1020相连接的同时，经过VoIP(Voice over IP)(基于网际协议的语音传输)网关1030与公共线路电话网(PSTN：公用交换电话网)1040相连接而提供电话对应型的服务。

另外，在图10所示的构成中，分别设置有语音服务器1010、WEB应用服务器1020及VoIP网关1030，实际上也可能是在一台硬件(计算机装置)中设置各种功能的构成。

语音服务器1010，是对经过电话网1040实现的访问提供利用语音对话的服务(内容)的服务器，可由个人计算机及工作站、其他计算机装置实现。如图10所示，语音服务器1010，具备由该计算机装置的硬件及软件实现的系统管理部件1011、电话/媒体部件1012以及VoiceXML(语音可扩展置标语言)浏览器1013。

WEB应用服务器1020，容纳作为以VoiceXML记述的电话对应型的应用软件群的VoiceXML应用软件1021。

另外，VoIP网关1030，接受来自既有的电话网1040的访问，进行变换连接处理，以便接受利用语音服务器1010的指向IP网络的语音服务。为了实现这一功能，VoIP网关1030，主要备有作为和IP网络之间的接口的VoIP软件1031和作为和电话网1040之间的接口的电话接口1032。

在此构成中，如后所述，VoiceXML浏览器1013的功能，由图2所示的文本分析单元10、韵律控制单元20及语音生成单元30实现。于是，不是从扬声器111输出语音，语音信号是经VoIP网关1030输出到电话网1040。另外，虽然在图10中未明示记载，但语音服务器1010，具备与F0形状数据库40相当的存放实际讲话的语调的F 0模式的数据存放单元，在利用VoiceXML浏览器1013进行语音合成之际进行参照。

在语音服务器1010的构成中，进行对系统管理部件1011、VoiceXML浏览器1013的启动、停止及监视。

电话/媒体部件1012，在VoIP网关1030和VoiceXML浏览器1013之间进行电话呼叫的电话管理。

VoiceXML浏览器1013，由经电话网1040及VoIP网关1030接收到的来自电话机1050的电话呼叫的发出而启动并执行WEB应用服务器1020上的VoiceXML应用软件1021。

此处，VoiceXML浏览器1013，为了执行此对话处理，具有TTS引擎1014及Reco引擎1015。

TTS引擎1014，对于由VoiceXML应用软件1021输出的文本进行语音合成处理。作为这一TTS引擎1014，可采用本实施方式的语音合成系统。

Reco引擎1015，对经电话网1040及VoIP网关1030输入的电话语音进行识别。

在包含如上构成的语音服务器1010的提供电话对应型的服务的系统中，在从电话机1050发送电话呼叫经电话网1040及VoIP网关1030访问语音服务器1010时，在系统管理部件1011及电话/媒体部件1012的控制下，VoiceXML浏览器1013，执行WEB应用服务器1020上的VoiceXML应用软件1021。于是，按照VoiceXML应用软件1021指定的VoiceXML文档的描述，执行各呼叫的对话处理。

在此对话处理中，装载于VoiceXML浏览器1013上的TTS引擎1014，利用与图2所示的韵律控制单元20的轮廓预测单元21相当的功能预测F0形状目标，利用与最优形状元素选择单元22相当的功能从F0形状数据库40选择最优F0形状元素，利用与形状元素连接单元23相当的功能连接各F0形状元素的语调模式而生成句子单位的语调模式。于是，根据所生成的语调模式合成语音，输出到VoIP网关1030。

下面对利用上述的语音合成方法对录音语音和合成语音进行无缝平滑连接的其他实施方式予以说明。

图11为示出利用本实施方式的语音合成系统的构成的示图。

参照图11。本实施方式的语音合成系统的构成包括对作为语音合成对象的的文本进行分析的文本分析单元10、用来生成输出的语音的韵律特征(音韵时长及F0模式)的音韵时长预测单元50及F0模式生成单元60、用来生成输出的语音的音响特征(合成单位元素)的合成单位选择单元70以及生成输出的语音的语音波形的语音生成单元30。另外，还设置有用来存放在音韵时长预测单元50、F0模式生成单元60及合成单位选择单元70的处理中使用的声音类型的声音类型数据库80及存放录音语音的域语音数据库90。此处，图11的音韵时长预测单元50及F0模式生成单元60相当于图2的韵律控制单元20，F0模式生成单元60具有图2所示的韵律控制单元20的功能(与轮廓预测单元21、最优形状元素选择单元22及形状元素连接单元23相对应的功能)。

另外，本实施方式的语音合成系统，与图2所示的语音合成系统一样，是以图1所示的计算机装置等实现的。

在上述构成中，文本分析单元10及语音生成单元30，与图2所示的实施方式的对应的构成要素相同。因此，采用同样的符号，而其说明省略。

音韵时长预测单元50，F0模式生成单元60及合成单位选择单元70，是由扩展到图1所示的主存储器103的程序通过对CPU101进行控制而实现的虚拟软件块。通过控制CPU101而使这些功能实现的该程序，可通过存储于磁盘及光碟、半导体存储器及其他记录媒体上进行分发或经由网络分发而提供。

另外，在图11的构成中，声音类型数据库80，比如，由图1所示的硬盘106实现，存放有关从语音素材中抽出并生成的讲话者的讲话特征的信息(声音类型)。另外，图2所示的F0形状数据库40，包含于此声音类型数据库80中。

域语音数据库90，比如，由图1所示的硬盘106实现，存放有关适用任务用而收录的录音语音的数据。此域语音数据库90，可以说，是包含一直到录音语音的韵律、波形为止的扩展的用户辞典，在登录条目中，除了导词、读法、重音、品词这些信息之外，还存放分层次的波形及韵律信息这些信息。

在本实施方式中，文本分析单元10，对作为处理对象的文本进行语言分析，将读法及重音等的音素信息发送到音韵时长预测单元50，将F0元素音段(假定重音音段)发送到F0模式生成单元60，而将该文本的音素串的信息发送到合成单位选择单元70。另外，在进行语言分析之际，调研各个短语(与假定重音音段相当于)是否登录在域语音数据库90之中。于是，在语言分析中命中登录条目时，就将在域语音数据库90存在有关该短语的韵律特征(音韵时长、F0模式)以及音响特征(合成单位元素)这一点通知音韵时长预测单元50、F0模式生成单元60及合成单位选择单元70。

音韵时长预测单元50，根据从文本分析单元10接收到的音素信息，生成应该合成的音韵串的时长(时间配置)，存放于CPU101的高速缓存及主存储器103的预定区域中。该时长，在F0模式生成单元60、合成单位选择单元70及语音生成单元30中读出，在各个处理中使用。时长的生成方法可以采用公知的既有技术。

此处，在由文本分析单元10对于与要生成时长的F0元素音段相对应的短语存放于域语音数据库90中这一点进行通知的场合，不生成有关该短语的音韵串的时长，而代之以访问域语音数据库90取得该短语的时长并存放于CPU101的高速缓存及主存储器103的预定区域中，供F0模式生成单元60、合成单位选择单元70及语音生成单元30使用。

F0模式生成单元60，具有与图2所示的语音合成系统的韵律控制单元20的轮廓预测单元21、最优形状元素选择单元22以及形状元素连接单元23相对应的功能同样的功能，将利用文本分析单元10分析的对象文本按照F0元素音段读入，通过命中存储于与声音类型数据库80的F0形状数据库40相对应的部分中的语调的F0模式而生成对象文本的语调。所生成的语调模式保持于CPU101的高速缓存及主存储器103的预定区域中。

此处，与F0模式生成单元60的轮廓预测单元21相对应的功能，在由文本分析单元10就与要生成语调的F0元素音段相对应的短语存放于域语音数据库90中这一点进行通知的场合，不生成语言信息和有关有无停顿的信息，而代之以访问域语音数据库90取得该短语的F0值作为F0模式的轮廓。

图2的语音处理系统的韵律控制单元20的轮廓预测单元21，如参照图3所说明的，假设针对紧前方的假定重音短语的音段的预测结果可反映于处理中的对于假定重音短语的音段(F0元素音段)的F0形状目标的预测中。所以，在紧前方的F0元素音段的F0模式的轮廓是从域语音数据库90取得的场合，在处理中的对于F0元素音段的F0形状目标中将会反映出该紧前方的F0元素音段的录音语音的F0值。

在此之上，在本实施方式中，在处理中的F0元素音段的紧后方存在从域语音数据库90取得的F0值的场合，该紧后方的F0元素音段即F0值还反映在处理中的对F0元素音段的F0形状目标的预测中。另一方面，对于从域语音数据库90取得的F0值，不反映在从语言信息等的信息预测的F0模式的轮廓的预测结果中。由此，在由F0模式生成单元60生成的语调模式中，更进一步反映存放于域语音数据库90中的录音语音的讲话上的特征。

图12为说明在利用录音语音产生的两个短语中间插入由合成语音产生的短语时的F0模式的轮廓预测的示图。

如图12所示，在夹着要进行F0模式的轮廓的合成语音产生的的假定重音短语的前后存在录音语音的短语的场合，在合成语音产生的的假定重音短语的最大F0值、始端及终端偏移的预测上要加上前方的录音语音的最大F0值，同时还要加上后方的录音语音的F0值。

虽然在图中未示出，与此相反，在对夹着录音语音产生的预定的短语的由合成语音产生的假定重音短语的F0模式的轮廓进行预测的场合，由该录音语音产生的短语的最大F0值将加到前后的假定重音短语的F0模式的轮廓预测中。

此外，在合成语音产生的短语是连续的的场合，位于前头的假定重音短语的紧前方的录音语音的F0再的特征，也顺序反映在各假定重音短语中。

另外，F0模式的轮廓预测的预测模型的学习，是利用对每个假定重音短语得到的最大F0值的实测值的范畴化的值进行的。就是说，作为对轮廓预测的F0形状目标进行预测之际的预测要因，对根据上述语言信息的韵律范畴加上此假定重音短语每一个的最大F0值的实测值的范畴而执行用于预测的统计处理。

其后，F0模式生成单元60，利用与图2所示的韵律控制单元20的最优形状元素选择单元22及形状元素连接单元23相对应的功能，选择最优F0形状元素，顺序进行连接而得到作为处理对象的句子的F0模式(语调模式)。

图13为说明利用F0模式生成单元产生的F0模式的生成处理的流程的流程图。

如图13所示，首先在文本分析单元10中，调研与作为处理对象的F0元素音段相对应的短语是否登录在域语音数据库90上(步骤1301、1302)。

在与作为处理对象的F0元素音段相对应的短语未在域语音数据库90中登录的场合(未从文本分析单元10接受到通知的场合)，F0模式生成单元60，调研与处理中的F0元素音段的紧后方的F0元素音段相对应的短语是否在域语音数据库90中登录(步骤1303)。于是，如果未登录，在反映对紧前方的F0元素音段的F0形状目标的轮廓预测的结果(在与紧前方的F0元素音段相对应的短语在域语音数据库90中登录的场合该短语的F0值)的同时，对该处理中的F0元素音段预测F0形状目标的轮廓(步骤1305)。之后，选择最优F0形状元素(步骤1306)，对所选择的最优F0形状元素的频率级进行设定(步骤1307)，根据由音韵时长预测单元50得到的时长的信息进行时间轴的调整而对最优F0形状元素进行连接(步骤1308)。

在步骤1303中，在与处理中的F0元素音段的紧后方的F0元素音段相对应的短语登录在域语音数据库90中的场合，除了对紧前方的F0元素音段的F0形状目标的轮廓预测的结果之外，还反映在从域语音数据库90取得的与该紧后方的F0元素音段相对应的短语的F0值上，对该处理中的F0元素音段的F0形状目标的轮廓进行预测(步骤1304、1305)。于是，像通常一样，选择最优F0形状元素(步骤1306)，对所选择的最优F0形状元素进行频率级设定(步骤1307)，根据由音韵时长预测单元50得到的时长的信息进行时间轴的调整而对最优F0形状元素进行连接(步骤1308)。

另外，在步骤1302中，与作为处理对象的F0元素音段相对应的短语已在域语音数据库90中登录的场合，不通过上述处理选择最优F0形状元素，而代之以取得登录在域语音数据库90中的该短语的F0值(步骤1309)。于是，将所取得的F0值用作最优F0形状元素，根据在音韵时长预测单元50中得到的时长的信息进行时间轴的调整而进行连接(步骤1308)。

如上取得的整个句子的语调模式，保持于CPU101的高速缓存及主存储器103的预定区域中。

合成单位选择单元70，接受由音韵时长预测单元50得到的时长信息和由F0模式生成单元60得到的语调模式的F0值的输入，访问声音类型数据库80，选择并取得作为处理对象的F0元素音段的各音的合成单位元素(波形元素)。此处，在实际讲话中，预定的短语的边界部分的语音，受到连接的其他短语的语音及有无停顿的影响。因此，合成单位选择单元70，根据连接的其他F0元素音段的边界部分的语音及有无停顿选择预定的F0元素音段的边界部分的音的合成单位元素，以使F0元素音段的语音平滑连接。这一影响，在短语的终端部分的语音中表现得特别显著。因此，至少关于F0元素音段的终端部分的音的合成单位元素，最好是考虑到紧后方的F0元素区间的始端的音的影响进行选择。所选择的合成单位元素，保持于CPU101的高速缓存及主存储器103的预定区域中。

另外，合成单位选择单元70，在对于与要生成合成单位元素的F0元素音段相对应的短语存放于域语音数据库90中这一点进行通知的场合，不从声音类型数据库80选择合成单位元素，而代之以访问域语音数据库90取得该短语的波形元素。这种场合也与该F0元素音段的终端的音的场合一样，相应于该F0元素音段的紧后方的状态进行调整。就是说，作为合成单位选择单元70的处理，只不过是添加域语音数据库90的波形元素作为选择候补而已。

图14为说明由合成单位选择单元70产生的合成单位元素的生成处理的流程的流程图。

如图14所示，合成单位选择单元70，首先将作为处理对象的文本的音素串分割为合成单位(步骤1401)，并调研所关注的合成单位是否是与登录到域语音数据库90上的短语相对应(步骤1402)。这一判断，可以根据来自文本分析单元10的通知进行。

假如了解到与所关注的合成单位相对应的短语未登录在域语音数据库90上，则合成单位选择单元70，其次，就进行合成单位的预备选择(步骤1403)。此处，参照声音类型数据库80，选择应该合成的最优合成单位元素。作为选择条件，考虑音素环境的适合性和韵律环境的适合性。所谓音素环境，是指通过文本分析单元10的分析得到的音素环境和各个合成单位的音素数据的原环境的类似性。另外，所谓韵律环境的适合性，是指作为目标给予的各音素的F0值及时长和各个合成单位的音素数据的F0值及时长的类似性。

假如通过预备选择找到合适的合成单位，就将该合成单位选作最优合成单位元素(步骤1404、1405)。所选择的合成单位元素，保持于CPU101的高速缓存及主存储器103的预定区域中。

另一方面，在找不到合适的合成单位的场合，就改变选择条件，反复进行预备选择，一直到找到合适的合成单位为止(步骤1404、1406)。

在步骤1402中，假如通过来自文本分析单元10的通知判断与所关注的合成单位相对应的短语已登录在域语音数据库90中，之后，合成单位选择单元70就调研所关注的合成单位是否是该短语的边界部分(步骤1407)。在是边界部分的单位的场合，合成单位选择单元70，就将登录到域语音数据库90的该短语的该语音的波形元素加到候补中，执行合成单位的预备选择(步骤1403)。以下的处理与对合成语音的处理相同(步骤1404-1406)。

另一方面，在所关注的合成单位，虽然包含于登录到域语音数据库90的短语之中，但却不是其边界部分的单位时，合成单位选择单元70，为了忠实地再现该短语的录音语音，就将存放于域语音数据库90中的该语音的波形元素按照原样选择作为合成单位元素(步骤1407、1408)。所选择的合成单位元素，保持于CPU101的高速缓存及主存储器103的预定区域中。

语音生成单元30，按照以上方式接受由音韵时长预测单元50得到的时长信息、由F0模式生成单元60得到的语调模式的F0值以及由合成单位选择单元70得到的合成单位元素的输入，利用波形重叠法进行语音合成。所合成的语音波形，经图1所示的扬声器111作为语音输出。

如上所述，根据本实施方式，由于在生成合成语音的语调模式之际，可使其充分反映录音的实际语音的讲话上的特征，所以可以生成更接近录音语音的合成语音。

特别是，在本实施方式中，录音语音不是原样照用，而是作为韵律信息的数据进行处理，为了在文本分析中在检出作为录音语音登录的短语之际，利用该录音语音的数据合成语音，可以藉助与生成录音语音以外的自由的合成语音的场合一样的处理进行语音合成，作为系统的处理，没有必要去意识录音语音或合成语音。所以，可以削减系统的开发成本。

另外，在本实施方式中，由于不区别录音语音和合成语音，是根据F0元素音段的终端偏移的值和紧后方的的状态进行调整，所以对于与各F0元素音段的相对应的语音可进行语音合成而得到平滑连接的自然性较高的无错感的合成语音。

如上所述，根据本发明，在生成语音合成的语调模式中，可以实现灵活而正确地再现讲话者的讲话特征的语音合成系统。

另外，根据本发明，在语音合成中，对于实际讲话的语调的F0模式的数据库(素材库)，通过与韵律范畴无关的缩小到F0模式，可以有效地活用存储于数据库中的实际讲话的F0模式。

此外还有，根据本发明，可以将录音语音和合成语音的语调适当混合而进行平滑连接的语音合成。

Claims

1、一种语调生成方法，利用计算机生成语音合成中的语调，其特征在于：

根据作为语音合成的对象的文本中的语言信息，预测该文本的语调的轮廓并将预测结果存储于存储器中，

将预测的上述语调的轮廓从上述存储器中读出，

根据该语调的轮廓，从存储实际讲话的语调模式数据库中选择语调模式作为上述文本的语调模式。

2、如权利要求1所述的语调生成方法，其特征在于：根据利用上述文本的语言信息分类的韵律范畴预测上述语调的轮廓。

3、如权利要求1所述的语调生成方法，其特征在于：在选择语调模式之后，根据预测的上述语调的轮廓，对所选择的语调模式的频率级进行调整。

4、一种语调生成方法，利用计算机生成语音合成中的语调，其特征在于：包含，

对构成作为语音合成的对象的文本的每个假定重音短语预测语调的轮廓，将预测结果存储于存储器中的步骤；

从上述存储器中对于上述每个假定重音短语读出预测的语调的轮廓，根据该语调的轮廓，从存储实际讲话的语调的数据库中选择语调模式，并将选择结果存储于存储器中的步骤；以及

从上述存储器中对于所选择的上述每个假定重音短语读出语调模式并进行连接的步骤。

5、如权利要求4所述的语调生成方法，其特征在于：上述预测语调轮廓并将预测结果存储于存储器中的步骤，在预测预定的上述假定重音短语的语调的轮廓之际，在上述文本中在该假定重音短语的紧前方存在另一个假定重音短语的场合，参考该紧前方的另一个假定重音短语的语调的轮廓的预测结果，对该预定的假定重音短语的语调的轮廓进行预测。

6、如权利要求4所述的语调生成方法，其特征在于：上述预测语调轮廓并将预测结果存储于存储器中的步骤，在上述假定重音短语存在于存储于预定的存储装置中的预先被录音的录音语音的短语中的场合，从该存储装置取得与该短语的该假定重音短语相对应的部分的语调有关的信息，并作为该语调的轮廓的预测结果存储于上述存储器中。

7、如权利要求6所述的语调生成方法，其特征在于：上述预测语调轮廓并将预测结果存储于存储器中的步骤，包含如下步骤：

在上述文本中在预定的上述假定重音短语的紧前方存在另一个假定重音短语的场合，参考该紧前方的另一个假定重音短语的语调的轮廓的预测结果，对假定重音短语的语调的轮廓进行预测的步骤；

在上述文本中在预定的上述假定重音短语的紧后方存在与存储于上述预定的存储装置中的预先被录音的录音语音的短语相对应的另一个假定重音短语的场合，进一步参考针对该紧后方的另一个假定重音短语的语调的轮廓的预测结果而预测该假定重音短语的语调的轮廓的步骤。

8、如权利要求6所述的语调生成方法，其特征在于：上述预测语调轮廓并将预测结果存储于存储器中的步骤，在上述文本中在预定的上述假定重音短语的前后至少一方存在与存储于上述预定的存储装置中的预先被录音的录音语音的短语相对应的另一个假定重音短语的场合，参考针对与该录音语音的短语相对应的另一个假定重音短语的语调的轮廓的预测结果而预测该假定重音短语的语调的轮廓。

9、如权利要求4所述的语调生成方法，其特征在于：选择上述语调模式、将选择结果存储于存储器中的步骤，包含

从存储于上述数据库中的实际讲话的语调模式中，选择始端终端间距离接近上述假定重音短语的语调的轮廓的语调模式的步骤；以及

在所选择的上述语调模式中选择针对上述假定重音短语的音韵类的距离最小的语调模式作为上述语调模式的步骤。

10、一种语音合成装置，用于进行文本语音合成，其特征在地：包括，

分析作为处理对象的文本取得语言信息的文本分析单元；

存储实际讲话的语调模式的数据库；

用来生成对上述文本进行语音输出的韵律的韵律控制单元；以及

根据由上述韵律控制单元生成的韵律生成语音的语音生成单元，

上述韵律控制单元具有，

根据由上述文本分析单元取得的语言信息对构成上述文本的每个假定重音短语预测语调的轮廓的轮廓预测单元；

根据由上述轮廓预测单元预测的上述语调的轮廓从上述数据库中选择语调模式的形状元素选择单元；以及

将上述形状元素选择单元所选择的上述每个假定重音短语的语调模式连接起来生成上述文本整体的语调模式的形状元素连接单元。

11、如权利要求10所述的语音合成装置，其特征在于：上述轮廓预测单元，至少利用上述假定重音短语的音段内的频率级的最大值、该音段的始端及终端的相对级偏移，规定上述语调的轮廓。

12、如权利要求10所述的语音合成装置，其特征在于：上述形状元素选择单元，从存储于上述数据库中的实际讲话的全部语调模式之中选择形状近似于利用上述轮廓预测单元预测的上述语调的轮廓的语调模式。

13、如权利要求10所述的语音合成装置，其特征在于：上述形状元素连接单元，将由上述形状元素选择单元所选择的上述每个假定重音短语的上述语调模式，根据由上述轮廓预测单元预测的上述语调的轮廓调整频率级之后进行连接。

14、如权利要求10所述的语音合成装置，其特征在于：还包括存放有关预先被录音的录音语音的语调的信息的另一个数据库，上述轮廓预测单元，在上述假定重音短语存在于登录于上述另一个数据库中的录音短语中时，从上述另一个数据库取得有关与该录音短语的该假定重音短语相对应的部分的语调的信息。

15、一种语音合成装置，进行文本语音合成，其特征在于：包括，

分析作为处理对象的文本取得语言信息的文本分析单元；

存储根据讲话特征准备的多个实际讲话的语调模式的数据库；

利用存储于上述数据库中的语调模式生成用来对上述文本进行语音输出的韵律的韵律控制单元；以及

通过切换使用上述数据库，进行反映上述讲话特征的语音合成，

上述韵律控制单元具有，

16、一种语音合成装置，进行文本语音合成，其特征在于：包括，

分析作为处理对象的文本取得语言信息的文本分析单元；

存储有关讲话特征的信息的第一数据库；

存储有关预先被录音的录音语音的波形的信息的第二数据库；

音韵时长预测单元，根据从上述文本分析单元取得的语言信息生成应合成的音韵串的时长；

语调模式生成单元，对构成上述文本的每个假定重音短语预测语调的轮廓，选择存储于上述数据库中的语调模式，按照所生成的应合成的韵律的时长调整所选择的语调模式，并将调整后的语调模式连接起来生成上述文本整体的语调模式；

按照上述所生成的应合成的韵律的时长和上述语调模式生成单元所生成的上述文本整体的语调模式，选择针对上述文本的合成单位的波形元素的合成单位选择单元；

将由上述合成单位选择单元所选择的波形元素结合生成合成语音的语音生成单元；

上述合成单位选择单元从上述第一及第二数据库的信息中选择针对与录音语音的边界部分相对应的上述文本的合成单位的波形元素。

17、一种语音服务器，对应于经电话网实现的访问要求提供语音对话型的内容，其特征在于：包括，

用来合成输出到上述电话网的语音的语音合成引擎和用来识别经上述电话网输入的语音的语音合成引擎；

上述用来合成输出到上述电话网的语音的语音合成引擎，根据执行应用程序得到的文本的语言信息，对构成该文本的每个假定重音短语预测语调的轮廓，根据预测的上述每个假定重音短语的语调的轮廓，从存储实际讲话的语调模式的数据库中选择语调模式，将所选择的上述每个假定重音短语的语调连接起来而生成针对上述文本的语调模式，根据该语调模式合成语音并输出到电话网。

18、一种语音合成方法，进行文本语音合成，其特征在于：其构成包括：

分析作为处理对象的文本取得语言信息；

根据所取得的语言信息对构成上述文本的每个假定重音短语预测语调的轮廓；

根据所预测的上述语调的轮廓从存储实际讲话的语调模式的数据库中选择语调模式；

将所选择的上述每个假定重音短语的语调模式连接起来生成上述文本整体的语调模式；以及

根据所生成的语调模式生成语音。

19、如权利要求18所述的语音合成方法，其特征在于：在上述假定重音短语与预先被录音的录音语音的预定的短语相当的场合，从存储有关该录音语音的语调的信息的另一个数据库中，取得与该录音短语的该假定重音短语相对应的部分的语调的信息。

20、一种语音合成方法，进行文本语音合成，其特征在于：包括，

分析作为处理对象的文本取得语言信息；

将根据讲话特征准备的多个实际讲话的语调模式存储到数据库中；

利用数据库中所存储的语调模式生成用来对上述文本进行语音输出的韵律；以及

根据生成的韵律生成语音，

其中生成韵律的步骤包括，

根据取得的语言信息对构成上述文本的每个假定重音短语预测语调的轮廓；

根据预测的上述语调的轮廓从上述数据库中选择语调模式；以及

将所选择的上述每个假定重音短语的语调模式连接起来生成上述文本整体的语调模式。

21、一种语音合成方法，进行文本语音合成，其特征在于：包括，

分析作为处理对象的文本取得语言信息；

将有关讲话特征的信息存储到第一数据库；

将有关预先被录音的录音语音的波形的信息存储到第二数据库；

根据取得的语言信息生成应合成的音韵串的时长；

对构成上述文本的每个假定重音短语预测语调的轮廓，选择存储于上述数据库中的语调模式；

按照所生成的应合成的韵律的时长调整所选择的语调模式，并将调整后的语调模式连接起来生成上述文本整体的语调模式；

按照上述所生成的应合成的韵律的时长和所生成的上述文本整体的语调模式，选择针对上述文本的合成单位的波形元素；

将所选择的波形元素结合生成合成语音；

其中从上述第一及第二数据库的信息中选择针对与录音语音的边界部分相对应的上述文本的合成单位的波形元素。

22、一种语音合成方法，对应于经电话网实现的访问要求提供语音对话型的内容，其特征在于：包括，

合成输出到上述电话网的语音和识别经上述电话网输入的语音；

上述合成输出到上述电话网的语音的步骤，根据执行应用程序得到的文本的语言信息，对构成该文本的每个假定重音短语预测语调的轮廓，根据预测的上述每个假定重音短语的语调的轮廓，从存储实际讲话的语调模式的数据库中选择语调模式，将所选择的上述每个假定重音短语的语调连接起来而生成针对上述文本的语调模式，根据该语调模式合成语音并输出到电话网。