CN101171624B

CN101171624B - 语音合成装置及语音合成方法

Info

Publication number: CN101171624B
Application number: CN2006800156051A
Authority: CN
Inventors: 佐藤宁
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2005-03-11
Filing date: 2006-03-10
Publication date: 2011-08-10
Anticipated expiration: 2026-03-10
Also published as: US20080109225A1; JP4516863B2; CN101171624A; WO2006095925A1; EP1860644A1; EP1860644A4; DE06729295T1; JP2006251538A

Abstract

语音片段编辑部分(5)从语音片段数据库(7)中检索关于语音片段的语音片段数据，其中该语音片段的读音与固定消息中语音片段的读音相匹配，并对该语音片段进行转换，以便于与由该发声速度数据指定的速度相匹配。该语音片段编辑部分(5)预测固定消息的韵律，并根据该韵律预测结果逐个地选择与该固定消息的每个语音片段最匹配的检索到的语音片段数据的项。但是，如果对应于该语音片段数据的被选择的项的部分语音片段没有达到预定值，则取消该选择。关于没有被选择的语音片段，将表示每个单位语音波形的波形数据提供给声音处理部分(41)。将该选择的语音片段数据与提供的波形数据互连，从而生成表示合成语音的数据。这样，就提供了一种语音合成装置，用于迅速地产生合成语音，而这种简单结构不会带来任何不舒服的感觉。

Description

语音合成装置及语音合成方法

技术领域

本发明涉及一种语音合成装置，语音合成方法及其程序。

背景技术

作为用于合成语音的方法，已知有一种被称为录音编辑方法的方法。该录音编辑方法被用于位于基站、车辆导航系统等的语音辅助系统。

该录音编辑系统是用于将单词与表示事先读出该单词的语音的语音数据关联起来)，将要经受语音合成的句子分为单词，以及接着获得与这些单词相关的语音数据并组合该语音数据的方法(例如，参见日本专利公开No.10-49193)。

发明内容

如果简单地将语音数据段彼此组合，则该合成的语音就会不自然，这是因为语音音调分量的频率通常会在语音数据段之间的边界上发生不连续地变化。

作为解决该问题的方法，可以认为该方法就是用于制备多个语音数据段，其中该语音数据表示通过不同的韵律来读出相同音素的语音，同时对将要经受语音合成的句子进行韵律预测，选择与该预测结果相匹配的语音片段数据并对其进行组合。

但是，如果通过录音编辑方法利用为每个音素准备的语音数据而获得更自然的合成语音，则就需要用于存储语音数据的存储装置具有很大的存储容量。要检索的数据量也会变得很大。

因此，作为用于通过简单的结构就能迅速地产生自然合成语音的方法，可以考虑这样一种方法，就是：用于使得语音数据成为以大于或长于音素为单位的语音片段数据，其中该语音片段数据表示波形，并且将与该韵律预测结果匹配的语音片段数据与对没有被选中的一部分语音片段数据执行该规定的合成方法而生成的语音片段数据进行连接。

利用通过规定的合成方法而得到的语音数据表示的语音的音频质量通常比通过语音数据表示的语音的音频质量更差一些。因此，在该方法中，读出的语音中对应于该语音片段数据的部分是质量非常高的声音，或者通过规定的合成方法获得的部分是质量非常低的声音。这就会使得该读出的语音在总体上对听众来说是很奇怪的。

考虑到上面的情况，本发明是适宜的，并且意图提供一种语音合成装置，语音合成方法以及程序，用于通过简单的结构就能够迅速地生成自然的合成语音。

技术方案

为了实现上述目的，根据本发明第一方面的语音合成装置的特征就在于包括：

语音片段存储装置，用于存储多段语音片段数据，其中该语音片段数据表示语音片段；

选择装置，用于输入表示句子的句子信息并执行如下处理，用于从每段语音片段数据中选择具有共用语音的语音片段数据的多个片段以及形成该句子的读音；

缺失部分合成装置，用于合成表示该语音波形的语音数据，其中对于该语音该选择装置无法从形成该句子的语音中选择语音片段数据；以及

用于通过将由该选择装置选择的语音片段数据与由该缺失部分合成装置合成的语音数据彼此组合来生成表示合成语音片段的数据的装置；其中

该选择装置还包括确定装置，用于确定具有共用语音的语音数据与形成该句子的整个语音中由被选择的语音数据表示的读音的比率是否达到了预定值；以及

如果确定该比率没有达到预定值，则该选择装置取消对于该语音片段数据的选择并且进行该语音片段数据无法被选择的处理。

根据本发明第二方面的语音合成装置的特征就在于包括：

韵律预测装置，用于输入表示句子的句子信息并预测形成该句子的语音的韵律；

选择装置，用于执行以下处理，用于从该语音片段数据中选择具有共用语音的语音片段数据的片段以及构成该句子的读音，其中该读音的韵律在预定条件下与韵律预测结果匹配；

缺失部分合成装置，用于合成表示该语音片段波形的语音数据，其中对于该语音该选择装置无法从形成该句子的语音中选择该语音的语音片段数据；以及

该选择装置可以从选择的对象中去除在预定条件下其韵律与韵律预测结果不匹配的语音片段数据。

该缺失部分合成装置可以包括：

存储装置，用于存储多个数据段，其中该数据表示音素或者构成该音素的碎片；以及

合成装置，用于通过如下方式来合成表示该语音的波形的语音数据：标识包括在语音中的音素(其中选择装置无法选择该语音的语音片段数据)，从该存储装置中获得表示被标识的音素或者形成该音素的碎片的数据片段，并且将它们彼此组合。

该缺失部分合成装置可以包括：

缺失部分韵律预测装置，用于预测语音的韵律，其中该选择装置无法选择该语音的语音片段数据；其中

该合成装置通过如下方式来合成表示该语音的波形的语音数据：标识包括在语音中的音素(其中选择装置无法选择该语音的语音片段数据)，从该存储装置中获得表示被标识的音素或者形成该音素的碎片的数据，对该获得的数据进行转换，使得该音素或者由该数据表示的语音片段与通过该缺失部分韵律预测装置的韵律预测结果相匹配，以及将转换后的数据段彼此组合。

该缺失部分韵律预测装置可以根据韵律预测装置预测的韵律来合成表示该语音片段的波形的语音数据，其中该选择装置无法选择该语音的语音片段数据。

该语音片段存储装置可以存储表示该语音片段的音调的时间顺序变化的韵律数据，其中该语音片段由与该语音片段数据相关的语音片段数据表示；

其中该选择装置可以选择具有共用语音的语音片段数据以及构成该句子的读音，其中由与该语音片段数据相关的韵律数据表示的音调的时间顺序变化最接近于该韵律的预测结果。

该语音合成装置可以还包括语速转换装置，用于获得用来指定讲述该合成语音的速度条件的语速数据，以及选择或者转换该语音片段和/或形成表示合成语音的数据的语音数据，使得该语速数据表示在满足指定条件的速度下讲述的语音。

该语速转换装置可以通过从语音片段数据和/或构成表示该合成语音的数据的语音数据中去除表示标记的部分，或者将表示碎片的部分增加至语音片段数据和/或语音数据来转换该语音片段数据和/或该语音数据，使得该语速数据表示在满足指定条件的速度下讲述的语音。

该语音片段存储装置可以存储表示与该语音片段数据相关的语音片段数据的读音的音标数据；其中

该选择装置可以将该语音片段数据当作其读音与语音一样的语音片段数据，其中表示读音的音标数据与该语音片段数据相关，并且该读音与形成该句子的语音的读音相匹配。

根据本发明第三方面的语音合成方法的特征就在于包括：

语音片段存储步骤，用于存储多段语音片段数据，其中该语音片段数据表示语音片段；

选择步骤，用于输入表示句子的句子信息并执行如下处理，用于从每段语音片段数据中选择具有共用语音的语音片段数据的片段以及形成该句子的读音；

缺失部分合成步骤，用于合成表示该语音波形的语音数据，其中对于该语音该选择装置无法从形成该句子的语音中选择该语音的语音片段数据；以及

用于通过将选择的语音片段数据与合成的语音数据相互组合来生成表示合成语音片段的数据的步骤；其中

该选择步骤还包括确定步骤，用于确定具有共用语音的语音数据与形成该句子的整个语音中由被选择的语音数据表示的读音的比率是否达到了预定值；以及

如果确定该比率没有达到预定值，则该选择步骤取消对于该语音片段数据的选择并且进行该语音片段数据无法被选择的处理。

根据本发明第四方面的语音合成方法的特征就在于包括：

韵律预测步骤，用于输入表示句子的句子信息并预测构成该句子的语音的韵律；

选择步骤，用于执行以下处理，用于从该语音片段数据中选择具有共用语音的语音片段数据的片段以及构成该句子的读音，其中该读音的韵律在预定条件下与韵律预测结果匹配；

缺失部分合成步骤，用于合成表示该语音波形的语音数据，其中无法从形成该句子的语音中选择该语音的语音片段数据；以及

用于通过将被选择的语音片段数据与被合成的语音数据相互组合来生成表示合成语音的数据的步骤；其中

根据本发明第五方面的程序使得计算机起到如下作用：

选择装置，用于输入表示句子的句子信息并执行如下处理，用于从每段语音片段数据中选择具有共用语音的语音片段数据的片段以及形成该句子的读音；

缺失部分合成装置，用于合成表示该语音波形的语音数据，其中对于该语音选择装置无法从形成该句子的语音中选择该语音的语音片段数据；以及

用于通过将由该选择装置选择的语音片段数据与由该缺失部分合成装置合成的语音数据相互组合来生成表示合成语音片段的数据的装置；其特征在于

根据本发明第六方面的程序使得计算机起到如下作用：

韵律预测装置，用于输入表示句子的句子信息并预测构成该句子的语音的韵律；

用于通过将由该选择装置选择的语音片段数据与由该缺失部分合成装置合成的语音数据相互组合来生成表示合成语音的数据的装置；其特征在于

本发明的优点

如上所述，根据本发明，实现了一种语音合成装置，语音合成方法，及其程序，用于通过简单的结构就能够迅速地生成自然的合成语音。

附图说明

图1为显示根据本发明第一实施例的语音合成系统的配置的方框图；

图2为示意性地显示语音片段数据库的数据结构的图；

图3为显示根据本发明第二实施例的语音合成系统的配置的方框图；

图4为显示如下情况的处理的流程图，其中在该情况下，执行根据本发明第一实施例的语音合成系统的功能的个人计算机获得了自由文本数据；

图5为显示如下情况的处理的流程图，其中在该情况下，执行根据本发明第一实施例的语音合成系统的功能的个人计算机获得了配信字符串数据；

图6为显示如下情况的处理的流程图，其中在该情况下，执行根据本发明第一实施例的语音合成系统的功能的个人计算机获得了标准尺寸消息数据以及发声速度数据；

图7为显示如下情况的处理的流程图，其中在该情况下，执行图3中单元体功能的个人计算机获得了自由文本数据；

图8为显示如下情况的处理的流程图，其中在该情况下，执行图3中单元体功能的个人计算机获得了配信字符串数据；以及

图9为显示如下情况的处理的流程图，其中在该情况下，执行图3中单元体功能的个人计算机获得了标准尺寸消息数据以及发声速度数据。

具体实施方式

下面将参照附图来描述本发明的实施例。

(第一实施例)

图1为显示根据本发明第一实施例的语音合成系统的配置的方框图。

如图中所示，该语音合成系统包括单元体M1和语音片段寄存器单元R。

该单元体M1包括语言处理部分1，常规字典2，用户字典3，规则合成部分4，语音片段编辑部分5，检索部分6，语音片段数据库7，扩展部分8，以及语速转换部分9。在它们之中，规则合成部分4包括声音处理部分41，检索部分42，扩展部分43以及波形数据库44。

该语言处理部分1，声音处理部分41，检索部分42，扩展部分43，语音片段编辑部分5，检索部分6，扩展部分8，以及语速转换部分9中的每一个都包括处理器，例如CPU(中央处理单元)，DSP(数字信号处理器)等，以及用于存储将由该处理器执行的程序的存储器，它们都执行将在后面描述的处理。

单个处理器可以执行该语言处理部分1，声音处理部分41，检索部分42，扩展部分43，语音片段编辑部分5，检索部分6，扩展部分8，以及语速转换部分9的部分或者全部功能。因此，例如执行扩展部分43的功能的处理器也能够执行扩展部分8的功能。单个处理器可以涵盖声音处理部分41，检索部分42，以及扩展部分43的功能。

该常规字典2包括非易失性存储器，例如PROM(可编程只读存储器)，硬盘装置等。在该常规字典2中，由该语音合成系统的制造商等事先存储了单词，其中该单词包括彼此相关的表意字(例如，汉字字符)以及表示该单词等的读音的表音字(例如，假名或音标)。

该用户字典3包括数据可重写非易失性存储器，例如EEPROM(电可擦除/可编程只读存储器)，硬盘装置等，以及控制电路，其用于控制将数据写入到非易失性存储器中去。该处理器可以执行该控制电路的功能。作为选择地，执行该语言处理部分1，声音处理部分41，检索部分42，扩展部分43，语音片段编辑部分5，检索部分6，扩展部分8，以及语速转换部分9的部分或者全部功能的处理器可以执行该用户字典3的控制电路的功能。

该用户字典3根据用户的操作从外部等获得包括表意字和表音字(其表示该单词等的读音)的单词，并且彼此相关地存储它们。该用户字典3只需要存储没有存储在常规字典2中的单词等以及表示该单词等的读音的音标。

该波形数据库44包括非易失性存储器，例如PROM，硬盘装置等。该波形数据库44存储有音标，以及压缩的波形数据，其中该压缩的波形数据是在由该语音合成系统的制造商事先对表示由音标表示的单位语音的波形的波形数据进行彼此相关的熵编码时获得的。该单位语音足够短，以至于能够在规定的合成方法中使用，且特别地以音素或VCV(元音-辅音-元音)音节为单位被分开的语音。经受熵编码之前的波形数据仅仅需要包括，例如，将经受PCM(脉冲编码调制)数字格式数据。

该语音片段数据库7包括非易失性存储器例如PROM，硬盘装置等。

该语音片段数据库7将数据存储在例如图2中所示的数据结构中。也就是说，如图所示，存储在该语音片段数据库7中的数据被分为四部分，即报头部分HDR，索引部分IDX，目录部分DIR，以及数据部分DAT。

该数据事先由例如该语音合成系统的制造商存储在语音片段数据库7中，和/或当该语音片段寄存器单位R执行将在后面描述的操作时存储该数据。

该报头部分HDR存储的数据用于识别该语音片段数据库7，索引部分IDX，目录部分DIR，以及数据部分DAT的数据量，数据格式，以及表示属性，例如版权等的数据。

该数据部分DAT存储压缩语音片段数据，其中该压缩波形数据是在对表示语音片段的波形的语音片段数据进行熵编码时获得的。

该语音片段是指一系列的部分之一，其中的每一个都包括一个或多个语音音素。通常，该语音片段由用于一个或多个单词的部分构成。该语音片段可以包括连接词。

经受熵编码之前的语音片段数据只需要包括与经受熵编码之前的波形数据相同格式的数据，用于生成上述压缩波形数据(例如，经受PCM的数字格式的数据)。

对于每段压缩语音数据，该目录部分DIR存储

(A)表示音标的数据，其中该音标表示用该压缩语音片段数据表示的语音片段的读音(语音片段读音数据)，

(B)表示存储位置的顶端地址的数据，其中在该存储位置上存储有压缩语音片段数据，

(C)表示压缩语音片段数据的数据长度的数据

(D)表示用压缩片段数据表示的语音片段的发声速度(播放数据时的时间长度)的数据(速度缺省值数据)，以及

(E)表示彼此相关的语音片段音调分量的频率的时间顺序变化的数据(音调分量数据)。(假设地址被添加至该语音片段数据库7的存储部分)。

图2举例说明了如下的情况，其中具有表示语音片段读音“SAITAMA”的波形的数据的1410h个字节量的压缩语音片段数据被存储在顶端地址为001A36A6h的逻辑位置上，作为包括在数据部分DAT中的数据。(在该说明书和附图中，添加在末端的数字“h”表示十六进制数字)。

至少来自上述(A)-(E)的数据片段集合中的数据(A)(即，语音片段读音数据)被存储在该语音片段数据库7的存储器部分中，因为它是按照根据语音片段读音数据所表示的音标确定的顺序来进行分类的(例如，如果该音标为假名，则根据日语假名表地址的降序对该数据段进行分类)。

上述音调分量数据只需要由数据构成，其中该数据表示关于从语音片段的头部开始经历时间的线性函数的截距β以及在语音片段音调分量的频率由线性函数近似表示的情况下的斜率α。(斜度α的单位只需要为例如【赫兹/秒】，并且分数β的单位只需要为例如【赫兹】)。

假设该音调分量数据还包括表示由压缩语音片段数据表示的语音片段是否被作为鼻辅音读出，以及是否被作为清辅音读出的数据(未示出)。

该索引部分IDX存储的数据用于根据该语音片段读音数据来识别出该数据在直接部分DIR中的大致逻辑位置。特别地，它存储了彼此相关的假名字符以及表示地址范围的数据(直接地址)，其中在该地址(目录地址)上显示了其开头字符为假名字符的语音片段读音数据，假设该语音片段读音数据表示假名。

单个非易失性存储器可以执行常规字典2，用户字典3，波形数据库44以及语音片段数据库7的部分或全部功能。

如图中所示，该语音片段寄存器单元R包括记录语音片段数据集存储部分10，语音片段数据库生成部分11以及压缩部分12。该语音片段寄存器单元R可以可拆卸地与语音片段数据库7相连。在这种情况下，当该语音片段寄存器单元R处于与该单元体M1断开的状态下时，可以使得该单元体M1指向将在后面描述的操作，以下情况下除外，即新数据被写入到该语音片段数据库7中。

该记录语音片段数据集存储部分10包括数据可重写非易失性存储器，例如，硬盘装置等。

该记录语音片段数据集存储部分10存储了由该语音合成系统的制造商等事先彼此相关的表示该语音片段的读音的音标，以及表示当收集人实际发音的语音片段时获得的波形的音频片段数据。该语音片段数据只需要由，例如，将经受PCM的数字格式的数据构成。

该语音片段数据库生成部分11和压缩部分12包括处理器，例如CPU等，以及用于存储将由该处理器执行的程序的存储器，并且执行根据该程序将在后面描述的处理。

单个处理器可以执行语音片段数据库生成部分11以及压缩部分12的部分或全部功能。执行语音处理器1，声音处理部分41，检索部分42，扩展部分43，语音片段编辑部分5，检索部分6，扩展部分8，以及语速转换部分9的部分或者全部功能的处理器可以进一步执行该语音片段数据库生成部分11以及压缩部分12的功能。执行该语音片段数据库生成部分11以及压缩部分12的功能的处理器还可以执行作为该记录语音片段数据集存储部分10的控制电路的功能。

该语音片段数据库生成部分11从记录语音片段数据集存储部分10中读出彼此相关的音标和语音片段数据，并且识别出该语音音调分量频率的时间顺序变化以及用语音片段数据表示的发声速度。

例如，只需要对该语音片段数据的采样数进行计数就可以识别出该发声速度。

另一方面，例如，只需要对该语音片段数据进行倒谱分析就能够识别出语音音调分量频率的时间顺序变化。特别地，由语音片段数据表示的波形在时间轴上被分为多个小片断，每个获得的小片段的强度被转化为与初始值的对数相同的虚拟值(该对数的底数可以任意确定)，并且通过快速傅立叶变换方法(或者，用于生成表示作为离散变量的结果的数据的另一种方法将经受该傅立叶变换)得到其中其值改变的每个小片断的频谱(即，倒谱)。接着，给出了该倒谱的最大值的频率中的最小值被识别作为小片段中音调分量的频率。

如果通过按照日本专利申请No.2003-108172中披露的方法将该语音片段数据转换为音调波形数据来识别出该时间顺序变化，则有希望得到识别该音调分量频率的时间顺序变化的优选结果，并接着根据该音调波形数据来识别该时间顺序变化。特别地，只需要过滤该语音片段数据和提取该音调信号，根据该提取出的音调信号将用语音片段数据表示的波形分为单位音调长度的部分，根据每个部分与音调信号的相互关系来识别出相位之间的偏移，以及调整各个部分的相位就能够将该语音片段数据转换为音调波形信号。接着，只需要通过使用得到的音调波形信号作为语音片段数据来进行倒谱分析就能够识别出音调分量频率的时间顺序变化。

另一方面，该语音片段数据生成部分11将从记录语音片段数据集存储部分10读出的语音片段数据提供给压缩部分12。

该压缩部分12通过对由语音片段数据生成部分11提供的语音片段数据进行熵编码来生成压缩语音片段数据，并将该压缩语音片段数据返回给语音片段数据生成部分11。

当识别出该语音片段数据的音调分量频率和发声速度的时间顺序变化，并且该语音片段数据经受熵编码并通过该压缩部分12被返回作为压缩语音片段数据时，该语音片段数据生成部分11将该压缩语音片段数据写入到语音片段数据库7的存储器中，作为包括在数据部分DAT中的数据。

该语音片段数据生成部分11将从记录语音片段数据集存储部分10中读出的音标写入到语音片段数据库7的存储器中作为语音片段读音数据，使得该音标表示由该被写入的压缩语音片段数据表示的语音片段的读音。

该语音片段数据生成部分11还识别出该语音片段数据库7的存储器中的顶端地址，并将该地址写入到该语音片段数据库7的存储器中，作为上述数据(B)。

还可以识别该压缩语音片段数据的数据长度，并将该识别出的数据长度写入到该语音片段数据库7的存储器中，作为数据(C)。

生成表示由压缩语音片段数据表示的音调分量频率以及语音片段的发声速度的时间顺序变化的识别结果的数据，并将该数据写入到语音片段数据库7的存储器中，作为速度缺省值数据和音调分量数据。

现在，将描述该语音合成系统的操作。

在该说明中，假设该语音处理部分1首先从外部获得自由文本数据，其中在该自由文本数据中，包括由用户准备的表意字的句子(自由文本)使得该语音合成系统为其合成语音。

这里，该语言处理部分1可以通过任何方法来获得自由文本数据。例如，它可以通过接口电路(未示出)从外部装置或者网络获得自由文本数据，或者可以通过记录介质驱动装置从记录介质驱动装置(未示出)中设置的记录介质(例如，软盘(注册商标)或者CD-ROM)中读取自由文本数据。

执行该语言处理部分1的功能的处理器可以将由该处理器执行的其他处理中使用的文本数据传送给该语言处理部分1的处理，作为自由文本数据。

上述该处理器执行的其他处理可以包括如下处理：使得该处理器执行代理装置的功能，即通过获得表示语音的语音数据，通过对语音数据执行语音识别来识别由该语音表示的语音数据，根据该识别出的语音片段来识别该语音的讲述者请求的内容，以及识别出应该进行的处理，以实现该识别出的请求。

当该语言处理部分1获得自由文本数据时，通过检索该常规字典2和用户字典3来识别出表示包括在自由文本中的每个表意字的读音的音标。接着，用该识别出的音标来代替表意字。接着，该语言处理部分1将通过用音标来替换自由文本中的全部表意字而得到的音标串提供给声音处理部分41。

当将音标串从语言处理部分1提供给该声音处理部分41时，该声音处理部分41指示该检索部分42为包括在该音标串中的每个音标检索由该音标表示的单位语音的波形。

响应于该指示，该检索部分42在该波形数据库44中检索表示由包括在该音标串中的每个音标表示的单位语音的波形的压缩波形数据。接着，将该检索到的压缩波形数据提供给扩展部分43。

该扩展部分43在对从检索部分42提供的压缩波形数据进行压缩之前恢复该波形数据，并将该恢复后的波形数据返回给检索部分42。该检索部分42将从扩展部分43返回的波形数据提供给声音处理部分41，作为检索结果。

该声音处理部分41将从检索部分42提供的波形数据按照在由语言处理部分1提供的音标串中排列的音标顺序提供给语音片段编辑部分5。

当将波形数据从声音处理部分41提供给该语音片段编辑部分5时，该语音片段编辑部分5按照提供的顺序将波形数据片段彼此组合，并输出其作为表示合成语音的数据(合成语音数据)。根据该自由文本数据合成的合成语音等同于按照规定的合成方法合成的语音。

该语音片段编辑部分5可以通过任何方法来输出该合成语音数据。例如，它可以通过D/A(数字-模拟)转换器或者扬声器(未示出)来播放该由合成语音数据表示的合成语音。它还可以通过接口电路(未示出)将该合成语音数据发送至外部装置或网络，或者通过记录介质驱动装置将该合成语音数据写入到该记录介质驱动装置(未示出)中设置的记录介质中去。执行该语音片段编辑部分5的功能的处理器可以将该合成语音数据发送至该处理器正在执行的其他处理。

假设该声音处理部分41从外部获得表示所配信的音标串的数据(配信字符串数据)。(该声音处理部分41可以按照任意方法来获得配信字符串数据。例如，可以按照与语言处理部分1中用户获得自由文本数据相同的方法来获得配信字符串数据)。

在这种情况下，该声音处理部分41将用配信字符串数据表示的音标串当作由语言处理部分1提供的音标串。结果，由检索部分42来检索对应于包括在由配信字符串表示的音标串中的音标的压缩波形数据，并由扩展部分43对压缩之前的波形数据进行恢复。通过声音处理部分41将恢复的每段波形数据提供给语音片段编辑部分5。该语音片段编辑部分5按照配信字符串表示的音标串中音标的排列顺序将波形数据片段彼此组合，并输出其作为表示合成语音的数据。根据该配信字符串数据合成的合成语音数据还表示按照规定的合成方法合成的语音。

假设该语音片段编辑部分5接着获得标准尺寸的消息数据，发声速度数据以及匹配程度数据。

该标准尺寸消息数据表示作为音标串的标准尺寸的消息，该发声速度数据表示由该标准尺寸消息数据表示的标准尺寸消息的发声速度的给定值(说出该标准尺寸尺寸消息所需时间长度的给定值)。该匹配程度数据用于指定将在后面由检索部分6执行的检索处理中的检索条件。假设该匹配程度数据可以为“1”，“2”，以及“3”以下的任何值，其中“3”为最严格的检索条件。

该语音片段编辑部分5可以通过任何方法来获得标准尺寸消息数据，发声速度数据或者匹配程度数据。例如，它可以通过与语言处理部分1获得自由文本数据相同的方法来获得标准尺寸消息数据，发声速度数据或者匹配程度数据。

当该标准尺寸消息数据，发声速度数据以及匹配程度数据被提供给语音片段编辑部分5时，该语音片段编辑部分5就会指示检索部分6去检索与该音标相关的所有压缩语音片段数据，其中该音标与表示包括在标准尺寸消息中的语音片段的读音的音标相匹配。

响应于该语音片段编辑部分5的指示，该检索部分6在该语音片段数据库7中检索相应的压缩语音片段数据，上述对应于相应的压缩语音片段数据的语音片段读音数据，速度缺省值数据以及音调分量数据，并将该检索到的压缩波形数据提供给扩展部分43。如果有多段压缩语音片段数据对应于该共用表音字串和表意字串，则所有片段的相应的压缩语音片段数据都被检索作为将在语音合成中使用的候选数据。另一方面，如果该检索部分6具有对于其来说没有任何压缩语音片段数据被检索出来的语音片段，则该检索部分6产生用于识别该相应语音片段的数据(下文中，被称为缺少部分识别数据)。

该扩展部分43对从检索部分6提供的压缩语音片段数据被压缩之前的语音片段数据进行恢复，并将其返回给检索部分6。该检索部分6将由该扩展部分43返回的语音片段数据，检索到的语音片段读音数据，速度缺省值数据以及音调分量数据作为检索结果提供给语速转换部分9。如果产生了缺少部分识别数据，则该缺少部分识别数据也被提供给语速转换部分9。

另一方面，该语音片段编辑部分5指示该语速转换部分9对提供给语速转换部分9的语音片段数据进行转换，并使得由该语音片段数据表示的语音片段的时间长度与由该发声速度数据表示的速度相匹配。

响应于来自于该语音片段编辑部分5的指示，该语速转换部分9对从该检索部分6提供的语音片段数据进行转换，以与该指示相匹配，并将该数据提供给语音片段编辑部分5。特别地，例如，该语速转换部分9只需要根据检索出的速度缺省值数据来识别由该检索部分6提供的语音片段数据的初始时间长度，接着对该语音片段数据进行重新采样，并使得该该语音片段数据的采样数成为与由该语音片段编辑部分5指示的速度相匹配的时间长度。

该语速转换部分9还将从该检索部分6提供的语音片段读音数据以及音调分量数据提供给语音片段编辑部分5。如果将该缺少部分识别数据从检索部分6提供给语速转换部分9，则该语速转换部分9进一步将该缺少部分识别数据提供给语音片段编辑部分5。

如果该发声速度数据没有被提供给语音片段编辑部分5，则该语音片段编辑部分5只需要指示该语速转换部分9将提供给该语速转换部分9的语音片段数据提供给语音片段编辑部分5，而不进行转换。响应于该指示，该语速转换部分9将从检索部分6提供的语音片段数据按照原样提供给语音片段编辑部分5。

当语速转换部分9将该语音片段数据，语音片段读音数据以及音调分量数据提供给语音片段编辑部分5时，该语音片段编辑部分5就会从提供的多段语音片段数据中选择一段语音片段数据，其中该语音片段数据表示能够与该语音片段的波形相近似的波形，并且该语音片段形成了用于一个语音片段的标准尺寸消息。这里，该语音片段编辑部分5根据获得的匹配程度数据来设置是否使得满足任何条件的波形成为标准尺寸消息的语音片段附近的波形。

特别地，该语音片段编辑部分5首先通过根据韵律预测方法例如“Fujisake模型”、“ToBI(Tone and Break Indeces)”等，对由标准尺寸消息数据表示的标准尺寸消息进行分析来预测该标准尺寸消息的韵律(重音，声调，重读，音素的时间长度等)。

接着，该语音片段编辑部分5

(1)选择由该语速转换部分9提供的所有语音片段数据(即，其读音与标准尺寸消息中的语音片段相匹配的语音片段数据)作为标准尺寸消息中语音片段波形附近的语音片段数据，如果该匹配程度数据的值为“1”。

(2)如果该匹配程度数据的值为“2”，则该语音片段编辑部分5选择该语音片段数据作为标准尺寸消息中该语音片段波形附近的语音片段数据，只要满足条件(1)(即，与表示读音的音标相匹配的条件)，以及在表示语音片段数据的音调分量频率的时间顺序变化的音调分量数据的内容与包括在标准尺寸消息中的语音片段的重音预测结果之间存在预定量或更多的牢固相互关系(所谓的韵律)(例如，如果重读位置的时间差就是预定量或更小)。通过标准尺寸消息的韵律预测结果就能够识别出标准尺寸消息中语音片段重音的预测结果。例如，该语音片段编辑部分5只需要解释音调分量的频率被预测为最高的位置作为该重音的预测位置。另一方面，对于由该语音片段数据表示的语音片段的重音位置，它只需要根据上述音调分量数据识别出音调分量的频率最高的位置，并且将该位置解释为重音位置。可以对整个句子预测该韵律。作为选择地，可以将该句子分为预定单元并对每个单元进行预测来预测韵律。

(3)如果该匹配程度数据的值为“3”，则该语音片段编辑部分5选择该语音片段数据作为标准尺寸消息中该语音片段波形附近的语音片段数据，只要满足条件(2)(即，与表示读音的音标和重音相匹配的条件)，以及由该语音片段数据表示的语音被读作鼻辅音还是清辅音与标准尺寸消息韵律的预测结果相匹配。该语音片段编辑部分5只需要根据由语速转换部分9提供的音调分量数据来确定由该语音片段数据表示的语音被读作鼻辅音还是清辅音。

如果该语音片段编辑部分5对于语音片段具有与它自己设置的条件相匹配的多段语音片段数据，则它就根据比该设置的条件更严格的条件将该多段语音片段数据收缩变窄为片段。

特别地，该语音片段编辑部分5进行如下操作：如果设置条件对应于匹配程度数据值“1”并且存在多段相应的语音片段数据，例如，则它就会选择还与对应于匹配程度数据值“2”的检索条件相匹配的片段。如果选择了多段语音片段数据，则它进一步从选择结果中选择与对应于匹配程度数据值“3”的检索条件相匹配的片段。如果它通过对应于匹配程度数据值“3”的检索条件而使得多个片段收缩变窄并且仍旧具有多段语音片段数据，则它只需要根据任意的标准对剩余的片段进行收缩变窄。

接着，该语音片段编辑部分5确定表示该语音片段读音的音标串的字符数与形成该标准尺寸消息数据的音标串的字符总数的比率(或者，除了表示由从语速转换部分9提供的缺少部分识别数据指示的语音片段的读音的部分以外的部分与形成该标准尺寸消息数据的音标串中字符总数的比率)是否达到了预定阈值，其中为该语音片段选择了表示能够被近似的波形的语音片段数据。

如果确定上述比率达到了该阈值并且如果也从语速转换部分9提供了该缺少部分识别数据，则该语音片段编辑部分5从该标准尺寸消息数据中提取出表示由该缺少部分识别数据表示的语音片段的读音的音标串，并将其提供给声音处理部分41，并且指示该声音处理部分合成该语音片段的波形。

该被指示的声音处理部分41将从语音片段编辑部分5提供的音标串当作由配信字符串数据表示的音标串。结果，由该检索部分42检索出表示由包括在该音标串中的音标表示的语音波形的压缩波形数据，并由扩展部分43将压缩波形数据恢复至初始波形，并通过检索部分42将其提供给声音处理部分41。该声音处理部分41将该波形数据提供给语音片段编辑部分5。

当该波形数据被从声音处理部分41返回至语音片段编辑部分5时，它将该波形数据以及由语音片段编辑部分5从语速转换部分9提供的语音片段数据中选择的波形数据按照由标准尺寸消息数据表示的标准尺寸消息中音标串中音标的排列顺序彼此组合，并将其输出作为表示合成语音的数据。

如果由该语速转换部分9提供的数据不包括缺少部分识别数据，则该语音片段编辑部分5只需要立即将由该语音片段编辑部分5选择的多段语音片段数据按照由标准尺寸消息数据表示的标准尺寸消息中音标串中音标的排列顺序彼此组合，并将其输出作为表示合成语音的数据，而不需要指示该声音处理部分41来合成该波形。

另一方面，如果确定上述比率没有达到阈值，则该语音片段编辑部分5确定在该语音合成中不使用该语音片段数据(换句话说，取消选择该语音片段数据)，并将形成该标准尺寸消息数据的整个音标串提供给声音处理部分41，以及指示该声音处理部分41来合成该语音片段的波形。

该被指示的声音处理部分41将从语音片段编辑部分5提供的音标串当作由配信字符串数据表示的音标串。结果，该声音处理部分41将表示由包括在该音标串中的音标表示的语音波形的波形数据提供给语音片段编辑部分5。

当该波形数据被从声音处理部分41返回至语音片段编辑部分5时，它按照由标准尺寸消息数据表示的标准尺寸消息中语音片段的排列顺序组合该多段波形数据，并将其输出作为表示合成语音的数据。

在根据本发明第一实施例的上述语音合成系统中，根据韵律预测结果通过录音编辑方法将表示语音片段波形的多段语音片段数据自然地组合，其中该语音片段可以为比音素更大的单位，使得合成读出该标准尺寸消息的语音。该语音片段数据库7的存储容量可以比用于存储每个音素的波形的存储器容量更小，并且可以进行快速检索。这样，该语音合成系统又小又轻便，并且还能够适于快速处理。

如果能够被由形成该标准尺寸消息的整个语音片段中的语音片段数据表示的语音片段近似的一部分语音片段没有达到上述阈值，则该语音合成系统通过规定的合成方法对该整个标准尺寸消息进行语音分析，而不需要使用表示能够近似用于语音分析的语音片段的语音片段数据。这样，如果该标准尺寸消息包括能够被由语音片段数据表示的语音片段近似的少量语音片段，合成语音中语音片段质量的不均匀性也不是很突出，使得它几乎没有不自然的声音。

该语音合成系统的结构并不仅限于上面所提到的。

例如，该波形数据或语音片段数据不需要一定是PCM格式的数据，并且该数据可以具有任何数据格式。

该波形数据库44或语音片段数据库7不需要存储处于将经受数据压缩的状态中的波形数据或语音片段数据。如果该波形数据库44或语音片段数据库7存储了处于没有将经受数据压缩的状态中的波形数据或语音片段数据，则该单元体M1不需要具有扩展单元43。

该波形数据库44不需要以单独地分开的形式存储单位语音。它可以存储由多个单位语音形成的语音的波形，以及用于识别每个单元语音在该波形中占据的位置的数据。在这种情况下，该语音片段数据库7可以执行该波形数据库44的功能。也就是说，一系列语音数据片段可以被按照与语音片段数据库7中相同的方式存储在波形数据库44中。在这种情况下，针对每个音素的音调信息等被存储在彼此相关的语音数据中，以便于被用作波形数据库。

该语音片段数据生成部分11可以通过记录介质驱动装置从该记录介质驱动装置(未示出)中设置的记录介质中读出语音片段数据或音标串，其中该语音片段数据或音标串使得用于新压缩的语音片段数据的素材被添加至该语音片段数据库7。

该语音片段寄存器单元R不需要必须具有该记录语音片段数据集存储部分10。

该音调分量数据也可以是表示由该语音片段数据表示的语音片段的音调长度的时间顺序变化的数据。在这种情况下，该语音片段编辑部分5只需要根据该音调分量数据来识别该音调长度最短的位置(即，频率最高的位置)，并将该位置解释为重音位置。

该语音片段编辑部分5预先存储表示特定语音片段的韵律的韵律寄存器数据，并且如果该标准尺寸消息包括该特定语音片段，则它可以将该由韵律寄存器数据表示的韵律当作韵律预测的结果。

该语音片段编辑部分5还可以存储过去的韵律预测结果作为韵律寄存器数据。

该语音片段数据生成部分11可以包括麦克风，放大器，采样电路，A/D(模拟-数字)转换器以及PCM编码器。在这种情况下，该语音片段数据生成部分11可以通过如下方式来生成语音片段数据，即对表示由它自己的麦克风收集的语音的语音信号进行放大，对该信号进行采样和A/D转换，以及接着对该采样后的语音信号进行PCM调制，而不是从记录语音片段数据集存储部分10中获得语音片段数据。

该语音片段编辑部分5可以通过将从声音处理部分41返回的波形数据提供给语速转换部分9来将由波形数据表示的波形的时间长度与由发声速度数据表示的速度相匹配。

该语音片段编辑部分5可以通过例如语言处理部分1来获得自由文本数据，并且通过进行实质上与选择标准尺寸消息的语音片段数据的处理相同的处理来选择至少与包括在由该文本数据表示的自由文本中的一部分语音(音标串)相匹配的语音片段数据，以便于在语音合成中使用它。

在这种情况下，该声音处理部分41不需要使得该检索部分42为由该语音片段编辑部分5选择的语音片段而检索表示该语音片段波形的波形数据。该语音片段编辑部分5只需要将不需要被声音处理部分41合成的语音片段报告给该声音处理部分41，使得该声音处理部分41响应于该报告而停止检索形成该语音片段的单位语音的波形。

该语音片段编辑部分5可以例如通过声音处理部分41来获得配信字符串数据，通过进行实质上与选择标准尺寸消息的语音片段数据的处理相同的处理来选择表示包括在由该配信字符串数据表示的配信字符串中的音标串的语音片段数据，以便于在语音合成中使用它。在这种情况下，该声音处理部分41不需要使得该检索部分42为由该语音片段编辑部分5选择的语音片段数据表示的语音片段而检索表示该语音片段波形的波形数据。

(第二实施例)

现在，将描述本发明的第二实施例。图3为显示根据本发明第二实施例的语音合成系统的配置的方框图。如图中所示，该语音合成系统与第一实施例一样也包括单元体M2和语音片段寄存器单元R。在它们中，语音片段寄存器单元R具有实质上与第一实施例中相同的结构。

该单元体M2包括语言处理部分1，常规字典2，用户字典3，规则合成部分4，语音片段编辑部分5，检索部分6，语音片段数据库7，扩展部分8，以及语速转换部分9。在它们中，该语言处理部分1，常规字典2，用户字典3，以及语音片段数据库7具有实质上与第一实施例中相同的结构。

该语言处理部分1，语音片段编辑部分5，检索部分6，扩展部分8，以及语速转换部分9中的每一个都包括处理器，例如CPU，DSP等，以及用于存储将由该处理器执行的程序的存储器，它们都执行将在后面描述的处理。单个处理器可以执行该语言处理部分1，检索部分42，扩展部分43，语音片段编辑部分5，检索部分6，以及语速转换部分9的部分或者全部功能。

该规则合成部分4与第一实施例一样也包括声音处理部分41，检索部分42，扩展部分43以及波形数据库44。在它们当中，声音处理部分41，检索部分42，以及扩展部分43中的每一个都包括处理器，例如CPU，DSP等，以及用于存储将由该处理器执行的程序的存储器，它们都进行将在后面描述的处理。

单个处理器可以执行该声音处理部分41，检索部分42以及扩展部分43的部分或者全部功能。执行该语言处理部分1，声音处理部分41，检索部分42，扩展部分43，语音片段编辑部分5，检索部分6，扩展部分8，以及语速转换部分9的部分或全部功能的处理器还可以进一步执行声音处理部分41，检索部分42，以及扩展部分43的部分或全部功能。因此，该扩展部分8也可以执行，例如，该规则合成部分4的扩展部分43的功能。

该波形数据库44包括非易失性存储器，例如PROM，硬盘装置等。该波形数据库44存储有音形字，以及压缩波形数据，其中获得该压缩波形数据作为表示碎片的碎片波形数据，其中该碎片形成了通过该语音合成系统的制造商事先经受彼此相关的熵编码的音标(即，用于一个形成音素的语音波形的周期(或者，某一数量)的语音)表示的音素。熵编码之前的碎片波形数据可以包括例如经受PCM的数字格式数据。

该语音片段编辑部分5包括匹配语音片段确定部分51，韵律预测部分52，以及输出合成部分53。该匹配语音片段确定部分51，韵律预测部分52，以及输出合成部分53中的每一个都包括处理器，例如CPU，DSP(数字信号处理器)等，以及存储器，用于存储将由该处理器执行的程序，它们都执行将在后面描述的处理。

单个处理器可以执行该匹配语音片段确定部分51，韵律预测部分52，以及输出合成部分53的部分或者全部功能。执行该语言处理部分1，声音处理部分41，检索部分42，扩展部分43，语音片段编辑部分5，检索部分6，扩展部分8，以及语速转换部分9的部分或全部功能的处理器还可以进一步执行匹配语音片段确定部分51，韵律预测部分52，以及输出合成部分53的部分或全部功能。因此，用于执行该输出合成部分53的功能的处理器可以进一步执行，例如，语速转换部分9的功能。

现在，将描述图3中的语音合成系统的操作。

首先，假设该语言处理部分1实质上从外部获得了与第一实施例中相同的自由文本数据。在这种情况下，该语言处理部分1通过执行实质上与第一实施例中相同的处理来用音标替换包括在该自由文本中的表意字。接着，它将通过该替换的结果得到的音标串提供给规则合成部分4的声音处理部分41。

当将音标串从语言处理部分1提供给声音处理部分41时，该声音处理部分41指示该检索部分42来为包括在音标串中的每个音标检索形成了由该音标表示的音素的碎片波形。该声音处理部分41将该音标串提供给语音片段编辑部分5的韵律预测部分52。

响应于该指示，该检索部分42在该波形数据库44中检索与该指示所述相匹配的压缩波形数据。接着，它将检索出来的压缩波形数据提供给扩展部分43。

该扩展部分43从该检索部分42提供的压缩波形数据恢复压缩之前的碎片波形数据，并将该恢复后的波形数据返回给检索部分42。该检索部分42将从扩展部分43返回的碎片波形数据提供给声音处理部分41，作为检索的结果。

另一方面，从声音处理部分41将音标串提供给韵律预测部分52，该韵律预测部分52通过根据例如与第一实施例中该语音片段编辑部分5进行的相同韵律预测方法进行分析而生成表示由该音标串表示的语音韵律的预测结果的韵律预测数据。接着，将该韵律预测数据提供给声音处理部分41。

当从检索部分42将碎片波形数据提供给声音处理部分41并且从韵律预测部分52将韵律预测数据提供给声音处理部分41时，该声音处理部分41就通过使用该碎片波形数据而生成表示语音波形的语音波形数据，其中该语音波形是由包括在由该语言处理部分11提供的音标串中的每个音标表示的。

特别地，该声音处理部分41根据由该韵律预测部分52提供的韵律预测数据来识别包括由该检索部分42提供的每段碎片波形数据表示的碎片的音素的时间长度。接着，该声音处理部分41只需要获得最接近于被由碎片波形数据表示的碎片时间长度分割的音素的被识别时间长度数值的整数，并且通过将多段该碎片波形数据与得到的整数彼此组合来生成语音波形数据。

不仅通过根据韵律预测数据确定由该语音波形数据表示的语音时间长度，而且还通过处理包括在该语音波形数据中的碎片波形数据，该声音处理部分41可以使得由该语音波形数据表示的语音具有与由韵律预测数据表示的韵律相匹配的重读，声调等。

接着，该声音处理部分41将该生成的语音波形数据按照由语言处理部分1提供的音标串中音标的排列顺序提供给该语音片段编辑部分5中的输出合成部分53。

当该声音波形数据被从声音处理部分41提供给输出合成部分53时，该输出合成部分53按照从该声音处理部分41提供的顺序组合这些语音波形数据片段，并将其输出作为合成的声音数据。根据该自由文本数据合成的合成声音对应于按照该规则合成方法合成的语音。

该输出合成部分53输出合成语音数据的方法也与第一实施例的语音片段编辑部分5中采取的一样，并且可以是任意的。因此，可以通过例如D/A转换器或者扬声器(未示出)来播放由该合成语音数据表示的合成语音。还可以通过接口电路(未示出)将该合成语音数据发送至外部装置或网络，或者通过记录介质驱动装置将该合成语音数据写入到该记录介质驱动装置(未示出)中设置的记录介质中去。执行该输出合成部分53的功能的处理器可以将该合成语音数据发送至该处理器正在执行的其他处理。

假设该声音处理部分41实质上获得了与第一实施例中相同的配信字符串。(该声音处理部分41可以按照任意方法来获得配信字符串数据。例如，可以按照与语言处理部分1中用户获得自由文本数据相同的方法来获得配信字符串数据)。

在这种情况下，该声音处理部分41将用配信字符串数据表示的音标串当作从该语言处理部分1提供的音标串。结果，由检索部分42检索出表示碎片的压缩波形数据，其中该碎片形成了由包括在该配信字符串表示的音标串中的音标表示的音素，并由扩展部分43对压缩之前的碎片波形数据进行恢复。另一方面，该韵律预测部分52根据韵律预测方法对由该配信字符串表示的音标串进行分析。结果，生成了表示关于由该音标串表示的语音韵律的预测结果的韵律预测数据。接着，该声音处理部分41根据每段恢复的碎片波形数据和韵律预测数据来生成表示语音波形的语音波形数据，其中该语音波形由包括在由配信字符串数据表示的音标串中的每个音标表示。该输出合成部分53将生成的语音波形数据按照由配信字符串表示的音标串中音标的排列顺序进行组合，并将其输出作为合成语音数据。根据该配信字符串数据被合成的该合成语音数据还表示规则合成方法中合成的语音。

接下来，假设该语音片段编辑部分5的匹配语音片段确定部分5 1实质上获得了与第一实施例中相同的标准尺寸消息数据，发声速度数据以及匹配程度数据。(该匹配语音片段确定部分51可以通过任意方式获得该标准尺寸消息数据，发声速度数据以及匹配程度数据。例如，可以按照与语言处理部分1获得自由文本数据相同的方法来获得标准尺寸消息数据，发声速度数据以及匹配程度数据。)

当该标准尺寸消息数据，发声速度数据以及匹配程度数据被提供给匹配语音片段确定部分51时，该匹配语音片段确定部分51指示该检索部分6检索该压缩语音片段数据，对应于该压缩语音片段数据，该音标与表示包括在标准尺寸消息中的语音片段读音的音标相匹配。

响应于来自匹配语音片段确定部分51的指示，该检索部分6与检索部分6在第一实施例一样在该语音片段数据库7中检索所有的相应的压缩语音片段数据，与相应的压缩语音片段数据相关的上述语音片段读音数据，速度缺省值以及音调分量数据，并将检索出的压缩波形数据提供给扩展部分43。另一方面，如果存在一些语音片段，其中对于该语音片段来说该压缩的语音片段数据无法被检索出来，则就会生成用于识别相应语音片段的缺少部分识别数据。

该扩展部分43从该检索部分6提供的压缩语音片段数据中恢复压缩前的语音片段数据，并将其返回给检索部分6。该检索部分6将从扩展部分43返回的语音片段数据，以及检索出的语音片段读音数据，速度缺省值数据和音调分量数据提供给语速转换部分9，作为检索结果。如果产生了该缺少部分识别数据，则该缺少部分识别数据也会被提供给语速转换部分9。

另一方面，该匹配语音片段确定部分51指示该语速转换部分9对提供给该语速转换部分9的语音片段数据进行转换，使得由该语音片段数据表示的语音片段的时间长度与由发声速度数据表示的速度相匹配。

响应于该匹配语音片段确定部分51的指示，该语速转换部分9对由检索部分6提供的语音片段数据进行转换，以与该指示相匹配，并将其提供给匹配语音片段确定部分51。特别地，它只需要通过调整该部分的长度就能够使得整个语音片段数据的采样数成为由该匹配语音片段确定部分51指示的速度，因为它将从检索部分6提供的语音片段数据分割为表示各个音素的部分，对于获得的各个部分，从该部分中识别出表示碎片的局部，其中该碎片形成了由该部分表示的音素，复制该识别出的局部(一个或多个局部)并将其插入在该部分中，或者从该部分中去除该局部(一个或多个局部)。该语速转换部分9只需要为各个部分确定表示要被插入或被去除碎片的部分的数据，使得剩余的由各个部分表示的音素之间的时间长度的比率实质上相同。因此，可以比简单组合以及合成该音素的情况更细致地调整该语音。

该语速转换部分9还将从检索部分6提供的语音片段读音数据和音调分量数据提供给匹配语音片段确定部分51。如果该缺少部分识别数据是从检索部分6提供的，则该语速转换部分9进一步还将该缺少部分识别数据提供给匹配语音片段确定部分51。

如果该发声速度数据没有被提供给匹配语音片段确定部分51，则该匹配语音片段确定部分51只需要指示该语速转换部分9将提供给语速转换部分9的语音片段数据提供给匹配语音片段确定部分51，而不需要转换该语音片段数据，并且该语速转换部分9实际上只需要响应于该指示而将从检索部分6提供的语音片段数据提供给匹配语音片段确定部分51。如果被提供给语速转换部分9的语音片段数据的采样数已经与时间长度相匹配，其中该时间长度与由该匹配语音片段确定部分51指示的速度相匹配，则该语速转换部分9实际上只需要将该语音片段数据提供给匹配语音片段确定部分51，因为其不需要进行任何转换。

当将该语音片段数据，语音片段读音数据以及音调分量数据从语速转换部分9提供给匹配语音片段确定部分51时，根据对应于该匹配程度数据值的条件，通过如第一实施例中的语音片段编辑部分5的用于一个语音片段的一段语音片段数据，该匹配语音片段确定部分51从被提供给匹配语音片段确定部分51的语音片段数据中选择表示能够被近似于形成标准尺寸消息的语音片段波形的语音片段数据。

这里，如果存在一语音片段，其中对于该语音片段来说，无法从该语速转换部分9提供的语音片段数据中选择满足对应于该匹配程度数据值的条件的语音片段数据，则该匹配语音片段确定部分5 1确定将该相应的语音片段数据当作语音片段，其中对于该语音片段来说，该检索部分6无法检索出该压缩语音片段数据(即，由上述缺少部分识别数据表示的语音片段)。

接着，与第一实施例中的语音片段编辑部分5一样，该匹配语音片段确定部分51确定表示该语音片段读音的音标串的字符数与形成该标准尺寸消息数据的音标串的字符总数的比率(或者，除了表示由从语速转换部分9提供的缺少部分识别数据指示的语音片段的读音的部分以外的部分与形成该标准尺寸消息数据的音标串中字符总数的比率)是否达到了预定阈值，其中表示能够被近似的波形的语音片段数据选择该语音片段。

接着，如果确定上述比率已经达到了该阈值，则该匹配语音片段确定部分51将该选择的语音片段数据提供给输出合成部分53，作为满足对应于该匹配程度数据值条件的数据。在这种情况下，如果也从语速转换部分9将缺少部分识别数据提供给匹配语音片段确定部分51，或者如果存在数据片段，其中对于该数据片段来说，没有满足对应于该匹配程度数据值条件的语音片段数据能被选择，则该匹配语音片段确定部分51从标准尺寸消息数据中提取出表示由该缺少部分识别数据(包括有语音片段，其中对于该语音片段来说，没有满足对应于该匹配程度数据值条件的语音片段数据能被选择)表示的语音片段读音的音标串，并将其提供给声音处理部分41，指示它来合成该语音片段的波形。

该被指示的声音处理部分41将从匹配语音片段确定部分51提供的音标串作为由配信字符串表示的音标串。结果，该检索部分42检索出表示碎片的压缩波形数据，其中该碎片形成了由包括在音标串中的音标表示的音素，并且由扩展部分43恢复压缩之前的碎片波形数据。另一方面，该韵律预测部分52生成韵律预测数据，其中该韵律预测数据表示由该音标串表示的语音片段韵律的预测结果。接着，该声音处理部分41根据各个恢复的碎片波形数据和韵律预测数据来生成语音波形数据，其中该语音波形数据表示由包括在音标串中的各个音标表示的语音波形，并将该生成的语音波形数据提供给输出合成部分53。

该匹配语音片段确定部分51可以将对应于由韵律预测数据中的缺少部分识别数据表示的语音片段的部分提供给声音处理部分41，其中该韵律预测数据已经由该韵律预测部分52生成并且被提供给匹配语音片段确定部分51。在这种情况下，该处理部分41不需要使得该韵律预测部分52再一次对该语音片段进行韵律预测。这就使得能够按照比通过精密单元如语音片段进行韵律预测的情况更自然的方式进行发声。

另一方面，如果确定上述比率没有达到该阈值，则该匹配语音片段确定部分51就确定在语音合成中不使用该语音片段数据，并且将形成该标准尺寸消息数据的整个音标串提供给声音处理部分41，并指示合成该语音片段波形。

该被指示的声音处理部分41将从匹配语音片段确定部分51提供的音标串作为由配信字符串表示的音标串。结果，该声音处理部分41将表示由包括在音标串中的音标表示的语音波形的语音波形数据提供给输出合成部分53。

当从声音处理部分41提供了由该碎片波形数据生成的语音波形数据并且从匹配语音片段确定部分51提供了语音片段数据时，该输出合成部分53对包括在提供的语音波形数据的各个片段中的碎片波形数据的片数进行调整，以使得由该语音波形数据表示的语音的时间长度与由从匹配语音片段确定部分51提供的语音片段数据表示的语音片段的发声速度相匹配。

特别地，该输出合成部分53只需要识别出由包括在语音片段数据中的每个上述部分表示的音素的时间长度与由匹配语音片段确定部分51增加或降低的初始时间的比率，并且增加或降低每个语音波形数据中碎片波形数据的片数，使得由从声音处理部分41提供的语音波形数据表示的音素的时间长度在比率方面改变。为识别该比率，该输出合成部分53只需要从检索部分6获得在生成由该匹配语音片段确定部分51提供的语音片段数据时使用的初始语音片段数据，并且逐个识别两段语音片段数据之间彼此表示相同音素的部分。接着，它只需要识别包括在由匹配语音片段确定部分51提供的语音片段数据中识别出的部分中增加或降低的碎片数与包括在从检索部分获得的语音片段数据中识别出的部分中的碎片数的比率，作为增加或降低的音素的时间长度的比率。

如果由该语音波形数据表示的音素的时间长度已经与由匹配语音片段确定部分51提供的语音片段数据表示的语音片段的速度校准，或者如果不存在从匹配语音片段确定部分51提供给输出合成部分53的语音片段数据(特别地，例如上述比率没有达到阈值或者如果没有选择语音片段数据)，则该输出合成部分53不需要调整语音波形数据中碎片波形数据的数量。

接着，该输出合成部分53将已经被调整碎片波形数据片数的语音波形数据与从匹配语音片段确定部分51提供的语音片段数据按照由标准尺寸消息数据表示的标准尺寸消息中排列的语音片段和音素的顺序彼此组合，并将其输出作为表示合成声音的数据。

如果从语速转换部分9提供的数据不包括标准尺寸消息数据，则它只需要按照由标准尺寸消息数据表示的标准尺寸消息中排列的音标的顺序将由语音片段编辑部分5选择的语音片段数据组合，并立即将其输出作为表示合成数据的数据，而不需要指示该声音处理部分41来合成波形。

在上述本发明第二实施例的语音合成系统中，可以通过录音编辑方法根据韵律的预测结果来将表示语音片段波形的语音片段数据的片段彼此自然地组合，其中该语音片段可以为比音素更大的单位，并且合成读出该标准尺寸消息的语音。

另一方面，通过使用表示碎片的压缩波形数据的规则组合方法来合成无法选择适当的语音片段数据的语音片段，其中该碎片为比音素还小的单位。因为该压缩波形数据表示碎片的波形，因此该波形数据库44的存储容量小于该压缩波形数据表示音素波形情况下的存储器容量，并且能够进行快速检索。因此，该语音合成系统又小又轻便，并且还能够适于快速处理。

通过使用碎片来进行规则合成的情况与通过使用音素来进行规则合成的情况的不同之处就在于能够进行语音分析，而不会受到出现在音素末端部分中的特定波形的影响。因此，第一种情况能够产生具有很少种碎片的自然语音。

也就是说，已经知道的是，同时受到在前音素以及在后音素影响的特定波形出现在边界中，而在该边界上从人发声的语音中的在前音素转移至在后音素。另一方面，当进行收集时，规则合成中使用的音素已经在末端包括了特定波形。因此，如果通过使用音素进行规则合成，则需要准备很多种类的音素来在音素之间的边界上再现各种形式的波形，或者应该通过合成不同于语音的合成语音来满足，其中该语音在音素之间的边界上的波形很自然。在通过使用碎片来进行规则合成的情况下，可以通过事先从除了音素末端以外的部分收集碎片来消除音素之间边界上的特定波形带来的影响。因此，可以产生自然的语音，而不需要准备很多种类的音素。

在能够由形成标准尺寸消息的整个语音片段中的语音片段数据表示的语音片段近似的语音片段的比率没有达到上述阈值的情况下，该语音合成系统也按照规则合成方法对整个标准尺寸消息进行语音合成，而不需要使用表示能够在语音合成中被近似的语音片段的语音片段数据。因此，即使该标准尺寸消息具有少量能够被由语音片段数据表示的语音片段近似的语音片段，该合成语音中语音片段的质量也没有显著的不均匀，而这几乎不会带来异常。

本发明第二实施例的语音合成系统的结构不仅限于上述结构。

例如，该碎片波形数据不需要为PCM格式数据并且可以具有任意数据格式。该波形数据库44在受到数据压缩的情况下不需要存储碎片波形数据或语音片段数据。如果该波形数据库44在没有受到数据压缩的情况下存储了碎片波形数据，则该单元体M2就不需要具有扩展部分43。

该波形数据库44在单独状态下不需要存储碎片波形。例如，它可以存储由多个碎片形成的语音波形，以及用于识别单个碎片在波形中出现的位置的数据。在这种情况下，该语音片段数据库7可以执行波形数据库44的功能。

该匹配语音片段确定部分51预先存储了韵律寄存器数据；并且如果该特定语音片段被包括在标准尺寸消息中，则可以将由韵律寄存器数据表示的韵律当作韵律预测的结果，这与第一实施例的语音片段编辑部分5所作的一样。作为选择地，该匹配语音片段确定部分51可以重新存储过去的韵律预测结果作为韵律寄存器数据。

该匹配语音片段确定部分51可以通过进行实质上与用于选择表示包括在标准尺寸消息中的语音片段波形附近的波形的语音片段数据相同的处理，以及与第一实施例的语音片段编辑部分5一样在语音合成中使用它们来获得自由文本数据或配信字符串数据。在这种情况下，该声音处理部分41不需要使得该检索部分43为由匹配语音片段确定部分51选择的语音片段数据表示的语音片段来检索表示该语音片段波形的波形数据。该匹配语音片段确定部分51可以将该声音处理部分41不需要合成的语音片段报告给声音处理部分41，并且该声音处理部分41可以响应于该报告而停止检索形成该语音片段的单位语音的波形。

该由波形数据库44存储的压缩波形数据不需要表示碎片，并且可以是，例如表示由波形数据库44存储的音标表示的单位语音波形的波形数据，或者与第一实施例一样在对波形数据进行熵编码时获得的数据。

该波形数据库44可以同时存储表示碎片波形的数据以及表示音素波形的数据。在这种情况下，该声音处理部分41可以使得该检索部分42来检索由包括在配信字符串等中的音标表示的音素，并就对于其没有相应音素被检索出的音标来说，使得该检索部分42来检索表示碎片的数据，其中该碎片形成了由音标表示的音素，并且通过使用表示碎片的检索出来的数据使得该检索部分42生成表示音素的数据。

该语速转换部分9可以使用任何方法来使得由语音片段数据表示的语音片段的时间长度与由发声速度数据表示的速度相匹配。因此，该语速转换部分9可以对由检索部分6提供的语音片段数据进行重新采样，并且增加或降低该语音片段数据的采样数，以同第一实施例中的处理一样与对应于时间长度的数量相匹配，其中该时间长度与由匹配语音片段确定部分51指示的发声速度相匹配。

该单元体M2不需要包括语速转换部分9。如果该单元体M2不包括语速转换部分9，则该韵律预测部分52可以预测发声速度，并且该匹配语音片段确定部分51可以在用于在由检索部分6获得的语音片断数据中进行确定的预定条件下选择其发声速度与韵律预测部分52的预测结果相匹配的语音片段数据，并从选择对象中去除其发声速度与预测结果不匹配的语音片段数据。该语音片段数据库7可以存储多个具有相同读音和不同发声速度的语音片段数据。

该输出合成部分53可以使用任何方法将由语音波形数据表示的音素时间长度与由语音片段数据表示的语音片段的发声速度相匹配。因此，该输出合成部分53可以识别出由包括在被匹配语音片段确定部分51增加或降低的语音片段数据中的每个部分表示的音素时间长度与原始时间长度的比率，接着对该语音波形数据重新进行采样，以及将该语音波形数据的采样数增加或降低至对应于时间长度的数量，其中该时间长度与由匹配语音片段确定部分51识别出的发声速度相匹配。

对于每个语音片段来说，该发声速度可以是不同的。(因此，该发声速度数据可以用于指定对于每个语音片段来说是不同的发声速度。)接着，该输出合成部分53可以通过插入两个语音片段的发声速度(例如，线性内插法)来确定两个语音片段之间语音的发声速度，并对表示语音的语音波形数据进行转换，以与确定的发声速度相匹配，用于具有不同发声速度的每个语音的语音波形数据，其中该不同的发声速度被置于两个语音片段之间。

例如，该输出合成部分53可以对从声音处理部分41返回的语音波形数据进行转换，以使得该语音的时间长度与由提供给匹配语音片段确定部分51的发声速度数据识别出的速度相匹配，即使该语音波形数据表示形成了读出自由文本或配信字符串的语音的语音。

在上述系统中，该韵律预测部分52可以对整个句子进行韵律预测(包括预测发声速度)，或者通过预定单元进行韵律预测。在对整个句子进行韵律预测时，如果存在具有相同读音的语音片段，则可以进一步确定该韵律在预定条件下是否匹配。如果该读音匹配，则可以采用该语音片段。对于没有出现相同语音片段的部分，该规则合成部分4可以根据碎片产生语音。在这种情况下，可以根据对于韵律的预测结果来调整将根据碎片来合成的部分的音调或速度，其中该韵律预测是对整个句子或者通过预定单元来进行的。这就实现了自然语音，即使对根据该碎片产生的语音片段和语音进行组合以将其合成。

如果输入给语音处理部分1的字符串为音标串，则该语音处理部分1可以进行除了韵律预测以外的公知的自然语言分析处理，并且该匹配语音片段确定部分51可以根据该自然语言分析处理的结果来选择语音片段。这就能够通过使用对每个字的字符串进行分析的结果来选择语音片段(部分语音，例如名词，动词)，这就导致了该语音比简单地选择与音标串相匹配的语音片段的情况更自然。

在第一和第二实施例中，与阈值进行比较的对象不需要是字符数。例如，可以确定实际检索出来的语音片段数量与语音片段总数的比率是否达到了预定阈值。

虽然已经描述了本发明的实施例，但根据本发明的语音合成装置可以由通用计算机系统而不是专用系统来实现。

例如，用于执行上述处理的单元体M1可以被配置为程序，该程序是从存储了程序的记录介质(CD-ROM，MO，软盘(注册商标)等)安装的，并且使得个人计算机执行上述语言处理部分1，常规字典2，用户字典3，声音处理部分41，检索部分42，扩展部分43，波形数据库44，语音片段编辑部分5，检索部分6，语音片段数据库7，扩展部分8，以及语速转换部分9的工作。

用于执行上述处理的语音片段寄存器单元R可以被配置为程序，该程序是从存储了程序的记录介质安装的，并使得个人计算机执行上述记录语音片段数据集存储部分10，语音片段数据生成部分11，以及压缩部分12的工作。

接着，假设通过执行程序起到单元体M1或语音片段寄存器单元R的作用的个人计算机执行图4-6中所示的处理，作为对应于图1中的语音合成系统的工作的处理。

图4为显示如下情况的处理的流程图，其中在该情况下个人计算机获得了自由文本数据。

图5为显示如下情况的处理的流程图，其中在该情况下个人计算机获得了配信字符串数据。

图6为显示如下情况的处理的流程图，其中在该情况下个人计算机获得了标准尺寸消息数据以及语速数据。

也就是说，当个人计算机从外部获得上述自由文本数据时(步骤S101，图4)，它通过在常规字典2或用户字典3中检索音标来识别出表示包括在由自由文本数据表示的自由文本中的每个表意字的读音的音标，并用识别出的音标替换该表意字(步骤S102)。该个人计算机可以通过任何方法获得该自由文本数据。

当获得音标时(其中该音标表示用音标来替换自由文本中的全部表意字的结果)，该个人计算机在波形数据库44中检索由关于包括在音标串中的每个音标的音标表示的单位语音波形，并检索出表示由包括在音标串中的每个音标表示的单位语音波形的压缩波形数据(步骤S103)。

接着，该个人计算机从检索到的压缩波形数据中恢复压缩之前的波形数据(步骤S104)，将恢复的波形数据片段按照音标串中排列的音标的顺序彼此组合，并将其输出作为合成语音数据(步骤S105)。该个人计算机可以通过任何方法输出该合成语音。

当该个人计算机通过任意方法从外部获得上述配信字符串数据时(图5，步骤S201)，它在波形数据库44中检索由关于包括在配信字符串表示的音标串中的每个音标的音标表示的单位语音波形，并检索出表示由包括在音标串中的每个音标表示的单位语音波形的压缩波形数据(步骤S202)。

接着，该个人计算机从检索到的压缩波形数据中恢复压缩之前的波形数据(步骤S203)，将恢复的波形数据片段按照音标串中排列的音标的顺序彼此组合，并将其输出作为合成语音数据(步骤S204)，这与步骤S105的处理相同。

当该个人计算机通过任意方法从外部获得上述标准尺寸消息数据和发声速度数据时(图6，步骤S301)，它首先检索出所有的压缩语音片段数据，其中与表示包括在由标准尺寸消息数据表示的标准尺寸消息中的语音片段的读音的音标匹配的音标与该压缩语音片段数据相关(步骤S302)。

在步骤S302，它还检索出与相应压缩语音片段数据相关的语音片段读音数据，速度缺省值数据以及音调分量数据。如果多段压缩语音片段数据对应于语音片段，则它检索出所有的相应压缩语音片段数据的片段。另一方面，如果存在没有压缩语音片段数据被检索出来的语音片段，则它就会产生上述的缺少部分识别数据。

接着，该个人计算机从检索出来的压缩波形数据中恢复压缩之前的语音片段数据(步骤S303)。接着，它通过与上述语音片段编辑部分5进行的相同处理对恢复后的语音片段数据片段进行转换，以使得由该语音片段数据表示的语音片段的时间长度与由该发声速度数据表示的速度相匹配(步骤S304)。如果没有提供发声速度数据，则不需要对该恢复后的语音片段数据进行转换。

接着，该个人计算机通过根据韵律预测方法对由标准尺寸消息数据表示的标准尺寸消息进行分析来预测该标准尺寸消息的韵律(步骤S305)。接着，它通过执行与上述语音片段编辑部分5相同的处理，根据由从外部获得的匹配程度数据表示的标准，通过用于语音片段的一段语音片段数据，从其时间长度被转换的语音片段数据中选择表示最接近于形成该标准尺寸消息的语音片段波形的波形的一段语音片段数据(步骤S306)。

特别地，在步骤S306，该个人计算机例如根据上述条件(1)-(3)识别出语音片段数据。也就是说，假设如果该匹配程度数据值为“1”，则其读音与标准尺寸消息中的语音片段匹配的所有语音片段数据的片段被认为是表示标准尺寸消息中的语音片段波形。如果该匹配程度数据值为“2”，只要表示读音的音标匹配，并且表示语音片段数据的音调分量频率的时间顺序变化的音调分量数据的内容与包括在标准尺寸消息中的语音片段的重音预测结果相匹配，则就可以认为该语音片段数据表示标准尺寸消息中的语音片段波形。如果该匹配程度数据值为“3”，只要表示读音的音标和重读匹配，以及关于由该语音片段数据表示的语音是否被读作清辅音还是鼻辅音的确定结果与标准尺寸消息的韵律预测结果相匹配，则就可以认为该语音片段数据表示标准尺寸消息中的语音片段波形。

如果对于语音片段来说，有与该匹配程度数据表示的标准相匹配的多段语音片段数据，则假设根据比这些设置更严格的条件将这些段语音片段数据收缩变窄为一个片段。

接着，该个人计算机确定表示该语音片段读音的音标串的字符数与形成该标准尺寸消息数据的音标串的字符总数的比率(或者，除了表示由在步骤S302生成的缺少部分识别数据表示的语音片段的读音的部分以外的部分与形成该标准尺寸消息数据的音标串中字符总数的比率)是否达到了预定阈值，其中在步骤S306选择该语音片段的语音片段数据(步骤S307)。

如果确定上述比率达到了该阈值并且只要该个人计算机已经在步骤S302生成了缺少部分识别数据，则该个人计算机按照如下方式来恢复表示由音标串中的每个音标表示的语音波形的波形数据，即通过从该标准尺寸消息数据中提取出表示由该缺少部分识别数据表示的语音片段的读音的音标串，以及对于音标串的每个音素，通过以与由配信字符串数据表示的音标串相同的方式处理的提取出来的音标串执行上述步骤S202-S203的处理(步骤S308)。

接着，该个人计算机将该恢复的波形数据与在步骤S306选择的语音片段数据按照由标准尺寸消息数据表示的标准尺寸消息中音标串中排列的音标的顺序进行组合，并将其输出作为表示合成语音的数据(步骤S309)。

另一方面，如果在步骤S307确定上述比率没有达到阈值，则该个人计算机通过确定在语音合成中没有使用语音片段数据，并且通过按照与配信字符串数据表示的语音串相同的方式处理的提取出的音标串对形成标准尺寸消息数据的整个音标串的每个音素执行上述步骤S202-S203的处理来恢复表示由音标串中的每个音标表示的语音波形的波形数据(步骤S310)。接着，它将该恢复的波形数据段按照由标准尺寸消息数据表示的标准尺寸消息中音标串中音标的排列顺序进行组合，并将其输出作为表示合成语音的数据(步骤S311)。

例如，用于执行上述处理的单元体M2可以被配置为程序，该程序是从存储了程序的记录介质安装的，并且使得个人计算机执行上述语言处理部分1，常规字典2，用户字典3，声音处理部分41，检索部分42，扩展部分43，波形数据库44，语音片段编辑部分5，检索部分6，语音片段数据库7，扩展部分8，以及语速转换部分9的工作。

接着，假设通过执行程序起到单元体M2或语音片段寄存器单元R的作用的个人计算机执行图7-9中所示的处理，作为对应于图3中的语音合成系统的工作的处理。

图7为显示如下情况的处理的流程图，其中在该情况下执行单元体M2功能的个人计算机获得了自由文本数据。

图8为显示如下情况的处理的流程图，其中在该情况下执行单元体M2功能的个人计算机获得了配信字符串。

图9为显示如下情况的处理的流程图，其中在该情况下执行单元体M2功能的个人计算机获得了标准尺寸消息数据和发声速度数据。

也就是说，当个人计算机从外部获得上述自由文本数据时(步骤S401，图7)，它通过在常规字典2或用户字典3中检索音标来识别出表示包括在由自由文本数据表示的自由文本中的每个表意字的读音的音标，并用识别出的音标替换该表意字(步骤S402)。该个人计算机可以通过任何方法获得该自由文本数据。

当获得表示用音标来替换自由文本中的全部表意字的结果的音标串时，该个人计算机在波形数据库44中检索由关于包括在音标串中的每个音标的音标表示的单位语音的波形，并检索出表示碎片波形的压缩波形数据，其中该碎片形成了由包括在音标串中的每个音标表示的音素(步骤S403)，并从检索到的压缩波形数据中恢复压缩之前的碎片波形数据(步骤S404)。

另一方面，该个人计算机通过根据韵律预测方法对自由文本数据进行分析来预测由自由文本表示的语音的韵律(步骤S405)。接着，它根据步骤S405的韵律预测结果来生成在步骤S404恢复的碎片波形数据以及语音波形数据(步骤S406)，将获得的波形数据片段按照音标串中排列的音标的顺序彼此组合，并将其输出作为合成语音数据(步骤S407)。该个人计算机可以通过任何方法来输出合成的语音数据。

当该个人计算机通过任意方法从外部获得上述配信字符串数据时(图8，步骤S501)，它执行如下处理，对于以与上述步骤S403-S404一样包括在由配信字符串数据表示的音标串中的每个音标，检索出表示形成由音标表示的音素的碎片波形的压缩波形数据，并且从检索到的压缩波形数据中恢复碎片波形数据(步骤S502)。

当该个人计算机通过根据韵律预测方法对配信字符串进行分析来预测由配信字符串表示的语音的韵律时(步骤S503)，它根据步骤S503的韵律预测结果来生成在步骤S502恢复的碎片波形数据以及语音波形数据(步骤S504)，通过采取与步骤S407相同的处理来将获得的波形数据片段按照音标串中排列的音标的顺序彼此组合，并将其输出作为合成语音数据(步骤S505)。

另一方面，当该个人计算机通过任意方法获得上述标准尺寸消息数据以及发声速度数据时(步骤S601，图9)，它首先检索出所有段的压缩语音片段数据，其中该压缩语音片段与音标相关，而该音标与表示包括在由标准尺寸数据表示的标准尺寸消息中的语音片段读音的音标相匹配(步骤S602)。

在步骤S602，它还检索出与相应压缩语音片段数据相关的上述语音片段读音数据，速度缺省值数据以及音调分量数据。如果多段压缩语音片段数据对应于语音片段，则它检索所有的相应压缩语音片段数据的片段。另一方面，如果存在对于其没有压缩语音片段数据被检索出来的语音片段，则它就会产生上述缺少部分识别数据。

接着，该个人计算机从检索出来的压缩波形数据中恢复压缩之前的语音片段数据(步骤S603)。接着，它通过与上述语音片段编辑部分5进行的相同处理对恢复后的语音片段数据片段进行转换，以使得由该语音片段数据表示的语音片段的时间长度与由该发声速度数据表示的速度相匹配(步骤S604)。如果没有提供发声速度数据，则不需要对该恢复后的语音片段数据进行转换。

接着，该个人计算机通过根据韵律预测方法对由标准尺寸消息数据表示的标准尺寸消息进行分析来预测该标准尺寸消息的韵律(步骤S605)。接着，它通过执行与上述匹配语音片段确定部分51执行的相同处理，根据由从外部获得的匹配程度数据表示的标准，通过用于语音片段的一段语音片段数据，从转换其语音片段的时间长度的语音片段数据中选择表示最接近于形成该标准尺寸消息的语音片段波形的波形的一段语音片段数据(步骤S606)。

特别地，在步骤S606，该个人计算机例如通过进行与上述步骤S306相同的处理根据上述条件(1)-(3)识别出语音片段数据。假设如果对于一个语音片段来说存在与由匹配程度数据表示的标准相匹配的多段语音片段数据，则它根据比这些设置更严格的条件将这些段语音片段数据收缩变窄为一片段。还假设如果存在一语音片段，其中对于该语音片段来说没有语音片段数据满足对应于该匹配程度数据值的条件，则它确定将该相应的语音片段当作对于其没有压缩语音片段数据被检索出来的语音片段，并且例如，生成缺少部分识别数据。

接下来，与第二实施例的匹配语音片段确定部分53所作的一样，该个人计算机确定表示该语音片段读音的音标串的字符数与形成该标准尺寸消息数据的音标串的字符总数的比率(或者，除了表示由在步骤S602或S606生成的缺少部分识别数据表示的语音片段的读音的部分以外的部分与形成该标准尺寸消息数据的音标串中字符总数的比率)是否达到了预定阈值，其中对于该语音片段来说，选择表示能够被近似的波形的语音片段数据(步骤S607)。

如果确定上述比率达到了该阈值并且如果该个人计算机已经在步骤S602或S606生成了缺少部分识别数据，则它通过如下方式生成表示由音标字符串中的每个音标表示的语音波形的语音波形数据，即从该标准尺寸消息数据中提取出表示由该缺少部分识别数据表示的语音片段的读音的音标串，以及对于提取出的音标串的每个音素，通过被当作由配信字符串数据表示的音标串的提取出来的音标串来进行与上述步骤S502-S504相同的处理(步骤S608)。

在步骤S608，该个人计算机可以通过使用在步骤S605的韵律预测结果来生成语音波形数据，而不是进行对应于步骤S503处理的处理。

接着，该个人计算机通过执行与上述输出合成部分进行的相同处理来调整包括在步骤S608生成的语音波形数据中的碎片波形数据的片段的数目，以使得由该语音波形数据表示的语音时间长度与在由步骤S606选择的语音片段数据表示的语音片段的发声速度相匹配(步骤S609)

也就是说，该个人计算机只需要识别出由包括在步骤S606选择的语音片段数据中的每个上述部分表示的音素的时间长度与在步骤S609的初始时间长度的比率，例如，增加或者降低每个语音波形数据中碎片波形数据的片数，以便于通过比率来改变由在步骤S608生成的语音波形数据表示的语音的时间长度。为识别该比率，该个人计算机只需要识别出表示在步骤S606选择的语音片段数据中相同的语音的部分(发声速度转换之后的语音片段数据)以及初始语音片段，即在步骤S604经受转换之前的语音片段数据，并且识别出包括在经受发声速度转换增加或降低之后在该初始语音片段数据中识别出的部分中的碎片数量与包括在初始语音数据中识别出的部分中的碎片数量的比率，作为增加或降低的语音时间长度的比率。

如果由语音波形数据表示的语音的时间长度与由经受发声速度转换之后的语音片段数据表示的语音片段的速度相匹配，或者如果在步骤S606没有选择语音片段数据，则该个人计算机不需要调整该语音片段数据中碎片波形数据的片段的数目。

接着，该个人计算机将已经经过了步骤S609的处理的语音波形数据与在步骤S606选择的语音片段数据按照由标准尺寸消息数据表示的标准尺寸消息中排列的音标串的顺序进行组合，并将其输出作为表示合成语音的数据(步骤S610)。

另一方面，在步骤S607，如果确定上述比率没有达到阈值，则该个人计算机确定在语音合成中不使用语音片段数据，并且通过被当作由配信字符串数据表示的音标串的语音片段数据对形成该标准尺寸消息数据的整个音标串的每个音素执行与上述步骤S502-S504相同的处理来生成表示由音标串中的每个音标表示的语音波形的语音波形数据(步骤S611)。该个人计算机可以在S605通过使用韵律预测结果生成语音波形数据，而不是在步骤S611执行对应于在步骤S503的处理的处理。

接着，该个人计算机将在步骤S611生成的多段语音波形数据按照由标准尺寸消息数据表示的标准尺寸消息中排列的音标串的顺序彼此组合，并将其输出作为表示合成语音的数据(步骤S612)。

例如，可以将使得个人计算机执行单元体M2和语音片段寄存器单元R的功能的程序上传到通信电路的公告板(BBS)，并且通过通信电路进行分布。作为选择地，还可以通过表示程序的信号来对载波进行调制，发出该得到的调制波，使得接收该调制波的装置通过对调制波进行解调来恢复程序。

接着，当该程序被激活并且在OS的控制下被执行作为其他应用程序时，能够进行上述处理。

如果该OS负责一部分处理，或者该OS形成本发明的一部分组件，则该记录介质可以通过被去除的部分来存储程序。在本发明中，还假设该记录介质存储了程序，该程序用于启用在这种情况下由计算机执行的每个功能或每个步骤。

Claims

1.一种语音合成装置，其特征在于包括：

语音片段存储装置，用于存储多段表示语音片段的语音片段数据；

选择装置，用于输入表示句子的句子信息并执行如下处理：从每段所述语音片段数据中选择具有共用语音的语音片段数据的片段以及形成所述句子的读音；

缺失部分合成装置，用于对于所述选择装置无法从形成所述句子的语音中选择其语音片段数据的语音，合成表示该语音波形的语音数据；以及

用于通过将由所述选择装置选择的语音片段数据与由所述缺失部分合成装置合成的语音数据相互组合来生成表示合成语音的数据的装置；其中

所述选择装置还包括确定装置，用于确定表示为其选择了表示能够被近似的波形的语音片段数据的语音片段读音的音标串的字符数与形成标准尺寸消息数据的音标串的字符总数的比率是否达到了预定值；以及

如果确定所述比率没有达到所述预定值，该选择装置取消对于语音片段数据的选择并且进行所述语音片段数据无法被选择的处理。

2.一种语音合成装置，其特征在于包括：

选择装置，用于执行以下处理：从所述语音片段数据中选择具有共用语音的语音片段数据的片段以及构成所述句子的读音，其中所述读音的韵律在预定条件下与韵律预测结果匹配；

缺失部分合成装置，用于对于所述选择装置无法从形成所述句子的语音中选择其语音片段数据的语音，合成表示语音片段波形的语音数据；以及

如果确定所述比率没有达到所述预定值，该选择装置取消对于该语音片段数据的选择并且进行该语音片段数据无法被选择的处理。

3.根据权利要求2的语音合成装置，其特征在于

所述选择装置从选择的对象中去除在所述预定条件下其韵律与韵律预测结果不匹配的语音片段数据。

4.根据权利要求2或3的语音合成装置，其特征在于

所述缺失部分合成装置包括：

存储装置，用于存储多个数据段，其中所述数据表示音素或者构成该音素的碎片；以及

合成装置，用于通过如下方式来合成表示语音波形的语音数据：标识包括在其语音片段数据无法由所述选择装置选择的语音中的音素，从所述存储装置中获得表示被标识的音素或者形成该音素的碎片的数据片段，并且将它们彼此组合。

5.根据权利要求4的语音合成装置，其特征在于

所述缺失部分合成装置包括：

缺失部分韵律预测装置，用于预测所述语音的韵律，其中所述选择装置无法选择该语音的语音片段数据，其中

所述合成装置通过如下方式来合成表示语音波形的语音数据：标识包括在所述语音中的音素，其中所述选择装置无法选择所述语音的语音片段数据，从所述存储装置中获得表示被标识的音素或者形成该音素的碎片的数据，对所述获得的数据进行转换，使得该音素或者由数据表示的语音片段与通过所述缺失部分韵律预测装置的韵律的预测结果相匹配，以及将转换后的数据段彼此组合。

6.根据权利要求2的语音合成装置，其特征在于

所述缺失部分合成装置根据由所述韵律预测装置预测的韵律，对于所述选择装置无法选择其语音片段数据的语音，来合成表示语音片段波形的语音数据。

7.根据权利要求2的语音合成装置，其特征在于

所述语音片段存储装置存储表示与所述语音片段数据相关的语音片段的音调的时间顺序变化的韵律数据，其中所述语音片段由语音片段数据来表示，

其中所述选择装置选择具有共用语音的语音片段数据以及构成所述句子的读音，其中由与所述语音片段数据相关的韵律数据表示的音调的时间顺序变化最接近于来自每段语音片段数据的韵律预测结果。

8.根据权利要求1或2中任何一个的语音合成装置，其特征在于包括：

语速转换装置，用于获得用来指定讲述所述合成语音的速度条件的语速数据，以及选择或者转换语音片段和/或形成表示所述合成语音的数据的语音数据，使得所述语速数据表示在满足指定条件的速度下讲述的语音。

9.根据权利要求8的语音合成装置，其特征在于

所述语速转换装置通过从语音片段数据和/或构成表示所述合成语音的数据的语音数据中去除表示碎片的部分，或者将表示碎片的部分增加至语音片段数据和/或语音数据来转换语音片段数据和/或语音数据，使得所述语速数据表示在满足指定条件的速度下讲述的语音。

10.根据权利要求1、2或9中任何一个的语音合成装置，其特征在于

所述语音片段存储装置存储与所述语音片段数据相关的表示语音片段数据的读音的音标数据，其中

所述选择装置将语音片段数据当作其读音与语音一样的语音片段数据，其中表示读音的音标数据与该语音片段数据相关，并且该读音与形成所述句子的语音的读音相匹配。

11.一种语音合成方法，其特征在于包括：

语音片段存储步骤，用于存储多段表示语音片段的语音片段数据；

选择步骤，用于输入表示句子的句子信息，并且进行如下处理：从每段所述语音片段数据中选择具有共用语音的语音片段数据的片段以及形成所述句子的读音；

缺失部分合成步骤，用于对于无法从形成所述句子的语音中选择其语音片段数据的语音，合成表示该语音波形的语音数据；以及

用于通过将被选择的语音片段数据与合成的语音数据相互组合来生成表示合成语音的数据的步骤；其中

所述选择步骤还包括确定步骤，用于确定表示为其选择了表示能够被近似的波形的语音片段数据的语音片段读音的音标串的字符数与形成标准尺寸消息数据的音标串的字符总数的比率是否达到了预定值；以及

如果确定所述比率没有达到预定值，该选择步骤取消对于语音片段数据的选择并且进行所述语音片段数据无法被选择的处理。

12.一种语音合成方法，其特征在于包括：

选择步骤，用于从每段所述语音片段数据中选择具有共用语音的语音片段数据的片段以及构成所述句子的读音，其中所述读音的韵律在预定条件下与韵律预测结果匹配；

缺失部分合成步骤，用于对于无法从形成所述句子的语音中选择其语音片段数据的语音，合成表示语音片段波形的语音数据；以及

如果确定所述比率没有达到所述预定值，则该选择步骤取消对于该语音片段数据的选择并且进行该语音片段数据无法被选择的处理。