CN1971708A

CN1971708A - 韵律控制规则产生方法和设备、及语音合成方法和设备

Info

Publication number: CN1971708A
Application number: CNA2006101729230A
Authority: CN
Inventors: 徐大威
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-10-20
Filing date: 2006-10-20
Publication date: 2007-05-30
Also published as: US7761301B2; US20070094030A1; JP4559950B2; JP2007114507A

Abstract

一种韵律控制规则产生方法，包括：将输入文本分割为语言单元；基于与输入文本中的语言单元之间的边界相邻的多个语言单元的特征信息项，评估在输入文本中的语言单元之间处的边界的标点符号出现率，标点符号出现率表示在边界出现标点符号的概率；产生多个学习数据项，其每个都与韵律相关、并包括语言单元之间的标点符号出现率；以及基于学习数据项，产生用于语音合成的韵律控制规则，所述韵律控制规则包括语言单元之间的标点符号出现率的条件。

Description

韵律控制规则产生方法和设备、及语音合成方法和设备

技术领域

本发明涉及语音合成。

背景技术

常规文本语音合成设备经常执行语法分析，在其中分析文本的修饰关系以便从文本获得用于韵律控制的提示信息。用于全面分析语句的修饰关系的语法分析通常需要大量的计算。因此，为了以较小计算量来获得文本的修饰关系，在例如JP-A 10-83129(KOKAI)(文献1)中公开了一种基于韵律词的类型之间相关性的预定强度进行语法分析，来确定韵律段边界强度的方法。语音合成设备使用韵律信息产生装置来执行韵律控制，韵律信息产生装置具有的特征为，通过考虑从文本获得的韵律段边界的强度，来为文本信息产生韵律信息。

文献1需要高级专业知识来限定韵律词的类型之间的相关性的强度。文献1因此不利地需要大量时间和精力以开发TTS系统或保持现有的TTS系统。而且根据文献1，要求大量计算的语法分析是不可避免的。因此，这种技术的不利之处在于难于应用到具有较小计算能力的嵌入系统中。

发明内容

根据本发明的一个实施例，一种韵律控制规则产生方法，包括：将输入文本分割为语言单元；基于与输入文本中的语言单元之间的边界相邻的多个语言单元的特征信息项，评估在输入文本中的语言单元之间的边界处的标点符号出现率，标点符号出现率表示在边界出现标点符号的概率；产生多个学习数据项，其每个都与韵律相关、并包括语言单元之间的标点符号出现率；以及基于学习数据项，产生用于语音合成的韵律控制规则，所述韵律控制规则包括语言单元之间的标点符号出现率的条件。

根据本发明的另一个实施例，一种语音合成方法，包括：将输入文本分割为语言单元；基于与输入文本中的语言单元之间的边界相邻的多个语言单元的特征信息项，评估在输入文本中的语言单元之间的边界处的标点符号出现率，标点符号出现率表示在边界出现标点符号的概率；基于该标点符号出现率，选择用于语音合成的韵律控制规则；以及使用选择的韵律控制规则，合成与输入文本相对应的语音。

附图说明

图1示出根据第一实施例的韵律控制规则产生设备的示例结构；

图2示出存储在标点符号出现率数据库中的信息；

图3示出存储在该标点符号出现率数据库中的信息；

图4示出由评估单元确定的标点符号出现率；

图5是示出图1中韵律控制规则产生设备的处理操作的流程图；

图6示出根据第二实施例的韵律控制产生设备的示例结构；

图7是示出根据第三实施例的语音合成设备的示例结构的框图；

图8是示出图7中语音合成设备的处理操作的流程图；

图9是示出根据第四实施例的语音合成设备的示例结构的框图；

图10是示出图9中语音合成设备的处理操作的流程图；及

图11是示出根据第五实施例的语音合成设备的示例结构的框图。

具体实施方式

下面，将参照附图来说明本发明的实施例。

(第一实施例)

图1是示出根据本发明第一实施例的用于语音合成的韵律控制规则产生设备的示例结构的框图。

图1中的韵律控制规则产生设备包括语言分析单元101、第一数据库(标点符号出现率数据库)102、评估单元103、计算单元104、第一产生单元105、第二数据库(韵律控制规则数据库)106。

允许计算机执行适当的程序，以执行语言分析单元101、评估单元103、计算单元104、和第一产生单元105的功能。

韵律控制规则产生设备依据自然语言的类型，使用并执行适当的语言单元。例如对于中文，语言单元可以是汉字或词。对于日文，语言单元可以是词素或假名。在下面的说明中，对象语言是日文，语言单元是词素。

将与存储在语音数据库(未示出)中语音相对应的文本(朗读文本)输入到语言分析单元101。语言分析单元101对输入文本执行语言分析处理，将其分割为语言单元(例如在该例中是词素)。语言分析单元101还输出信息(词素信息)，包括每个词素的词类和发音。

第一数据库(DB)102为每个包括所有词类中任意两个的词类序列，预存储在紧接着这两个词类之前、之间、和紧接着之后出现的标点符号的概率，即标点符号出现率。

评估单元103确定在词素序列中的两个连续词素之间(边界之间)的标点符号出现率，词素序列通过由语言分析单元101对输入文本执行语言分析而获得，并与输入文本相对应。具体是，作为在输入文本的起始起的两个连续词素第“j-1”和第“j”个词素之间的标点符号出现率，即作为在紧接着第“j”个词素之前的词素边界的标点符号出现率，如下所示确定“I+1”个标点符号出现率。此处的“I”表示等于或大于“1”的任一正整数。

(1)在由以第“j”个词素开始的I个词素组成的词素序列v^(j)中，紧接着第“j”个词素之前词素边界的标点符号出现率P₀(v^(j))，其被定义为第一标点符号出现率P₀(v^(j))。

(2)在由以第“j-1”个词素开始的I个词素组成的词素序列v^(j-1)中，紧接着第“j”个词素之前词素边界的标点符号出现率P₁(v^(j-1))，其被定义为第二标点符号出现率P₁(v^(j-1))。

(3)在由以第“j-I”个词素开始的I个词素组成的词素序列v^(j-I)和第“j”个词素之间的词素边界的标点符号出现率P₁(v^(j-I))，其被定义为第“I+1”标点符号出现率P₁(v^(j-I))。

评估单元103输出标点符号出现率矢量P₀(v^(j))，P₁(v^(j-1))，……，P_I(v^(j-I))，其包括从第一到第“I+1”个标点符号出现率的I+1个标点符号出现率。

例如，假设I＝2。评估单元103从第一数据库102中检索如下所示的第一到第三标点符号出现率，作为在两个连续词素第“j-1”和第“j”个词素之间的标点符号出现率。

(1)在紧接着由第“j”个词素和随后的第“j+1”个词素组成的词素序列v^(j)之前的标点符号出现率，其被定义为第一标点符号出现率P₀(v^(j))。

(2)在由第“j-1”和第“j”个词素组成的词素序列v^(j-1)的第“j-1”个词素和随后的第“j”个词素之间的标点符号出现率，其被定义为第二标点符号出现率P₁(v^(j-1))。

(3)在紧接着由第“j-2”个词素和随后的第“j-1”个词素组成的词素序列v^(j-2)之后的标点符号出现率，其被定义为第三标点符号出现率P₂(v^(j-2))。

评估单元103为输入文本中每两个连续词素输出由第一到第三标点符号出现率组成的标点符号出现率矢量P₀(v^(j))，P₁(v^(j-1))，P₂(v^(j-2))，作为两个连续词素之间的标点符号出现率。

计算单元104从两个连续词素的标点符号出现率矢量，来计算输入文本中每两个连续词素的连接强度。在语言单元(在此例中是词素)之间的连接强度是第一到第I标点符号出现率的加权平均值，即在语言单元之间出现标点符号的概率，即在语言单元之间的标点符号出现率。

将与输入文本对应的韵律信息、每个由计算单元104计算的输入文本中每两个连续词素的连接强度、每个词素的词类和发音、及类似物输入到第一产生单元105。第一产生单元105基于两个词素中每一个的词类、在两个词素之间的连接强度及类似物，为每两个词素产生用于韵律的控制规则或韵律控制规则。

将由第一产生单元105产生的韵律控制规则存储在第二数据库106中。

在说明书中所用的术语“标点符号”具有广泛的含义；其并不限于日文中使用的顿号(、)和句号(。)，而是对应于英文中的标点符号，包括括号和引号。

对于产生单元105，与输入文本相应的韵律信息通过预先由人朗读输入文本的自然语音而获得。例如，韵律信息包括基频(音调)、表示音频级的变化的音调模式(F0模式)、音素持续时间、及停顿位置。韵律信息从语音库中存储的各个语音获得。

第一DB 102为每个词类序列存储词类序列中三种词类边界中的每一个的标点符号出现率P_i(u)，即在词类序列之前的标点符号出现率、在词类序列中(在组成词类系列的两个词类之间)的标点符号出现率、在词类序列之后的标点符号出现率。

例如，如图2所示，对于由“副词”和“不变词”组成的词类序列(副词和不变词)，第一DB 102存储标点符号出现率P0(副词，不变词)，其是在该词类序列之前的标点符号出现率；标点符号出现率P₁(副词，不变词)，其是在“副词”和“不变词”之间的标点符号出现率；及标点符号出现率P₂(副词，名词)，其是在该词类序列之后的标点符号出现率；标点符号出现率由词类序列中的词类来索引。

词类序列的三种标点符号出现率从预存储在文本数据库(未示出)中的大量文本计算得出，使用：

P_{i} (u) = - \log \frac{C_{punc} (u, i)}{C (u)} . . . (1)

此处的u表示语言单元序列，例如在该例中，由两个词类组成的词类序列(u₁，u₂)。由于该词类序列由两个词类组成，因此该词类序列的长度I是2。包括在词类序列中的两个词类用数字“1” 到I中适当的一个来表示：u1和u2。

在表达式(1)中的变量“i”表示在词类序列中词类边界的位置，即在词类序列之前的位置、在词类序列中的(在包括在词类序列中的两个词类之间的)位置、及在词类序列之后的位置。因此，i在“0”和“I”之间取值。具体是，对于I＝2，i的取值为“0”、“1”或“2”。

例如，在由两个词类组成的词类序列u中的第0个词类边界(i＝0)在该词类序列之前。第0个词类边界的标点符号出现率表示为P₀(u)。在词类序列u中的第一词类边界(i＝1)位于这两个词类之间。第一词类边界的标点符号出现率表示为P₁(u)。在词类序列u中的第二词类边界(i＝2)在该词类序列之后。第二词类边界的标点符号出现率表示为P₂(u)。

在表达式(1)中的C(u)表示在文本数据库的文本中所观测到的词类序列u的次数。

在表达式(1)中的C_punc(u,i)表示在文本数据库的文本中所观测到的，在第i个词类边界有标点符号的词类序列u的次数。

为便于应用，标点符号出现率取自然数轴上的正对数值。因此，标点符号出现率P_i(u)的意思是越小的数值表示在标点符号出现率位置出现标点符号的越高的概率(几率)。

例如，第一DB 102存储P₀(副词，不变词)＝45.2，作为由副词和不变词组成的词类序列(副词，不变词)的第0个标点符号出现率；P₁(主语后置词缀，副词)＝26.2，作为由主语后置词缀和副词组成的词类序列(主语后置词缀，副词)的第1标点符号出现率；及P₂(不变词，主语后置词缀)＝15.0，作为词类序列(不变词，主语后置词缀)的第2标点符号出现率，如图3所示。

对于I＝2，作为在两个连续词素，输入文本的起始起的第“j-1”和第“j”个词素之间的标点符号出现率，评估单元103基于在两个连续词素之间的边界附近的(相关的)词素的特性(例如在该例中是词类)，从第一DB 102检索第一到第三标点符号出现率，如图4所示。

这里的语言单元是词素，但是在该例中，利用例如作为语言单元特性的词类来评估标点符号出现率。另一方面，如果是用小于词素的字符作为语言单元，则用作为语言单元特性的字符索引代替词类来评估标点符号出现率。

(1)对于由第“j”和随后的第“j+1”个词素的词类组成的词类序列u[1]，从第一DB 102中检索在该词类序列之前的标点符号出现率P₀(u[1])。检索到的标点符号出现率P₀(u[1])是在两个连续词素，第“j-1”和第“j”个词素之间的第一标点符号出现率P₀(v^(j))。

(2)对于由第“j-1”和随后的第“j”个词素的词类组成的词类序列u[2]，从第一DB 102中检索在这两个词类之间的标点符号出现率P₁(u[2])。检索到的标点符号出现率P₁(u[2])是在两个连续词素，第“j-1”和第“j”个词素之间的第二标点符号出现率P₁(v^(j-1))。

(3)对于由第“j-2”和随后的第“j-1”个词素的词类组成的词类序列u[3]，从第一DB 102中检索在该词类序列之后的标点符号出现率P₂(u[3])。检索到的标点符号出现率P₂(u[3])是在两个连续词素，第“j-1”和第“j”个词素之间的第三标点符号出现率P₂(v^(j-2))。

在本发明中，评估单元103使用词素的词类来搜索第一DB 102。对于输入文本中每两个连续词素，评估单元103从而确定在两个词素之间的标点符号出现率的三种类型。但本发明并不限于此。例如，在文本数据库(未示出)中的文本和表达式(1)可以用于为所要求的词类序列计算标点符号出现率，以为输入文本中每两个连续词素确定在两个词素之间的标点符号出现率的三种类型。

计算单元104使用由评估单元103为在输入文本的两个连续词素，即第“j-1”和第“j”个词素之间的边界(在第“j”个词素之前的词素边界)而确定的标点符号出现率P₀(v^(j))、P₁(v^(j-1))、…、P_I(v^(j-I))。计算单元104因此使用：

D_{j} = Σ_{k = 0}^{I} ak (v^{(j - k)}) . . . (2)

来计算在第“j”个词素之前的词素边界的连接强度D_j，此处的a₀，a₁，…，a_I是与第一到第I标点符号出现率相对应的线性系数。

例如对于I＝2，如上述获得第一到第三标点符号出现率(标点符号出现率矢量P₀(v⁽⁰⁾)，P₁(v^(-1))，P₂(v^(-2))。使用表达式(2)，用其计算在第“j”个词素之前的词素边界的连接强度D_j。在该情况下，可如下计算在第“j”个词素之前的词素边界的连接强度D_j：

D_j＝a₀P₀(v^(j))+a₁P₁(v^(j-1))+a₂P₂(v^(j-1)) …(3)

此处的a₀，a₁，和a₂是与第一到第三标点符号出现率相对应的线性系数。可以是a₀＝a₁＝a₂＝1/3，或者使用优化的数值，以便于呈现最佳性能。

连接强度D_j的数值越大，对应于在第“j-1”个词素和第“j”个词素之间出现标点符号的概率就越低，即在第“j-1”个词素和第“j”个词素之间的连接强度越高。

基于词素边界的连接强度和其它词素信息，第一产生单元105使用例如机器学习工具c4.5来分析音调模式信息和停顿信息，以产生音调模式选择规则或停顿评估规则。机器学习方法可以用回归树工具CART或神经网络来执行。

现在，将详细说明韵律控制规则产生设备产生韵律控制规则的步骤。在该实例中，将文本

“arayuru/gennjitsu/wo/subete/jibun/no/hou/he/nejimageta/no/da”(其为日文，意思是所有现实都被自私地扭曲了)输入到语言分析单元101将参照图5所示的流程图来加以说明。

在下面的说明中I＝2。

将文本输入到语言分析单元101(步骤S1)。语言分析单元101随后将文本分割为词素“arayuru”、“gennjit”、“wo”、“subete”、“jibun”、“no”、“hou”、“he”、“nejimageta”、“no”和“da”。语言分析单元101为每个词素输出词类(例如“修饰名词的短语”、“不变词”、“主语后置词缀”或“副词”)、发音、或重音类型信息(步骤S2)。

在该情况下，例如将j的初始值设定为“3”(步骤S3)。评估单元103对从输入文本起始起第三个词素开始的每个词素和其之前的词素之间的词素边界，依次确定第一到第三标点符号出现率(步骤S4)。

在该实例中，对文本的第四个(j＝4)词素“subete”和其之前的第三个(j-1＝3)词素“wo”确定第一到第三标点符号出现率。

评估单元103从第一DB 102中检索，而对文本的第三个词素“wo”和第四个词素“subete”之间的词素边界，即在第四个词素之前的词素边界，确定第一到第三标点符号出现率，如图4所示。

(1)基于第四个词素“subete”和第五个词素“jibun”的词类“副词”和“不变词”，从第一DB 102中检索在词类序列u＝(副词，不变词)的第0个词类边界(i＝0)处的标点符号出现率P₀(副词，不变词)。检索到的标点符号出现率P₀(副词，不变词)＝45.2是第一标点符号出现率。

(2)基于第三个词素“wo”和第四个词素“subete”的词类“主语后置词缀”和“副词”，从第一DB 102中检索在词类序列u＝(主语后置词缀，副词)的第1个词类边界(i＝1)的标点符号出现率P₁(主语后置词缀，副词)。检索到的标点符号出现率P₁(主语后置词缀，副词)＝26.2是第二标点符号出现率。

(3)基于第二个词素“gennjitsu”和第三个词素“wo”的词类“不变词”和“主语后置词缀”，从第一DB 102中检索在词类序列u＝(不变词，主语后置词缀)的第2个词类边界(i＝2)的标点符号出现率P₂(不变词，主语后置词缀)。检索到的标点符号出现率P₂(不变词，主语后置词缀)＝15.0是第三标点符号出现率。

这产生了标点符号出现率矢量(45.2，26.2，15.0)。

然后，计算单元104将由评估单元103获得的第一到第三标点符号出现率代入方程(3)。计算单元104从而计算在第“j”个词素和其之前的第“j-1”个词素之间的词素边界的连接强度D_j(步骤S5)。

这里，通过将对文本的第三个词素“wo”和第四个词素“subete”之间的词素边界获得的第一到第三标点符号出现率“45.2”，“26.2”和“15.0”代入方程(3)，来计算连接强度D₄。

在方程(3)中，当a₀＝a₁＝a₂＝1/3时，连接强度D₄是第一到第三标点符号出现率的平均值。因而在上面的实例中，连接强度D₄被确定为“28.8”。

随后，将数值j增加一(步骤S6)，以转移至下一个词素的处理。如果该词素不是输入文本中的最后一个(步骤S7)，对该词素执行上述的步骤S4到S6。如果该词素是输入文本中的最后一个(步骤S7中的“是”)，处理继续进行到步骤S8。在步骤S8，如果输入文本不是在语音数据库中的最后的未处理文本(步骤S8中的“否”)，将语音数据库中的新的未处理文本输入到语音合成韵律控制规则产生设备中。对新的文本执行上述的步骤S1到S7。如果输入的文本是语音数据库中的最后一个(步骤S8中的“是”)，处理结束。第一产生单元105随后执行处理(步骤S9)。

第一产生单元105利用词素之间的连接强度和词素上的信息，例如它们的词类和发音，如图5所示，其已经从语音数据库中所有文本的计算得到，以及从语音数据库中的文本获得的韵律信息，来产生韵律控制规则。

例如，将在下面示出的实例中的机器学习程序“C4.5”用于产生韵律控制规则，其产生称为“决策树”的分类树。

【产生用于基频典型模式的选择规则】

用于日文语音合成的基频控制方案包括从每个重音短语的基频典型模式产生全句的基频模式，例如在JP-A 11-95783(KOKAI)中所公开的。该方案对每个重音短语选择基频典型模式，并基于重音短语的特性，对基频典型模式选择转换规则。该方案随后改变并将重音短语的基频典型模式连接在一起，以输出全句的基频模式。下面说明可用于该方案的典型模式选择规则的产生。

在此，通过机器学习技术从语音数据库的内容产生选择N基频的典型模式的规则。假设通过错误极小化方法或类似方法来预先确定在存储于语音数据库中的每个语音中包含的重音短语的最适宜的典型模式，将获得的典型模式和其编号存储在语音数据库中。

如上所述，本实施例的第一产生单元105利用存储在语音数据库中的文本，并使用由计算单元104计算得到的在词素之间的连接强度、在文本中包含的重音短语的信息、及类似物来产生学习数据项，以提供给机器学习程序。

每个学习数据项包括输入信息，其是在存储于语音数据库中的文本中包含的每个重音短语的特征信息，并输出信息，其是用于与重音短语相对应的基频的典型模式的编号。

学习数据项中的输入信息包括在每个重音短语前后边界(开始和结束边界)的连接强度(由计算单元104计算得到)，作为该重音短语的特征信息。

例如，其假设特征信息包含连接强度和词类信息。因此，在特定重音短语上的学习数据项包括以下信息：

在重音短语开始边界的连接强度；

在重音短语结束边界的连接强度；

之前的重音短语的主要词类；

当前重音短语的主要词类；

之后的重音短语的主要词类；及

与该重音短语相应的最适宜的典型模式的编号。

在输入文本是上述中所用的

“arayuru/gennjitsu/wo/subete/jibun/no/hou/he/nejimageta/no/da”的情况下，对重音短语“subete”产生以下的学习数据。

“28.8；36.2；名词，副词，名词；2”

这里，“28.8”是在“wo”和“subete”之间的边界计算得到的连接强度。“36.2”是在“subete”和“jibun”之间的边界计算得到的连接强度。“36.2”之后的“名词”是之前的重音短语“gennjitsuwo”的主要词类。随后的“副词”是当前重音短语的主要词类。在“副词”之后的第二个“名词”是之后的重音短语“jibunno”的主要词类。最后的“2”是重音短语“subete”的基频的最适宜的典型模式的预定编号。

从存储在语音数据库中的所有数据产生大量这种形式的学习数据项，并提供给机器学习程序C4.5。通过C4.5的学习而产生基于大量输入学习数据项的典型模式选择规则；该选择规则允许对特定重音短语选择最适宜的典型模式，并包括该重音短语和其前后重音短语的词类及连接强度的条件。

“如果(之前的重音短语的主要词类＝名词)

且(该重音短语的主要词类＝副词)

且(在开始边界的连接强度＜30)

以及(在结束边界的连接强度＞30)

则典型模式编号＝2”

典型选择规则如下：“对于主要词类是“副词”的当前重音短语，在当前重音短语之前的主要词类是“名词”的重音短语，及如果在当前和之前的重音短语之间的连接强度小于“30”，且在当前和之后的重音短语之间的连接强度大于“30”，与当前重音短语相应的最适宜的典型模式的编号就是“2”。

将这些由第一产生单元105产生的典型模式选择规则存储在第二DB106中。

其它韵律控制规则，例如，音素持续时间或停顿插入的评估规则能以与产生基频的典型模式选择规则相同的方式产生。

【音素持续时间的评估规则的产生】

音素持续时间的评估规则能如上所述产生，其中通过基于音素持续时间的分布特征，将在存储于语音数据库的语音中包含的音素持续时间分类为几组。

这里的在特定音素上的学习数据项中的输入信息至少包括一个词素，其包括音素及在该词素与该词素前后的词素之间的连接强度。学习数据项中的输出信息包括该音素的持续时间。

第一产生单元105使用机器学习程序C4.5基于大量这样的学习数据项提取音素持续时间评估规则；音素持续时间评估规则允许对特定的音素选择最适宜的音素持续时间，并包括含有该音素的词素与前后词素的连接强度和词类的条件。

【停顿插入的评估规则的产生】

为产生用于评估是否在词素边界插入停顿的规则，学习数据项中的输入信息例如至少包括在特定词素与之前(或之后)词素之间的连接强度。学习数据项中的输出信息包括指示在该词素与之前(或之后)的另一词素之间是否存在停顿的信息。

第一产生单元105使用机器学习程序C4.5基于大量这样的学习数据项提取停顿插入评估规则；停顿插入评估规则允许确定在特定词素与之前(或之后)的另一词素之间是否插入停顿，并包括含有该音素的词素与前后词素的连接强度和词类的条件。

在上述的第一实施例中，获得在语言单元边界(例如，在两个词素之间的边界)的标点符号出现率，并使用获得的标点符号出现率计算该语言单元边界的连接强度。然后，通过利用包括语言单元边界连接强度、词类信息、及类似项的学习数据项的机器学习韵律控制，产生最适宜的韵律控制的韵律控制规则，其包括语言单元边界连接强度的条件。

(第二实施例)

图6是示出根据本发明第二实施例的，用于语音合成的韵律控制规则产生设备的示例结构的框图。

韵律控制规则产生设备依据自然语言的类型，使用并执行适当的语言单元。例如，对于中文，语言单元可以是字符或词。对于日文，语言单元可以是词素或假名。在下面的说明中，关注的语言是日文，语言单元是词素。

在图6中，与图1中的相同的部分用相同的参考数字标记表示。将对图6的不同加以说明。图6中的韵律控制规则产生设备与图1的不同之处在于前者另外包括第二产生单元111，其使用在词素之间的连接强度、词素信息、及类似项，以产生韵律边界评估规则，和第三数据库(第三DB)112，其存储由第二产生单元111产生的韵律边界评估规则。图6的韵律控制规则产生设备与图1的不同之处还在于第一产生单元105进一步使用韵律边界信息以产生韵律控制规则。

第二产生单元111通过使用机器学习程序C4.5，来产生韵律边界评估规则，以基于在词素之间的连接强度和包括词素的词类的词素信息以及其它信息，分析存储在语音数据库中的韵律边界信息。将产生的韵律边界评估规则存储在第三DB 112中。

第一产生单元105基于存储在语音数据库中的韵律边界信息、词素信息、及类似物，分析韵律信息，例如基频模式信息、词素持续时间信息、及停顿信息，以产生韵律控制规则。将产生的韵律边界评估规则存储在第二DB 106中。

第二产生单元111和第一产生单元105所用的机器学习方法可以通过回归树工具CART或神经网络来执行。

允许计算机执行适当的程序，以实现语言分析单元101、评估单元103、计算单元104、第一产生单元105、第二产生单元111及类似单元的功能。

将主要对在图6中的韵律边界评估规则产生设备的第二产生单元111和第一产生单元105中产生韵律边界评估规则和韵律控制规则的过程加以详细说明。

在该实例中，将文本“arayuru/gennjitsu/wo/subete/jibun/no/hou/he/nejimageta/no/da”输入语言分析单元101。

首先，将对第二产生单元111加以说明。

韵律边界分为三种类型：韵律词边界、韵律短语边界、和呼吸组边界。韵律词由一个或多个词素组成。韵律短语由一个或多个韵律词组成。呼吸组由一个或多个韵律短语组成。上面输入的文本包含以下五个韵律词：

“arayuru”，

“gennjitsuwo”，

“subete”，

“jibunnohouhe”，及

“nejimagetanoda”。

在这五个韵律词中的边界被称为韵律词边界。该文本包含以下三个韵律短语：

“arayurugennjitsuwo”，

“subetejibunnohouhe”，及

“nejimagetanoda”。

在这三个韵律短语中的边界被称为韵律短语边界。由于韵律短语包含韵律词，因此韵律短语边界总是与韵律词边界相对应。进一步，该文本包含以下两个呼吸组：

“arayurugennjitsuwo”，及

“subetejibunnohouhenejimagetanoda”。

在这两个呼吸组中的边界被称为呼吸组边界。由于呼吸组包含韵律短语和韵律词，因此呼吸组边界总是与韵律短语边界或韵律词边界相对应。

语言分析单元101、第一DB 102、评估单元103、及计算单元104的处理操作与第一实施例中的相同(见图5的描述)。

如图5所示，计算单元104和语言分析单元101获得在词素之间的连接强度和词素信息，例如存储在语音数据库中的所有文本的词素的词类和发音。第二产生单元111通过使用上面的信息，分析从存储在语音数据库中的文本获得的韵律词边界信息、韵律短语边界信息、和呼吸组边界信息，来产生韵律词边界评估规则、韵律短语边界评估规则、和呼吸组边界评估规则。

这里，使用产生称为“决策树”的分类树的机器学习程序C4.5，以产生韵律词边界评估规则、韵律短语边界评估规则、和呼吸组边界评估规则。

【韵律词边界评估规则的产生】

这里，通过使用预先存储在语音数据库中的信息的机器学习技术，来产生用于确定在确定的词素之前的词素边界是否是韵律词边界的评估规则。使用人的主观评估来确定存储在语音数据库中的、与语音相对应的文本中的词素边界是否是韵律词边界。如果词素边界是韵律词边界，语音数据库为每个文本中的每个词素边界存储“1”，或者如果其不是韵律词边界，则为“0”。

第二产生单元111产生学习数据项，提供给机器学习程序。学习数据项包括输入信息，其是在存储于语音数据库中的每个文本中包含的每个词素上的特征信息，以及输出信息，其指示在该词素与之前的词素之间的边界是否是韵律词边界。

学习数据项中的输入信息包括在该词素与之前的词素之间的连接强度，作为该词素上的特征信息。

例如，假设在词素上的特征信息包括连接强度和词类信息。因此，在当前词素上的学习数据项包括以下信息：

在当前词素和其之前词素之间的连接强度；

之前的词素的词类；

当前词素的词类；

之后的词素的词类；及

在当前词素与之前的词素之间的边界是韵律词边界的情况下是“是”，或者在该边界不是韵律词边界的情况下是“否”。

对于输入文本“arayuru/gennjitsu/wo/subete/jibun/no/hou/he/nejimageta/no/da”，能够产生以下学习数据项。

“28.8；名词，副词，名词；是”

这里，“28.8”是对“wo”与“subete”之间的边界计算的连接强度。在“28.8”之后的第一个“名词”是词素“subete”之前的词素“gennjitsuwo”的词类。随后的“副词”是词素“subete”的词类。随后的第二个“名词”是词素“subete”之后的词素“jibun”的词类。最后的“是”表示在该情况下，在词素“subete”之前的边界是韵律词边界。

从存储在语音数据库中的所有数据产生大量这种形式的学习数据，并提供给机器学习程序C4.5。通过C4.5的学习而从大量输入学习数据获得韵律词边界评估规则，其用于评估在特定词素与其之前词素之间的边界是否是韵律词边界，并包括该词素与其之前词素的词类和连接强度的条件。例如，韵律词边界评估规则如下：

“如果(当前词素之前的词素的主要词类＝名词)

且(当前词素的主要词类＝副词)

以及(在当前词素与之前词素之间的连接强度＜50)

则韵律词边界确定＝是”

上述的韵律词边界评估规则的意思是：“词类是“名词”的词素在词类是“副词”的当前词素之前，及如果在“副词”词素和“名词”词素之间的连接强度小于“50”，则在“副词”词素和之前词素之间边界就是韵律词边界。”

将由第二产生单元111产生的韵律边界评估规则存储在第三DB112中。

韵律短语边界评估规则能够以与产生韵律词边界评估规则相同的方式来产生。

【韵律短语边界评估规则的产生】

这里，通过使用预先存储在语音数据库中的信息的机器学习技术，来产生用于确定在特定词素之前的词素边界是否是韵律短语边界的评估规则。语音数据库对存储在语音数据库中的每个文本中的、与语音相对应的每个词素边界，存储表示该词素边界是否是韵律词边界的符号，以及如果其是韵律词边界，表示该韵律词边界是否与一个韵律短语边界相对应的符号。例如，如果确定的词素边界不是韵律词边界，则语音数据库存储“0”，如果该词素边界是韵律词边界，但不是韵律短语边界就存储“1”，或者如果该词素边界是韵律词边界和韵律短语边界就存储“2”。

第二产生单元111产生学习数据项，并提供给机器学习程序。学习数据项包括输入信息，其是在存储于语音数据库的每个文本中包含的每个词素上的特征信息，以及输出信息，其指示在该词素与其之前词素之间的边界是否是韵律短语边界。

在学习数据项中的输入信息包括在该词素与其之前词素之间的连接强度，作为该词素的特征信息。

例如，假设词素上的特征信息包括连接强度和词类信息。因此，当前词素上的学习数据项包括以下信息：

在该词素和其之前词素之间的连接强度；

之前的词素的词类；

当前词素的词类；

之后的词素的词类；及

在当前词素与之前的词素之间的边界是韵律短语边界的情况下是“是”，或者在该边界不是韵律短语边界的情况下是“否”。

对于输入文本

“arayuru/gennjitsu/wo/subete/jibun/no/hou/he/nejimageta/no/da”，能够对词素“subete”产生以下学习数据项。

“28.8；名词，副词，名词；是”

这里，“28.8”是为在“wo”与“subete”之间的边界计算的连接强度。在“28.8”之后的第一个“名词”是词素“subete”之前的词素“gennjitsuwo”的词类。随后的“副词”是词素“subete”的词类。随后的第二个“名词”是词素“subete”之后的词素“jibun”的词类。最后的“是”表示在该情况下，在词素“subete”之前的边界是韵律短语边界。

从存储在语音数据库中的所有数据产生大量这种形式的学习数据项，并提供给机器学习程序C4.5。通过C4.5的学习而从大量输入学习数据获得韵律短语边界评估规则，其用于评估在特定词素与其之前词素之间的边界是否是韵律短语边界，并包括该词素与其之前词素的词类和连接强度的条件。例如，当前词素的韵律短语边界评估规则如下：

“如果(当前词素之前的词素的主要词类＝名词)

且(当前词素的主要词类＝副词)

以及(在当前词素与之前词素之间的连接强度＜40)

则韵律短语边界确定＝是”

将这些韵律短语边界评估规则存储在第三DB112中。

上述的韵律短语边界评估规则的意思是：“词类是“名词”的词素在词类是“副词”的词素之前，及如果在“副词”词素和“名词”词素之间的连接强度小于“40”，则在“副词”词素和之前词素之间边界就是韵律短语边界。”

能够以与韵律词或短语边界评估规则相同的方式来产生呼吸组边界评估规则。

【呼吸组边界评估规则的产生】

这里，通过使用预先存储在语音数据库中的信息的机器学习技术，来产生用于确定在特定韵律短语之前的边界是否是呼吸组边界的评估规则。语音数据库对存储在语音数据库中的每个文本中的、与语音相对应的每个词素边界，存储表示该词素边界是否是韵律词边界的符号，以及如果其是韵律词边界，表示该韵律词边界是否与一个韵律短语边界相对应的符号。语音数据库进一步存储表示该韵律短语边界是否与一个呼吸组边界相对应的符号。例如，如果特定词素边界不是韵律词边界，语音数据库存储“0”，如果该词素边界是韵律词边界，但不是韵律短语边界就存储“1”，如果该词素边界是韵律词边界和韵律短语边界就存储“2”，或者如果该词素边界是韵律词边界和韵律短语边界及呼吸组边界就存储“3”。

第二产生单元111产生学习数据项，并提供给机器学习程序。学习数据项包括输入信息，其是在存储于语音数据库的每个文本中包含的每个词素上的特征信息，以及输出信息，其表示在该词素与其之前词素之间的边界是否是呼吸组边界。

在当前词素和其之前词素之间的连接强度；

其之前词素的词类；

当前词素的词类；

其之后词素的词类；及

在当前词素与其之前词素之间的边界是呼吸组边界的情况下是“是”，或者在该边界不是呼吸组边界的情况下是“否”。

对于输入文本

“28.8；名词，副词，名词；是”

这里，“28.8”是对“wo”与“subete”之间的边界计算的连接强度。在“28.8”之后的第一个“名词”是词素“subete”之前的词素“gennjitsuwo”的词类。随后的“副词”是词素“subete”的词类。随后的第二个“名词”是词素“subete”之后的词素“jibun”的词类。最后的“是”表示在该情况下，在词素“subete”之前的边界是呼吸组边界。

从存储在语音数据库中的所有数据产生大量这种形式的学习数据项，并提供给机器学习程序C4.5。通过C4.5的学习而从大量输入学习数据获得呼吸组边界评估规则，其用于评估在特定词素与其之前词素之间的边界是否是呼吸组边界，并包括该词素与其之前词素的词类和连接强度的条件。例如，当前词素的呼吸组边界评估规则如下：

“如果(当前词素之前的词素的主要词类＝名词)

且(当前词素的主要词类＝副词)

以及(在当前词素与之前词素之间的连接强度＜30)

则呼吸组边界确定＝是”

将这些呼吸组边界评估规则存储在第三DB112中。

上述的呼吸组边界评估规则的意思是：“词类是“名词”的词素在词类是“副词”的词素之前，及如果在“副词”词素和“名词”词素之间的连接强度小于“30”，则在“副词”词素和之前词素之间的边界就是呼吸组边界。”

现在，将对第一产生单元105加以说明。在以下的说明中，基于韵律边界信息来产生用于评估音素持续时间的典型值的评估规则。

基于分类为辅音和元音、以及被包含在存储于语音数据库中的每个语音中的音素持续时间的分布，语音数据库对每个词素存储多达D个(D是任意正整数)分类的典型值。这里，通过使用存储在语音数据库中的数据及机器学习程序C4.5，基于在该音素所属的词素上的韵律边界信息，产生用于评估每个音素持续时间的典型值的规则。

第一产生单元105产生学习数据项，提供给机器学习程序。对于在存储于语音数据库中的每个文本中包含的每个音素，学习数据项包括输入信息，其是该音素所属的词素的韵律边界信息，以及输出信息，其为音素持续时间的典型值。

包括当前音素的学习数据项中的输入信息的韵律边界信息包括以下信息：

在包括当前词素和其之前的词素的词素之间的词素边界的类型(例如，“呼吸组边界”、“韵律短语边界”、“韵律词边界”、及“普通边界”中的一个，“普通边界”指不是“呼吸组边界”、“韵律短语边界”、或“韵律词边界”的词素之间的边界)；

在包括当前词素和其之后的词素的词素之间的词素边界的类型(例如，“呼吸组边界”、“韵律短语边界”、“韵律词边界”、及“普通边界”中的一个)；

在当前词素与其之前的呼吸组边界之间的短音节数；

在当前词素与其之后的呼吸组边界之间的短音节数；

在当前词素与其之前的韵律短语边界之间的短音节数；

在当前词素与其之后的韵律短语边界之间的短音节数；

在当前词素与其之前的韵律词边界之间的短音节数；

在当前词素与其之后的韵律词边界之间的短音节数；

对于输入文本

“arayuru/gennjitsu/wo/subete/jibun/no/hou/he/nejimageta/no/da”，能够对词素“wo”产生如下所示的学习数据项。

“普通边界；呼吸组边界，8，0，8，0，4，0，300ms”

应注意到短音节与假名(日文中的一个字符)相对应，音节“n”、双辅音(小“tsu”)、长“u”、及日文中的类似物都不视为音节。例如，“gennjitsu”有三个音节和4个短音节。

这里，“普通边界”是在“wo”与其之前的词素之间的韵律边界的类型。“呼吸组边界”是在“wo”与其之后的词素之间的韵律边界的类型。随后的“8”是在“wo”与其之前的呼吸组边界之间的短音节数，对于上面的输入文本，是从句子起始的短音节数。随后的“0”是在“wo”与随后的呼吸组边界之间的短音节数；对于上面的输入文本，该数值是“0”，因为“wo”之后的边界是呼吸组边界。随后的“8”是在“wo”与之前的韵律短语边界之间的短音节数，对于上面的输入文本，是从句子起始的短音节数。随后的“0”是在“wo”与随后的韵律短语边界之间的短音节数；对于上面的输入文本，该数值是“0”，因为“wo”之后的边界是韵律短语边界。随后的“4”是在“wo”与其之前的韵律词边界之间的短音节数；对于上面的输入文本，“gennjitsu”具有四个短音节。随后的“0”是在“wo”与随后的韵律词边界之间的短音节数；对于上面的输入文本，该数值是“0”，因为“wo”之后的边界是韵律词边界。随后的“300ms”是“wo”的持续时间的典型值。

从存储在语音数据库中的所有数据产生大量这种形式的学习数据项，并提供给机器学习程序C4.5。通过C4.5的学习而从大量输入学习数据产生一个评估规则，其用于评估特定音素的音素持续时间典型值，并包括用于确定该音素的持续时间的条件，例如在包括该词素与之前/之后词素的词素之间的韵律边界的类型、及在该词素与之前/之后呼吸组边界/韵律短语边界/韵律词边界之间的短音节数。例如，对当前音素“wo”获得如下所示的的音素持续时间典型值评估规则。

“如果(在包括当前词素与其之前词素的词素之间的韵律边界的类型＝普通边界)

且(在包括当前词素与其之后词素的词素之间的韵律边界的类型＝呼吸组边界)

且(在当前词素与之前呼吸组边界之间的短音节数＜10)

且(在当前词素与之前韵律短语边界之间的短音节数＞6)

且(在当前词素与之后呼吸组边界之间的短音节数＝0)

以及(在当前词素与之前韵律词边界之间的短音节数＞2)

则持续时间的典型值＝300ms”

将这些音素持续时间典型值评估规则存储在第二DB106中。

因而，根据第二实施例，评估语言单元边界的标点符号出现率，并计算语言单元边界的连接强度。因此，基于连接强度、词类信息、及类似信息，能够产生韵律边界评估规则，其用于确定在特定词素与其之前的另一词素之间的边界是否是韵律词边界/韵律短语边界/呼吸组边界，并包括该词素与其之前的词素的词类和连接强度的条件。

此外，根据第二实施例，基于在词素之间的韵律边界的类型(例如，“呼吸组边界”、“韵律短语边界”、“韵律词边界”、及“普通边界”，“普通边界”是指在词素之间的不是“呼吸组边界”、“韵律短语边界”或“韵律词边界”的简单边界)、词素之间的连接强度及类似物，用于语音合成的韵律控制规则包括在词素之间的韵律边界的类型和在韵律边界(呼吸组边界，韵律短语边界，韵律词边界，或类似物)之前的短音节数的条件。

(第三实施例)

图7是示出根据本发明第三实施例的语音合成设备的框图。该语音合成设备使用在第一实施例中所述的图1的韵律控制规则产生设备产生的韵律控制规则，以对输入文本进行语音合成。这里，语言单元是词素。

根据本发明的语音合成设备大致由语言分析单元301、韵律控制单元300、及语音波形产生单元321组成。

将文本输入到语言分析单元301，随后将其分割为语言单元(例如，在该情况下为词素)。语言分析单元301还输出词素信息，例如各个词素的词类和发音。

韵律控制单元300使用由语言分析单元301输出的诸如各个词素的词类和发音的信息、以及存储在图1的韵律控制规则产生设备的第二DB106中的韵律控制规则，来产生韵律信息。

语音波产生单元321使用文本的韵律信息和发音，来产生与输入文本相对应的合成语音波形。

韵律控制单元300是图7的语音合成设备的特征。韵律控制单元300包括第一DB311、评估单元312、计算单元313、第一应用单元315、及第二DB106。

允许计算机执行适当的程序，以实现语言分析单元301、评估单元312、计算单元313、第一应用单元315、语音波形产生单元321及类似单元的功能。

与图1的第一DB102相同，第一DB311对由所有词类中的任意两个组成的每个词类序列，预先存储在紧接着两个词类之前、之间和紧接着之后出现的标点符号的概率，即标点符号出现率。

与图1的评估单元103相同，评估单元312确定在词素序列中的两个连续词素之间(边界之间)的标点符号出现率，词素序列通过语言分析单元301对输入文本执行语言分析而产生、并与输入文本相对应。具体是，如下所示确定“I+1”个标点符号出现率，其是在从输入文本起始起的第“j-1”个和第“j”个的两个连续词素之间的每一个标点符号出现率，即在第“j”个词素之前的词素边界的标点符号出现率。这里，“I”表示等于或大于“1”的一个任意正整数。

(1)在由以第“j”个词素开始的I个词素组成的词素序列v^(j)中，在输入文本中的第“j”个词素之前的词素边界的标点符号出现率P₀(v^(j))，其被定义为第一标点符号出现率P₀(v^(j))。

(2)在由以第“j-1”个词素开始的I个词素组成的词素序列v^(j-1)中，在输入文本中的第“j”个词素之前的词素边界的标点符号出现率P₁(v^(j-1))，其被定义为第二标点符号出现率P₁(v^(j-1))。

(3)在由以第“j-I”个词素开始的I个词素组成的词素序列v^(j-I)中，在输入文本中的第“j”个词素之前的词素边界的标点符号出现率P₁(v^(j-I))，其被定义为第“I”标点符号出现率P₁(v^(j-I))。

评估单元312输出由“I+1”个标点符号出现率，从第一到第“I”标点符号出现率组成的标点符号出现率矢量P₀(v^(j))、P₁(v^(j-1))、……、P_I(v^(j-I))。

例如，假设I＝2。评估单元312从第一DB311中检索如下所示的第一到第三标点符号出现率，作为在两个连续词素第“j-1”和第“j”个词素之间的标点符号出现率。

(1)在由第“j”个词素和随后的第“j+1”个词素组成的词素序列v^(j)之前的标点符号出现率，其被定义为第一标点符号出现率P₀(v^(j))。

(3)在由第“j-2”个词素和随后的第“j-1”个词素组成的词素序列v^(j-2)之后的标点符号出现率，其被定义为第三标点符号出现率P₂(v^(j-2))。

评估单元312对于输入文本中每两个连续词素输出由第一到第三标点符号出现率组成的标点符号出现率矢量P₀(v^(j))、P₁(v^(j-1))、P₂(v^(j-2))。

与图1的计算单元104相同，计算单元313从两个连续词素的标点符号出现率矢量，计算输入文本中每两个连续词素的连接强度。

将由图1的韵律控制规则产生设备产生的韵律控制规则存储在第二DB106中。

第一应用单元315使用通过语言分析单元301获得的词素信息和通过计算单元313获得的词素之间的连接强度，来从存储在第二DB106中的韵律控制规则中进行选择，以产生韵律信息。

图8是说明图7中语音合成设备的处理操作的流程图。在图8中，与图5中的相同的步骤以相同的参考数字标记来表示。下面将对与图5不同的加以说明。也就是说，在图8中，从文本输入到词素之间连接强度确定的处理操作(步骤S1到S7)与图5中的相同。

第一应用单元315使用通过从步骤S1到S7的处理从输入文本获得的词素信息和在词素之间的连接强度，从第二DB106中检索一个韵律控制规则，其条件与获得的词素信息和在词素之间的连接强度相匹配。第一应用单元315随后用检索到的韵律控制规则来产生韵律信息(步骤S10)。

过程进行到步骤S11，在此语音波形产生单元321用产生的韵律信息和文本的发音来产生与输入文本相应的合成语音的波形。

(第四实施例)

图9是示出根据本发明第四实施例的语音合成设备的框图。该语音合成设备使用由在第二实施例中所述的图6的韵律控制规则产生设备产生的韵律控制规则，而对输入文本进行语音合成。这里，语言单元是词素。

在图9中，与图7中的相同的部分用相同的参考数字标记表示。下面将对与图7不同的加以说明。也就是说，图9中的语音合成设备另外具有第二应用单元331和图6中的第三DB112。第一应用单元315使用通过第二应用单元331确定的词素之间韵律边界的类型、和通过语言分析单元301获得的词素信息以及类似物，来从第二DB106中选择韵律控制规则，并产生韵律信息。

允许计算机执行适当的程序，以实现语音分析单元301、评估单元312、计算单元313、第一应用单元315、语音波形产生单元321、第二应用单元331及类似单元的功能。

第三DB112存储由图6中的韵律控制规则产生设备产生的韵律边界评估规则。第二DB106存储由图6中的韵律控制规则产生设备产生的韵律控制规则。

图10是说明图9中语音合成设备的处理操作的流程图。在图10中，与图5和8中的相同的步骤用相同的参考数字标记表示。下面将对与图5和8不同的加以说明。也就是说，在图10中，从文本输入到词素之间连接强度确定的处理操作(步骤S1到S7)与图5和8中的相同。

第二应用单元331使用通过从步骤S1到S7的处理从输入文本获得的词素信息和在词素之间的连接强度，从第三DB112中检索一个韵律边界评估规则，其条件与获得的词素信息和在词素之间的连接强度相匹配。第二应用单元331随后确定包括在检索到的韵律边界评估规则中的、作为韵律边界的词素边界的韵律边界类型(例如，韵律词边界、韵律短语边界、或呼吸组边界)(步骤S12)。

过程进行到步骤S13。第一应用单元315使用通过语言分析单元301获得的词素信息和通过第二应用单元331确定的韵律边界，从第二DB106中检索一个韵律控制规则，其条件与词素信息和韵律边界相匹配。第一应用单元315随后使用检索到的韵律控制规则来产生韵律信息。

过程再进行到步骤S14，在此语音波形产生单元321使用产生的韵律信息和文本的发音来产生与输入文本相应的合成语音的波形。

(第五实施例)

图11是示出根据本发明第五实施例的语音合成设备的框图。在图11中，与图9中的相同的部分用相同的参考数字标记表示。在下面的说明中同样的是，语言单元是词素。

图11中的语音合成设备与图9中的不同之处在于韵律边界的类型使用多个(例如，在该例中是五个)通过在第二实施例中所述的图6中的韵律控制规则产生设备产生的第三DB112a到112e来确定。图11中的语音合成设备因此另外具有多个(例如，在该例中是五个)第三DB112a到112e、选择单元341、和识别单元342。而且，在图10的步骤S12中的处理也与图9中的语音合成设备的相应的处理不同。

允许计算机执行适当的程序，以实现语音分析单元301、评估单元312、计算单元313、第一应用单元315、语音波形产生单元321、选择单元341、识别单元342及类似单元的功能。

多个第三DB112a到112e例如基于在不同人的语音数据中的韵律边界信息，存储由图6中的韵律边界评估规则产生设备产生的各个韵律边界评估规则。各个第三DB112a到112e存储各个不同人的韵律边界评估规则。

在步骤S12，选择单元341从多个第三DB112a到112e中检索韵律边界评估规则，其条件与从匹配条件的输入文本获得的词素信息和词素之间连接强度相匹配。候选方案(1)限定为在从第三DB112a中检索到的韵律边界评估规则中包括的一种韵律边界(作为确定结果)，候选方案(2)限定为在从第三DB112b中检索到的韵律边界评估规则中包括的一种韵律边界(作为确定结果)，候选方案(3)限定为在从第三DB112c中检索到的韵律边界评估规则中包括一种韵律边界(作为确定结果)，候选方案(4)限定为在从第三DB112d中检索到的韵律边界评估规则中包括的一种韵律边界(作为确定结果)，候选方案(5)限定为在从第三DB112e中检索到的韵律边界评估规则中包括的一种韵律边界(作为确定结果)。韵律边界类型是韵律词边界、韵律短语边界、呼吸组边界、或普通边界。

例如，下面说明在输入文本中的当前词素与下面所示的条件相符、且评估在当前词素和其之前词素之间的韵律边界类型的例子。

“(当前词素之前的词素的主要词类＝名词)

且(当前词素的主要词类＝副词)

且(在当前词素与之前词素之间的连接强度＞25)”

选择单元341从各个第三DB112a到112e中检索与上面的条件相匹配的韵律边界评估规则。

假设从第三DB112a、112b、和112c(候选方案(1)到(3))获得包括语句“则”的韵律边界评估规则，其指示“韵律短语边界”作为确定结果，从第三DB112d到112e(候选方案(4)到(5))获得包括语句“则”的韵律边界评估规则，其指示“韵律词边界”作为确定结果。

识别单元342随后从候选方案(1)到(5)确定边界的韵律边界类型，候选方案(1)到(5)所确定的韵律边界类型数是最大的并大于给定数。

例如，在上面的实例中，三个候选方案指示“韵律短语边界”，两个候选方案指示“韵律词边界”。因此，根据多数决定规则，边界被确定为“韵律短语边界”。

因此，一旦在步骤S12确定词素之间的边界类型，过程进行到步骤S13。第一应用单元315随后使用通过语言分析单元301获得的词素信息和通过识别单元342确定的韵律边界，来从第二DB106中检索一个韵律控制规则，其条件与词素信息和韵律边界相匹配。第一应用单元315随后用检索到的韵律控制规则来产生韵律信息。

如上所述，根据第一和第二实施例，通过使用从大规模文本数据库确定的标点符号出现率或语言单元边界连接强度，能够容易地通过机器学习技术使用小规模语音数据库生成韵律控制规则。另外，能够产生实现了输出更自然语调的韵律控制规则，而无需使用语法分析。

可以预先计算标点符号出现率，以产生数据库。根据第三到第五实施例的语音合成设备使用由第一和第二实施例产生的韵律控制规则，来完成用于语音合成的韵律控制。这实现了所需计算量的大大减少，因此具有在较低计算能力的嵌入系统中的适用性。

根据上述实施例，提供了一种韵律控制规则产生方法及设备，其能够容易地产生韵律控制规则，使产生与人的语音相似的合成语音成为可能，而无需对文本进行语法分析，并提供了一种语音合成设备，其使用由该韵律控制规则产生方法产生的韵律控制规则，能够容易地产生与人的语音相似的合成语音。

Claims

1.一种韵律控制规则产生方法，包括：

将输入文本分割为语言单元；

基于与所述输入文本的语言单元之间的边界相邻的多个语言单元的特征信息项，评估在所述输入文本的语言单元之间的边界处的标点符号出现率，所述标点符号出现率表示在所述边界出现标点符号的概率；

产生多个学习数据项，其每个都与韵律相关、并包括在所述语言单元之间的标点符号出现率；以及

基于所述学习数据项，产生用于语音合成的韵律控制规则，所述韵律控制规则包括所述语言单元之间的标点符号出现率的条件。

2.根据权利要求1的韵律控制规则产生方法，其中每个所述学习数据项还包括每个所述语言单元的词类，以及

所述产生韵律控制规则为，产生包括所述语言单元之间的标点符号出现率和所述语言单元的词类的条件的韵律控制规则。

3.一种韵律控制规则产生方法包括：

将输入文本分割为语言单元；

基于与所述输入文本中的语言单元之间的边界相邻的多个所述语言单元的特征信息项，评估在所述输入文本中的语言单元之间的边界处的标点符号出现率，所述标点符号出现率表示在所述边界出现标点符号的概率；

产生多个学习数据项，其每个都与在所述语言单元之间的韵律边界相关、并包括在所述语言单元之间的标点符号出现率；以及

基于所述与韵律边界相关的学习数据项，产生用于确定韵律边界类型的韵律边界评估规则，所述韵律边界评估规则包括所述语言单元之间的标点符号出现率的条件。

4.根据权利要求3的韵律控制规则产生方法，其中所述韵律边界的类型是韵律词边界、韵律短语边界、呼吸组边界、以及不是韵律词边界、韵律短语边界或呼吸组边界的语言单元边界中的一种。

5.根据权利要求3的韵律控制规则产生方法，还包括：

产生多个学习数据项，其每个都与韵律相关、并包括在包含该韵律的语言单元与另一个相邻语言单元之间的韵律边界的类型；以及

基于所述与韵律相关的学习数据项，产生用于语音合成的韵律控制规则，所述韵律控制规则包括所述韵律边界类型的条件。

6.根据权利要求1的韵律控制规则产生方法，其中所述评估为，基于“I+1”个语言单元序列中的每一个，评估在从所述输入文本的起始起的第“j-1”(j是正整数)和第“j”个语言单元之间的边界处的标点符号出现率，所述语言单元序列每个都包括以第“j-i”(i＝0，1，...，I，I是等于或大于1的正整数)个语言单元开始的I个语言单元。

7.根据权利要求3的韵律控制规则产生方法，其中所述评估为，基于“I+1”个语言单元序列中的每一个，评估在从所述输入文本的起始起的第“j-1”(j是正整数)和第“j”个语言单元之间的边界处的标点符号出现率，所述语言单元序列每个都包括以第“j-i”(i＝0，1，...，I，I是等于或大于1的正整数)个语言单元开始的I个语言单元。

8.根据权利要求6的韵律控制规则产生方法，其中在第“j-1”个语言单元和第“j”个语言单元之间的边界处的标点符号出现率是在第“j-1”个语言单元和第“j”个语言单元之间的边界处的“I+1”个标点符号出现率的加权平均值，所述“I+1”个标点符号出现率中的每一个从在各个“I+1”个语言单元序列中的词类排列来评估。

9.根据权利要求7的韵律控制规则产生方法，其中在第“j-1”个语言单元和第“j”个语言单元之间的边界处的标点符号出现率是在第“j-1”个语言单元和第“j”个语言单元之间的边界处的“I+1”个标点符号出现率的加权平均值，所述“I+1”个标点符号出现率中的每一个从在各个“I+1”个语言单元序列中的词类排列来评估。

10.一种语音合成方法，包括：

将输入文本分割为语言单元；

基于与所述输入文本中的语言单元之间的边界相邻的多个语言单元的特征信息项，评估在所述输入文本中的语言单元之间的边界处的标点符号出现率，所述标点符号出现率表示在所述边界出现标点符号的概率；

基于所述标点符号出现率，选择用于语音合成的韵律控制规则；以及

使用所述选择的韵律控制规则，合成与所述输入文本相对应的语音。

11.根据权利要求10的语音合成方法，其中所述选择为，从用于语音合成的多个韵律控制规则中选择其条件满足所述评估的所述语言单元之间的标点符号出现率的韵律控制规则，所述多个韵律控制规则中的每一个都包括所述语言单元之间的标点符号出现率的条件。

12.根据权利要求11的语音合成方法，其中基于所述多个学习数据项来产生所述韵律控制规则，所述多个学习数据项中的每个都与韵律相关、并包括在语言单元之间的标点符号出现率。

13.一种语音合成方法，包括：

将输入文本分割为语言单元；

基于所述评估的所述语言单元之间的标点符号出现率，确定所述语言单元之间的韵律边界的类型；

基于所述确定的所述语言单元之间的所述韵律边界的类型，选择用于语音合成的韵律控制规则；以及

14.根据权利要求13的语音合成方法，其中所述确定类型包括：从一组多个韵律边界评估规则中选择其条件满足所述评估的所述语言单元之间的标点符号出现率的韵律边界评估规则，所述多个韵律边界评估规则中的每一个包括所述语言单元之间的标点符号出现率的条件，以便于确定在所述语言单元之间的韵律边界的类型；以及基于所述选择的韵律边界评估规则，确定所述语言单元类型之间的韵律边界的类型。

15.根据权利要求13的语音合成方法，其中从用于语音合成的多个韵律控制规则中选择其条件满足所述确定的类型的韵律控制规则，所述多个韵律控制规则中的每个包括所述语言单元之间的韵律边界的类型的条件。

16.根据权利要求13的语音合成方法，其中所述确定类型包括：从每个都包括多个韵律边界评估规则的多个组中，选择多个其条件分别满足所述评估的所述语言单元之间的标点符号出现率的韵律边界评估规则，所述多个韵律边界评估规则中的每一个都包括所述语言单元之间的标点符号出现率的条件，以便于确定所述语言单元之间的韵律边界的类型；以及，在所述选择的韵律边界评估规则中，根据多数决定规则，确定所述韵律边界的类型。

17.根据权利要求14的语音合成方法，其中基于多个学习数据项来产生所述韵律边界评估规则，所述多个学习数据项中的每个都与所述语言单元之间的边界相关、并包括所述语言单元之间的标点符号出现率。

18.根据权利要求15的语音合成方法，其中基于多个学习数据项来产生韵律控制规则，所述多个学习数据项中的每个都与韵律相关、并包括所述语言单元之间的韵律边界的类型。

19.一种韵律控制规则产生设备，包括：

分割单元，其被配置以将输入文本分割为语言单元；

评估单元，其被配置以基于与所述输入文本中的语言单元之间的边界相邻的多个所述语言单元的特征信息项，评估在所述输入文本中的语言单元之间的边界处的标点符号出现率，所述标点符号出现率表示在所述边界出现标点符号的概率；

第一产生单元，其被配置以产生多个学习数据项，其每个都与韵律相关、并包括所述语言单元之间的标点符号出现率；以及

第二产生单元，其被配置以基于所述学习数据项产生用于语音合成的韵律控制规则，所述韵律控制规则包括所述语言单元之间的标点符号出现率的条件。

20.一种韵律控制规则产生设备，包括：

分割单元，其被配置以将输入文本分割为语言单元；

评估单元，其被配置以基于与所述输入文本中的语言单元之间的边界相邻的所述多个语言单元的特征信息项，评估在所述输入文本中的语言单元之间的边界处的标点符号出现率，所述标点符号出现率表示在所述边界出现标点符号的概率；

第一产生单元，其被配置以产生多个学习数据项，其每个都与所述语言单元之间的韵律边界相关、并包括所述语言单元之间的标点符号出现率；以及

第二产生单元，其被配置以基于所述与韵律边界相关的学习数据项，产生用于确定韵律边界的类型的韵律边界评估规则，所述韵律边界评估规则包括所述语言单元之间的标点符号出现率的条件。

21.根据权利要求20的韵律控制规则产生设备，还包括：

被配置以产生多个学习数据项的产生单元，所述多个学习数据项的每个都与韵律相关、并包括在包含该韵律的语言单元与另一个相邻语言单元之间的韵律边界的类型；以及

被配置以基于所述与韵律相关的学习数据项，产生用于语音合成的韵律控制规则的产生单元，所述韵律控制规则包括所述韵律边界的类型的条件。

22.一种语音合成设备，包括：

分割单元，其被配置以将输入文本分割为语言单元；

评估单元，其被配置以基于与所述输入文本中的语言单元之间的边界相邻的多个语言单元的特征信息项，评估在所述输入文本中的语言单元之间的边界处的标点符号出现率，所述标点符号出现率表示在所述边界出现标点符号的概率；

选择单元，其被配置以基于所述标点符号出现率，选择用于语音合成的韵律控制规则；以及

合成单元，其被配置以使用所述选择的韵律控制规则，合成与所述输入文本相对应的语音。

23.根据权利要求22的语音合成设备，还包括：

存储器，以存储用于语音合成的多个韵律控制规则，所述多个韵律控制规则中的每一个都包括所述语言单元之间的标点符号出现率的条件；以及其中所述选择单元从用于语音合成的所述韵律控制规则中选择如下的韵律控制规则，即其条件满足所述评估的所述语言单元之间的标点符号出现率。

24.一种语音合成设备，包括：

分割单元，其被配置以将输入文本分割为语言单元；

确定单元，其被配置以基于所述评估的所述语言单元之间的标点符号出现率，确定所述语言单元之间的韵律边界的类型；

选择单元，其被配置以基于所述确定的语言单元之间的韵律边界的类型，选择用于语音合成的韵律控制规则；及

25.根据权利要求24的语音合成设备，还包括：

第一存储器，以存储一组多个韵律边界评估规则，其每一个都包括所述语言单元之间的标点符号出现率的条件，以便于确定所述语言单元之间的韵律边界的类型；以及其中

所述确定单元从所述一组多个韵律边界评估规则中，选择其条件满足所述评估的所述语言单元之间的标点符号出现率的韵律边界评估规则，并基于所述选择的韵律边界评估规则，确定所述语言单元之间的韵律边界的类型。

26.根据权利要求24的语音合成设备，还包括：

第二存储器，以存储用于语音合成的多个韵律控制规则，所述多个韵律控制规则中的每一个都包括所述语言单元之间的韵律边界类型的条件；以及其中

所述选择单元从用于语音合成的所述韵律控制规则中选择其条件满足所述确定的类型的韵律控制规则。

27.根据权利要求24的语音合成设备，还包括：

第一存储器，以存储多个其每一个都包括多个韵律边界评估规则的组，以便于确定所述语言单元之间的韵律边界的类型，所述多个韵律边界评估规则中的每一个都包括所述语言单元之间的标点符号出现率的条件；以及其中

所述确定单元从所述组中选择多个其条件分别满足所述评估的所述语言单元之间的标点符号出现率的韵律边界评估规则，并在所述选择的韵律边界评估规则中，根据多数决定规则，确定所述韵律边界的类型。