CN1169115C

CN1169115C - 语音合成系统及方法

Info

Publication number: CN1169115C
Application number: CNB971195943A
Authority: CN
Inventors: 学东・D・黄; 学东·D·黄; ・L・阿多克; 詹姆斯·L·阿多克; A・古德史密斯; 约翰·A·古德史密斯
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 1996-09-30
Filing date: 1997-09-29
Publication date: 2004-09-29
Anticipated expiration: 2017-09-29
Also published as: JPH10116089A; EP0833304A2; EP0833304B1; US5905972A; EP0833304A3; DE69719654D1; DE69719654T2; JP4302788B2; CN1179587A

Abstract

韵律数据库具有用于语音合成系统的基本频率模板，韵律数据库模板具有给定句子中各音节的基本频率值，这些基本频率值可以用于合成语音句子。这些模板由声调模式标记来索引。对每一个要合成语音的正文句子，都要生成一个预测的声调标记模式，并且用这个声调标记的预测模式来确定一个最优匹配模板。这些模板是在由口语教员所说的一个未标记句子集中句子的研究基础上，通过计算基本频率而得到的。

Description

语音合成系统及方法

技术领域

本发明一般涉及数据处理系统，特别涉及到具有语音合成所使用的基本频率模板的韵律数据库(prosodic databases)。

背景技术

正文-语音系统合成的是由输入正文确定的语音，传统的这种系统的一个缺陷就是它生成非常不自然的机械合成语音，这种合成的语音并不能表现出在人类语言中特有的韵律特征。多数传统的正文-语音系统通过一组定义韵率参数随时间变化的公式来生成韵律(prosody)。一般认为韵律包括声音持久长度，声音响度和与声音相结合的语调重音。某些正文-语音系统已经试图利用随机技术来增强系统最后合成语音的自然效果。这些随机学习技术试图根据对口语短语和句子的统计分析来决定韵律，然而这些随机技术在持续的生成具有自然效果的语音方面也失败了。

发明内容

本发明提供一种语音合成系统中的方法，包括以下计算机可实现的步骤：提供要合成语音的正文；提供韵律模板，其中每个韵律模板具有语音单位的基本频率值序列，其中用一个声调重音标记模式作为索引来进行索引每个韵律模板，其中为正文中每个语音单位提供声调标记；基于索引选择一个模板以供将正文合成语音时建立韵律之用；使用选择的用于为语音建立韵律的模板中的至少一个基本频率，把正文合成语音。

本发明提供一种语音合成系统，包括：一个语法分析器，用于把输入的正文进行语法分析，变成语音单位；一个具有韵律模板的韵律数据库，其中每个韵律模板为语音单位保存有基本频率值序列，其中用一个声调重音标记模式来进行索引每个韵律模板，其中为正文中每个语音单位提供声调标记；一个语音合成器，它通过使用在韵律数据库中选择出的用于获得输入正文语音单位的基本频率值的一个模板来生成与输入正文相对应的语音。

本发明的第一方面是在语音合成系统使用一种计算机实现方法。根据这种方法，要提供合成语音的正文，同时还要提供韵律模板。每个韵律模板具有一系列语音单位的基本频率值。在建立正文合成语音的韵律时选择一个模板。然后，至少用该模板的一个基本频率来建立语音的韵律，正文就可以合成语音了。

本发明的另一方面是提供一个关于语音频率基本单位的韵律数据库。每一个韵律数据库的入口都由一个声调标记模式进行索引，这些声调标记与为其保存了基本频率的语音单位的重音程度有关。再在给定正文上进行自然语言语法分析，基于自然语法分析的结果，对正文中的语音单位的声调标记的预测模式就可以预测出来。通过对正文中语音单位的声调标记预测模式与韵律数据库中各个入口的索引进行比较，韵律数据库中的一个最优匹配索引就被识别出来了。在韵律数据库由最优匹配索引所指入口中，至少有一个基本频率值可以用来建立正文合成语音时的韵律。

本发明的又一个方面是一种建立韵律数据库的方法在计算机系统上实现了。当口语教员所说口语正文中每个部分时都会对应的获得一个声音信号，每个声音信号是在口语教员说正文的相对应部分时生成的。对于口语正文每个部分的嗓音记录信号是在其说那个部分时从他所戴的嗓音记录器中获得的。声音信号被分割成代表正文音节的片段，每一个音节包括一个元音部分。嗓音记录信号被分成与声音信号相匹配的片段。在正文的每一部分，每一音节元音部分的瞬时基本频率的加权和被计算出来。基本频率从嗓音记录信号获得而加权值从声音信号中获得。对正文的每一部分，韵律数据库中每一正文部分音节的瞬时基本频率加权和被存储起来。这些加权和可以用来建立合成语音的韵律。

本发明的再一个方面是正文-语音系统包括了一个把正文转换成语音单位的语法分析器，该系统还包括一个具有韵律模板的韵律数据库，其中每一个韵律模板具有输入正文中语音单位的一系列基本频率值。除此之外，本系统还包括一个语音合成器，它通过使用在韵律数据库中选好的一个模板来为输入正文中每一语音单位获取基本频率值，从而生成相对于输入正文的语音。

本发明的又一个方面是提供了一个具有不同类型语音韵律模板的韵律数据库。决定用什么韵律类型来生成语音的哪一部分后，根据确定的韵律类型，至少用韵律数据库中的一个模板结合已确定的韵律类型来生成语音部分。

本发明的再一个方面是提供了一个韵律数据库，它为每一个说话者保存有不同韵律类型的韵律模板。决定了系统要生成的语音部分和使用哪一种韵律类型，至少要用韵律数据库中一个模板为已确定的韵律类型生成语音部分。

附图说明

本发明的一个实施例将在通过下列图表来说明：

图1是一个适用于本发明实施例的计算机系统方框图。

图2是一个流程图，描述了本发明实施例把一给定的输入句子合成语音时的大体执行步骤。

图3是一方框图，描述了本发明实施例的正文-语音模块组件。

图4是说明在韵律数据库中建立一个入口时执行步骤的流程图。

图5A显示了一个声音信号例子。

图5B显示了相对于图5A声音信号的嗓音信号举例。

图6是一个流程图，它说明了当韵律数据库中找不到完全匹配值时获得基本频率值的执行步骤。

具体实施方式

本发明的实施例提供了一个或多个韵律数据库，韵律数据库中具有针对短语及句子的基本频率模板，并存储了多个说话者的韵律数据库和不同韵律类型的多个数据库，其中每一个数据库起一种“声音字模”的作用。利用韵律数据库可以生成听起来更自然的合成语音。在合成语音时，我们可以从这些声音字模中进行选择来设置想要的韵律。更明确的说，可以使用一个韵律数据库中的一个最优匹配模板来确定基本频率，这些基本频率在合成语音输出时分配给各音节。本发明实施例中正文-语音系统的正文输入经过处理用来确定韵律数据库中的最优匹配模板。如果没找到一个完全合适的匹配，可以用添加技术在最优匹配模板的空白区生成一个匹配。这样最后生成的合成语音将比传统的正文-语音系统的合成语音听起来更自然。

每一个韵律数据库是通过让说话者说一些未标记的句子集中的句子来建立的。接着，这些句子被一个自然语言处理器处理并用隐式马尔科夫模型(HMM)技术分割成音素和音节。对每一个口语句子都要生成嗓音记录输出。对应于用HMM技术对麦克风信号的分片，这个嗓音记录输出也要被分片。对被分片的嗓音记录输出进行处理可以决定每个音节的元音部分的加权基本频率，这些加重基本频率存储在韵律数据库的入口中，而这些入口由声调标记来索引。

本发明的实施例提供了一种简捷的方法来确定给定说话者的韵律。这种方法可以推广到普遍应用于各种类型的正文。示范实施例还提供了一种机制，这种机制易于培训，并且可以生成听起来更象培训系统的原说话者的声音。

图1描画了适用于运行本发明的实施例的计算机系统10，使熟练的技术人员高兴的是，在图1中描画的计算机系统配置只是用来说明，它并不限制本发明。本发明还可以在其他计算机系统配置上实施，包括分布式系统和紧密耦合多处理器系统。

计算机系统10包括一个中央处理器(CPU)12和许多输入输出设备。比如说，这些设备可以包括一个键盘14，显示器16，和一个鼠标18。CPU12可以对存储器20存取。存储器20里放有正文-语音模块(text-to speech facility(TTS)28的拷贝。正文-语音模块28具有运行本发明实施例的指令。计算机系统10还可以包括一个网络适配器22，用来连接CPU12和网络24。计算机系统10还可以加上一个调制解调器26和一个声音输出设备27(如一个扬声器)用来输出语音。

正文-语音模块28包括一个或多个韵律数据库，对一个说话者可以保存多个数据库。例如，一个说话者可以为不同地区的口音分别生成一个数据库，其中每种口音都有它自己的韵律类型，甚至于一个说话者可以为读新闻广播建立一数据库，而为读儿童读物建立另一数据库，并且不同的说话者还可以有不同的韵律数据库，象刚才所提到的，每一个数据库都可以看作一个独立的“声音字模”。

图2是本发明实施例为输入的一个正文句子生成合成语音的总体步骤流程图。如果要处理多个输入正文的句子，图2所描述的很多步骤(如32步-44步)可能会为每个句子重复执行。图2的流程图将同图3一起说明，图3说明了本发明实施例的正文-语音能力28的基本组织。本发明实施例执行的第一步是建立一个韵律数据库(图2中步骤30)。韵律数据库是图3所描述的韵律模板的一部分。模板60可能包括多个韵律数据库或声音字模。根据以上讨论每一个韵律数据库都是按下面的方式生成的，即先让说话者从一个未标记的句子集中选一些句子说出来并且收集生成的相似语音信号和嗓音记录输出，然后处理这些数据来建立韵律数据库。

图4是表示建立韵律数据库的更详细执行步骤，图4中的步骤对说话者所说的未标记集50中每一个句子都要执行，这样首先得到了口语训练句子的嗓音记录信号(图4中步骤70)。

图5A描画了一个麦克风语音信号的例子，图5B描述了一个相对应的嗓音记录信号。这个信号提供了一个说话者的声带在某个时间点上如何开关，训练句子以音素和音节所进行的分段将被收到并用来以一种类似的方式分割嗓音记录信号(图4中步骤72)。说的明确些，就象一个麦克风信号被分割成大小相等的时间段一样，嗓音记录信号被分成片段。特别的，隐式马尔代夫模型(HMM)训练52在未标记集50的口语句子上执行以生成分片集54。HMM技术在技术领域很有名。一个合适的HMM训练技术在COPENDING应用NO.08/655,273中有说明，名字是“Method and system for speechRecognition Using Continuous Density Hidden Markov Models”，这篇文章写于1996年5月1日，并且它同本应用一起被转让给一个公共受让人。这些HMM技术会生成由音素和音节划分的语音信号。本发明的实施例特别注重的就是音节划分。

嗓音记录经处理后来识别转折信息和生成瞬时基本频率(F0)信息。在本文中，一个转折是指声带张开和关闭的持续时间。换句话说，一个转折对应于声带的一次开合。基本频率是指说话者的声带对一个音节振动的基本频率。这就是在本发明实施例中最受重视的韵律参数。转折信息是从嗓音记录信息持续时间的一个平滑估计的局部极大值中得出。

元音区之所以被选择用来分析是因为通常它是音节中最重音的部分，加权F0是由一个从音节元音部分对应的嗓音记录信息取出的瞬时基本频率值的加权和而算出来的，更正式一些，加权基本频率可以用数学公式来表示：

其中w_i表示权值，F0_i表示时刻i的基本频率。频率F0_i就是嗓音记录信息中相邻峰间隔时间的倒数，通常一个音节的元音部分将包括多个高峰，权值W从声音信号中得出，

其公式化表示为：

W = Σ_{t = t_{a}}^{t_{b}} A {(t)}^{2}

其中A(t)＝声音信号在时刻t的振幅。T_a＝第一峰值的时间，T_b＝第二峰值的时间，T_a和T_b的值分别代表对应于嗓音记录信息第一峰值和第二峰值的时间点。这个加权方案导致在计算每一音节敏感加重F0时给大量的速度信息部分赋予更大权值，加权方案给F0曲线中非常重要的部分更大的权值(如振幅大的地方)。

对句子进行自然语言处理(NLP)(如执行正文分析56)，并且从自然语言处理中得到的信息用来预测声调标记(图4中步骤76)。许多熟知技术中的任何一个都可用于执行这一语法分析。自然语言处理对这些句子进行语法分析，最后，生成语音部分的识别，及上下文单词，句子的语法结构，句子类型和句子中单词发音的识别，从这样一个NLP语法分析器得到的信息用来为句子中每个音节预测声调标记。现在已经知道，许多人类的语音韵律模式可以通过给每个音节预测三个声调标记中的一个而捕捉到。这三个声调是高音，低音和无重音。本发明的实施例在每一音节基础上对经语法分析后的输入句子预测了声调模式。预测和赋予声调符号的方法在JohnGoldsmith于1978年Communication andCognition上发表的“English as a Tone Language”及Janet Pierrehumbert在曼彻斯特技术学院所作的博士论文“The Phonology and Phonetics of English Intonation”中有说明。举例来说，一个声调符号串是“2H0H0N0L1-”。这个串由数字及从集合H，L，h，l，+，-中取出的符号组成。这些符号表示某些高突出音节的声调性质，主要是重音和最后音节，数字表示在这些重音及最后音节间的音节个数，H和L分别表示加重音节的高调和低调；+，-分别表示最后音节的高调和低调；而h和l则分别表示加重音节后面最左音节的高调和低调(或者如果加重音节后面没有音节时指示加重音节本身)。

在韵律数据库中要生成一个入口(entry)来存放句子音节的加权基本频率序列。每个入口由相关联的句子声调标记串来进行索引(图4中步骤78)。基本频率值在韵律数据库中可能以无符号字符值形式存贮。上面说明的是为每一个句子建立韵律数据库时的执行步骤。一般而言，本发明实施例采用的韵律模型用分割和文字分析来建立韵律模板60。

当一个韵律数据库建立后(见图2步骤30)，数据库可以在语音合成中使用。语音合成中的第一步是识别要生成的语音(图2中步骤32)。在本发明的实施例中，这个语音就是代表一个句子的大量文字。不过，令熟练的技术人员欣喜的是，本发明也适用于其他正文单位，包括短语，词甚至于段落。合成阶段48(图3)的下一步是把输入正文进行语法分析并为输入的句子生成一个声调预测(图2中步骤34)。一般而言，上面讨论的同一个自然语言处理用来决定输入正文的语音部分、语法结构、单词发音和句子类型识别。这个过程在图3正文分析框56中标明了。利用上面提到的Goldsmith的技术，声调标记可以根据从自然语言处理语法分析器中得到的信息来预测。本实施例的这个方面在合成部分48的韵律生成阶段66中执行。

给定预测的声调标记，就可以用预测的声调标记作为索引(图2中步骤36)对韵律数据中的韵律模板60进行存取了(图2中步骤60)。首先要判断是否有完全的匹配(如，一个与输入句子的预测值相同的声调标记模式所索引的入口)(图2中步骤38)。如果那儿有一个匹配入口，入口中保存的加权的基本频率可用来对输入句子的合成语音建立韵律数据库，然后系统推进到利用这些加权基本频率来生成语音输出(图2中步骤44)。如图3所示，本发明的实施例采用了一种连锁方法来合成语音。特别的，对分段集55进行处理来识别声音单位，象二声调(diphones)、三声调(triphones)等，它们被用来生成合成语音。这个处理过程在图3的单位生成阶段46中说明并生成一个单位详表62。输入正文句子的一个合适的单位集合从单位详表62中抽取出来并连接后用来生成合成语音输出，韵律数据库中的基本频率用来建立合成语音输出的韵律。

如果在图2步骤38找不到一个完全精确的匹配，就在韵律数据库中找出最优匹配入口，然后修改最优匹配入口的基本频率值，使之最接近地匹配修改的基本频率，就可以在生成合成语音输出(见图2中步骤42和44)中使用。

本发明的实施例使用了一种优化查找策略来确定最优匹配入口。具体说，将预测声调标记与韵律数据库入口的声调标记索引进行比较，然后给声调标记索引根据它们与预测声调标记的相似程度打上分。也就是，在预测的声调标记，即索引声调标记上执行动态规划(如Viterbi查找)(图6步骤82)。为了详尽地说明Viterbi算法，需要先建立一些术语。Viterbi算法要为一个给定观察序列找到一个最佳状态序列。状态序列用q来表示，q等于(q₁，q₂，....q_t)；给定观察序列用O＝(O₁，O₂...O_t)来表示；λ是参数集合，其中T是各状态或观察序列的标记。在一条路径上时刻T的最优值，说明了第一个t观察并在状态i结束，它的定义如下：

δ_{t} (i) = \max_{q 1, q 2, \cdot \cdot \cdot, q_{t} - 1} p [q_{1} q_{2} \cdot \cdot \cdot q_{t - 1}, q_{t} = i, o_{1} o_{2} \cdot \cdot \cdot o_{t} | λ]

在本文中，每一个声调标记代表一个状态，并且每个声调标记的值代表一个观察。Viterbi算法可以正式详述为：

1.初始化

δ₁(i)＝π₁b₁(o₁)， 1≤i≤N

₁(i)＝0.

其中N＝状态数；π_i＝P[q_i＝i]；

2.循环

δ_{t} (j) = \max_{1 \leq i \leq N} [δ_{t - 1} (i) a_{ij}] b_{j} (o_{t}),

2≤t≤T1≤j≤N

其中：a_ij＝从状态i到状态j的状态转变概率

b_j(o_t)＝对状态j来说o_t被观察到的观察概率

2≤t≤T1≤j≤N

3.终止

P^{*} = \max_{1 \leq i \leq N} [δ_{T} (i)]

{q^{*}}_{T} = \arg \max_{1 \leq i \leq N} [δ_{T} (i)] .

4.回溯路径(状态序列)

q^* _t＝_t+1(q^* _t+1)， t＝T-1，T-2，…，1.

因此，象图6所描述的，Viterbi算法用来找最佳匹配(步骤82)。这个算法被修改可以提供快速输出。具体来说，这个系统跟踪了当前找到的最低耗费方案，并且对每一后继串当发现修改串的最小耗费超出前面找出的最优串的耗费时立即退出该算法。耗费可以在许多由经验得出的方法中获得，一种解决方案是赋予两个数字间的差异耗费，这里指预测声调模式串的数字与索引声调模式串的数字匹配。因此，如果预测的声调模式串在一个位置存有一个值2，而在声调模式串相同位置的值是3，这种不匹配就可被赋予耗费值1，由于含有无重音字符或由于删除而造成的字符的不匹配，被赋予耗费值10。

这种快速输出方法实质上删减了搜寻区域，因此那些明显不是最好匹配的声调模式尽可能快地被排除了。因此，计算开支减少了。

本系统然后试图修改基本频率的最优匹配串，用来得到一个更接近的匹配序列。特别的，基本频率被修改，是为了最优匹配索引和预测的声调模式的差异，这些差异的根据是两个串上表现为连续的未标记音节数目的不同。基本频率的最优匹配串的不同部分然后在该区域原来的基本频率值间被线性加入修改，以形成一个连续函数。这个范围然后被分成需要的新数目的区域，并在这些点被重新抽样，以建立一个新的不连续点集合，它代表这个区域的想要的输出基本频率样本点。看一下声调标记模式为“H5H”的最优匹配索引这个例子。这个模式表明，第一音节有一高音标记，后面跟着五个未标记音节，这些未标记音节依次后面都跟有一个高音标记音节。假设预测的声调模式是“H4H”，最优匹配索引有一个额外的未标记音节，它必须被修改，以生成四个未标记音节。最优匹配韵律数据库入口的七个基本频率值被处理后，在七个点之间被线性添加，以生成一个由6个线性片段组成的一个连续函数，这里6个线性片段在中间的四个新的未标记点被重新抽样，并且对应于高音标记的结束点，保留两个以前的基本频率值。结果会生成一个基本频率的匹配模式。

本发明实施例的一个主要优点是它允许选择希望合成的语音类型。多个声音字模提供了一种能力，即可以对某个说话者方便迅速地生成不同的个人类型。生成的语音不必都是一个韵律类型，也不必都从一个讲话者中生成。

本发明用一个参照实施例来描述，而使那些熟练的技术人员高兴的是，不需要违背附加的权利需求书中所定义的本发明的设定范围，就可以进行形式和细节的各种变化。例如，本发明可以对短语进行语法分析而不是对句子分析，而且可以在使用另一种语音单位(如音素)的系统上运行并且可以采用其它分割技术。

Claims

1.一种语音合成系统中的方法，包括以下计算机可实现的步骤：

提供要合成语音的正文；

提供韵律模板，其中每个韵律模板具有语音单位的基本频率值序列，其中用一个声调重音标记模式作为索引来进行索引每个韵律模板，其中为正文中每个语音单位提供声调标记；

基于索引选择一个模板以供将正文合成语音时建立韵律之用；

使用选择出的用于为语音建立韵律的模板中的至少一个基本频率，把正文合成语音。

2.权利要求1的方法，还包括把正文分解成语音单位的步骤，来为正文建立片段。

3.权利要求1中的方法，其中语音单位是音节。

4.权利要求1中的方法，其中在正文中用的是短语。

5.权利要求1中的方法，其中在正文中用的是一个句子。

6.权利要求1的方法，还包括了为正文生成预测声调标记模式的步骤，其中选择模板时要选择其索引与预测声调标记模式最优匹配的那一个模板。

7.权利要求1的方法，其中提供韵律模板的步骤进一步包括下面步骤：

为语音单位提供一个含有基本频率的韵律数据库，所说的韵律数据库的每个入口由一个声调标记模式来索引，这些声调标记模式同那些具有基本频率的语音单位的重音程度相对应；

对正文上执行自然语言语法分析；

根据自然语言语法分析的结果，为正文中的语音单位预测一个预测声调标记模式，

选择一个模板的步骤包括：

在韵律数据库中通过把正文中的语音单位的预测声调标记模式与韵律数据中的多个入口索引进行比较，识别出一个最优匹配索引；

使用由最优匹配索引所索引的韵律数据库的入口中的至少一个基本频率值来在为正文合成语音的过程中建立韵律。

8.权利要求7的方法，其中最优匹配索引完全同预测声调标记模式相匹配。

9.权利要求7的方法，其中，由最优匹配索引所索引的入口中所有基本频率值都将用来建立韵律。

10.权利要求7的方法，其中，最优匹配索引不是完全与预测声调标记模式相匹配。

11.权利要求7方法，其中，声调标记包括一个高重音声调标记，一个低重音声调标记，一个非特别重音声调标记和一个表示未标记重音声调的标记。

12.权利要求11的方法，其中最优匹配索引与声调标记预测模式在语音单位上的连续未标记重音的数目不同。

13.权利要求12的方法，还包括下列步骤：

识别出最优匹配索引中同声调标记预测模式不匹配的部分和它所索引的韵律数据库的入口中基本频率值，该入口由与该最匹配索引的不匹配部分相对应的最匹配索引所索引；

在由最优匹配索引所索引的韵律数据库入口的绑定基本频率值间，使用线性插入方法来生成一个绑定基本频率值间的连续函数，其中这些最优匹配索引把识别出的基本频率值绑定在对应于最优匹配索引非匹配部分的入口中；

重新对连续函数取样，获得若干未标记重音语音单位的基本频率值，它们的个数同在预测声调模式中连续非标记重音标记的数目相匹配；及

用重取样获得的基本频率值，来在为正文合成语音的过程中建立韵律。

14.权利要求7的方法，其中，使用Viterbi查找算法来识别最优匹配索引。

15.权利要求7的方法，通过如下步骤建立韵律数据库：

为口语教员说出的口语正文的每一个相对应部分获得一个声音信号，每个所述声音信号都是在口语教员说出正文的相对应部分时生成的信号；

当口语教员说正文时，从他所戴的嗓音记录器中对每个正文部分获得一个嗓音记录信号；

把声音信号分割成代表正文中音节的片段，其中正文的每个音节上都包括一个元音部分；

把嗓音记录信号分成同声音信号片段相匹配的片段；

在每个正文部分，为每个音节的元音部分计算一个瞬时基本频率的加权和，其中基本频率从嗓音记录信号获得而加权值从声音信号获得；

对正文的每个部分，在韵律数据库中存贮各音节的瞬时基本频率加权和，并且用韵律数据库中瞬时基本频率的加权和来建立合成语音的韵律。

16.权利要求15的方法，其中，对每个音节的元音部分在嗓音记录信号中都包括峰值，并且其中的每个瞬时基本频率被计算成相邻峰间隔时间的倒数。

17.权利要求16中的方法，其中，每个瞬时基本频率，都是根据对应于嗓音记录信号相邻峰的声音信号部分的声音信号大小来加权的。

18.权利要求1的方法，提供韵律模板的步骤包括：

提供具有不同的语音类型的韵律模板的韵律数据库，

选择一个模板的步骤包括：

决定哪种韵律类型将应用到要合成的语音部分；及

对确定了的韵律类型，使用韵律数据库中的至少一个模板来生成具有确定的韵律类型的语音部分。

19.权利要求1的方法，提供韵律模板的步骤包括：

为单个说话者提供具有不同韵律类型的韵律模板的韵律数据库，

选择一个模板的步骤包括：

决定哪一个韵律类型将应用在要生成的语音部分；及

对确定了的韵律类型，使用韵律数据库中的至少一个模板来生成具有确定韵律类型的语音部分。

20.一种语音合成系统，包括：

一个语法分析器，用于把输入的正文进行语法分析，变成语音单位；

一个具有韵律模板的韵律数据库，其中每个韵律模板为语音单位保存有基本频率值序列，其中用一个声调重音标记模式来进行索引每个韵律模板，其中为正文中每个语音单位提供声调标记；

一个语音合成器，它通过使用在韵律数据库中选择出的用于获得输入正文语音单位的基本频率值的一个模板来生成与输入正文相对应的语音。

21.权利要求20的语音合成系统，其中该系统还包括一个声调模式预测器，用于为输入正文预测声调模式，其中语音合成器使用输入正文预测声调模式来选择韵律数据库中的模板。