CN1145926C

CN1145926C - 用于语音合成的方法和设备

Info

Publication number: CN1145926C
Application number: CNB961931620A
Authority: CN
Inventors: 3; 安德鲁·劳里
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1995-04-12
Filing date: 1996-04-03
Publication date: 2004-04-14
Anticipated expiration: 2016-04-03
Also published as: US6067519A; HK1008599A1; EP0820626B1; CA2189666C; JPH11503535A; AU5159696A; CA2189666A1; DE69615832D1; JP4112613B2; WO1996032711A1; NO974701D0; EP0820626A1; AU707489B2; MX9707759A; CN1181149A; DE69615832T2; NO974701L; NZ304418A

Abstract

通过在一个语音波形段的末尾和在另一个语音波形段的开头产生外推波形以产生一个具有同步音高标记的重叠区来连接语音波形段，然后求出穿过该重叠区的加权和以提供一个平滑过渡。

Description

用于语音合成的方法和设备

技术领域

本发明涉及语音合成，尤其涉及被存储的数字化波形的段被取出与组合的语音合成。

发明内容

根据本发明提供了一种语音合成方法，它包括以下步骤：

取出与第一期望语音波形以及与定义波形激发时刻的第一音高数据相对应的数字样本的第一序列；取出与第二期望语音波形以及与定义第二波形激发时刻的第二音高数据相对应的数字样本的第二序列；通过由所述第一及第二序列之至少一个序列合成一个扩展序列，形成一个重叠区，该重叠区作音高调节使其与所述第一及第二序列之另一序列的激发时刻同步；为重叠区形成所述第一及第二取出序列的样本值与扩展序列的样本值的加权和。

根据本发明提供另一种语音合成方法，它包括以下步骤：

取出与第一期望语音波形以及与定义波形激发时刻的第一音高数据相对应的数字样本的第一序列；取出与第二期望语音波形以及与定义第二波形激发时刻的第二音高数据相对应的数字样本的第二序列；从第一序列在第一序列的末尾合成一个第一扩展序列，该扩展序列作音高调节使之与第二序列的激发时刻同步；从第二序列在第二序列的开头合成一个第二扩展序列，该扩展序列作音高调节使之与第一序列的激发时刻同步；由此第一和第二扩展序列定义一个重叠区；为重叠区形成第一序列样本与第二扩展序列样本的加权和以及第二序列样本与第一扩展序列样本的加权和。

本发明的另一方面提供了一种语言生成设备，它包括：

用于储存数字样本序列的装置，数字样本序列与语音波形段以及与定义这些波形的激发时刻的音高数据相对应；

可控的控制装置，用于从储存装置中取出对应于语音波形的期望段以及与相应的定义该波形激发时刻的音高数据相对应的数字样本序列；

连接已取出序列的装置，连接装置用于：(a)根据至少一对已取出序列的第一序列合成一个扩展序列，以扩展这一个提取的序列到与该序列对的另一序列重叠的重叠区，扩展序列作音高调节使之与该另一序列的激发时刻同步；(b)为重叠区形成该对取出的序列样本与扩展序列样本的加权和。

本发明的其它方面将解释如下。

下面参考附图以举例的形式说明本发明的一些实施例。

附图简述

图1是根据本发明的语音合成器的一种形式的方块图；

图2是说明图1所示设备中的连接单元5操作的流程图；

图3到图9是说明连接装置5的操作的波形示意图，其中：

图3是说明从浊音音素中消去样本。

图4是说明源样本的提取和相乘。

图5是说明源样本的替代波形的相加。

图6是说明重叠音素的合并和相乘。

图7是说明在两个音素的波形之间的平滑过渡段。

图8是说明两个清音音素的连接。

图9是说明两个音素连接的波形示意图。

本发明实施例的详细说明

在图1所示的语音合成器中，储存器1含有由数字化语音段落产生的语音波形段，该数字化语音段落原始地由广播员阅读一段话(或许有200句)来进行记录，其中包含了所有(或至少广泛选择的)可能的不同声音。这样，波形存储器1的每个登记项包含与一个或多个音素相对应的一部分语音的数字样本。该样本具有指示音素间界限的标记信息。伴随每个语音波形段储存了定义“音高标记”的数据，该“音高标记”指示在原始录音中以常规方式产生的信号的声门闭合点。

代表待合成的语音的输入信号以语音的方式被提供到输入2。如果愿意的话，该输入信号可以从普通装置(没有示出)输入的文本中产生。该输入信号由选择单元3以一种公知的方法进行处理，选择单元3为每个输入元素确定与该元素代表的声音相对应的已储存的波形段在存储器1中的地址。如上所述，输入元素可以是音素、复音、三音或其它次单词元素，通常元素的长度会根据相应的波形段的波形存储器的可用性而变化。在可能的情况下最好选用与前一元素有一个音素重叠的元素。有关这方面的技术在我们的共有未决的“国际专利申请no.PCT/GB/9401688”和美国专利申请no.166988，(1993年12月16日提交)”中说明。

这些元素一旦被读出就要在幅值调节单元4中分别经受幅值规格化处理，幅值调节单元4的操作在“欧洲专利申请no.95301478.4”中说明。

然后这些元素在单元5中被连接在一起。图2示出了单元5的工作流程图。在本说明书中元素及跟随该元素的元素分别被称作左元素和右元素。在元素重叠(即当左元素的最后一个音素和右元素的第一个音素代表同一个声音因而在最后输出时仅形成一个音素)的情况下需要在做“合并”型连接之前先除去冗余信息；否则“邻近”型连接比较适合。

在图2的步骤10中，这些元素被接收，然后根据合并的类型(步骤11)确定是否需要截短。在步骤12，相应的音高阵列被截短；在与左元素相对应的阵列中，最后一个音素的中点右边的第一音高标记到之后的音高标记被切掉以便只保留中点后面的一个音高标记，而在与右元素对应的阵列中，第一个音素的中点左边的最后一个音高标记之前的被切掉以便只保留中点前面的一个音高标记。图2对此进行了说明。

在往下进行之前，需要根据每个音素中音高标记的出现位置将连接点两边的音素归入浊音类或清音类。注意这是在“音高切断”步骤之后进行的(在步骤13中)，因而发声决定反映了某些音高标记可能的消除之后的每个音素的状态。一个音素被归入浊音类，如果：

1.音高阵列的相应部分含有两个或两个以上音高标记；和

2.两个最接近连接点的音高标记之间的时间差小于门限值，和

3a.对合并型连接来说，最接近连接点的音高标记与音素中点之间的时间差小于门限值；

3b.对邻接型连接来说，最接近连接点的音高标记与左元素的结尾(或右元素的开头)之间的时间差小于门限值。

否则，一个因素就被归入清音类。

规则3a和3b是为了防止在下一步骤中语音样本的过分损失。

在合并型连接的情况下(步骤14)，象如下那样放弃浊音音素中的语音样本(步骤15)：

左元素，最后一个音素——放弃末尾音高标记后面的所有样本；

右元素，第一个音素——放弃开头音高标记前面的所有样本；以及通过放弃音素中点右面或左面(分别对应于左元素和右元素)的所有样本来放弃清音音素中的语音样本。

在邻接型连接的情况下(步骤16，15)，清音音素没有样本放弃而浊音音素一般用与合并型连接情况下同样的方法进行处理，尽管由于音高标记没有一个被删除因此几乎不会丢失样本。如果这样会造成大量样本的损失(例如，大于20毫秒)那么就不消除样本并且在以后的处理过程中该音素将被标明作为清音处理。

从浊音音素中消除样本可以用图3来说明。音高标记的位置用箭头来表示。注意，所示波形仅仅为了说明，它并不代表实际语音波形。

用于连接两个音素的操作是一个叠加过程。然而根据两个音素都是浊音(浊音连接)还是一个是清音或两个都是清音(清音连接)要用不同的过程。

下面首先说明浊音连接(步骤18)。它要求下列基本步骤；通过复制其原有波形段(但复制波形具有与另一将被连接的音素相对应的音高周期)来合成音素的扩展部分。这就产生(或者在合并型连接情况下重新产生)一个具有匹配音高标记的重叠区。然后对样本进行加权相加(步骤19)以产生一个穿过连接点的平滑过渡段。重叠区可以由左音素的扩展部分产生或者由右音素的扩展部分产生，但优选的方法是将左右两个音素都加以扩展，如下所述。以下是更为详细的情况：

1.用海宁窗选择一段原有波形用于合成。通过考察左元素的最后两个音高周期和右元素的前两个音高周期来选择窗的长度以找出这四个值中的最小值。连接点两边的窗口宽度被设置为两倍于该最小值。

2.提取以左元素的倒数第二个音高标记或右元素的第二个音高标记为中心的窗口周期源样本并与海宁窗函数相乘，如图4所示。将处于与其它音素的音高标记同步的替代波形加到上述波形上以产生合成波形扩展序列，如图5所示。将左元素的最后一个音高周期与半个海宁窗函数相乘，然后在最后一个原始音高标记位置以及右元素的相继的音高标记位置上重叠加上替换的经窗函数处理的段。对右元素的处理与此类似。

3.然后将合成的重叠音素合并；如图6所示每个重叠音素与长度为两个合成段的总长度的半个海宁窗相乘，然后把二者加起来(左元素的末尾音高标记与右元素的开头音高标记对准)，合成波形应当显示如图7所示的从左音素波形到右音素波形的平滑过渡。

4.用于合成与合并处理的重叠音高周期的数目由以下决定。重叠区向其它音素的时间范围延伸直到发生以下的情况之一：

(a)达到音素界限；

(b)音高周期超过规定的最大值；

(c)重叠区达到规定的最大值(例如5个音高周期)。然而如果条件(a)导致音高周期数小于规定的最小值(例如3)，那么可以放宽条件允许增加一个音高周期。

在步骤20中，清音连接可以简单地在时间上移动该两个元素因而产生重叠以及用步骤21和图8所示的海宁加权叠加来完成。如果有一个音素是浊音，那么重叠宽度就是连接处浊音音高周期的宽度，如果两个都是清音，那么重叠宽为一固定值(一般为5毫秒)。然而重叠区(对邻接型来说)不应该超过两个音素中较短的那个音素的长度的一半。如果(为了合并)这两个音素已被截短，那么重叠区不应该超过音素剩余部分的长度的一半。对邻接型连接来说，为了后面的处理考虑，将两个音素之间的界限放在重叠区的中点。

当然，这种移动产生重叠区的方法减少了语音的持续时间。在合并型连接的情况下可以这样避免上述情况：在放弃样本时，截点不是在中点而是稍微偏向一边使得当两个音素的中点对齐时产生一个重叠。

所述方法产生了好的结果；然而音高标记之间的定相和储存的语音波形会有所变化，这取决于前者如何产生。这样虽然音高标记在连接点被同步但这不能保证穿过连接点的是一个连续波形。因此最好将右元素的样本相对于它的音高标记移动一选定值以便使两个元素在重叠区中的互相关达到最大值。这可以通过用不同的试验移动(例如±3ms，步进值为125us)计算两个波形在重叠区中的互相关来实现。一旦该项工作完成以后，就要重复做用于右元素扩展的合成工作。

连接完成后，可以用常规方法对所有音高进行调节，如图1中的方框6所示。

连接单元5实际上可用数字处理单元和一个含有一系列执行上述步骤的程序指令的存储器来实现。

Claims

1.一种语音合成方法，它包括以下步骤：

取出与第一期望语音波形以及与定义波形激发时刻的第一音高数据相对应的数字样本的第一序列；

取出与第二期望语音波形以及与定义第二波形激发时刻的第二音高数据相对应的数字样本的第二序列；

通过由所述第一及第二序列之至少一个序列合成一个扩展序列，形成一个重叠区，该重叠区作音高调节使其与所述第一及第二序列之另一序列的激发时刻同步；

为重叠区形成所述第一及第二取出序列的样本值与扩展序列的样本值的加权和。

2.一种语音合成方法，它包括以下步骤：

从第一序列在第一序列的末尾合成一个第一扩展序列，该扩展序列作音高调节使之与第二序列的激发时刻同步；

从第二序列在第二序列的开头合成一个第二扩展序列，该扩展序列作音高调节使之与第一序列的激发时刻同步；

由此第一和第二扩展序列定义一个重叠区；

为重叠区形成第一序列样本与第二扩展序列样本的加权和以及第二序列样本与第一扩展序列样本的加权和。

3.根据权利要求2所述的方法，其中第一序列在其末尾有一个与某一声音相对应的区段，第二序列在其开头有一个与上述同一声音相对应的区段，该方法还包括在合成之前从第一波形的所述区段的末尾以及从第二波形的所述区段的开头消去与所述某一声音对应之样本的步骤。

4.根据权利要求1、2或3所述的方法，其中每个合成步骤包括从所述第一及第二序列之一中提取样本子序列，将子序列与窗口函数相乘以及将子序列重复加上与所述第一及第二序列的另一个序列的激发时刻相对应的偏移。

5.根据权利要求4所述的方法，其中窗口函数以第一序列的倒数第二个激发时刻和第二序列的第二个激发时刻为中心，它具有两倍于第一和第二序列的音高周期的最小值的宽度，这里音高周期定义为激发时刻之间的间隔。

6.根据权利要求1、2、3中任一项所述的方法，包括以下步骤：在求出加权和之前，在重叠区范围内将第一序列及其扩展序列与第二序列及其扩展序列进行比较，从而推导出使它们之间的相关最大化的偏移值，对第二音高数据调节所确定的偏移量，并重复合成第二扩展序列。

7.一种语言生成设备，它包括以下方面：

用于储存数字样本序列的装置(1)，数字样本序列与语音波形段以及与定义这些波形的激发时刻的音高数据相对应；

可控的控制装置(2)，用于从储存装置(1)中取出对应于语音波形的期望段以及与相应的定义该波形激发时刻的音高数据相对应的数字样本序列；

连接已取出序列的装置(5)，连接装置用于：(a)根据至少一对已取出序列的第一序列合成一个扩展序列，以扩展这一个提取的序列到与该序列对的另一序列重叠的重叠区，扩展序列作音高调节使之与该另一序列的激发时刻同步；(b)为重叠区形成该对取出的序列样本与扩展序列样本的加权和。