CN1144008A

CN1144008A - 语音合成

Info

Publication number: CN1144008A
Application number: CN95192141A
Authority: CN
Inventors: 安德鲁·洛厄里
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1994-03-18
Filing date: 1995-03-17
Publication date: 1997-02-26
Also published as: DE69519086T2; DE69519086D1; EP0750778A1; CA2185134C; JPH09510554A; WO1995026024A1; ES2152390T3; AU1899595A; AU692238B2; SG43076A1; EP0750778B1; NZ282012A; CA2185134A1

Abstract

通过将语音信号分成一个频谱分量及一个激励分量而改变合成的语音信号的音高。在发声语音的情况中，将激励分量乘以与至少近似地对应于发声激励瞬间的音高定时标记信息同步的一系列重叠的窗口函数，以将其分成开窗口的语音段，在作用了可控制的时间位移之后重新将它们加在一起。然后重新组合频谱及激励分量。乘法以每一音高时段至少用两个窗口，各有小于一个音高时段的持续时间。作为替代，各窗口具有小于两倍定时标记之间的音高时段的持续时间并相对于定时标记不对称。

Description

语音合成

本发明涉及语音的自动生成(例如从编码文本输入中)。更具体地涉及分析合成法，其中“合成的”语音是从存储的始自来人类说话者导出的语音波形生成的(与“用规则合成”系统对应)。为了产生自然发音的语音，有必要在合成语音中产生与出现在人类语音中的相同种类的上下文相关的(韵律学的)音调变化。本发明包含生成定义要作出的音高变化的韵律学信息，并致力于处理语音信号以达到这种音高变化的问题。

在F.J.Charpentier与MG Stella的“采用语音波形连接的重叠相加技术的复音合成”中描述了音高调节的一种方法，ASSP国际会议会报，IEEE，东京，1986年，2015-2018页。存储了各表示一个复音的语音波型的段，连同在时间上与波形的各音高周期的最大峰值值重合(对于发声的语音)并从而粗略地对应于说话人的声门闭合瞬间；或者对于不发声的语音是随意的音高标记。

利用长度等于三倍音高时段的Hamming窗口将要使用的波形部分分成重叠的段。为波形得出一个全程频谱包络，并利用离散傅立叶变换得出一个短期频谱包络；得出一个用频谱包络去除该短期频谱的“源分量”。然后用线性插入过程修正源分量的音高再将其与包络信息重新组合。用这一方法预处理之后，用重叠相加过程连接这些段以给出所希望的基本音高。

另一种建议免除了频域预处理而使用两倍音程持续时间的Hamming窗口(“基于语音的时域韵律修正的复音合成系统”，C.Hamon、E.Moulines与F.Charpentier，ASSP国际会议，Glasgow，1989年，238-241页)。

作为将时域重叠相加过程应用在一个完整的语音信号上的一种替代，可将它应用在一个激励分量上，例如通过使用LPC(线性预测编码)分析生成一个残留信号(或其参量表示)并在将其通过LPC合成滤波器之前在残留信号上作用重叠相加过程(“使用复音的文本到语音合成的音高同步波形处理技术”，F.Charpentier与E.Moulines，语音通信与技术欧洲会议，巴黎，1989年，卷II，13-19页)。

图1中示出重叠相加过程的的基本原理，其中示出了带有定心在激励峰值上的音高标记P的一个语音信号S；它是通过乘以窗口波形W(只示出其中的两个)而分成重叠的段的。合成的波形是通过将这些段加在一起而生成的，用时间移位来升高或降低音高，其中一个段偶而分别省略或重复。

按照本发明，提供了一种语音合成装置，其中包含可加以控制来改变由其合成的语音信号的音高的装置，具有：

(i)用于将语音信号分成一个频谱分量及一个激励分量的装置；

(ii)用一系列在发声语音的情况中与至少近似地对应于发声激励瞬间的音高定时标记信息同步的重叠窗口函数去乘该激励分量以将其分成开窗口的语音段的装置；

(iii)在这些段上作用可控时间移位并将它们加在一起的装置；以及

(iv)用于重新组合频谱与激励分量的装置，其中乘法装置每一音高时段至少采用两个窗口，各窗口具有小于一个音高时段的持续时间。窗口中最好包括采用定时标记部分的每一音高时段一个的第一窗口，及多个中间窗口，而这些中间窗口各有小于第一窗口的宽度。

另一方面，本发明提供一种语音合成装置，其中包含可加以控制来改变由其合成的语音信号的音高的装置，具有：

(ii)用于通过插入来自输入信号样本的新信号样本而时间压缩/扩张激励分量的装置；以及

(iii)用于重新组合频谱与激励分量的装置，其中乘法装置每一个音高时段至少采用两个窗口，各窗口具有小于一个音高时段的持续时间。最好该压缩/扩张装置能响应至少近似地对应于发声激励瞬间的定时标记信息进行操作来与之同步地改变压缩/扩张的程度，使得激励信号在定时标记附近压缩/扩张得比在两个连续的这种标记之间的音高时段的中心上要少。

现在参照附图用示例的方式描述本发明的一些实施例附图中：

图2为按照本发明的合成装置的一种形成的方框图；

图3与5为例示两种重叠相加音高调节方法的定时图；以及

图4为展示为频谱分析目的而在语音信号上开窗口的定时图。

在图2的装置中，数字语音波形S的部分是存储在存储器100中的，各带有对应的音高标记定时信息P，如上所述。波形部分是在生成必要的存储器地址的文本到语音驱动器101的控制下读出的；驱动器101的操作是传统的，除了说明它还生成音高信息PP之外以对它不作进一步的描述。LPC分析单元102分离从存储器100中读出的波形部分的激励与发声道分量，LPC分析单元102周期性地产生具有类似于语音波形部分的频谱的频率响应的合成滤波器的系数。这驱动作为合成滤波器的反面的分析滤波器103，并在其输出上生成一个残留信号R。

LPC分析与逆滤波操作是与音高标记P同步的，如下面将描述的。

过程中的下一步为修正残留信号的音高。(对于发声的语音段)这是由多窗口法执行的，在其中通过用一系列重叠窗口函数(每一音高时段至少两个)在处理单元104中去乘残留信号而将其分成段；图3中示出为五个，它示出了定心在音高时段上的一个梯形窗口及四个中间三角形窗口。音高时段窗口比中间窗口宽一些以避免在降低音高时复制主激励。

在升高音高时，将开窗口的段加在一起，但带有减小的时间间隔，如图3的下方部分中所示；如果降低音高，便增加时间间隔。在每种情况中，选择相对窗口宽度以便在合成期间给出倾斜侧面的重叠(即在中间窗口上的50％重叠)来保证正确的信号幅度。时间调节是由信号PP控制的。中间窗口的典型宽度为2ms而位于音高标记上的窗口的宽度则取决于特定信号的音高时段但通常在2至10ms的范围内。采用多窗口与采用每一音高时段一个窗口相比认为能减少相位失真。时间处理之后，将残留信号传送给LPC滤波器105以重构所要求的语音信号。

存储器100还包含各波形部分的发声/不发声指示符，而不发声部分是由与单元104相同的音高单元104′处理的，但绕过LPC分析与合成。两条通路之间的切换是在106上控制的。作为替代，不发声部分也能跟随与发声部分相同的路径；在每一种情况中，采用任意部分作为音高标记。

作为在残留信号上重叠相加的一种替代，研究出了旨在保持残留信号中的形状的另一种算法，并可从移位与重相加中得到进一步减少的相位失真。基本原理为重新抽样缺相来改变音高时段(这便是音高标记之间的一部分波形，保持音高标记附近的有意义信息不变)，保持在闭合时注入的高频并给予激励时段更现实的总体形状。通常可以重新抽样80％的时段。

重新抽样是通过将原来的抽样率上的各抽样瞬间映射到时间轴上的新的位置上而达到的。然后用两个最接近的映射样本之间的线性内插来估计重新抽样的信号的各抽样瞬间的信号幅度。线性内插对于重新抽样并不理想，但容易实现并至少能给出该技术的有用程度的指示。当下降抽样以减小音高时段时，必须将信号低通滤波以避免混叠。初始时，采用窗口设计法已为各音高时段设计了独立的滤波器。最终，这些可通过查表来生成以减少计算。

作为进一步的改善，重新抽样因子在待处理的段上平滑地改变以避免在边界上的信号特征中的剧烈改变。没有这一点，信号的有效抽样率将遭受阶梯形改变。采用正弦函数，并且平滑程度是可以控制的。可变重新抽样是在按照下式的映射过程中实现的：

T (n) = n (\frac{N - 1}{M - 1}) - α (\frac{N - 1}{M - 1}) \cos [\frac{π (n - 1}{M - 3}], n = 1, . . ., M - 2

T(0)＝0

T(M-1)＝N-1其中

M＝原始信号的样本数

N＝新信号的样本数

α＝[0，1 ]控制平滑程度

T(n)＝重新抽样的信号的第n个样本的位置。

这一方法与单一窗口重叠相加之间的主要差别在于假定将合成音高标记映射到接连的分析音高标记上，便可不用时间移位的段的重叠相加达到音高时段中的改变。如果音高标记不是接连的，重新抽样之后仍需要重叠相加来给出平滑的信号，这出现在复制或省略时段来给出所要求的持续时间时。

另一种实现包含整个信号而不是各音高时段的选择部分的重新抽样。假定施加适当的滤波来防止混叠，这对于音高升高不会出现问题，因为谐波结构仍占据整个频率范围。然而在降低音高时，内插在频谱的高端留出一个空隙。在瞄准电话应用的一个实际系统中，通过在高于4KHz(例如5KHz)的带宽上存储与处理语音便能减小这一效应。“丢失”的高频这时大部分出自电话频带，从而是无关的。

重新抽样技术的两种变型都受到与插入/抽取相关的高计算量需求的损害，尤其是在重新抽样因子不是两个整数之比时。这一技术随着DSP(数字信号处理)技术的不断发展而变得更具吸引力。

返回到LPC分析，如上所述，这是与加音高标记同步的。更具体地，语音信号的各音高标记需要一组LPC参数。作为语音修正过程的一部分，在原始的与修正的音高标记之间执行映射。然后便可为各修正的音高标记选择适当的LPC参数以便从残留信号中重新合成语音。

在LPC技术中，由于帧边界上的参数中的突然改变可导致在合成的语音中出现突变。这能导致噪声、爆裂声及通常粗糙的质量，所有这些都是感觉得到的干扰。为了减小这些后果，在语音抽样率上将LPC参数插入分析与合成相位两者中。

LPC分析可采用任何传统方法执行，当采用协方差或稳定协方差法时，各组LPC参数可在长度等于音高时段(定中在音高时的中点上而不是在音高标记上)或者更长的语音部分的一段(分析帧)上得出，可采用重叠时段，它具有允许按照音高使用固定长度的分析帧的优点。

另一方面对于自相关法，最好用开窗口的分析帧，如图4中所示。

虽然为了清楚起见，图4中的帧示出为带有三角形窗口的，窗口函数的选择实际上取决于所使用的分析方法。例如，可以采用Hamming窗口。帧中心与音高时段的中心而不是音高标记对准。这样做的目的为减小声门激励在LPC分析上的影响，而无需借助用短帧的闭合相位分析。作为结果，各参数组是参照时段中心而不是音高标记的。帧长度是固定的，已经发现这能给出比与音高相关的值更符合的结果。

对于短的帧长度，在精度方面稳定协方差法更好。对于这里采用的较长的帧，在这三种方法之间未观察到可以觉察的差别，因此自相关法较好，因为它是计算上高效的并保证给出稳定的合成滤波。

确定了LPC参数之后，下一步为在音高同步基础上反滤波语音。如上所述，内插这些参数来减小由帧边界上的参数值中的巨大改变引起的瞬变。在各音高时段的中心上，滤波器精确地与从分析中得出的结果对应。在接连的时段中心之间的各抽样瞬间上，滤波器是从分析中得出的两个滤波器的加权组合。最好将插入直接作用在滤波器系数上。这已显示产生比其它参数(LAR、LSP等)小的频谱失真，但并不保证给出稳定的插入滤波器。实践中未遇到过不稳定问题。

通常在样本n上滤波器系数由下式给出

a_n(i)＝α_na_1(i)＋(1－α_n)ar(i)，i＝0，…，p其中p为LPC分析的阶，αn为样本n上的加权函数和值，a1与ar表示参照最近的左方与右方时段中心参数组。为了保证滤波器系数的平滑演变，加权函数为相继的时段中心之间的一个上升的半余弦，由下式给出

α(i)＝0.5＋0.5cos(πi/N)，i＝0，…，N-1其中N为时段中心之间的距离，而i＝0对应于各时段的中心。

重新合成滤波器105的滤波器系数是以反相滤波相同的方式计算的。对音高与持续时间的修正意味着滤波器序列及时段值将与用在分析中的不同，但插入仍保证滤波器系数从样本到样本的平滑变化。

对于发声段中的第一个音高标记，滤波在该音高标记上开始，并在到达时段中点之前不应用插入。对于发声段中的最后音高标记，为了定位分析帧的目的假定该时段为最大允许值，并且在该音高标记上停止滤波。这些滤波条件既适用在分析上也适用在合成上。从第一音高标记重新合成时，从前面的信号样本初始化滤波器存储器。

作为音高调节104的又另一种实现，采用单一窗口重叠相加过程，然而带有小于两个音高时段持续时间的窗口宽度(最好小于1.7，例如在1.25-1.6的范围内)。对于小于100％的重叠(即每侧50％)窗口函数必然具有平顶，再者它最好相对于音高标记不对称地定位(最好包含两个音高标记之间的一个完整时段)。图5中示出一个典型的窗口函数，带有一个长度等于合成音高时段的平顶及升高的半余弦或直线形侧边。

对于上面所示的持续时间受限制的窗口，在降低音高时存在着一个潜在的问题。当合成音高标记相隔充分远时，窗口将完全不重叠，并且这一情况对于较短的窗口比对于标准的音高同步重叠相加出现得更快。其后果是在合成语音中引人稍带嗡嗡声的质量，但这只出现在TTS系统要求相当极端的音高降低时。无论如何音高降低通常都比音高升高更困难，因为需要生成丢失的数据而不是去掉存在的数据。在升高音高时，由于较低的重叠时段而修正的窗口产生较佳的结果，从而信号在较短时间上失真。

这种形式的窗口是有利的，因为比起较长的窗口，重叠相加过程构成信号的一个较小的时间部分，并且不对称的形式将重叠相加失真向音高时段的一端上放置，在那里语音能量比紧接在声门激励后面的低

重新抽样与多窗口音高控制的使用是设想为(如图2中所示)在残留信号上操作的(以防止共振峰失真)，但也可不分离频谱与激励而直接在语音信号上应用短的不对称窗口法，在这一情况中可省略图2的分析单元102与滤波器103、105，将语音信号从存储器100直接馈送给音高单元104、104′。

Claims

1、一种语音合成装置，包含可加以控制来改变由其合成的语音信号的音高的装置，具有：

(ii)用于在发声语音的情况中，一系列与至少近似地对应于发声激励瞬间的音高定时标记信息同步的重叠窗口函数去乘激励分量，而将其分成开窗口的语音段的装置；

(iii)在这些段上作用一个可控时间移位并将它们加在一起的装置；以及

(iv)用于重新组合频谱与激励分量的装置；

其中该乘法装置每一音高时段至少采用两个窗口，各有小于一个音高时段的持续时间。

2、按照权利要求1的语音合成装置，其中该窗口包括每一音高时段一个的包含定时标记位置的第一窗口及多个中间窗口。

3、按照权利要求2的语音合成装置，其中的中间窗口各有小于第一窗口的宽度。

4、一种语音合成装置，包含可加以控制来改变由其合成的语音信号的音高的装置，具有：

(ii)用于通过插入来自输入信号样本的新的信号样本，而暂时间压缩/扩张激励分量的装置；以及

(iii)用于重新组合频谱与激励分量的装置。

5、按照权利要求4的语音合成装置，其中该压缩/扩张装置可以响应至少近似地对应于发声激励瞬间的定时标记信息进行操作来与之同步地改变压缩/扩张的程度，使得该激励信号在定时标记附近压缩/扩张得比在两个接连的这种标记之间的音高时段的中心上少。

6、按照权利要求1至5中任何一项的语音合成装置，包括：

(a)一个存储器，包含各定义语音信号波形的一部分及各包含至少近似地对应于发声激励的峰值的定时标记信息的数据项；以及

(b)驱动器装置，响应输入给它的信号，提供地址来从存储器中读出数据项，及提供表示要在语音上作出的上下文相关的音高改变的音高信号。

7、按照权利要求1至6中任何一项的语音合成装置，其中用于分离频谱及激励分量的装置包括：

(a)分析装置，用于接收合成的语音及生成一个具有相同于该语音的频谱内容的频率响应的滤波器及具有逆响应的滤波器的参数；以及

(b)一个滤波器，连接成接收这些参数来滤波该语音以生成一个残留信号。

以及用于重新组合它们的装置包括：

(c)一个反相滤波器，连接成接收这些参数及按照逆响应滤波该残留信号。

8、一种语音合成装置，包括用于通过用一系列重叠窗口来乘该信号而将其分成段及在将它们调节到一个时间移位之后重新组合这些段而控制信号的音高的装置，这些窗口是与表示发声激励的瞬间的定时标记同步的，其中各窗口具有小于两倍定时标记之间的音高时段的持续时间，并且是相对于定时标记不对称的。

9、按照权利要求8的语音合成装置，包括用于将一个语音信号分成一个频谱分量及一个激励分量的装置，音高控制装置连接成接收该激励分量，及用于重新组合频谱分量，及音高调节过的激励分量的装置。