CN1185619C

CN1185619C - 语音合成方法和语音合成装置

Info

Publication number: CN1185619C
Application number: CNB021080496A
Authority: CN
Inventors: 笼嶋岳彦; 赤岭政巳
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-03-26
Filing date: 2002-03-26
Publication date: 2005-01-19
Anticipated expiration: 2022-03-26
Also published as: EP1246163A3; KR20020076144A; CN1378199A; JP2002358090A; KR100457414B1; EP1246163A2; DE60205421D1; EP1246163B1; JP3732793B2; DE60205421T2

Abstract

一种语音合成方法，包括：根据音高模式、音位时长、音位符号串从共振峰参数中选择预定的共振峰参数；基于所选择的共振峰参数的共振峰频率和共振峰相位生成多个正弦波波形；将正弦波波形分别乘以所选择的共振峰参数的窗函数以生成多个共振峰波形；叠加共振峰波形以生成多个音高波形；以及根据音高周期抑制音高波形以生成语音信号。

Description

语音合成方法和语音合成装置

相关申请的交叉引用

本申请基于在先的2001年3月26日递交的日本专利申请No.2001-08704，并要求其为优先权，其全部内容在此引用通过参照予以援引。

技术领域

本发明涉及文本语音合成，特别涉及由音位符号串、音高、音位时长等信息生成语音信号的语音合成。

背景技术

从任意文章作出语音信号称为文本语音合成。通常这一文本语音合成系统包括言语处理单元、音位处理单元、语音信号生成单元三个阶段。

输入的文本首先在言语处理单元进行词素分析及构文分析等，之后在音位处理单元中进行重音及语调处理，输出音位符号串、音高模式(声高的变化模式)、音位时长等信息。最后，语音信号生成单元，即语音合成装置，由音位符号串、音高模式、音位时长等信息合成语音信号。

这种可合成任意的音位符号串的合成器，如以V表示母音，以C表示子音，可存储以CV、CVC、VCV等为基本的小单位的特征参数(语音单元)，通过控制音高及时长而进行拼接就可以合成语音。

利用这种语音合成装置，作为从语音单元的信息生成所要求的音高模式及音位时长的语音信号的方法，公知的有PSOLA(基音同步叠加)法。已知利用PSOLA法生成的合成语音，在音高周期改变程度小的场合，由于音高周期改变造成的音质劣化小，音质良好。但是，PSOLA法，在音高周期改变大时，就存在音质劣化的问题。

另外，在语音单元的拼接单元中产生频谱不连续的场合，存在由于进行平滑处理而使频谱产生歧变使音质劣化的问题。此外，由于是将波形本身作为语音单元，难以使音质变化而缺少柔软性。

另外，还有另外一种语音合成装置方式，共振峰合成方式。共振峰合成方式是模拟人的发音机构的模型，利用使声带发出的信号模型化的音源信号，通过驱动使声道特性模型化的的滤波器生成语音信号。在共振峰合成方式中，通过组合共振峰频率和频带宽，可决定合成语音的音位(/a/，/i ∠/u/等)及音质(男声、女声等)。因此，语音单元的信息变成不是波形而是共振峰频率合频带宽的值的组合。共振峰合成方式，可控制直接关系到音位和音质的参数。因此具有可进行灵活控制使音质变化等优点。但是，存在模型精度不佳的问题。就是说，只是利用共振峰频率和频带宽不能表现实际语音的频谱的精细结构，音质不佳缺乏人声感(似人度)。

发明内容

本发明的目的在于提供一种音质良好、同时音质等可灵活变化的语音合成装置。

根据本发明的第一个方面，提供一种语音合成方法，包括：准备大量共振峰参数，根据音高模式、音位时长、音位符号串从共振峰参数中选择预定的共振峰参数；基于所选择的共振峰参数的共振峰频率和共振峰相位生成多个正弦波波形；将正弦波波形分别乘以所选择的共振峰参数的窗函数以生成多个共振峰波形；叠加共振峰波形以生成多个音高波形；以及根据音高周期抑制音高波形以生成语音信号。

根据本发明的第二个方面，提供一种语音合成装置，包括：音高标记发生单元，用来参照音高模式和音位时长生成音高标记；音高波形发生单元，用来参照音高模式、音位时长和音位符号串对音高标记生成音高波形；波形重叠单元，用来根据音高标记抑制音高波形以生成有声语音信号；无声语音生成单元，用来生成无声语音；以及叠加装置，用来将有声语音和无声语音叠加以生成合成语音，此音高波形发生单元包含共振峰参数存储单元，用来存储多个以合成单位为单位计算的共振峰参数，参数选择单元，用来参照音高模式、音位时长和音位符号串为对应于音高标记的一帧选择共振峰参数，正弦波发生单元，用来根据读出的共振峰参数的共振峰频率和共振峰相位生成正弦波，乘法装置，用来将正弦波波形与所选择的共振峰参数的窗函数相乘以生成共振峰波形，叠加装置，用来叠加共振峰波形以生成音高波形。

附图说明

图1为本发明的一实施方式的语音合成装置的框图。

图2示出由音高波形叠加产生有声语音的发生过程。

图3为本发明的一实施方式的音高波形发生单元的框图。

图4示出共振峰参数的一个例子。

图5示出共振峰参数的另一个例子。

图6示出正弦波、窗函数、共振峰波形和音高波形。

图7示出正弦波、窗函数、共振峰波形和音高波形的功率谱。

图8为本发明的一实施方式的音高波形发生单元的框图。

图9为本发明的一实施方式的音高波形发生单元的框图。

图10示出共振峰频率的控制函数。

图11示出共振峰增益的控制函数。

图12示出用于声质变换的共振峰频率的映射函数。

图13为本发明的一实施方式的音高波形发生单元的框图。

图14为说明共振峰频率的平滑化的示图。

图15为说明共振峰频率的平滑化的示图。

图16A及16B示出窗函数的平滑化。

图17A、17B和17C为示出本发明的语音合成装置的处理的流程图。

具体实施方式

下面参照附图对本发明的实施方式予以说明。

图1示出实现本发明的一实施方式的语音合成方法的语音合成装置的构成。声音合成装置接受音高模式306、音位时长307和音位符号串308，输出合成语音信号305。上述语音合成装置由有声语音合成单元31和无声语音合成单元32构成，通过将从这些合成单元分别输出无声语音信号304和有声语音信号303相加而生成合成语音信号305。

无声语音合成单元32，在音素主要是无声子音及有声摩擦音的场合，参照音位时长307和音位符号串308生成无声语音信号304。无声语音合成单元32，可利用以白噪音驱动LPC合成滤波器的方法等公知的技术实现。

有声语音合成单元31，由音高标记发生单元33、音高波形发生单元34及波形重叠单元35构成。音高标记发生单元33，参照音高模式306和音位时长307，生成如图2所示的音高标记302。音高标记302，表示重叠音高波形301的位置。音高标记的间隔与音高周期相对应。音高波形发生单元，参照音高模式306、音位时长307和音位符号串308，如图2所示，生成分别与音高标记302对应的音高波形301。波形重叠单元35，在音高标记302所示的位置处通过重叠对应的音高波形301生成有声语音信号303。

下面详细说明图1的音高波形发生单元的构成。

如图3所示，音高波形发生单元34，由共振峰参数存储单元41、参数选择单元42和正弦波发生单元(43、44、45)构成。在共振峰参数存储单元41中对每个语音单元单位存储共振峰参数。

图4示出音位/a/的单元的共振峰参数的一个例子。在此例子中，/a/的单元由3帧构成，各帧由3个共振峰构成。将共振峰频率、共振峰相位和窗函数作为表示各共振峰的特征的参数存储于共振峰参数存储单元41中。

参数选择单元42，参照输入到音高波形发生单元34的音高模式306、音位时长307和音位符号串30从共振峰参数存储单元41读出对应于音高标记302的1帧大小的共振峰参数401。

与共振峰序号1相对应的参数作为共振峰频率402、共振峰相位403、窗函数411从共振峰参数存储单元41输出。同样，与共振峰序号2相对应的参数作为共振峰频率404、共振峰相位405、窗函数412从共振峰参数存储单元41输出。此外，与共振峰序号3相对应的参数作为共振峰频率406、共振峰相位407、窗函数413从共振峰参数存储单元41输出。

正弦波发生单元43，按照共振峰频率402和共振峰相位403输出正弦波408。正弦波408由窗函数411进行窗乘处理而生成共振峰波形414。如以ω表示共振峰频率402，以φ表示共振峰相位403，以w表示窗函数411，则共振峰波形y(t)可用下式表示：

y(t)＝W(t)·sin(ωt+φ)

正弦波发生单元44，按照共振峰频率404和共振峰相位405输出正弦波409，此正弦波409由窗函数412进行窗乘处理而生成共振峰波形415。共振峰波形415，按照共振峰频率406和共振峰相位407输出正弦波410，此正弦波410由窗函数413进行窗乘处理而生成共振峰波形416。

音高波形301，通过将共振峰波形(414、415、416)分别相加而生成。正弦波、窗函数、共振峰波形和音高波形的示例如图6所示。这些波形的功率谱示于图7。在图6中，横轴表示时间，纵轴表示振幅。在图7中，横轴表示频率，纵轴表示振幅。

正弦波变成具有尖峰的线状谱，窗函数变成集中于低频区的谱线。在时间区域的窗乘(乘法)在频率区域中相当于折叠。因此，共振峰波形的波谱成为平行移动到正弦波的频率的位置的形状。因此，通过控制正弦波的频率和相位可以使音高波形得共振峰的中心频率及相位变化。通过控制窗函数的形状可以使音高波形的共振峰的频谱形状变化。

这样，因为可以对每个共振峰独立控制其共振峰的中心频率及相位及频谱形状，所以可以实现灵活性高的模型。另外，因为可以利用窗函数的形状来表现频谱的精细结构，所以可以使合成语音高精度地近似人声，可合成具有人声感的语音。

下面参照图8对本发明的第二实施方式的音高波形发生单元34予以说明。

对于与图3相对应的部分赋予同一标号，对不同点予以说明。在本实施方式中，窗函数由基函数展开，不是存储窗函数作为共振峰参数，而是存储权重系数组。窗函数发生单元56生成权重系数组。

图5示出共振峰参数存储单元51中存储的共振峰参数的一个例子。在此示例中窗函数对3个基函数的权重和展开，将3个系数组作为窗函数权重系数的集合存储。参数选择单元42在所选择的共振峰参数501中将共振峰频率(402，404，406)、共振峰相位(403，405，407)输出到正弦波发生单元(43、44、45)，将窗函数权重系数集合(517，518，519)输出到窗函数发生单元56。

窗函数发生单元56，按照窗函数权重系数集合(517，518，519)，分别生成窗函数(511，512，513)。如设权重系数分别为a1，a2，a3，基函数为b1(t)，b2(t)，b3(t)，则窗函数W(t)可以以下式表示：

w(t)＝a1·b1(t)+a2·b2(t)+a3·b3(t)

另外，基函数也可以利用DCT基等，也可利用通过KL展开的窗函数所生成的基函数。在本实施方式中设基的次数为3，但次数为多少都可以。通过将窗函数展开为基函数，可削减共振峰参数存储单元的存储容量。

下面参照图9对本发明的第三实施方式的音高波形发生单元34予以说明。如对于与图3相对应的部分赋予同一标号，以不同点作为中心予以说明，则在本实施方式中，参数变形单元67是附加的，按照音高模式306使共振峰参数改变。

参数变形单元67，通过使共振峰频率402、共振峰相位403、窗函数411、共振峰频率404、共振峰相位405、窗函数412、共振峰频率406、共振峰相位407和窗函数413按照音高模式306变化而分别输出共振峰频率720、共振峰相位721、窗函数717、共振峰频率722、共振峰相位723、窗函数718、共振峰频率724、共振峰相位725、窗函数719。可以使所有的参数变化，也可以使一部分的参数变化。

图10示出在根据音高周期控制共振峰频率的场合时的控制函数的示例。这种控制函数最好是根据音位设定，或者也可以每个帧、每个共振峰号设定。通过将这种控制函数输入到参数变形单元67即可根据音高周期控制共振峰频率。也可以不使用共振峰频率本身，而使用控制输入共振峰频率和输出共振峰频率的差分值及比值的控制函数。

图11示出通过将音高周期对应的增益乘以窗函数来表示用于控制共振峰的功率的控制函数。

将这种控制函数输入到参数变形单元67，通过根据音高周期使参数变化，可以使由于音高周期变化导致的语音频谱的变化模型化。结果就可以与音高无关地生成高音质的合成语音。

另外，也可以通过将音位符号串308输入到参数变形单元67，根据先行或后续的音位的种类改变共振峰参数。结果，可以使由于音位环境导致的语音频谱的变化模型化，就可以提高音质。

此外，也可以根据从外部输入到参数变形单元67的音质信息309改变参数。由此，可以生成各种音质的合成语音。

图12示出通过使共振峰频率改变来改变语音的粗细度的控制函数的示例。如利用控制函数(a)变换所有的共振峰频率，则因为共振峰移向高频区而可生成细声语音。利用控制函数(b)可生成稍微细声的语音。如利用控制函数(b，则因为共振峰频率移向低频区而可生成粗声语音。利用控制函数(c)可生成稍微粗声的语音。

下面参照图13对本发明的第四实施方式的音高波形发生单元34予以说明。对于与图3相对应的部分赋予同一标号，以不同点作为中心予以说明，

在本实施方式中，新加了参数平滑单元77，可对参数进行平滑化以使各共振峰参数随时间的变化变得平滑。参数平滑单元77，通过分别使共振峰频率402、共振峰相位403、窗函数411、共振峰频率404、共振峰相位405、窗函数412、共振峰频率406、共振峰相位407和窗函数413平滑化而分别输出共振峰频率820、共振峰相位821、窗函数817、共振峰频率822、共振峰相位823、窗函数818、共振峰频率824、共振峰相位825、窗函数819。可以使所有的参数平滑化，也可以使一部分的参数平滑化。

图14为说明共振峰频率的平滑化的示例图。×表示平滑化之前的共振峰频率402、404、406，通过使先行或后续帧的对应共振峰频率的变化平滑化，可分别生成以○表示的经过平滑化的共振峰频率820、822、824。

在共振峰的对应在语音单元的拼接单元中取不到的场合，就如图15A中以×所表示的那样，会引起与共振峰频率404对应的共振峰消失。在此场合，因为频谱中产生很大的不连续而使音质劣化，如用○所表示那样，附加共振峰而生成共振峰频率822。此时，如图15B所示，通过使共振峰频率822对应的窗函数818的功率衰减可以使共振峰的功率的不连续不产生。

图16示出窗函数位置的平滑化的例子。通过使窗函数位置平滑化而使窗函数411的尖峰位置在帧间平滑变化，可生成窗函数817。除此之外，也可以对窗函数的形状及窗函数的功率进行平滑化。

在上述的本发明的实施方式中，对共振峰数3的场合进行了说明，但共振峰数是多少都可以，每帧的共振峰数也可以改变。

另外，本发明的实施方式的正弦波发生单元对作为输出正弦波的装置进行了说明，但如果是具有接近线状谱的功率谱的波形，即使不是完全的正弦波也可以。比如，在为了减少计算量降低正弦波生成单元的计算精度，或正弦波生成单元由列表构成的场合，存在由于误差的原因不能得到完全正弦波的场合。

另外，共振峰波形的频谱不一定限于表现语音信号的频谱的山峰部分，作为多个共振峰波形的和的音高波形的频谱可表现频谱。

虽然作为本发明的实施方式说明了用于语音合成的合成器，但作为本发明的其他实施方式有复用语音编码的复用器。

即，编码器，从语音信号通过分析而求出共振峰频率、共振峰相位、窗函数等的共振峰参数和音高周期等，将其编码之后进行传送或存储。复用器对共振峰参数和音高周期复用，与上述合成器同样地重放语音信号。

上述的语音合成可通过按照存储于记录媒体中的程序对计算机进行程序控制而进行。下面参照图17A～17C对程序控制予以说明。

图17A为示出语音合成的处理流程图，图17B示出语音合成处理内的有声语音生成处理的流程图，图17C示出图17B的有声语音生成处理的音高波形生成处理的流程图。

在图17A的语音合成处理中，输入音高模式306、音位时长307以及音位符号串308(S11)。根据音高模式306、音位时长307以及音位符号串308生成有声语音信号303(S12)。参照音位时长307及音位符号串308生成无声语音信号304(S13)。将有声语音信号与无声语音信号相加而合成语音信号305(S14)。

在图17B的语音合成处理中，参照音高模式306和音位时长307生成音高标记302(S21)。参照音高模式306、音位时长307以及音位符号串308生成与音高标记302分别对应的音高波形301(S22)。重叠与音高标记302所示的位置对应的音高波形301而生成有声语音(S23)。

在图17C的音高波形生成处理中，参照音高模式306、音位时长307以及音位符号串308从共振峰参数存储单元41中选择与音高标记302对应的1帧大小的共振峰参数401(S31)。按照与所选择的共振峰参数401的共振峰号对应的共振峰频率和共振峰相位生成多个正弦波(S32)。通过对多个正弦波以窗函数进行窗乘而生成共振峰波形414，415，416(S33)。将这些共振峰波形相加生成音高波形(S34)。

如上所述，根据本发明，由于可以对每个共振峰独立控制其共振峰频率及共振峰形状，所以可以表现由于音高周期及音质差异引起的语音频谱的变化，在语音合成中可以实现高灵活性。因为可以利用窗函数的形状来表现频谱的精细结构，所以可合成具有人声感的高音质的语音。

对本领域技术人员来说，其它优点和变型是容易实现的。因此，本发明在其更广的方面不受限于此处所描述的具体的细节和代表性的实施方式。因此，在不脱离由后附的权利要求及其等效物确定的总的发明构思的精神或范围的条件下可以进行各种变更。

Claims

1.一种语音合成方法，其特征在于包括：

在存储器存储大量共振峰参数，该共振峰参数代表共振峰频率和共振峰相位、以及窗函数；

根据音高模式、音位时长、音位符号串从共振峰参数中选择预定的共振峰参数；

基于所选择的共振峰参数的共振峰频率和共振峰相位生成多个正弦波波形；

将正弦波波形分别乘以所选择的共振峰参数的窗函数以生成多个共振峰波形；

叠加共振峰波形以生成多个音高波形；以及

根据音高周期抑制音高波形以生成语音信号。

2.如权利要求1的语音合成方法，其特征在于：共振峰波形y(t)可用下式表示：

y(t)＝W(t)*sin(ωt+φ)

其中，ω表示共振峰频率，φ表示共振峰相位，w(t)表示窗函数。

3.如权利要求1的语音合成方法，其中包括：在存储器中存储权重系数和叠加由权重系数加权的基函数以生成窗函数。

4.如权利要求1的语音合成方法，其中包括：根据音高周期改变至少一个共振峰波形的至少一个幂次、至少一个窗函数的形状、至少一个窗函数的位置和至少一个共振峰频率的窗函数。

5.如权利要求4的语音合成方法，其特征在于：至少一个共振峰波形的至少一个幂次、至少一个窗函数的形状、至少一个窗函数的位置和至少一个共振峰频率的窗函数，对每个音位、每帧和每个共振峰号改变。

6.如权利要求1的语音合成方法，其中包括：根据一种至少先行或后续的音位改变至少一个共振峰波形的至少一个幂次、至少一个窗函数的形状、至少一个窗函数的位置和至少一个共振峰频率的窗函数。

7.如权利要求1的语音合成方法，其特征在于包括：根据给定的音质信息改变至少一个共振峰波形的至少一个幂次、至少一个窗函数的形状、至少一个窗函数的位置和至少一个共振峰频率的窗函数。

8.如权利要求1的语音合成方法，其特征在于包括：根据至少一个先行音高波形或后续的音高波形的相应的共振峰的至少一个共振峰波形的至少一个幂次、至少一个共振峰波形的至少一个幂次、至少一个共振峰频率、至少一个正弦波的相位和至少一个窗函数的位置，改变至少一个共振峰波形的至少一个幂次、至少一个共振峰频率、至少一个窗函数的形状、至少一个正弦波的相位和至少一个窗函数的位置。

9.如权利要求1的语音合成方法，其特征在于包括：根据存在至少一个先行音高波形或后续的音高波形的相应的共振峰，改变至少一个共振峰波形的至少一个幂次、至少一个共振峰频率、至少一个窗函数的形状、至少一个正弦波的相位和至少一个窗函数的位置。

10.如权利要求1的语音合成方法，其特征在于包括：有选择地平滑共振峰频率、共振峰相位和窗函数。

11.一种有音高模式、音位时长和音位符号串的语音合成装置，包括：

音高标记发生单元(33)，用来参照音高模式和音位时长生成音高标记；

音高波形发生单元(34)，用来参照音高模式、音位时长和音位符号串对音高标记生成音高波形；

波形重叠单元(35)，用来根据音高标记抑制音高波形以生成有声语音信号；

无声语音生成单元(32)；以及

叠加装置，用来将有声语音和无声语音叠加以生成合成语音，

该音高波形发生单元(34)包含：

共振峰参数存储单元(41)，用来存储多个以合成单位为单位计算的共振峰参数，

共振峰参数选择单元(42)，用来参照音高模式、音位时长和音位符号串为对应于音高标记的一帧而选择共振峰参数，

正弦波发生单元(43-45)，用来根据读出的共振峰参数的共振峰频率和共振峰相位生成正弦波，

乘法装置，用来将正弦波波形与所选择的共振峰参数的窗函数相乘以生成共振峰波形，

叠加装置，用来叠加共振峰波形以生成音高波形。

12.如权利要求11的语音合成装置，其特征在于：共振峰参数存储单元(41)存储窗函数。

13.如权利要求11的语音合成装置，其特征在于：所述音高波形发生单元(34)包含：

共振峰参数存储单元(51)，存储加权函数权重系数，并且其构成包括通过叠加经权重系数加权的基函数生成窗函数的窗函数发生单元(56)，

共振峰参数选择单元(42)，用来为对应于音高标记的一帧而选择共振峰参数，

正弦波发生单元(43-45)，用来根据读出的共振峰参数的共振峰频率生成正弦波，

叠加装置，用来叠加共振峰波形以生成音高波形。

14.如权利要求11的语音合成装置，其特征在于包括：根据音高周期变换所选择的共振峰参数的参数变形装置(67)。

15.如权利要求11的语音合成装置，其特征在于：参数变形装置(67)对每个音位、每帧或每个共振峰号变换所选择的共振峰参数。

16.如权利要求11的语音合成装置，其特征在于包括：根据先行或后续的音位变换所选择的共振峰参数的参数变形装置(67)。

17.如权利要求11的语音合成装置，其特征在于包括：根据给定的音质变换所选择的共振峰参数的参数变形装置(67)。

18.如权利要求11的语音合成装置，其特征在于包括：用来平滑随时间变化的共振峰参数的参数平滑装置(77)。