CN1682276A

CN1682276A - 一种清音语音信号合成的方法

Info

Publication number: CN1682276A
Application number: CNA038220067A
Authority: CN
Inventors: E·F·吉吉
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Huawei Technologies Co Ltd
Priority date: 2002-09-17
Filing date: 2003-08-08
Publication date: 2005-10-12
Anticipated expiration: 2023-08-08
Also published as: US7805295B2; US20060053017A1; US20100324906A1; AU2003253152A1; ATE328343T1; WO2004027754A1; EP1543498B1; DE60305716D1; EP1543498A1; DE60305716T2; US8326613B2; JP4813796B2; JP2005539264A; CN100361198C

Abstract

本发明涉及一种合成信号的方法，包括步骤：a)在要合成的信号上确定一个要求的音调声位置，b)将该要求的音调声位置映射到一个原始信号上，以提供一个第一音调声位置，c)随机化该第一音调声位置以提供一个第二音调声位置，d)在第二音调声位置上对原始信号执行开窗操作，以提供一个音调声，e)将得到的音调声放置到要合成的信号域内的要求的音调声位置，f)对所有要求的音调声位置重复步骤a)到e)，并对于音调声执行重叠和相加操作，以合成该信号。

Description

一种清音语音信号合成的方法

本发明涉及语音或音乐的合成领域，并且具体而不加限制地涉及文本到语音(text-to-speech)合成领域。

文本到语音(TTS)合成系统的功能是用给定语言从普通文本合成语音。现在，TTS系统已经被用在多种应用的实际操作中，例如通过电话网接入数据库或帮助残疾人。合成语音的一种方法是通过联接(concatenation)语音子单元的记录集合的元素，例如半音节(demisyllable)或多音码(polyphone)。大多数成功的商业系统使用多音码的联接。多音码包括两个(双音子)、三个(三音子)或更多音子的组，并且可以从无意义字中通过在稳定的光谱区内分割所希望的音子组来确定，。在一种基于联接的合成中，在两个相邻音子之间的转换对话对于确保合成语音的质量是至关重要的。随着选择多音码做为基本的子单元，在两个相邻音子之间的转换保存在已记录的子单元中，并且在相似的音子之间执行联接。

然而，在合成前，必须修改这些音子的持续时间(duration)和音调(pitch)，以满足包括那些音子的新字的韵律约束。这个处理是必需的，从而避免产生一个单调的发声合成语音。在一个TTS系统中，通过一个韵律模块执行这个功能。为了在已记录的子单元中允许持续时间和音调修正，许多基于联接的TTS系统使用时域音调同步叠加(TD-PSOLA)(E.Moulines和F.Charpentier的“使用双音子进行文本到语音合成的音调同步波形处理技术(Pitch synchronous waveformprocessing techniques for text-to-speech synthesis usingdiphones)”，Speech Commun.，第9卷，第453-467页，1990年)合成模型。

在TD-PSOLA模型中，语音信号首先服从于一个音调标记算法。这种算法在浊音分段(voiced segments)中的信号的峰值处指定标记，在清音分段(unvoiced segments)中以10ms为间隔指定标记。由在音调标记中心上并从前一个音调标记伸展到下一个音调标记的多个汉宁窗口(Hanning window)分段的一个叠加完成这种合成。通过删除或复制一些窗口分段来提供持续时间的修正。另一方面，通过增加或减少窗口分段之间的叠加来提供音调周期的修正。

尽管在许多商业TTS系统中获得了成功，但是使用合成的TD-PSOLA模型的合成语音能够表现出一些缺陷，主要是在韵律变化很大的情况下。

EP-0363233、US-A-5479564、EP-0706170披露了这种PSOLA方法。一个特定的例子也是MBR-PSOLA方法，如由T.Dutor和H.Leich在语音通信，Elsevier出版社，1993年11月，13卷，N.degree.3-4，1993中出版的。在US专利No.5479564文献中所描述的这种方法提出了通过叠加从这个信号中获取的短期信号来修正频率的方案。用于获得该短期信号的加权窗口(weighting window)的长度近似等于音频信号的周期的两倍，并且在该周期中的它们的位置能够设置为任何值(只要在连续窗口之间的时间位移等于该音频信号的周期)。US专利No.5479564文献中还描述了一种方案，在分段之间内插波形进行联接，以便平滑不连续性。当通过已知的PSOLA方法要合成噪音信号时，周期性的重复该信号。这样，一种非预期的周期性引入到频谱中。这感觉为金属发音。对于不具有基频的所有噪音信号，例如清音语音部分或音乐，产生这种问题。一个清音部分，如“s”音，没有音调。当声带发出一个浊音声音时，不会移动。取而代之，通过挤压空气通过在声带之间的一个小的开口来产生噪音嘶嘶声。耳语声是仅包括清音部分的语音的一个例子。其中没有音调，不需要改变它。然而，期望能够改变清音语音部分的持续时间。

因此，本发明的目的在于提供一种合成信号的方法，能够修正清音语音部分或音乐的持续时间，而不将一个非预期的周期性引入到该信号中。

本发明提供一种基于原始信号合成信号的方法，特别是合成噪音信号的方法。此外本发明提供一种计算机程序产品，用于执行这种合成，并提供一种相应的计算机系统，特别是一种文本到语音系统。

根据本发明，确定所要求的要合成的信号的音调声(pitch bell)位置。例如，这是基于如100Hz的假定频率而进行。这个所选频率对应于一个音调周期。所要求的要合成的信号的音调声位置在时间轴上用具有该音调周期的长度的间隔来隔开。所要求的音调声位置映射到原始信号上，以提供在原始信号域(domain)内的音调声位置。在原始信号域内的音调声位置是任意移动的。最好通过在原始信号域内的+/-音调周期的范围内移动音调声位置来完成这种随机化。

根据本发明的一个实施例，通过一个正弦窗执行开窗操作(windowing)。正弦窗的优点在于它能够帮助减小任何残留周期。使用正弦窗特别有优势的是，它保证了在功率域中的信号包络保持恒定。不同于周期性信号，当相加两个噪音样本时，总和能够小于两个样本的任何一个的绝对值。这是因为信号(常常)不是同相的。正弦窗对这种效应进行调整，并去除包络调制。

以下将参照附图更加详细的描述本发明的优选实施例，其中：

图1是本发明的一个实施例的流程图的说明，

图2是用于合成一个清音语音信号的实施例的说明，

图3是一个计算机系统的优选实施例的方块图。

图1的流程图说明了合成信号的方法的一个实施例。在步骤100，提供一个具有持续时间y的原始信号。例如，原始信号是一个包括清音语音的自然语音信号，或是一个具有噪音信号特征的音乐信号。进一步对基频f进行选择，即使原始信号由于其噪音特征而不具有这样一个基频。频率f的选择对应于音调周期p的选择。通常选择的频率f在50Hz到200Hz之间，优选100Hz。另外，在步骤100输入期望的要合成的信号的持续时间x。在步骤102，根据频率f和音调周期p，确定在该要合成的信号域内的音调声位置。其通过将在该要合成的信号域内的时间轴分为多个时长间隔p来完成。在步骤104，音调声位置从要合成的信号域映射到原始信号域上。当持续时间x大于原始信号的持续时间y时，这意味着在原始信号域内的音调声位置i由小于音调周期p的间隔分隔开。在相反的情况下，在原始信号域内的音调声位置之间的间隔将大于在要合成的信号域内的音调声位置之间的间隔。在步骤106，在原始信号域内的音调声位置i是任意的。这通过在围绕原始音调声位置i的一个+/-p间隔内任意移动每个音调声位置i来完成。能够使用伪随机数发生器来实现这种随机化。在步骤108，在原始信号域内执行开窗操作。这最好通过正弦窗来实现，正弦窗施加到随机音调声位置i′上；这样进一步减小了周期性。在步骤110，在要合成的信号域内重叠并相加所得到的音调声，提供了合成后的信号。

图2举例说明了这种信号合成。时间轴200在要合成的信号域内。在这个所考虑的例子中，要求的要合成的信号的持续时间x是1秒。假定的频率f是100Hz，其对应于一个10毫秒的音调周期。这意味着，在时间轴200上的该要合成的信号域内，以p＝10毫秒的间隔将要求的音调声位置隔开，即，第一音调声位置设置在时间轴200的零秒处，下一个音调声位置在10毫秒处，接下来的在20毫秒，等等。换句话说，用在时间轴200上从时间零点开始以间隔p隔开的多个点，来确定在该要合成的信号域内的音调声位置。在时间轴200上的音调声位置映射到原始信号域内的时间轴202。该原始信号具有y＝0.5秒的持续时间。由于持续时间y小于要合成的信号的持续时间x，所以这意味着需要在时间轴202上“压缩”音调声位置。由于持续时间y是持续时间x的一半，所以在时间轴202上的映射音调声位置的间隔以p/2隔开，代替p。这意味着，第一音调声位置i＝1在时间轴202的零毫秒处，接下来的音调声位置i＝2在5毫秒处，下一个音调声位置i＝3在10毫秒，等等。换句话说，在时间轴200上的时间零毫秒处的第一音调声位置映射到时间轴202上的时间零毫秒处的音调声位置i＝1；在时间轴200上的10毫秒处要求的音调声位置映射到时间轴202上的5毫秒处的音调声位置i＝2；在时间轴200上的20毫秒处要求的音调声位置映射到时间轴202上的时间10毫秒处的音调声位置i＝3，等等。下面，音调声位置i是随机的。在图2中针对第一音调声位置i＝1在时间轴202上进行描述。在时间轴202上限定围绕零毫秒处的一个间隔+/-p。在这个间隔内，音调声位置i＝1任意移动。对于音调声位置i＝1，该间隔在时间轴202上介于-10毫秒到+10毫秒之间。在这里所考虑的例子中，这导致了一个任意的音调声位置i′在时间轴202上的7.5毫秒处。在这个位置，使用窗函数204对原始信号进行开窗操作。优选的，使用下面的窗口提供一个窗函数204。

w [n] = \sin (\frac{π \cdot (n + 0.5)}{m}), 0 \leq n &GreaterEqual; m

优选的，根据下面的公式进行音调声位置的随机化：

i′＝i+(R×p)

其中，i表示在时间轴202上的原始音调声位置，i′是在随机化后新的音调声位置，R是一个在-1到1之间的随机数，p是音调周期。原始信号开窗操作的结果是一个音调声。如图2所示，该音调声设置在时间轴200上的要合成的信号域内的第一要求音调声位置。对于在时间轴上的所有要求的音调声重复这个过程。相加这些音调声，得到期望的时长x的合成信号。

图3是一个例如文本到语音系统的计算机系统的方块图的说明。计算机系统300具有模块302，用于存储具有持续时间y的原始信号。计算机系统300进一步具有模块304，用于存储预选择频率f或音调p。模块306用于基于要求的要合成的信号的持续时间x和预选择频率f或音调p，确定要求的要合成的信号的音调声位置。模块308用于将在要合成的信号域内的要求的音调声位置映射到原始信号域。这样如图2中的例子所示，确定了音调声位置i。模块310用于随机化音调声位置i。模块310连接到模块312，模块312为该随机化过程提供随机数。模块314用于在任意的音调声位置i′上执行原始信号的开窗操作。所得到的音调声随后在要合成的信号域内通过模块316重叠并相加。这样产生了期望持续时间的合成信号。

附图标记列表

时间轴 200

时间轴 202

窗函数 204

计算机系统 300

模块 302

模块 304

模块 306

模块 308

模块 310

模块 312

模块 314

模块 316

Claims

1、一种合成信号的方法，包括步骤：

a)确定一个要求的音调声位置，

b)将该要求的音调声位置映射到一个原始信号上，以提供一个第一音调声位置，

c)任意移动该第一音调声位置以提供一个第二音调声位置，

d)在第二音调声位置上对原始信号执行开窗操作，以提供一个音调声，

e)对所有要求的音调声位置重复步骤a)到d)，并对于音调声执行重叠和相加操作，以合成该信号。

2、权利要求1的方法，确定要求的音调声位置是这样执行的：将要合成的信号的要求时长分为多个时间间隔，每个时间间隔具有一个音调的时长。

3、权利要求1或2的方法，其中通过在+/-音调的间隔内任意移动第一音调声位置，来执行第一音调声位置的随机化步骤。

4、权利要求1、2或3的方法，其中根据下面等式执行随机化第一音调声位置(i)以提供第二音调声位置(i′)的步骤：

i′＝i+(R×p)

其中，R是一个在-1到1之间的随机数，p是音调。

5、前述权利要求1～4的任一方法，其中使用正弦窗执行开窗操作。

6、前述权利要求1～5的任一方法，其中使用下面的正弦窗函数执行开窗操作：

w [n] = \sin (\frac{π \cdot (n + 0.5)}{m}), 0 \leq n < m

其中m是窗的长度，并且n是运行指数(index)。

7、前述权利要求1～6的任一方法，其中原始信号不具有一个基频，并且该原始信号最好包括清音语音或音乐。

8、一种计算机程序产品，特别是数字存储介质，包括执行下列步骤的程序部件，

a)确定一个要求的音调声位置，

c)随机化该第一音调声位置以提供一个第二音调声位置，

9、一种计算机系统，特别是文本到语音合成系统，用于合成一个信号，该计算机系统包括：

-用于在要合成的信号内确定要求的音调声位置的部件，

-用于将该要求的音调声位置映射到一个原始信号上以提供第一音调声位置(i)的部件，

-随机化该第一音调声位置以提供第二音调声位置(i′)的部件，

-在第二音调声位置上对原始信号执行开窗操作以提供多个音调声的操作，

-对于音调声执行重叠和相加操作以合成该信号的部件。

10、一种合成的信号，包括多个重叠并相加的音调声，每个音调声通过在一个第二音调声位置(i′)上对一个原始信号执行开窗操作而获得，第二音调声位置是通过随机化一个第一音调声位置(i)而获得的，第一音调声位置(i)是通过将一个要求的音调声位置映射到一个原始信号上而获得的。