CN1682278A

CN1682278A - 用于稳定音信号合成的方法

Info

Publication number: CN1682278A
Application number: CNA038220288A
Authority: CN
Inventors: E·F·吉吉
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Huawei Technologies Co Ltd
Priority date: 2002-09-17
Filing date: 2003-08-05
Publication date: 2005-10-12
Anticipated expiration: 2023-08-05
Also published as: CN100343893C; EP1543497A1; ES2266908T3; WO2004027753A1; US20060178873A1; TWI307876B; TW200425059A; KR101016978B1; US7558727B2; ATE329346T1; EP1543497B1; JP4490818B2; JP2005539262A; DE60305944T2; AU2003250410A1; DE60305944D1; KR20050057372A

Abstract

本发明涉及一种根据第二声音信号合成第一声音信号的方法，第一声音信号具有所需要的第一基频，并且第二声音信号具有第二基频，该方法包括步骤：a)确定第一声音信号的时域中所需要的基音声位置，该基音声位置通过第一基频的一个周期分开；b)通过对第二声音信号的时域中的基音声位置上的第二声音信号进行加窗提供基音声，该基音声位置通过第二基频的一个周期分开；c)对于每一所需要的基音声位置，从所提供的基音声中随机地选择一基音声；d)对所选择的基音声执行叠接和相加操作，以合成第一信号。

Description

用于稳定音信号合成的方法

发明领域

本发明涉及语音或乐音合成领域，并且更特别地没有限制地涉及文本到语音转换合成领域。

文本到语音转换(TTS)合成系统的功能是根据给定语言的普通文本合成语音。如今，TTS系统已经投入许多应用的实际操作，诸如通过电话网络访问数据库或帮助障碍人士。合成语音的一种方法是通过联结所记录的语音子单元集的元素，诸如半音节或多音素。大多数成功的商用系统都采用多音素联结。多音素包括两个(双音素)、三个(三音素)或多个音素的组，并可以通过在稳定的频谱区域对理想分组的音素进行划分根据无意词进行确定。在基于联结的合成中，两个相邻音素之间的过渡转换对于确保所合成的语音的质量非常重要。通过选择多音素作为基本子单元，在所记录的子单元中就保留有两个相邻音素之间的过渡，并且在相似音素之间进行联结。

但是在合成之前，为了实现包含这些音素的新词的韵律限制，必须修改这些音素的持续时间和基音。必须进行该过程，才能避免产生发音单调的合成语音。在TTS系统中，韵律模块执行该功能。为了在所记录的子单元中进行持续时间和基音的修改，许多基于联结的TTS系统采用时域基音同步叠接相加(TD-PSOLA)(E.Moulines和F.Charpentier，“Pitch synchronous waveform processingtechniques for text-to-speech synthesis usingdiphones，”Speech Commun.，vol.9，pp，453-467，1990)模式的合成。当待合成的信号需要具有延长的持续时间时，这可以通过重复从原始信号得到的基音声(pitch bell)完成。该重复过程如图1中所示。时间轴100属于原始信号的时域。原始信号的长度T跨过时间轴100上的零与T之间的时间间隔。而且，原始信号的基频f对应于周期p；通过窗102对原始信号进行加窗，从原始信号得到基音声。在这里所考虑的范例中，窗在时间轴100的域中被周期p分开。通过这种方式，在时间轴100上确定基音声的位置i。时间轴104属于待合成信号的时域。待合成信号需要具有的持续时间为yT，其中y可以为任何数。随后在时间轴104上确定基音声位置j的编号。像在时间轴100上一样，基音声位置j被对应于原始信号的基频f的周期p分开。为了增加原始信号的持续时间，将从原始信号得到的每个原始基音声都重复y次。这样就在时间轴104的域上得到多个间隔106、108……，其中每一间隔106、108…由多个相同基音声的重复组成。例如间隔106包含从原始信号基音声位置i＝1得到的基音声在从基音声位置j(i＝1，k＝1)至j(i＝1，k＝y)的重复。这就意味着间隔106包含从原始信号的时间轴100上的基音声位置i＝1得到的基音声的y个重复。同样的，随后的间隔108包含从原始信号基音声位置i＝2得到的基音声的y个重复。结果，所合成的信号就是由基音声重复的联结序列组成。

这种PSOLA方法的共同缺点就是，极其长持续时间的操作将序列之间的能够听到的过渡引入到信号中。尤其是当原始声音为混合声音，例如具有噪音成分和周期性成分的浊摩擦音，就会产生该问题。基音声的重复在噪音成分中引入周期性，其使得所合成的语音听起来不自然。

本发明因此意欲提供一种合成声音信号的改进方法，特别是用于极其长持续时间的修改，例如用于唱歌。

本发明提供一种根据原始信号合成声音信号的方法，以便操作原始信号的持续时间。特别地，本发明使极其长的持续时间和对原始的基音修改成为可能，而不会产生听得到的假象。这尤其可以用于歌唱的合成，其中极其长持续时间的操作的数量级可以是原始信号的4-100倍。

实际上，本发明是基于这样的观察，现有技术的PSOLA方法在持续时间操作之后向合成语音中引入了假象，因为从一个重复基音声链到另一个的过渡是可以听见的。当采用现有技术PSOLA类型的方法进行极其长持续时间的操作时，就会出现这种效应，其对于包含噪声成分和周期性成分的混合声音尤其有害。

根据本发明，对于待合成信号的每一所需的基音声位置，从原始信号中随机地选择基音声。通过这种方式可以避免在噪声成分中引入周期性，并且保留了原始声音的自然度。根据本发明优选的实施例，原始声音是具有噪声成分和周期性成分的浊摩擦音。将本发明应用于这种浊摩擦音尤其有利。

根据本发明进一步的优选实施例，使用升余弦对浊摩擦音进行加窗。将正弦窗用于清音间隔，其所具有的优点是，功率域中总信号包络大约为常数。不同于周期性信号，当添加两个噪声采样时，其总和可能小于这两个采样中任何一个的绝对值。这是因为(大多数)信号不是同相的，正弦窗用于调整该效果并除去包络调制。

根据本发明进一步的优选实施例，原始声音信号的周期在频谱上是相似的，并且基本上具有相同的信息内容。通过第一分类器对这种浊音周期进行分类，并且通过第二分类器对这种清音周期进行分类。

根据本发明进一步的优选实施例，将原始信号的分类信息存储在计算机系统中，例如文本语音转换系统。被划分为在频谱上是相似的浊音或清音稳定周期的原始信号的间隔根据本发明进行处理，其中将升余弦窗用于浊音间隔，将正弦窗用于清音间隔。

通过参照附图对本发明下面的优选实施例进行更详细的描述，其中：

图1所述为现有技术的PSOLA类型的方法；

图2所述为根据本发明的实施例用于合成声音信号的范例；

图3所述为本发明的方法实施例的流程图；

图4所示为原始信号和合成信号的范例；和

图5是计算机系统的优选实施例的方框图。

图2所示为根据原始信号合成信号的范例。时间轴200所示为原始信号的时间域。原始信号在时间轴200上具有持续时间T和0至T之间的时间跨度。原始信号的基频f对应于周期p。周期p确定时间轴200上的位置i，用于通过窗202对原始信号进行加窗。在这里所考虑的范例中，原始信号是浊混合音，于是使用根据下面公式的余弦窗：

w [n] = 0.5 - 0.5 \cdot \cos (\frac{2 π \cdot (n + 0.5)}{m}), 0 \leq n < m .

在前面的关系中，m是窗的长度，并且n是运行索引。当原始信号是清音信号时，优选地使用下面的窗：

w [n] = \sin (\frac{π \cdot (n + 0.5)}{m}), 0 \leq n < m .

通过时间轴204描述待合成信号的时域。该待合成的信号需要具有的持续时间为yT，其中y可以是任何数，例如y＝4或y＝6或y＝20或y＝50或y＝100。

周期p也确定时间轴204上基音声位置j。同在时间轴200上一样，该基音声位置被周期p分开。对于每一个所需要的基音声位置j，随机选择时间轴200的时域中的基音声位置i。在这里所考虑的范例中，通过对时间轴200的时域中的原始信号加窗，得到的基音声的数目为6。对于基音声位置j，为了从这些所得到的基音声中选择一个，产生1至6之间的一个随机数。通过这种方式，对基音声位置i＝1至i＝6上的可用基音声随机地进行选择。对于时间轴204上的所有需要的基音声位置j，重复该过程。例如，通过产生1至6之间的随机数，选择所需要的基音声位置j＝1的基音声。在这里所考虑的范例中，得到数字6，从而对于时间轴204上所需要的基音声位置j＝1，选择从时间轴200上的基音声位置i＝6得到的基音声。类似的，对于所需要的基音声位置j＝2，产生随机数。在该范例中该随机数为4，于是对于所需要的基音声位置j＝2，选择时间轴200上基音声位置i＝4处的基音声。对于时间轴204上所有所需要的基音声位置j＝1至j＝z都执行该过程。由于从原始信号的域中随机选择基音声，于是避免了间隔106、108…(参照图1)。结果，在合成信号中没有引入这种假象，并且即使对于极其长持续时间的操作，该合成语音听起来也自然。

图3所述的流程图描述了该方法。在步骤300中，提供原始声音的记录。在步骤302中，对该原始声音记录中的混合声音间隔进行标识，并将其分类为浊音或清音。这可以通过专家手动完成或通过计算机程序完成，其分析用于稳定周期的原始信号和/或其频谱。优选地通过程序执行第一分析，并且专家检查程序的输出。在步骤304中，通过加窗从原始声音信号得到基音声。执行加窗所使用的窗的位置与原始声音信号的基频同步，即该窗在原始声音信号的域中间隔原始声音信号的周期p。在步骤306中，确定合成信号所需要的基音声的基音声位置j。所需要的基音声位置j再次间隔周期p。该基音声位置j可替换地可以间隔另一周期q，其对应于待合成信号的更高或更低的所需基频。通过这种方式，可以修改持续时间和频率。在步骤308中，对于被划分为混合音的声音间隔中的每一所需的基音声位置j，随机地选择基音声。对于其它声音间隔，可以采用或不采用现有技术的PSOLA类型的方法。在步骤310中，在待合成信号的域中的基音声位置j上将这些基音声叠接相加。

图4所示为原始声音信号400的范例，其是/z/到/z/过渡的双音素。在图4中也示出了声音信号400的频谱402。

根据本发明，对于待合成声音信号404的时域中所需要的基音声位置，通过随机地选择从声音信号400得到的基音声，从声音信号400得到声音信号404。在这里所考虑的范例中，合成声音信号404是原始声音信号400的y＝5倍长。在图4中也示出了声音信号404的频谱406。明显从声音信号404和其频谱406可以得知，在合成信号中保留有原始声音信号400的特征，并且没有引入假象。结果，声音信号404听起来与声音信号400一样，但是要长5倍。

图5所示为计算机系统的方框图，诸如文本到语音转换的合成系统。计算机系统500包括用于存储原始声音信号的模块502。模块504用于为存储在模块502中的原始声音信号输入和存储声音分类信息。例如，在原始声音信号中用“r”标记稳定浊音周期，用“s”标记稳定清音周期。模块506用于对模块502的原始声音信号进行加窗，以得到基音声。根据声音分类，分别对稳定浊音周期或稳定清音周期使用升余弦或正弦窗。模块508用于确定待合成信号的时域中所需要的基音声位置j。为了确定所需要的基音声位置j，利用输入参数“lengthy”。输入参数lengthy指定了原始信号的持续时间的乘法因子。进一步可能提供动态变化的基音作为附加输入参数，用于除了持续时间之外另外修改基频，或代替持续时间。

模块510用于从一组基音声中选择基音声，该组基音声从原始声音信号得到。模块510与伪随机数产生器512耦合。对于待合成信号的域中每一所需要的基音声位置，通过伪随机数产生器512产生伪随机数。通过这些伪随机数，通过模块510从基音声组中选择基音声，从而可以为待合成信号的时域中每一所需要的基音声位置提供随机选择的基音声。模块514用于在待合成信号的时域中选定的基音声上执行叠接和相加操作。通过这种方式得到具有所需要的持续时间的合成信号。

应该注意到，本发明可以用于稳定区。例如，这种稳定区可以是元音或噪声浊音，诸如/z/。因此，本发明并不限于“混合”声音。

而且应该注意到，合成信号并不需要与原始信号具有相同的基音(基频)。在某些应用中，例如为了合成歌声需要改变基音。为了实现合成信号中的基频的这种改变，合成信号中的周期位置会比原始信号放置地彼此更加靠近或更加远离。否则这样不会改变合成过程。

进一步应该注意到，本发明并不限于窗的某种选择。可以使用其它窗，诸如使用三角窗替代升余弦或正弦窗。

Claims

1.一种根据第二声音信号合成第一声音信号的方法，第一声音信号具有所需要的第一基频，并且第二声音信号具有第二基频，该方法包括步骤：

·确定第一声音信号的时域中所需要的基音声位置，该基音声位置通过第一基频的一个周期分开；

·通过对第二声音信号的时域中的基音声位置上的第二声音信号进行加窗，提供基音声，该基音声位置通过第二基频的一个周期分开；

·对于每一所需要的基音声位置，从所提供的基音声中随机地选择一基音声；

·对所选择的基音声执行叠接和相加操作，以合成第一信号。

2.权利要求1的方法，其中第二声音信号是包括噪声成分和周期性成分的混合声音。

3.权利要求1或2的方法，第二声音信号是浊摩擦音信号。

4.任一前述权利要求1、2或3的方法，第二声音信号是浊音信号，并且由此使用升余弦对第二声音信号进行加窗。

5.任一前述权利要求1、2或3的方法，第二声音信号是清音信号，并且由此使用正弦窗对第二声音信号进行加窗。

6.任一前述权利要求1至5的方法，第二声音信号具有频谱相似的周期，该频谱相似的周期基本上具有相同的信息内容。

7.任一前述权利要求1至6的方法，所需要的第一基频和第二基频基本上相同。

8.一种计算机程序产品，特别是数字存储媒体，包括用于根据第二声音信号合成第一声音信号的程序装置，第一声音信号具有所需要的第一基频，并且第二声音信号具有第二基频，该程序装置用于执行步骤：

9.一种计算机系统，特别是文本到语音转换的合成系统，用于根据第二声音信号合成第一声音信号，第一声音信号具有所需要的第一基频，并且第二声音信号具有第二基频，该计算机系统包括：

·装置，用于确定第一声音信号的时域中所需要的基音声位置，该基音声位置通过第一基频的一个周期分开；

·装置，用于通过对第二声音信号的时域中的基音声位置上的第二声音信号进行加窗，提供基音声，该基音声位置通过第二基频的一个周期分开；

·装置，用于对于每一所需要的基音声位置，从所提供的基音声中随机地选择一基音声；

·装置，用于对所选择的基音声执行叠接和相加操作，以合成第一信号。

10.权利要求9的计算机系统，进一步包括用于存储声音分类数据的装置，用于存储声音分类数据的该装置适合于存储数据，该数据表示原始声音信号中包含第二声音信号的间隔。

11.一种合成信号，包括多个叠接并相加的基音声，每一基音声是从基音声组中随机地选择的，通过对第二声音信号的时域中的基音声位置上的原始声音信号进行加窗得到该基音声组，该基音声位置通过基频的一个周期分开。