CN1682281A

CN1682281A - 在语音合成中用于控制持续时间的方法

Info

Publication number: CN1682281A
Application number: CNA038220059A
Authority: CN
Inventors: E·F·吉吉
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Huawei Technologies Co Ltd
Priority date: 2002-09-17
Filing date: 2003-08-05
Publication date: 2005-10-12
Anticipated expiration: 2023-08-05
Also published as: DE60311482T2; TWI307875B; EP1543503B1; TW200416668A; US20060004578A1; JP5175422B2; JP2005539261A; KR20050057409A; DE60311482D1; EP1543503A1; CN1682281B; ATE352837T1; AU2003249443A1; KR101029493B1; WO2004027758A1; US7912708B2

Abstract

本发明涉及一种合成语音信号的方法，包括：对一个原始语音信号的第一类间隔指定一个第一标识符，和对该原始语音信号的第二类间隔指定一个第二标识符，对原始语音信号执行开窗操作，以提供多个音调声，处理具有指定到其上的第一标识符的音调声，用于修改该语音信号的持续时间，对处理后的音调声执行一个重叠和相加操作。

Description

在语音合成中用于控制持续时间的方法

本发明涉及语音处理领域，并且更具体地、没有限制地涉及文本到语音(text-to-speech)合成领域。

文本到语音(TTS)合成系统的功能是用给定语言从普通文本合成语音。现在，TTS系统已经被用于多种应用的实际操作，例如通过电话网接入数据库或帮助残疾人。合成语音的一种方法是通过联接(concatenation)语音子单元的记录集合的元素，例如半音节(demi-syllable)或多音码(polyphone)。大多数成功的商业系统使用多音码的联接。多音码包括两个(双音子)、三个(三音子)或更多音子的组，并且可以通过在稳定的频谱区内分割所需要的音子组从无意义字(nonsense word)中确定。在一种基于联接的合成中，在两个相邻音素之间的转换对话过程(conversation)对于确保合成语音的质量是至关重要的。随着选择多音码做为基本的子单元，在两个相邻音子之间的转换保存在已记录的子单元中，并且在相似的音子之间执行联接。然而，在合成前，须修正这些音子持续时间(duration)和音调(pitch)，以完成包括那些音子的新字的韵律约束。这种处理是必需的，从而避免产生一个单调的发声合成语音。在一个TTS系统中，通过一个韵律模块执行这个功能。为了在已记录的子单元中允许持续时间和音调修正，许多基于联接的TTS系统使用时域音调同步叠加(TD-PSOLA)(E.Moulines和F.Charpentier的“使用双音子进行文本到语音合成的音调同步波形处理技术(Pitch synchronous waveformprocessing techniques for text-to-speech synthesis usingdiphones)”，Speech Commun.，第9卷，第453-467页，1990年)合成模型。在TD-PSOLA模型中，语音信号首先服从于一个音调标记算法。这种算法在浊音分段中的信号的峰值处指定标记，在清音分段中以10ms为间隔指定标记。由在音调标记中居中的多个汉宁窗(Hanningwindow)分段的叠加和从前一个音调标记延伸到下一个音调标记来完成这种合成。通过删除或复制一些窗口分段来提供持续时间修正。另一方面，通过增加或减少窗口分段之间的叠加来提供音调周期的修正。

尽管在许多商业TTS系统中获得了成功，但是使用TD-PSOLA合成模型产生的合成语音可能表现出一些缺陷，主要是在韵律变化很大的情况下，概述如下。

在文献EP-0363233、美国专利号5479564、EP-0706170中详细说明了这种PSOLA方法的例子。一个特定的例子也是MBR-PSOLA方法，如由T.Dutoit和H.Leich在语音通信，Elsevier出版社，1993年11月上公开的。专利号5479564的美国文献提出了一种方法，通过叠加从这个信号中获取的短期信号来修正具有恒定基频的音频信号的频率。用于获得该短期信号的加权窗(weighting window)的长度近似等于音频信号的周期的两倍，并且在该周期中它们的位置能够设置为任何值(只要在连续窗之间的时间位移等于该音频信号的周期)。专利号5479564的美国文献中还描述了一种方法，在分段之间内插入波形进行联接，以消除间断。这种PSOLA方法能够修改给定语音信号的持续时间。这通过在对于该语音合成执行一个重叠和相加操作之前重复或删除音调声来完成。在一个音调声内的信息通常不象在爆破音中那样适于复制。现有技术的PSOLA方法的共同的缺点在于这样引入了人为现象。这些人为现象能够导致合成语音信号的金属声，并且甚至能够严重的影响或破坏合成的信号的可懂度。

因此本发明的目的在于提供一种改进的方法，用于语音信号的处理。

本发明提供一种方法、一种计算机程序产品和一种计算机系统，用于语音信号的处理。实质上，本发明能够合成具有改进的可懂度的自然发声合成语音信号。

这通过对包括在原始语音信号中的某些间隔进行分类来完成。根据本发明的一个优选实施例，在原始语音信号中识别“稳态的”和“动态的”间隔。这种分类仅需要执行一次。它用于合成一个基于原始语音信号的、具有修改的持续时间的语音信号。

本发明基于这个观测，即音调声的复制形成了动态间隔，如在现有技术的PSOLA方法中所做的，引入了无意识的周期性，无意识的周期性导致了人为现象，例如金属声合成信号，并且降低或破坏可懂度。

根据本发明，通过限制以对原始语音信号的稳态间隔的音调声的持续时间的修改为目的的音调声的处理，来解决这个问题。换句话说，仅对那些能够具有不同持续时间的语音间隔执行持续时间修改。这对于一个元音的中部或一个辅音如/s/音是正确的。但是有些情况中，发生的局部事件持续了不到一个单独的周期。这些突然的变化如一个清音爆破音(/p/、/t/、/k/)的开始或由舌和嘴发出的滴答声(tick)和卡嗒声(click)(/b/、/d/、/g/、/l/、/m/、/n/、等)。包括这些事件的周期对于可懂度是重要的，并且不应当在处理时被忽略。由于这引入了听起来不自然人为现象，所以重复它们也是一个问题。从一个清音到一个元音的转换的开始处的周期具有局部的特征，不应当被增长或缩短。为了避免人为现象，使用特定周期等级类型信息标记所有的周期。这种信息用于确定是否可以重复或忽略一个周期。因此，对于于持续时间修改，不重复通过对原始语音信号的动态间隔进行开窗操作获取音调声。从一些间隔中获取的音调声保持在合成的信号中以保证可懂度，其中这些间隔是被分类为动态的并且对于可懂度是必不可少的。从通过对原始语音信号的间隔进行开窗操作获取的音调声可以或不可以在执行重叠和相加操作前被删除，而不严重影响所得到的合成的语音信号的质量，其中这些间隔是被分类为动态的但是对于可懂度不是必不可少的。

本发明的一个优选的应用是用于文本到语音系统，该系统存储大量的自然语音记录，在文本到语音合成过程中修改这些记录。

根据本发明的一个优选实施例，使用一个升余弦(raised cosin)窗对语音信号执行开窗操作。更好的，一个正弦窗用于包括清音语音的稳态间隔。随机化为这些包括清音语音的稳态间隔获取的音调声，以去除一些无意识的周期性，这些无意识的周期性能够在持续时间修改的过程中引入。

下面，将参照附图更详细的描述本发明的优选实施例：

图1说明了一个本发明的优选实施例的流程图，

图2是根据本发明的一个优选实施例说明了基于一个原始语音信号合成一个语音信号，

图3是本发明的一个计算机系统的优选实施例的方框图。

图1示出了一个流程图，来说明本发明方法的一个优选实施例。在步骤100，提供自然语音的一个记录。在步骤102，识别并分类在自然语音记录中的间隔。在这里所考虑的实施例中，使用下面的分类系统对语音间隔进行分类：

- - 无声

. - 清音周期

v - 浊音周期

p - 关键动态清音周期( 应当仅使用一次)

b - 关键动态浊音周期( 应当仅使用一次)

q - 动态清音周期( 可以仅使用一次)

c - 动态浊音周期( 可以仅使用一次)

语音间隔的两个基本类别是“稳态”和“动态”语音间隔。当一个语音间隔对于至少两个自然语音信号的基频的周期的相邻数(consecutive number)来说具有基本恒定的信号特征时，将其分类为“稳态”。相反，当一个原始语音记录的语音间隔的信号特征仅发生在一个基频周期内时，将其分类为“动态”。

在这里所考虑的分类系统中，“.”和“v”周期是稳态周期。“p”、“b”、“q”和“c”周期是动态周期，在后续的处理中对它们进行不同的处理。

在步骤104，对自然语音信号开窗以获得多个音调声。最好通过一个升余弦窗或对于“.”周期使用正弦窗来执行开窗操作。

在步骤106，对为分类为“稳态”的周期获取的音调声进行处理，以修改语音信号的持续时间。这能够通过重复或删除音调声以分别增加或减少原始持续时间来进行。不重复从分类为“动态”的周期获取的音调声，以避免引入人为现象。不能够删除从分类为“p”或“b”的周期获取的音调声，以保持原始信号的可懂度。也不能够重复从分类为“q”或“c”的周期获取的音调声，但是能够被删除而不严重影响所得到的合成信号的可懂度。

优选的，以一种随机的方式为分类为“.”的周期获取音调声，以避免引入周期性。通过使用正弦窗用于那些周期的开窗操作，对其有进一步的帮助。

在步骤108，重叠并相加处理后的音调声，以获得合成的信号。

图2示出了一个用于处理自然语音信号200的例子。自然语音信号200具有动态间隔202、204、206、208、210和212。动态间隔202包括分类为“b”、“c”的周期。动态间隔204包括分类为“c”、“q”的周期。动态间隔206包括分类为“q”的周期。动态间隔208包括分类为“q”、“c”和“b”的周期。动态间隔210包括分类为“c”、“b”的周期。最后，动态间隔212包括分类为“c”和“b”的周期。进一步，自然语音信号200具有稳态间隔214、216、218、220、222和224。稳态间隔214包括分类为“v”的周期；稳态间隔216包括分类为“.”的周期；稳态间隔218包括分类为“.”的周期；稳态间隔220包括分类为“v”的周期；稳态间隔222包括分类为“v”的周期，和稳态间隔224包括分类为“v”的周期。可以手工执行这种分类，也可以通过一个适当的信号分析程序自动执行这种分类。优选的，通过这样一种程序来执行自动分析，那时由人类专家控制该程序，并且必要时手工修正该程序。应当注意，这种分类仅需要执行一次，以能够进行无限数量的信号合成。

在这里所考虑的例子中，将要基于自然语音信号200来合成一个信号，该信号与原始语音信号200相比具有扩展的持续时间。为了这个目的，如那些由现有技术所知的和用于PSOLA型方法中的，通过与自然语音信号200的基频同步定位的窗口对自然语音信号200进行开窗操作。

优选的，使用一个升余弦作为窗口。对于分类为“.”的周期，使用一个正弦窗以减少当重复噪声信号部分的音调声时可能引入的无意识的周期性。作为处理无意识的周期性的进一步的措施，以随机的方式为“.”分类周期获取音调声。在这里所考虑的例子中，要合成的信号在时间轴226的区域内如下组成：

要合成的语音信号的第一间隔228包括来自于动态间隔202的音调声。这些音调声没有修改的用于间隔228，意味着没有根据动态间隔202改变间隔228的持续时间。间隔230的持续时间大约是对应的稳态间隔214的持续时间的两倍。这通过重复为稳态间隔214获取的每个音调声来完成。间隔232包括来自动态间隔204的音调声。与动态间隔204相比，232的持续时间没有改变。间隔234由从稳态间隔216获取的音调声组成。此外，重复包括在稳态间隔216中的每个音调声，以加倍这个间隔的持续时间。类似的，下面的间隔236、238、240、242...从间隔206、218、208、220、210、222、212、242获取。接下来，在时间轴226的区域内重叠这些音调声，以获取得到的合成信号。可选择的，能够删除从分类为“q”或“c”的自然语音信号200的周期中获取的音调声。在任何情况下，不能重复从分类为“动态”的自然语音信号200的周期中获取的音调声。这样，能够执行持续时间的修改，而不引入会严重影响合成的信号的质量和可懂度的人为现象。

在这里所考虑的例子中，“p”用于标记局部(“清音”)事件，这些事件对于口头发言的可懂度是关键的。通常，在由嘴或舌的空气释放后的噪声猝发是这种类型。音素(phoneme)/p/、/t/和/k/具有至少一个这样的周期。用“p”标记的周期应当在合成的语音中只出现一次，而不管该音素最后的持续时间。一些局部(“清音”)事件对于可懂度并不关键，但是也是动态的，重复它们将引入一系列非自然发声周期。这些周期用字母“q”标记。仅可以使用它们一次，但也能够忽略它们，而没有在质量或可懂度上的大幅降低。用于“p”和“q”的浊音副本是用“b”和“c”表示的类型。浊音爆破音/b/、/d/和/g/通常至少具有一个用“b”标记的周期。此外，当舌撞击或离开嘴的其它部分时能够产生滴答声和卡嗒声。音素/l/是能够发生的一个例子。从无声到元音或从清辅音到元音的转换还具有带有局部事件的周期。虽然在一个元音中部的周期能够被重复多次，而不影响逼真度，但是落入到该转换的中间右侧的周期对于复制来说太动态了。

图3示出了本发明的计算机系统的一个实施例的方框图。优选的，该计算机系统是一个包括体现本发明原理的文本到语音系统。计算机系统300具有模块302，模块302用于存储自然语音信号。模块304用于自动、人工或交互的对存储在模块302中的自然语音信号的周期进行分类。模块306用于执行对存储在模块302中的自然语音信号进行开窗操作。这样得到了多个音调声。模块308用于音调声处理。仅对从分类为稳态的间隔中获取的音调声执行用于修改持续时间的音调声处理。另外，由于来自于分类为对于可懂度不是必不可少的动态间隔的音调声可懂度可以由模块308删除，这样它们不在合成的信号中出现。模块310用于执行得到的音调声的重叠和相加操作，以得到合成的信号。将存储在模块302中的原始自然语音信号的持续时间的期望修改输入到计算机系统300。所得到的合成的信号以载波形式或作为数据文件从计算机系统300中输出。

附图标记列表：

200 自然语音信号

202 动态间隔

204 动态间隔

206 动态间隔

208 动态间隔

210 动态间隔

212 动态间隔

214 稳态间隔

216 稳态间隔

218 稳态间隔

220 稳态间隔

222 稳态间隔

224 稳态间隔

226 时间轴间隔

230 间隔

232 间隔

234 间隔

236 间隔

238 间隔

240 间隔

242 间隔

300 计算机系统

302 模块

304 模块

306 模块

308 模块

310 模块

Claims

1、一种合成语音信号的方法，包括：

-对一个原始语音信号的第一类间隔指定一个第一标识符，和对该原始语音信号的第二类间隔指定一个第二标识符，

-对原始语音信号执行开窗操作，以提供多个音调声，

-处理具有指定到其上的第一标识符的音调声，用于修改该语音信号的持续时间，-对处理后的音调声执行一个重叠和相加操作。

2、权利要求1的方法，该第一类间隔是稳态间隔。

3、权利要求1或2的方法，一个第一编码或一个第二编码用作第一标识符，该第一编码指示一个清音间隔，和该第二编码指示一个浊音间隔。

4、权利要求1、2或3的方法，第二类间隔是动态间隔。

5、前述权利要求1到4任一项的方法，其中一个第三编码、一个第四编码、一个第五编码或一个第六编码用作第二标识符，第三编码指示一个对语音信号的可懂度必不可少的一个清音间隔，第四编码指示一个对语音信号的可懂度必不可少的一个浊音间隔，并且第五编码指示一个对语音信号的可懂度不是必不可少的一个清音间隔，第六编码指示一个对语音信号的可懂度不是必不可少的一个浊音间隔。

6、权利要求5的方法，其中可选择地删除指定给第五或第六编码的音调声。

7、前述权利要求1到6任一项的方法，其中使用一个升余弦对语音信号进行开窗操作。

8、前述权利要求1到7任一项的方法，其中使用一个正弦窗对语音信号的稳态的、清音间隔进行开窗操作。

9、前述权利要求1到7任一项的方法，进一步包括在执行重叠和相加操作之前，随机化稳态的、清音间隔的音调声。

10、前述权利要求1到9任一项的方法，其中通过与语音信号的基频同步定位的窗口进行开窗操作。

11、计算机程序产品，例如一种数字存储介质，计算机程序产品包括用以执行下列处理步骤的程序部件，用来修改一个原始语音信号的持续时间：

-对原始语音信号执行开窗操作，以提供多个音调声，

-处理具有指定到其上的第一标识符的音调声，用于修改该语音信号的持续时间，

-对处理后的音调声执行一个重叠和相加操作。

12、计算机系统，特别是文本到语音系统，包括：

-部件(302)，用于存储一个语音信号，

-部件(304)，用于存储指定给一个原始语音信号的第一类间隔的第一标识符，和用于指定给该原始语音信号的第二类间隔的第二标识符，

-部件(306)，用于对语音信号执行开窗操作，以提供多个音调声，

-部件(308)，用于处理具有指定到其上的第一标识符的音调声，用于修改该语音信号的持续时间，

-部件(310)，用于对处理后的音调声执行一个重叠和相加操作。

13、一种合成的语音信号，包括重叠并相加的多个音调声，其中仅已处理一个原始语音信号的稳态浊音或清音间隔的音调声，以完成该原始语音信号的持续时间的修改。

14、权利要求13的语音信号，其中在重叠和相加操作之前，已删除属于一个动态浊音或清音间隔的一个或多个音调声。