CN1266257A

CN1266257A - 衔接语音合成系统中单元重叠区的辨识

Info

Publication number: CN1266257A
Application number: CN00103759.5A
Authority: CN
Inventors: 尼古拉斯·基布雷; 史蒂夫·皮尔逊
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-03-09
Filing date: 2000-03-09
Publication date: 2000-09-13
Anticipated expiration: 2020-03-09
Also published as: EP1035537A2; JP3588302B2; US6202049B1; ES2204455T3; CN1158641C; JP2000310997A; EP1035537B1; TW466470B; DE60004420D1; DE60004420T2; EP1035537A3

Abstract

自对应于包含相同元音的不同声音单元的时间序列数据中提取语音信号参数。使用该提取的参数来训练一个统计模型,例如一个隐藏马尔可夫模型,它具有一个用于分别为一个元音的核心轨迹区及围绕它的过渡元素建模的数据结构。由埋嵌重估价来训练模型以便自动地确定用于辨识核心轨迹区的最佳地对准的模型。核心轨迹区的边界用于为以后的声音单元衔接划分出重叠区。

Description

衔接语音合成系统中单元重叠区的辨识

本发明涉及衔接语音合成系统。具体地，本发明涉及一种在衔接语音单元时用于辨识合适边界区的系统和方法。该系统应用一个利用语音单元模型的语音单元数据库。

当今存在不同形式的衔接语音合成系统，它们的不同点在于如何存储和处理衔接语音单元。这些形式包括时域波形表示，频域表示(例如共振峰表示或线性预测编码LPC表示)或它们的某些组合。

不论语音单元形式如何，衔接合成是通过在每个单元边界处辨识合适边界区而完成的。其中这些单元都是平滑地重叠以合成新声音单元，包括词和词组。衔接合成系统中的语音单元通常是双音素或半音节。在这种情况下，它们的重叠区是中间音素。例如词＂tool＂可用从词＂tooth＂和＂fool＂中导出的单元＇tu＇和＇ul＇组成。需要决定的是在语音单元中应存储多少源词，及当放在一起时它们应重叠多少。

在以前的衔接“文本-语音”(TTS)系统中，采用了一系列方法以确定重叠区。在这类系统的设计中，考虑三个因素：

·无缝衔接：语音单元的重叠应该在一个单元与下一个单元之间提供足够平滑的过渡，从而听不到突变。听众觉察不到他们所听到的语音是由语音片断组合而成。

·无失真过渡：语音单元的重叠不应产生任何它自己的失真。单元应如此混合以使其结果与非重叠语音没有差别。

·最小系统负载：对合成器的计算和/或存储要求应该尽可能地小。

在现有系统中，在这些目标之间采取折中办法。没有一个系统对所有三个目标都最佳。按照现有方案对这些目标采取的折中措施可分为两组。第一组中考虑它们是采取短还是长重叠区。短重叠可快如单个闭塞促音，而长重叠可包括整个音素群。第二选择涉及该重叠区是一致的还是可以随上下文变化。在前一种情况下，无论前后单元是什么，每个声音单元的相同部分都与前和后单元重叠。在后一种情况下，决定于相邻单元，每次使用单元时所用部分都改变。

长重叠的优点是单元间的过渡更加无缝，因有更多时间衔接好单元间的细小差别。然而长重叠易于产生失真。失真产生于不同信号的混合。

短重叠的优点是失真最小。使用短重叠较易保证重叠部分的很好匹配。短重叠区可近似地表征为瞬时状态(不同于动态改变的状态)。然而短重叠牺牲了长重叠系统中的无缝衔接。

现在还没有系统能够同时具有长重叠技术的无缝性和短重叠技术的低失真。某些现代系统尝试使用可变重叠区以使失真最小而同时保留长重叠的优点。然而这类系统完全依靠于计算上昂贵的处理，因而使它们在很多应用中不实际。

本发明采用一种统计模型技术来辨识声音单元中的核心轨迹区，然后使用这些区以便辨识最佳重叠边界。在现有优选实施例中，使用隐藏马尔可夫模型以得出时间序列数据的统计模型，它们在每个声音单元的音素区中构成并通过训练或埋嵌重估价而最佳地对准。

在优选实施例中，认为每个声音单元的最初和最后音素由三部分组成：核心轨迹，核心区前的过渡元素和核心区后的过渡元素。建模过程最佳地辨识这三个元素，以使核心轨迹区在所研究的音素中都相对地一致。

辨识核心轨迹区后，该核心区的起始和结束边界用于划分重叠区，以便随后用于衔接合成。

现有优选实施例采用一个统计模型，它所具有的数据结构分别用于为一个元音的核心轨迹区，核心轨迹区前的一个第一过渡元素和核心轨迹区后的一个第二过渡元素建模。可使用该数据结构将对应于在衔接过程中不再使用的声音单元部分的声音单元数据部分消除掉。

本发明具有一系列优点和用途。它可用作一个基础，供自动构作衔接语音合成系统的语音单元数据库之用。该自动技术既可改进所得合成语音质量，又可在数据库收集过程中节省相当数量的劳动。

可参照以下说明和附图来更全面地理解本发明，其目的和优点。

图1是用于理解衔接语音合成技术的框图；

图2是用于阐述如何根据本发明构成语音单元的框图；

图3是用于阐述使用本发明语音单元数据库的衔接语音合成过程的框图。

为更好地理解本发明所用技术，应对衔接合成有一基本了解。图1用一个例子阐述衔接合成过程，该例子中将来自两个不同词的声音单元(在此例子中是音节)衔接起来以便形成第三个词。更具体地，来自词“suffice”和“tight”的声音单元组合而合成新词“fight”。

参照图1，优选地在音节边界上提取来自词“suffice”和“tight”的时间序列数据以确定声音单元10和12。在此情况下，在14处声音单元10又进一步划分以便分出衔接所需有关部分。

在16处将声音单元对准以便由相应部分18和20确定一个重叠区。在对准后，在22处将时间序列数据合并以合成新词。

本发明具体地与重叠区16有关，及具体地与优化部分18和20有关以使自一个声音单元至另一个的过渡是无缝的和无失真的。

本发明通过一个自动过程来达到最佳重叠，该过程寻找元音内的核心轨迹区，其中语音信号采取一个动态模式，后者对于相同音素的不同例子是相对地稳定的。

图2显示用于开发这些最佳重叠区的过程。提供了一个语音单元数据库30。该数据库可能包含对应于组成衔接合成系统的不同声音单元的时间序列数据。在本优选实施例中，自所讲的词的例子中提取声音单元，它们然后在音节边界处划分。在图2中图形地阐述了两个语音单元32和34。声音单元32是自词“tight”中提取的而声音单元34是自词“suffice”中提取的。

数据库30中存储的时间序列数据首先在36处参数化。一般而言，可采用任何合适的方法学将声音单元参数化。本优选实施例通过每个声音单元中音素区的共振峰分析而实行参数化。共振峰分析包含提取语音共振峰频率(优选实施例提取共振峰频率F1，F2和F3)。如果需要，也可将RMS信号电平参数化。

虽然现在推荐共振峰分析，但也可使用其他参数化形式。例如，可使用一个过程例如线性预测编码(LPC)来辨识和提取合适的特征参数，从而提取语音特征。

在提取合适的参数以表示每个声音单元的音素区后，构成一个模型以表示如38处所阐述的每个单元的音素区。本优选实施例使用隐藏马尔可夫模型于此用途。一般而言，可以使用任何用于表示时变或动态特性的合适统计模型。例如可使用递归式神经网络模型。

本优选实施例在将音素区建模时将它分为三个个别的中间区。这些区在40处阐述，它包括核心轨迹区42，核心区前的过渡元素44和核心区后的过渡元素46。优选实施例为这些三个区中的每一个使用个别的隐藏马尔可夫模型。可为核心区前的过渡元素44和核心区后的过渡元素46使用三态模型，而可为核心轨迹区42使用四或五态模型(图2中阐述五个状态)。使用更多数目的状态将有助于保证随后的过程会收敛于一个一致的非零的核心轨迹。

初始语音模型40可使用平均初始值。此后在48处完成这些模型的埋嵌重估价。事实上，重估价包含训练过程，其中将模型优化以便很好地表示时间序列数据内的递归序列。核心轨迹区42及核心区前的和核心区后的过渡元素都如此设计以使训练过程能根据通过数据库30提供的实际数据为每个音素区构成一致的模型。在这方面，核心区表示元音的核心，及核心区前的和核心区后的过渡元素表示对现有音素是特定的一个元音和它之前和之后的声音的各方面。例如，在自词“tight”中提取的声音单元32中核心区前的过渡元素表示由区前子音‘t’给予元音‘ay’的特色变化。

该训练过程自然地收敛于最佳地对准的模型。为了解为何如此，应知道语音单元30的数据库包含每个元音声音的至少两个，最好更多个例子。例如，在“tight”和“suffice”两者中发现的元音声音‘ay’由图2中声音单元32和34所表示。埋嵌重估价过程或训练过程使用这些‘ay’的多个例子来训练初始语音模型40及从而生成最佳地对准的语音模型50。对于所有‘ay’声音的例子都一致的时间序列数据部分表示内核或核心轨迹区。如50处所阐述的，该系统分别地训练区前过渡和区后过渡元素。当然这些会随着元音之前和之后的声音的不同而不同。

一旦将模型训练以生成最佳地对准的模型，即确认核心轨迹区两侧边界以便确定用于衔接合成的重叠边界位置。因此在步52中使用最佳地对准的模型以确定重叠边界。图2阐述叠加在由词“suffice”和“tight”导出的声音单元的共振峰频率数据之上的重叠边界A和B。

在参数数据中(在此情况下是共振峰频率数据中)辨识出重叠边界后，该系统即在步54处标记该时间序列数据以便在时间序列数据中划分重叠边界。如果需要，标记的数据可存于数据库30中以备以后衔接语音合成之用。

作为例子，图形地表示为一个重叠样板56的重叠边界区叠加在词“suffice”的时间序列数据的图形表示之上。具体地由括号58所示，样板56在后一个音节“…fice”中对准。当此声音单元用于衔接语音时，可消除前导部分62，同时该核心轨迹区64(由边界A和B划分)用作平滑转换或衔接区。

在一定实施例中，可能需要调整重叠区的持续时间以完成衔接合成。此过程阐述于图3中。输入文本70被分析，及如步72中所阐述的，自数据库30中选择合适的语音单元。例如，如词“fight”是输入文本，则系统可能选择先前存储的自词“tight”和“suffice”中提取的语音单元。

相应语音单元的核心轨迹区可能不必要跨越同样长的时间。因此在步74处可扩展或收缩相应的核心轨迹区以使它们的持续时间匹配。在图3中核心轨迹区64a扩展至64b。声音单元B可以类似地改变。图3阐述了核心轨迹区64c收缩为区64d，以使两块相应区具有相同持续时间。

一旦调整持续时间使它们匹配，在步76处即合并来自语音单元的数据以在78处形成新衔接的词。

依上所述，可看出本发明提供一种自动化手段，用于为衔接语音合成系统构成语音单元数据库。通过划分出核心轨迹区，该系统提供一个无缝，无失真的重叠。这些重叠区可以有利地扩展或收缩至一个公共固定尺寸，从而简化衔接过程。利用统计建模过程，该核心轨迹区表示语音信号的一部分，其中声学语音特性跟随于一个动态模式之后，该动态模式对于相同音素的不同例子是相对地稳定的。此稳定性能提供一个无缝无失真的过渡。

根据本发明原理生成的语音单元可以容易地存储于一个数据库内以备以后提取和衔接而对计算机处理系统增加最小负担。因此该系统对于开发处理能力有限的语音合成产品和应用是十分理想的。此外，用于生成声音单元的自动化过程可以很大地减少在构作特定用途语音单元数据库中例如特定词汇或开发多语言合成系统中所需的时间和劳动。

虽然本发明已经在其现有优选形式中说明过，但可在不背离由所附权利要求书所规定的本发明实质的情况下作出改变。

Claims

1.一种用于辨识用于衔接语音合成的单元重叠区的方法，包括：

确定一个统计模型以表示语音的时变特性；

提供多个对应于包含相同元音的不同声音单元的时间序列数据；

自所述时间序列数据中提取语音信号参数并使用所述参数来训练所述统计模型；

使用所述训练的统计模型以便辨识所述时间序列数据中的一个递归序列并将所述递归序列与所述元音的一个核心轨迹区关联起来；

使用所述递归序列为衔接语音合成划分出单元重叠区。

2.权利要求1的方法，其中所述统计模型是一个隐藏马尔可夫模型。

3.权利要求1的方法，其中所述统计模型是一个递归式神经网络。

4.权利要求1的方法，其中所述语音信号参数是内藏语音共振峰。

5.权利要求1的方法，其中所述统计模型具有一个用于分别为一个元音的核心轨迹区和围绕所述核心轨迹区的过渡元素建模的数据结构。

6.权利要求1的方法，其中训练所述模型的步骤由埋嵌重估价来完成以便在由所述时间序列数据所表示的整个数据集上生成一个用于对准的收敛模型。

7.权利要求1的方法，其中所述统计模型具有一个用于分别为一个元音的核心轨迹区和所述核心轨迹区前的第一过渡元素和所述核心轨迹区后的第二过渡元素建模的数据结构；及

使用所述数据结构以消除掉对应于所述第一和第二过渡元素中之一的所述时间序列数据中的一部分。

8.一种用于完成衔接语音合成的方法，包括：

确定一个统计模型以便表示语音的时变特性；

使用所述训练的统计模型以辨识所述时间序列数据中的一个递归序列并将所述递归序列与所述元音的一个核心轨迹区关联起来；

使用所述递归序列为每一个所述声音单元中划分出一个单元重叠区；

根据所述声音单元的相应的单元重叠区把来自所述不同声音单元中的两个的所述时间序列数据重叠和合并，以便衔接地合成一个新声音单元。

9.权利要求8的方法还包括以下步骤：在完成所述合并步骤之前选择性地改变所述单元重叠区中的至少一个的持续时间以便与所述单元重叠区中的另一个的持续时间相匹配。

10.权利要求8的方法，其中所述统计模型是一个隐藏马尔可夫模型。

11.权利要求8的方法，其中所述统计模型是一个递归式神经网络。

12.权利要求8的方法，其中所述语音信号参数是内藏语音共振峰。

13.权利要求8的方法，其中所述统计模型具有一个用于分别为一个元音的核心轨迹区和围绕所述核心轨迹区的过渡元素建模的数据结构。

14.权利要求8的方法，其中训练所述模型的步骤由埋嵌重估价来完成以便在由所述时间序列数据所表示的整个数据集上生成一个用于对准的收敛模型。

15.权利要求8的方法，其中所述统计模型具有一个用于分别为一个元音的核心轨迹区和所述核心轨迹区前的第一过渡元素和所述核心轨迹区后的第二过渡元素建模的数据结构；及

使用所述数据结构以消除掉对应于所述第一和第二过渡元素中之一的所述时间序列数据的一部分。