CN1259631C

CN1259631C - 使用韵律控制的中文文本至语音拼接合成系统及方法

Info

Publication number: CN1259631C
Application number: CN 02127007
Authority: CN
Inventors: 黄建成; 陈芳
Original assignee: Motorola Inc
Current assignee: Serenes Operations
Priority date: 2002-07-25
Filing date: 2002-07-25
Publication date: 2006-06-14
Anticipated expiration: 2022-07-25
Also published as: CN1471025A; AU2003249493A1; AU2003249493A8; WO2004012183A3; JP2005534070A; WO2004012183A2

Abstract

本发明提供了一种中文文本至语音转换系统和方法。该系统包括文本处理器，用于根据输入的文本而生成一分词后的语音符号序列；声音和韵律控制装置，它至少包括一发音标注库和声音单元索引和差别韵律矢量选择装置，该发音标注库至少包括声音单元索引和差别韵律矢量，该声音单元索引和差别韵律矢量选择装置用于从所述文本处理器接收分词后的语音符号序列，并产生一系列包括声音单元索引和差别韵律矢量的控制数据；和合成装置，它包括声音单元参数库、帧矢量码本、声音单元参数矩阵生成装置、声音单元参数矩阵修改装置、声音片段参数矩阵拼接装置和波形合成装置。本发明提供的合成语音质量好，并且对于系统性能和存储空间的要求适用于小型嵌入式装置。

Description

使用韵律控制的中文文本至语音拼接合成系统及方法

技术领域

本发明涉及中文文本至语音(Text-to-Speech，即TTS)的拼接系统，尤其涉及使用韵律控制的中文文本至语音拼接合成系统及方法。

背景技术

在对于电子设备，如计算机、手机或个人数字助理(PDA)中存储的大量文本资料，利用眼睛进行阅读，很容易引起视觉疲劳。而且有时候，如在行驶中的汽车中，阅读电子屏幕上的数据也很不方便。因此，希望将这些文本转换为语音并播放给阅读者听，以解决这些矛盾。

目前，高质量的中文文本至语音的合成技术，基本上都是基于将中文文本中每个字、词或短语所对应的发音波形进行拼接。所需的发音波形一般选自一数据量很大的发音波形库，该数据库的大小取决于所需的发音合成质量。发音波形库中存储有各种中文句子、短语，及其相应的发音波形。

图1示出了目前典型的拼接中文TTS系统。该系统包括三部分，即文本处理部分、声音片段库和语音合成部分。该系统首先对输入的文本进行分词、断句等文字处理，得到具有一定含义的词汇分段，并根据一词典将语音符号赋给文本中相应的汉字。然后将得到的语音符号序列与语音或短语波形库中的声音片段相匹配，从中找到最匹配的语音片段。最后，对于选出的语音片段进行拼接并插入适当的停顿，得到输出的语音。

这种已有的TTS系统，一般都是将语音的波形进行直接存储。然而，为了得到与真人发音非常相近的读出效果，需要存储各种语言环境下大量的语音波形，以便涵盖大部分情况下的发音特性。存储大量的语音波形，需要很多存储空间。高质量的文本至语音系统，一般需要几百兆的存储容量，导致成本增加。对于手持设备，如手机或PDA，由于受硬件和成本的限制，存储容量一般为几兆比特。因此在这种便携设备上，很难获得高质量的文本语音。这使得文本至语音的转换，在这些领域的应用受到限制。

发明内容

鉴于已有技术的不足，本发明的目的是提供一种高效的中文文本至语音转换系统和方法，其所需的存储空间小，输出发音具有自然的发音质量。

本发明的进一步目的是提供一种用于便携式电子设备的中文文本至语音转换系统和方法。

本发明的另一目的是提供一种生成拼接发音所需的发音符号库(既发音标注库)的方法，以大幅度减小所需的存储容量。

为达到上述发明目的，本发明提供了一种中文文本至语音转换系统，包括一文本处理器，用于根据输入的文本而生成一分词后的语音符号序列，所述中文文本至语音转换系统还包括：声音和韵律控制装置，其至少包括一发音标注库和声音单元索引(AU索引)和差别韵律矢量(PV)选择装置，该发音标注库至少包括声音单元(AU)索引和差别韵律矢量(PV)，该声音单元索引(AU索引)和差别韵律矢量(PV)选择装置用于从所述文本处理器接收分词后的语音符号序列，并产生一系列包括声音单元(AU)索引和差别韵律矢量(PV)的控制数据；和合成装置，该合成装置对于来自所述声音和韵律控制装置的控制数据产生响应，从而生成合成的语音，其包括一声音单元参数库；帧矢量码本，它响应所述已分词的语音符号序列选定的声音单元索引而生成长度固定的矢量参数；声音单元参数矩阵生成装置，它与所述声音单元参数库以及帧矢量码本相连接，以产生声音单元参数矩阵；声音单元参数矩阵修改装置，它连接到所述声音单元参数矩阵生成装置，利用所述差别韵律矢量对声音单元参数矩阵进行修改，以生成声音片段参数矩阵；声音片段参数矩阵拼接装置，它连接到声音单元参数矩阵修改装置，用于拼接所述声音片段参数矩阵，以产生排序的参数矢量；和一波形合成装置，它连接到所述声音片段参数矩阵拼接装置，用于根据全部所述参数矢量来生成拼接的发音波形。

本发明还提供了一种通过拼接式中文文本至语音转换系统而将输入文本转换为相应的合成语音的方法，包括处理所述输入文本并将其转化得到分词的语音符号序列；在发音标注库中查找与分词的语音符号序列匹配的标注文本(annotation context)，该发音标注库至少包括多个声音单元索引和差别韵律矢量；将语音符号序列中匹配的语音符号部分替换为声音单元索引和差别韵律矢量；产生一个至少包括声音单元索引和差别韵律矢量控制数据的序列；和响应于所述控制数据而产生合成语音，其包括响应所述已分词的语音符号序列选定的声音单元索引而由帧矢量码本生成长度固定的矢量参数的步骤；根据声音单元参数以及长度固定的矢量参数生成声音单元参数矩阵的步骤；利用所述差别韵律矢量对声音单元参数矩阵进行修改，以生成声音片段参数矩阵的步骤；拼接所述声音片段参数矩阵，以产生排序的参数矢量的步骤；以及根据全部所述参数矢量来生成拼接的发音波形的步骤。

本发明还提供了一种生成符号库(symbolic corpus)的方法，包括：将语音划分为多个声音片段；根据语音分类(phoneticclassification)和发音相似性将所述声音片段分为多组；在每一组中选择一声音片段作为该组的代表，称为声音单元(AU)；以帧为基础将所述声音单元转换为一系列帧参数；通过矢量量化将所述帧参数转化为一系列矢量索引；形成一声音单元参数库，该声音单元参数库包括基于帧的标量参数和矢量索引；将每一声音片段与相应的声音单元对应，并确定声音片段与该声音单元之间相应的差别韵律矢量；以及用每一声音片段的语音符号、其所对应的声音单元索引及差别韵律矢量来代替所述声音片段。这样，本发明在采集大量真人发音作为语料库的基础上，将声音片段分组，仅存储组中的一个作为代表的声音单元及其它声音片段与该声音单元之间的差别，并且用参数代替原有发音波形，有效的减小了所形成的发音标注库的数据量。

本发明以发音代表代替其所在组中的任一声音片段，可以有效减少所需存储的数据量，从而节约存储空间。此外，本发明还将每一声音单元波形转换为一系列参数，形成声音单元参数库，以所述参数代替声音单元的波形，进一步减小了存储声音单元所需的存储空间。本发明以声音单元及其与声音片段之间的差别来表示声音片段，并且利用每一声音片段的语音符号、其所对应的声音单元参数及其差别参数来代替所述声音片段的波形，可以充分表述每一声音片段所对应的音节的发音信息，减小失真。

本发明提供的高效的中文文本至语音的转换方法及装置提供的合成音节质量，并且对于系统性能和存储空间的要求不仅适用于普通计算机，而且适用于小型嵌入式装置。利用低于2MB的存储空间，就可以利用根据本发明的方法或装置生成高质量的合成语音。

附图说明

图1是已有的中文文本至语音转换系统的示意图。

图2是根据本发明的中文文本至语音转换装置的示意图。

具体实施方式

图1示出了目前已有的中文文本至语音转换系统。该转换系统主要包括三部分：文本处理器100、声音片段库200以及合成装置300。文本处理器100的主要作用是将输入的中文文本经过标准化以及分词之后，将相应的语音符号赋给该中文文本中的汉字。然后，利用所得到的语音符号序列，与声音片段库200中所存储的语音符号序列进行匹配后，替换为相应的语音或短语的声音片段。最后，合成装置300将这些声音片段按照中文文本的顺序拼接起来，插入适当的停顿信息，就可以得到所需的语音输出。声音片段库200中存储有大量的中文文本素材，以及这些素材的真人发音的录音。这些发音素材的使用量，决定了最终合成的语音的效果。如果使用的发音素材多，则合成的语音与真人发音比较近似，但是需要占用大量的存储空间。如果输入中文文本中的一句话可以直接在声音片段库中找到完全匹配的一句话，则可以直接利用所存储的这句话的声音片段波形进行输出，即这句话的真人发音录音。但是，在大多数情况下，并找不到完全匹配的一句话。这时候，就要找出组成这句话的词和词组相匹配的词和词组，因此，需要对输入文本进行分词。然后，用相应的声音片段替换语音符号，并对这些声音片段拼接以及适当的后期处理，即可得到所需的语音输出。

在图1中，输入的文本首先利用文本标准化装置110进行标准化处理。然后，分词装置130根据词典120将标准化的文本进行适当的断句、分词。分词之后，语音符号分配装置140使用语音符号替换输入文本中的字词。接下来，声音片段选择装置250利用语音或短语波形库260，在声音片段库中200进行声音片段选择。最后，选出的声音片段在合成装置200中进行拼接合成。选出的声音片段输入给在停顿产生装置380和声音片段拼接装置370。停顿产生装置380，根据输入产生适当的停顿信息给声音片段拼接装置370。声音片段拼接装置370将将拼接并加入适当停顿的语音信号输出到变形后处理装置。波形后处理装置390将处理结果输出。

图1所示的中文文本至语音转换系统的声音片段库中的声音波形，一般是利用参数分析器进行直接压缩。由于声音波形的数据量很大，为了获得与真人发音比较近似的输出语音，一般需要几百兆的存储空间。

对于采用拼接方法的文本至语音转换方法和系统，提供高质量的自然发音的关键在于所用的发音波形库以及相应的映射规则。为了节省存储空间，本发明将拼接发音所需的声音波形处理后，仅仅存储波形参数然后利用这些参数再合成所需的声音，以大幅度减小所需的存储容量。

本发明提供了一种拼接发音标注库的生成方法，包括以下步骤：生成一发音波形语料库。首先将许多中文文本文件通过真人朗读，录下录音，以发音波形的方式存储下来。这些语音经过仔细挑选，使得所创建的发音波形语料库具有良好的语音和韵律均衡。良好的发音波形语料库是语音合成的基础。

将所述发音波形划分为多个声音片段(AS)。每个声音片段一般与某一汉字在某一具体语言环境下的发音相对应。每个声音片段都是一个中文音节或子音节在一定上下文环境之中的具体体现，具有明确的语音含义。一般来说，每个字的语音符号在不同的语言环境中可对应多个不同的发音片段。拼接发音的任务就是找出每个字、词或短语在具体语言环境中所需的适当的声音片段，然后将它们拼接起来。

根据声音片段的语音分类及其声音相似性，将所述声音片段分为多组。在每一组中选择一声音片段作为该组的代表，称为声音单元(AU)，全部声音单元形成声音单元库。每一组中的声音片段之间的差别都很小，它们之间的差别数据量就很少。与已有技术相比，本发明利用一声音单元代表一组，然后再加上组中声音片段与声音单元之间差别，就可以利用较少的数据完整地表述出该组中的所有声音片段。

将声音单元库中的每一声音单元以帧为单位转换为一系列帧参数。利用一帧矢量码本，将每一声音单元的帧参数矢量量化为一系列矢量索引以及标量参数。其中该帧矢量码本是已知的，或是利用本领域常用的帧矢量码本生成技术预先生成的。利用矢量索引和帧矢量码本来表述声音单元库中的声音单元，进一步减少了所需存储的数据量。

将所述矢量索引以及基于帧的标量参数组合形成声音单元参数库，并将参数库中的每一矢量索引及相应的标量参数与一声音单元索引对应。这样，使用声音单元索引来代替实际的声音单元数据，又进一步减少了所需存储的数据量。在拼接发音合成时，利用声音单元索引就可以得到矢量索引以及相应的标量参数。然后，利用矢量索引又可以得到原始的发音波形的帧参数。利用帧参数又可以得到原始发音波形，即原始的真人发音录音。

将所述发音波形语料库每组的每一声音片段与声音单元参数库中相应的声音单元索引相对应；使得每一声音片段都可以通过其所在组中作为代表的声音单元来得到。

取得每一声音片段与其所对应的声音单元之间的差别韵律矢量。差别韵律矢量反应了每一个声音片段组中的声音片段与作为代表的声音单元之间的参数差别，这种参数差别是基于它们之间的物理表现的差别。通过作为代表的声音单元以及某一特定的差别韵律矢量，就可以得到相应的声音片段。

利用每一声音片段的语音符号、其所对应的声音单元索引及其差别韵律矢量代替所述声音片段的波形，来创建发音标注库。这样，通过对发音波形进行一系列处理，实现了用较少的数据表示很多发音波形。本发明的发音标注库结合声音单元参数库以及相应的参数码本，就完整地表述了原始的发音波形库。前者所需的存储空间要远远小于后者所需的存储空间，从而实现了用较少的数据表示大量的发音波形。

下面结合图2，详细说明中文文本至语音的拼接合成。中文文本至语音的拼接合成主要有三部分组成：中文文本处理、声音和韵律控制(Acoustic and Prosodic Control)以及发音波形合成。通过中文文本处理，将输入的文本转换为发音和韵律控制所需的语音符号。声音和韵律控制部分通过数据驱动控制(data-driven control)利用发音标注库将匹配的所述语音符号转换为声音单元索引和差别韵律矢量；通过规则驱动控制(rule-driven control)将发音标注库未匹配的语音符号转换为所需的声音单元索引和差别韵律矢量。发音波形合成部分，利用声音单元参数库和帧矢量码本将所得到的声音单元索引和差别韵律矢量转换为自然发音波形的帧参数，然后进行拼接合成语音。

首先，简要介绍中文文本处理。与已有的拼接式文本至语音转换系统相似，本发明中输入的文本也首先利用文本处理器1进行预处理，如图2所示。通过文本标准化装置11，将将不规则的文本划分，转换为系统定义的标准化的文本格式。然后，分词装置13根据词典12以及相应的规则库(图中未示出)将标准化的文本切分为一系列的词。分词之后，语音符号分配装置14将输入文本中的字词转换为一系列中文发音系统常用的语音符号。

接下来说明本发明的声音和韵律控制。本发明的声音和韵律控制装置2，进一步对所得到的语音符号系列进行分析和处理。声音和韵律控制装置2包括：发音标注库21、声音单元索引和差别韵律向量选择装置22、韵律规则库23以及韵律优化装置24。本发明采用多层次的声音和韵律控制来产生声音和韵律信息。该控制过程包括两个阶段，即数据驱动控制阶段和规则驱动控制阶段。

在已有技术中，对于每个输入的语音符号，都首先从发音波形库中查找与其匹配的声音片段作为输出。本发明没有直接使用发音波形库，而是使用发音标注库，查找与其匹配的声音片段的参数。

在数据驱动控制阶段，对于分词得到的语音符号序列，声音单元索引和差别韵律向量选择装置22首先在发音标注库21中利用上下文关系或韵律关系寻找匹配。对于匹配的语音符号，用发音标注库中相应的声音单元索引和差别韵律矢量替代。如果匹配的部分中包括一个或多个停顿(停顿)，则相应地插入用于表示停顿的特别声音单元，该声音单元的参数包括停顿信息。

对于在数据驱动控制阶段未找到匹配的语音符号序列，可以使用发音标注库中最接近的序列。作为选择，本发明在规则控制阶段对这些未匹配的序列进行处理。在此阶段以语音符号为基础，根据韵律规则库23中的规则或表，针对未匹配的语音符号序列确定相应的声音单元索引、差别韵律向量以及停顿声音单元。

声音和韵律控制装置2的输出，包括反映声音单元发音特征的一系列控制数据以及差别韵律矢量和必要的停顿符号。

最后描述本发明的发音波形合成部分。本发明的发音波形合成装置3，包括声音单元参数库31、帧矢量码本32、声音单元参数矩阵生成装置33、声音单元参数矩阵修改装置34、声音片段参数矩阵拼接装置35和波形合成装置36。

本发明的发音波形合成，利用声音单元参数库31和帧矢量码本32将所得到的声音单元索引和差别韵律矢量转换为自然发音波形的帧参数，然后进行拼接合成语音。具体过程如下文所述。

基于来自声音和韵律控制装置2输出的声音和韵律控制数据，本发明的发音波形合成装置3一个声音片段一个声音片段地生成语音波形输出。对于每一个声音片段，发音波形合成装置3主要从声音单元索引、差别韵律矢量和停顿符号三个方面进行考查。

如上文所述，本发明的声音单元参数库31将矢量索引以及基于帧的标量参数组合与一声音单元索引相对应。这样，利用声音单元索引就可以声音单元参数库31得到矢量索引以及相应的标量参数。

在帧矢量码本32中，一系列矢量索引与声音单元的帧参数以及标量参数相对应。因此，利用从声音单元参数库31得到的矢量索引和帧矢量码本又可以得到原始的发音波形的帧参数。

利用声音单元参数库31和帧矢量码本32的输出，声音单元参数矩阵生成装置33生成一矢量矩阵，即声音单元参数矩阵。该矢量矩阵的每个组成成分是以帧为基础的声音单元参数。该矩阵的大小取决于声音单元的帧的数量。该声音单元参数矩阵完整地描述了该声音单元的全部声音特征。

至此，已经得到了声音片段代表(即声音单元)的声音特征参数。在此声音特征参数的基础上利用声音片段与该代表之间的差别，就可以得到声音片段所需的参数矩阵。声音单元参数修改装置34即用来完成这一操作。在上文所述的数据驱动阶段或规则驱动阶段中，已经得到了声音片段与相应的声音单元之间的差别韵律矢量。声音单元参数修改装置34利用该差别韵律矢量，对声音单元参数矩阵生成装置的输出矩阵进行修改，得到声音片段参数矩阵。该声音片段参数矩阵以声音片段的帧为基础，描述了该声音片段的韵律特征，如本调(lexicaltone)、基音轮廓(pitch contour)、时长(duration)、均方根幅度(root mean square of amplitude)和语音学/协同发音环境参数(phonetic/co-articulatory environment identity)。

发音波形合成的目的是重现原始真人发音波形库中的声音片段，或者以低失真的方式根据韵律规则库23产生声音片段。声音片段参数矩阵拼接装置35，以声音片段为基础，将得到的声音片段参数矩阵中的帧矢量参数顺序拼接起来。并且，在检测到停顿符号(其包括停顿信息)时插入零矢量。最后，排序后的帧矢量参数输出给波形合成装置36。波形合成装置36利用每一个帧矢量生成一个时间长度固定的声音波形片段，即声音片段的帧。将所有帧的发音波形拼接起来，就得到了所需的语音输出。

已有技术中的数据驱动方式，允许TTS系统从一组自然发音中选择声音和韵律信息。为了得到自然发音，已有的TTS系统使用波形库，需要很多存储空间。

本发明为了得到自然发音效果，也使用了数据驱动方式。与已有技术不同的是，本发明没有直接使用存储量巨大的波形库，而是使用发音标注库来节省存储空间。在发音标注库中仅仅存储对音节的描述，以及声音单元库。本发明的装置利用低于2MB的存储空间，就可以生成高质量的合成语音。

Claims

1.一种中文文本至语音转换系统，包括一文本处理器，用于根据输入的文本而生成一分词后的语音符号序列，其特征在于所述中文文本至语音转换系统还包括：

声音和韵律控制装置，它至少包括一发音标注库和声音单元索引和差别韵律矢量选择装置，该发音标注库至少包括声音单元索引和差别韵律矢量，该声音单元索引和差别韵律矢量选择装置用于从所述文本处理器接收分词后的语音符号序列，并产生一系列包括声音单元索引和差别韵律矢量的控制数据；和

合成装置，该合成装置对于来自所述声音和韵律控制装置的控制数据产生响应，从而生成合成的语音，它包括一声音单元参数库；帧矢量码本，其响应所述已分词的语音符号序列选定的声音单元索引而生成长度固定的矢量参数；声音单元参数矩阵生成装置，它与所述声音单元参数库以及帧矢量码本相连接，以产生声音单元参数矩阵；声音单元参数矩阵修改装置，它连接到所述声音单元参数矩阵生成装置，利用所述差别韵律矢量对声音单元参数矩阵进行修改，以生成声音片段参数矩阵；声音片段参数矩阵拼接装置，它连接到声音单元参数矩阵修改装置，用于拼接所述声音片段参数矩阵，以产生排序的参数矢量；和一波形合成装置，它连接到所述声音片段参数矩阵拼接装置，用于根据全部所述参数矢量来生成拼接的发音波形。

2.如权利要求1所述的中文文本至语音转换系统，其特征在于：所述声音单元索引和差别韵律矢量选择装置将该分词的语音符号序列与发音标注库中的标注文本进行匹配，并将语音符号序列中匹配的语音符号部分替换为声音单元索引和差别韵律矢量，将停顿表示为停顿符号。

3.如权利要求2所述的中文文本至语音转换系统，其特征在于：所述声音和韵律控制装置还包括一韵律规则库和一韵律优化装置，该韵律优化装置与所述声音单元索引和差别韵律矢量选择装置相连接，并根据所述韵律规则库中的规则设定，使用声音单元索引和差别韵律矢量替换所述已分词的语音符号序列中未匹配的部分。

4.一种通过拼接式中文文本至语音转换系统而将输入文本转换为相应的合成语音的方法，包括：处理所述输入文本并将其转化得到分词的语音符号序列；其特征在于所述方法还包括：

在发音标注库中查找与已分词的语音符号序列有匹配的标注文本，该发音标注库至少包括多个声音单元索引和差别韵律矢量；

将语音符号序列中匹配的语音符号部分替换为声音单元索引和差别韵律矢量；

产生一序列至少包括声音单元索引和差别韵律矢量的控制数据；和

响应所述控制数据而产生合成语音，其包括

响应所述已分词的语音符号序列选定的声音单元索引而由帧矢量码本生成长度固定的矢量参数的步骤；根据声音单元参数以及长度固定的矢量参数生成声音单元参数矩阵的步骤；利用所述差别韵律矢量对声音单元参数矩阵进行修改，以生成声音片段参数矩阵的步骤；拼接所述声音片段参数矩阵，以产生排序的参数矢量的步骤；以及根据全部所述参数矢量来生成拼接的发音波形的步骤。

5.如权利要求4所述的将输入文本转换为合成语音的方法，其特征在于还包括下述步骤：

将语音划分为多个声音片段；

根据语音分类和发音相似性将所述声音片段分为多组；

在每一组中选择一声音片段作为该组的代表，称为声音单元；

以帧为基础将所述声音单元转换为一系列帧参数；

通过矢量量化将所述帧参数转化为一系列矢量索引；

形成一声音单元参数库，该声音单元参数库包括基于帧的标量参数和矢量索引；

将每一声音片段与相应的声音单元对应，并用以确定声音片段与该声音单元之间相应的差别韵律矢量；以及

用每一声音片段的语音符号、其所对应的声音单元索引及差别韵律矢量来代替所述声音片段。

6.如权利要求4所述的将输入文本转换为合成语音的方法，其特征在于包括：将停顿表示为停顿符号的步骤。

7.如权利要求4所述的将输入文本转换为合成语音的方法，其特征在于：根据预先确定的韵律规则进行韵律优化，使用声音单元索引和差别韵律矢量替换所述已分词的语音符号序列中未匹配的部分。