CN101064103A

CN101064103A - 基于音节韵律约束关系的汉语语音合成方法及系统

Info

Publication number: CN101064103A
Application number: CNA2006100760151A
Authority: CN
Inventors: 陶建华; 于剑
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2006-04-24
Filing date: 2006-04-24
Publication date: 2007-10-31
Anticipated expiration: 2026-04-24
Also published as: CN101064103B

Abstract

本发明公开了一种基于音节韵律约束关系的汉语语音合成方法及系统，系统包括：文本输入模块、韵律处理模块、语音输出模块。方法包括：接收或输入任意文字串转换成语音输出；文本分析对输入文本格式和内容分析并转换成音节序列串；韵律预测模块接收附着韵律信息的音节序列串，利用统计模型预测出与其对应的目标韵律值；波形拼接模块接收所述附着目标韵律值的音节序列串，根据所述音节序列携带的韵律信息从所述压缩语音库中选取与目标韵律值最为接近的样本并拼接；语音输出模块播放韵律表现接近于自然的拼接语音。依据本发明将极大提高系统合成语音的自然度和流畅度，从而使得输出的语音非常自然，几乎接近真人所发出的语音。

Description

基于音节韵律约束关系的汉语语音合成方法及系统

技术领域

本发明总的来说涉及一种汉语语音合成方法和语音合成系统，具体地涉及基于音节韵律约束关系的汉语语音合成方法及系统。

背景技术

语音合成系统又称文语转换系统(TTS系统)，它的主要功能是将计算机接收到的或输入的任意文字串转换成语音输出。一般认为，语音合成系统的功能模块可细分为三个主要的组成部分：文本分析模块、韵律生成模块和声学模块。其中韵律生成模块作为承前启后的一个模块，对最终合成语音的自然度和流畅度起着至关重要的作用。

近年来基于大规模语料库的合成方法，渐渐成为语音合成领域的主流技术：首先分析待合成音节的上下文环境，然后遍历整个语料库，从中挑选一个上下文环境与待合成音节上下文环境最为相似的基元(在汉语合成系统中，一个基元通常是一种音节)作为最终的输出。这样的方法存在着很多的问题，其中，最关键的一个问题是由语音产生的随意性和不稳定性造成的：同一个人在不同的时间读同样的句子，其说话的语调由于环境、心情等其他因素的差异，其韵律表现也不会完全相同，因此，上下文环境最切合的基元未必是最合适的选择。依据这种方法所合成的句子，在音节相交之处，往往容易产生韵律的不自然现象。因此，需要一种新的算法，可以模拟相邻音节之间基频曲线形状的互相影响，这样，才能够构建自然、流畅的语音合成系统。

发明内容

为了解决现有技术问题，本发明的目的是要提出一种算法，模拟相邻音节之间基频曲线形状的互相影响，为此，本发明能够构建自然、流畅的提供一种基于音节韵律约束关系的汉语语音合成方法及系统。

本发明的第一方面，为实现上述目的，本发明提供的一种基于音节韵律约束关系的汉语语音合成系统包括：利用各种电脑终端及数字移动设备，将系统接收的或输入的任意文字串转换成语音输出，还包括文本输入模块、韵律处理模块、语音输出模块，文本输入模块、韵律处理模块、语音输出模块三者依次连接，文本输入模块将接收的或输入的任意文字串转换成音节序列串，韵律处理模块处理当前待合成音节的基频曲线、处理相邻音节的基频曲线对当前音节基频曲线的影响和限制；韵律处理模块的输出端与语音输出模块电连接，语音输出模块用于播放拼接成的数字语音信号，语音输出模块输出的韵律曲线接近于自然语音。

本发明的第二方面，为实现上述目的，本发明的一种基于音节韵律约束关系的汉语语音合成方法，在处理当前待合成音节的基频曲线时，充分考虑相邻音节的基频曲线对当前音节基频曲线的影响和限制，并且利用统计模型的方法为这种影响和限制进行自动建模，模拟真实语音中相邻音节之间基频曲线形状的互相影响，从而产生非常自然流畅的基频曲线，其步骤如下：

文本输入：基于接收或输入的任意文字串转换成音节序列串；

构建文本分析模块：用于对所述输入的文本进行格式和内容上的分析并将其转换为音节序列串；同时为每个音节附着相关韵律信息；

构建韵律预测模块：包括离线训练部分和在线合成部分，用于接收所述附着韵律信息的音节序列串，根据韵律信息利用统计模型预测出与其对应的目标韵律值，包括音长、基频曲线和平均能量，并将其附着在音节上；

构建波形拼接模块：用于接收所述附着目标韵律值的音节序列串，根据所述音节序列携带的韵律信息从所述压缩语音库中选取与目标韵律值最为接近的样本序号，并将其拼接在一起，在拼接处作平滑处理；

构建语音输出模块：用于播放拼接成的数字语音信号，语音输出模块输出的韵律曲线接近于自然的语音。

本发明的有益效果：本发明提供的系统和方法使用统计模型自动构建了相邻音节基频曲线的互相影响作用，并且在系统中充分考虑了这种作用。本发明将系统接收到的或输入的任意文字串转换为语音输出。在此之前的以音节为单位的汉语语音合成系统，多是根据样本的上下文环境进行基元的选择，但是由于语音产生的随机性和不稳定性，导致其合成语音的韵律表现不是非常自然，尤其是在相邻音节的交汇处，更容易出现基频曲线的跳跃，严重影响了合成语音的自然度。而本算法在处理合成语音的韵律曲线时，充分考虑到相邻音节间的互相影响和互相限制，并且利用统计模型(分类与回归树)构建了相邻音节在韵律上的约束关系。这样，在现有技术的合成系统中，容易出现在音节边界处的韵律不连续现象基本上被清除了，所以，依照本发明方法合成的语音其韵律表现非常自然流畅，合成语音的韵律表现非常稳定。本发明大大提高语音合成系统的稳定性和自然度，使得系统合成的语音几乎接近于自然语音。可应用于各种电脑终端及手持数字移动设备。

附图说明

通过以下结合附图的详细描述，本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中：

图1是本发明基于音节韵律约束关系的汉语语音合成系统示意图；

图2是本发明基于音节韵律约束关系的汉语语音合成系统的韵律处理模块的在线合成部分示意图；

图3是本发明基于音节韵律约束关系的汉语语音合成方法的的韵律处理模块的离线训练部分示意图；

图4是本发明基于音节韵律约束关系的汉语语音合成方法的在线合成部分中回归树构建示意图；

图5是本发明基于音节韵律约束关系的汉语语音合成方法的拼接代价和目标代价定义说明图；

图6是本发明基于音节韵律约束关系的汉语语音合成方法的搜索最优路径示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，通过结合附图对系统各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。应该指出，所描述的施例仅仅视为说明的目的，而不是对本发明的限制。

图1是本发明基于音节韵律约束关系的汉语语音合成系统示意图，在附图1本发明的优选实施方案中，本发明的语音合成系统包括：依次连接在一起的操作系统文本输入模块1、韵律处理模块2和语音输出模块3；

其中韵律处理模块2由文本分析模块10、韵律预测模块20、波形拼接模块30三部分组成，并且文本分析模块10、韵律预测模块20、波形拼接模块30顺序电连接；

所述的文本输入：文本输入模块接收输入的文本，在本发明的实施例中，系统提供可供手写输入的界面，用户可自行输入待合成的文本；也可选择通过打开文本文件的方式来合成整个文件，用户还可使用手写笔挑选文件中的若干行单独合成。可以利用各种电脑终端手持数字移动设备，可以设置在任一种操作系统中，将系统接收或输入的任意文字串转换成语音输出的文本；本发明在掌上电脑上应用上，所有语音功能均可以随时在手持设备上启用或关闭。在未启用语音功能时，原手持设备的各种功能将不受任何影响。

所述构建文本分析模块10：接收文本形式的输入，用于对所述输入的文本进行格式和内容上的分析并将其输入汉字转换为音节序列串，同时为每个音节附着一系列相关韵律信息。

所述相关韵律信息包括：韵律词、韵律短语的位置信息。

构建韵律预测模块20：包括离线训练部分和在线合成部分，用于接收所述附着韵律信息的声韵母音节序列串，根据韵律信息利用统计模型预测出与其对应的目标韵律值，同时也计算音节的音长、基频曲线和平均能量，并将其附着在音节上。

构建波形拼接模块30：用于接收所述附着目标韵律值的声韵母音节序列串，根据所述音节序列携带的韵律信息从所述压缩语音库中选取与目标韵律值最为接近的样本序号，并将其拼接在一起，在拼接处作平滑处理；

构建语音输出模块3：用于播放拼接成的数字语音信号，语音输出模块输出的韵律曲线接近于自然的语音。

图2是本发明基于音节韵律约束关系的汉语语音合成系统的韵律处理模块的在线合成部分示意图，图中：

本发明韵律曲线产生算法离线训练部分只在该语音合成系统离线工作状态时使用，仅用于生成该合成系统在线合成部分工作时需要韵律库和各种回归树。

所述韵律预测模块20是本系统中最重要的一个模块，由韵律库40和回归树50两部分组成。

所述构建韵律库40中，首先利用语音识别工具包HTK对录制好的原始语音库进行自动切分，以得到每一个语音片断在原始语句中的边界位置信息，同时采用基频检测工具标记出语音波形的峰值点位置信息，并手工对所述自动获得的边界位置及峰值点位置进行校对；这样，就得到了准确的音节边界信息和基频信息。而后，遍历语音库中每一个音节，并将其上下文信息、基频特征参数信息、基频曲线完整形状信息、索引位置信息存在一个单独的文件中，这个文件即称为韵律库。其中，上下文信息包括：当前音节ID，当前调形，前音节韵母类型及ID，后音节声母类型及ID，前音节调形，后音节调形，低层次韵律层次相对高层次韵律层次的相对位置(韵律层次包括韵律词、韵律短语、语句，相对位置包括在层次的首、中、尾)，所属音节的韵律词、韵律短语长度(以音节个数为单位)。基频特征参数包括：一个音节内部基频曲线的均值、最大值、最小值、初值、终值、初始斜率和终止斜率。基频曲线完整形状信息通过从语料库中每个音节的基频曲线均匀提取十个点来描述完整基频曲线信息。索引位置信息包括：当前音节所在句子的序号，当前音节在本句中的位置。

如附图4所示，本发明基于音节韵律约束关系的汉语语音合成方法的在线合成部分中回归树构建示意图；

所述构建回归树50中，回归树构建共分为以下几个步骤：

构建边界信息和平均信息100：首先将所有基频特征参数分为两类，边界信息和平均信息100；

所述边界基频特征参数构建回归树110：对所述边界信息分别构建回归树，通过这些树反映在不同上下文环境下相邻音节的韵律特征对当前音节边界基频特征参数的影响；

为边界基频特征参数构建回归树110：边界基频特征参数：包括基频初始值、终止值、初始斜率和终止斜率，这些特征参数受相邻音节基频曲线形状的影响较大。

为平均基频特征参数构建回归树120：平均基频特征参数120：包括基频均值、最大值和最小值，这些特征参数受相邻音节基频曲线形状较小，但受上下文环境影响较大。

对每一个平均基频特征参数构建一棵回归树。树的输入是上下文信息，输出是平均基频特征参数。对于每一个输出参数，均使用同样的上下文信息。为了训练取得较高的精度，这里使用的上下文信息同构建韵律库过程中提取的上下文信息略有不同，共包括：当前音节声调、前音节声调、后音节声调、当前声母ID、当前韵母ID、当前音节在词的位置、在短语中的位置、当前音节之前的停顿类型、之后的停顿类型、当前音节距离短语末尾的距离、当前音节距离句子末尾的距离。建树过程中，遍历整个语料库，对每一个音节提取这些上下文信息和平均基频特征参数信息。每一个音节构成一个输入输出对，遍历整个语料库后会得到n个输入输出对，将这n个输入输出对送入回归树训练工具wagon，即可自动产生回归树。这些回归树反映了上下文环境对当前音节平均基频特征参数的影响。

所述构建基频特征参数回归树：为每一个基频特征参数构建一个回归树，回归树既描述上下文信息对特征参数的影响，又描述相邻音节各特征参数之间的相互影响。

所述平均基频特征参数构建回归树120：通过这些树反映上下文环境对当前音节平均基频特征参数的影响，对每一个平均基频特征参数构建一棵回归树。树的输入除了上下文信息外，还包括一些相邻音节的韵律信息。这些韵律信息正反映了相邻音节基频曲线特征对当前音节基频特征参数的影响。为了提高训练的精度，在对不同的边界基频特征参数进行训练时，使用不同的辅助韵律信息参与训练。当训练基频初始值和初始斜率的回归树时，所包含的韵律信息包括前一音节末尾基频值、末尾基频斜率、当前音节前面的静音段、当前音节声母的长度，这些信息描述了前一音节对当前音节在韵律表现上的影响；当训练基频终止值和终止斜率时，所包含的韵律信息包括后一音节的初始基频值、初始基频斜率、当前音节之后的静音段、下一音节声母的长度，这些信息描述了后一音节对当前音节在韵律表现上的影响。类似于步骤110，每一个音节构成一个输入输出对，遍历整个语料库后会得到n个输入输出对，将这n个输入输出对送入回归树训练工具wagon，即可自动产生回归树。这些回归树反映了在不同上下文环境下相邻音节的韵律特征对当前音节边界基频特征参数的影响。

如图3，本发明基于音节韵律约束关系的汉语语音合成方法的的韵律处理模块的离线训练部分示意图；

在附图3中，韵律曲线生成算法的离线训练部分包括：初次选择60、二次选择70和曲线生成80三部分组成。

所述初次选择60中，根据待合成音节与韵律库中所有候选音节在上下文环境上的差异，并且设置一个合适的初选阈值，从韵律库中选出n个上下文环境最相似的基频模板；初次选择的依据是文本信息的相似度。也即是说，搜索在步骤40中建立的韵律库，比较当前待合成音节的上下文信息与韵律库中所有候选模板的上下文信息的差异，选出n(一般定义n＝10)个上下文信息最相似的模板作为本步骤的输出。上下文差异的定义如下：

CID = Σ_{i = 1}^{n} W_{i} * D_{i}

其中CID表示待合成音节与候选模板间总的上下文信息之间的差异；D_i表示待合成音节与候选模板间在第i中上下文信息上的差异，而W_i则表示第i中上下文信息差异在总的差异之中占的权重。

二次选择70中，首先分别定义拼接代价和目标代价，利用维特比(viterbi)算法在上一步产生的候选模板序列中挑选出代价加权和最小的序列，将其音节序号作为输出；二次选择的目的是找出最优的模板序列，在这里拼接代价和目标代价的定义被提出用来知道最优路径的选择。拼接代价的定义是与基频特征参数中的边界信息相关的，每一种边界信息对应一种拼接代价。拼接代价的具体定义如下：首先得到当前待合成音节的上下文信息和其他所需要的韵律信息(包括前一音节的基频终值、终止斜率、当前音节之前的静音长度和当前音节的声母长度)，结合步骤50中训练产生的回归树，可以预测出当前音节的基频初值和基频初始斜率，而当前候选音节真正的基频初值和基频初始斜率与该预测值的差即作为一种拼接代价。同样，使用当前待合成音节的上下文信息和与下一音节相关的韵律信息(包括下一音节的基频初值、初始斜率、当前音节之后的静音长度和下一音节的声母长度)，再结合步骤50中训练产生的回归树，可以预测出当前音节的基频终值和终止斜率。当前音节真正的基频终值和基频终止斜率与该预测值的差即作为另一种拼接代价。拼接代价总的公式为：

concatenation_cost＝w₁*DF0_S+w₂*DF0_E+w₃*DF0_SD+w₄*DF0_ED

其中，DF0各项表示所预测基频特征值与真实基频特征值的差距，DF0_S，DF0_E，DF0_SD和DF0_ED分别表示基频初值、基频终值、基频初始斜率以及基频终止斜率的差距。W_i则表示相应基频特征的权值。

另一方面，目标代价的定义是与基频特征参数中的平均信息相关的，每一种平均信息对应一种目标代价。目标代价的具体定义如下：首先得到当前待合成音节的上下文信息，将其作为输入，输入到步骤50中训练产生的回归树，则可以预测出当前音节的基频均值、最大值、最小值。而当前候选音节真正的基频均值、最大值、最小值与这些预测值的差即作为目标代价的值。目标代价总的公式为：

overall_cost＝w₅*DF0_M+w₆*DF0_B+w₇*DF0_T

其中，DF0各项表示所预测基频特征值与真实基频特征值的差距，DF0_M，DF0_B和DF0_T分别表示基频均值、基频最小值以及基频最大值的差距。W_i则表示相应基频特征的权值。

拼接代价和目标代价的加权和即为总的代价值，其公式为

COST＝concatenation_cost+overall_cost

＝w₁*DF0_S+w₂*DF0_E+w₃*DF0_SD+w₄*DF0_ED

+w₅*DF0_M+w₆*DF0_T+w₇*DF0_B

通过图5可以直观的了解计算代价的详细步骤，根据分类和回归树(CART)模型，由当前音节上下文信息、当前音节声母长度、当前音节之前的静音长度以及相邻前一音节的基频曲线预测当前音节的基频初值和基频初始斜率；由当前音节上下文信息、当前音节之后的静音长度、后一音节的声母长度、相邻后一音节基频曲线预测当前音节的基频终值和基频终止斜率。这样，我们就预测得到了当前音节的基频初值、终值、初始斜率和终止斜率，与这些预测的值与当前音节的真实值相比计算其差距，这即是拼接代价的值。

所述根据边界信息定义拼接代价：以基频初值为例，拼接代价的定义方式如下：将前一音节的信息和上下文信息作为回归树的输入预测当前音节的基频初值，而当前候选音节的实际基频初值与预测出的基频初值的差异即做为拼接代价。

所述根据平均信息定义目标代价：以基频均值为例，将上下文信息作为回归树的输入预测当前音节的基频均值，而实际候选音节的基频均值与该预测值的差异即作为目标代价。

有了上述总代价值的公式之后，在整个句子上使用维特比(viterbi)算法，可以挑选出令代价和最小的最优的状态序列。

图6是本发明基于音节韵律约束关系的汉语语音合成方法的搜索最优路径示意图。如图6，直观的描述了选取最优路径的过程，在图中：

虚线------表示所有可能路径；

实线

表示最优路径；

每一个圆圈代表一个候选模板，每一个待合成音节有数个候选模板可供选择。对于每一个模板而言，可以计算其目标代价；对于两个相邻音节的模板而言，可以计算其拼接代价。最终，维特比算法会搜算一条最优路径，使得该条路径上计算的目标代价和拼接代价和最小。

曲线生成80中，根据步骤70已得到的最优状态序列，在韵律库中搜索得到其对应的基频曲线完整信息，依照输出的音节序号在韵律库中搜索，得到每一个音节的韵律曲线，并将其按顺序拼接起来，为整个句子产生完整的韵律基频曲线。至此韵律模块工作结束。

上述实施例为本发明的较佳实施例，本发明的应用不仅限于电脑终端，还可应用到多种手持式移动设备或其它形式的移动设备。根据本发明的主要构思，本领域普通技术人员均可以产生多种相类似的或等价的应用，为此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1、一种基于音节韵律约束关系的汉语语音合成系统，利用各种电脑终端及数字移动设备，将系统接收的或输入的任意文字串转换成语音输出，其特征在于：包括文本输入模块、韵律处理模块、语音输出模块，文本输入模块、韵律处理模块、语音输出模块三者依次连接，文本输入模块将接收的或输入的任意文字串转换成音节序列串，韵律处理模块处理当前待合成音节的基频曲线、处理相邻音节的基频曲线对当前音节基频曲线的影响和限制；韵律处理模块的输出端与语音输出模块电连接，语音输出模块用于播放拼接成的数字语音信号，语音输出模块输出的韵律曲线接近于自然语音。

2、根据权利要求1所述的基于音节韵律约束关系的汉语语音合成系统，其特征在于：韵律处理模块包括：文本分析模块、韵律预测模块、波形拼接模块；文本输入模块、文本分析模块、韵律预测模块与波形拼接模块顺序电连接。

3、一种基于音节韵律约束关系的汉语语音合成方法，其特征在于：合成方法包括：

4、根据权利要求3所述的基于音节韵律约束关系的汉语语音合成方法，其特征在于，所述韵律预测模块包括：

基于韵律曲线产生算法构建离线训练部分包括：韵律库构建、回归树构建；

基于韵律曲线产生算法构建在线合成部分包括：韵律初次选择、韵律二次选择、韵律曲线生成。

5、根据权利要求3所述的基于音节韵律约束关系的汉语语音合成方法，其特征在于，所述韵律预测模块的相关韵律信息主要包括：韵律词、韵律短语的位置信息。

6、根据权利要求3或4所述的基于音节韵律约束关系的汉语语音合成方法，其特征在于，所述构建韵律预测模块的韵律曲线产生算法离线训练部分包括：

构建韵律库：遍历语料库中每一个音节，并将其上下文信息、基频特征参数信息、基频曲线完整形状信息、索引位置信息存在一个单独的文件中，称为韵律库；

构建基频特征参数回归树：为每一个基频特征参数构建一个回归树，回归树既描述上下文信息对特征参数的影响，又描述相邻音节各特征参数之间的相互影响。

7、根据权利要求6所述的基于音节韵律约束关系的汉语语音合成方法，其特征在于，所述构建韵律库，其遍历语料库时涉及的特征包括：

上下文信息包括：当前音节ID，当前调形，前音节韵母类型及前音节ID，后音节声母类型及前音节ID，前音节调形，后音节调形，低层次韵律层次相对高层次韵律层次的相对位置，所属音节的韵律词、韵律短语长度(以音节个数为单位)，所属音节的前后静音段的长度；韵律词、韵律短语、语句，相对位置包括在层次的首、中、尾。

基频特征参数包括：一个音节内部基频曲线的均值、最大值、最小值、初值、终值、初始斜率和终止斜率；

基频曲线完整形状信息包括：从语料库中基频曲线均匀提取十个点来描述完整基频曲线信息；

索引位置信息包括：当前音节所在句子的序号，当前音节在本句中的位置。

8、根据权利要求7所述的基于音节韵律约束关系的汉语语音合成方法，其特征在于，所述韵律层次包括：韵律词、韵律短语、语句，相对位置包括在层次的首、中、尾。

9、根据权利要求6所述的基于音节韵律约束关系的汉语语音合成系方法，其特征在于，所述构建基频特征参数回归树，为每一个基频特征参数构建回归树的具体步骤如下：

将所提取的特征参数分为两类，一类是受相邻音节基频形状影响较大的边界信息包括：基频初始值、终止值、初始斜率、终止斜率；另一类是受前后音节影响较小的平均信息包括：基频均值、最大值、最小值；

对所述边界信息分别构建回归树，通过这些树反映在不同上下文环境下相邻音节的韵律特征对当前音节边界基频特征参数的影响；

对所述平均信息分别构建回归树，通过这些树反映上下文环境对当前音节平均基频特征参数的影响。

10、根据权利要求3所述的基于音节韵律约束关系的汉语语音合成系统，其特征在于，所述构建韵律预测模块的在线合成部分包括：

初次选择：根据待合成音节与韵律库中所有候选音节在上下文环境上的差异，并且设置一个合适的初选阈值，从韵律库中选出n个上下文环境最相似的基频模板；

二次选择：首先分别定义拼接代价和目标代价，利用维特比算法在上一步产生的候选模板序列中挑选出代价加权和最小的序列，将其音节序号作为输出；

生成基频曲线：依照输出的音节序号在韵律库中搜索，得到每一个音节的韵律曲线，并将每一个音节的韵律曲线按顺序拼接起来，为整个句子产生完整的基频曲线。

11、根据权利要求10所述的基于音节韵律约束关系的汉语语音合成系统，其特征在于，所述进行第二次选择包括：

根据边界信息定义拼接代价；根据平均信息定义目标代价。