CN101650942A

CN101650942A - 基于韵律短语的韵律结构生成方法

Info

Publication number: CN101650942A
Application number: CN200910091510A
Authority: CN
Inventors: 董远; 周涛
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2009-08-26
Filing date: 2009-08-26
Publication date: 2010-02-17
Anticipated expiration: 2029-08-26
Also published as: CN101650942B

Abstract

本发明提出了一种全新的基于韵律短语的分成韵律结构边界生成方法。该方法采用机器学习与规则相结合的方法，大大提高了中文文本韵律结构边界预测的准确率。在输入文件是已经过分词和词性标注的前提下，首先识别韵律短语边界，然后在此基础上结合韵律短语边界信息生成韵律词边界，最后人为地加入一些规则对系统进行整体的修正。在韵律短语和韵律词边界的判断时，分别设计选取特征，建立特征模版，并利用最大熵算法建立韵律短语模型和韵律词模型，分别用于两阶段的韵律边界识别。同时针对最大熵模型在识别时遇到的错误，利用错误驱动的规则学习方法，选取最优规则，进一步提高其准确率。基于上述的方法，本发明构思了一种基于韵律短语的分层韵律结构生成方法，这种方法可以有效提高韵律结构预测的准确性，提高语音合成的自然度。

Description

基于韵律短语的韵律结构生成方法

技术领域

本发明属于计算机人机交流领域，设计了以韵律短语为基础的多层韵律结构生成方法。本发明在韵律边界结构的预测中，引入了机器学习的方法，并且对韵律短语和韵律词进行分层处理。在系统分析和归纳的前提下，有针对性地设计韵律短语和韵律词的特征模版，并采用最大熵算法等机器学习的方法，设计了一种能够有效、准确生成韵律边界信息的体系，适用于语音合成等实际应用中。

背景技术

随着信息技术、语言技术以及计算机技术的发展，语音合成技术已经越来越多的受到人们的关注。可以通过输入文本，让计算机像人一样说出具有高自然度和智能度的语音。这项技术已被广泛应用于电信服务，嵌入式移动设备等各方面。

目前合成语音已经具备了很高的可懂度，但是其自然度还是不尽如人意。一方面音质有差距，由于语音合成通常需要从语音中提取参数，然后对这些参数作适当的变换再返回合成语音，这个过程往往会带来语音音质的损失；另一方面就是韵律的差距，现在的语音合成系统大多只能生成固定语调模式的语句，由于对语句中的停顿、轻重、长短、速度、升降调等的不当处理，使合成语音听起来枯燥、呆板。如何自动生成高质量的韵律信息越来越受到研究者的关注。

韵律生成的一个主要障碍在于如何从文本中自动确定韵律的层级，而韵律的层级划分现在并没有一个统一的标准，一般来说，一个句子的韵律结构可划分为三层：韵律词、韵律短语、语调短语。其中韵律词可以看作是基本节奏单元，主要是双音节和三音节组块，相当于韵律音系学上的标准音步和加强音步(超音步)；而韵律短语是中等的节奏组块，可以看作一个气群，研究表明每个气群中的音节从左向右存在调域收缩的规律；语调短语则是由若干韵律短语组成，虽然语调短语末尾的音节调域也要发生变化，但是它更侧重于决定句子的句调。

近年来，越来越多的研究都集中在基于机器学习的方法来预测韵律结构，如Classification And Regression Tree(CART)和决策树(Decision Tree)的方法，这些方法都取得了一定的效果。但是单一的CART或者决策树的方法都没有考虑韵律词边界间的依赖关

———————

收稿日期：

基金项目：受教育部科学技术研究重点项目(108012)资助

作者简介：

系，并且往往受到数据稀疏等问题的困扰。隐马模型(HMM，Hidden Markov Model)也被应用于预测韵律结构，并且使预测的正确率有了较大的提高。但是HMM由于其输出的独立性假设，导致其不能考虑上下文的特征，限制了特征的选取。

本发明通过分析大规模语料库中韵律结构特征，制订了一种基于韵律短语的韵律结构生成方法。本发明采用分层结构，先对语料中的韵律短语边界进行判断，再生成韵律词边界。在每一层次的处理中，都引入了最大熵模型和错误驱动的机器学习的方法，并在最后设定相应的规则进行修正，以使生成的韵律结构边界的准确率最高。

发明的内容

为了有效并且正确的生成韵律结构边界，本发明通过对大规模语料的研究，充分调查了韵律短语对韵律结构的重要影响，提出了一种基于韵律短语的韵律结构生成方法。语音学和语言学的研究表明，语音材料在韵律上具有树状层次结构，韵律层次主要分为三个基本层次：韵律词、韵律短语和语调短语。韵律词也叫音素词，是发生变调等音素变化的最小辖域，相当于韵律结构中的最小发音单位。韵律短语是介于韵律词和语调短语之间的韵律单位，一般由一个或几个韵律词组成，跨度为7个音节左右，最多不超过9个。语法短语相当于语法上较短的句子或较长的短语，是句子层面上的音系规则作用的辖域，一般都以标点符号予以区分。实验表明，这三个层次中，韵律短语对韵律结构的生成影响最大，具有决定性的作用。基于这种情况，本发明采取分层结构生成韵律边界信息。整个系统的输入文本为已经经过分词和词性标注的xml文件。第一阶段分词边界的基础上，生成韵律短语边界信息，并且予以标注；然后第二阶段在分词和韵律短语信息的基础上，判断韵律词边界；最后，设计一系列具有针对性的规则，对结果中的一些常见错误进行修正，进一步提高韵律结构预测的准确率。

基于上面提高的分层结构，在第一阶段生成韵律短语边界信息与第二阶段生成韵律词边界信息的处理中，本方法引入了基于最大熵模型的机器学习方法和错误驱动的规则学习方法。本发明以2000年人民日报预料为基础，综合各种句子类型，选取了其中最具代表性的一万句作为训练集，对其分词边界(LW)，词性标注(POS)，韵律词边界(PW)以及韵律短语边界(PP)进行人工标注。利用最大熵算法分别对LW，PW和PP这三种类型进行建模，产生最大熵模型以用于韵律短语与韵律词边界的判定。同时，对最大熵模型的判别结果进行测试，对错误情况进行分析，通过错误驱动的规则学习方法，制定最优规则，进一步提高韵律短语和韵律词边界的识别准确率。第三阶段对以上两阶段的结果进行补充和修正，找出上面两个阶段不能处理的，或者是经过处理还是有明显错误的韵律边界情况，人为的制定一部分规则进行修正，以进一步提高韵律结构预测的准确率。

附图说明

图1基于韵律短语的韵律结构生成体系流程概要图

图2韵律短语和韵律词的最大熵模型训练流程图

图3错误驱动的规则学习算法流程图和算法实例图

图4错误驱动的规则学习模块的训练和测试结构图

图5基于韵律短语的韵律结构生成体系总体框架图

具体实施方式

本发明提出的基于韵律短语的韵律结构生成方法包括韵律短语边界预测，韵律词边界预测和规则修正三大部分，构建了一个基于韵律短语的三层韵律结构生成体系。在分词边界和词性标注的基础上，首先给出韵律短语边界信息，然后在分词边界，词性标注以及韵律短语边界信息的基础上，进一步给出韵律词边界信息。在上述两种边界类型的判定是，系统首先利用最大熵模型进行判断，然后针对结果中的一些错误，利用错误驱动的规则学习方法进行机器学习，产生一定数量的最优规则，对结果做进一步的优化。最后在第三阶段，针对以上两个阶段没有判断的，或者判断错误的韵律结构边界进行修正，从整体上对系统做进一步的完善。

下面详细介绍本发明的具体实施方法。

一、韵律短语边界识别

(一)韵律短语边界信息

韵律结构是中文语音合成系统中决定合成语音自然度的最主要因素。其中，韵律短语又是决定韵律结构的最重要部分。韵律短语作为中等韵律节奏组块，是语言表达时语义关系紧密的一组词语，因此在韵律短语一级的处理对语音合成自然度的提高起着重要作用。

如果仅根据分词信息进行韵律处理，由于单字词较多，合成语音的效果并不是很理想。为了模拟自然语音，就要将一些词语适当连读，将句子切分为韵律短语，从而在一定程度上体现语言的节奏感。在自然语言流中，发音人经常会根据予以表达的需要在句子中插入不同等级的停顿，关系紧密的一组相邻词语会被连续读出，这个就是本发明中所定义的韵律短语。从人工标注的训练语料也可以看出，韵律短语的音节长度一般在7个左右。在声学方面，韵律短语主要表现为短语整体音高的下降倾向，同时短语内各个韵律词间通过连接的方式来表示待续关系。韵律结构与基于组块的依存语法结构存在较紧密的关系，通过实验也可以得到同样的结果。换句话说，韵律短语应该由一个或者多个组块构成，韵律短语间的停顿等级应为句内的次长停顿等级。

正是由于这些原因，本发明设计的韵律结构生成体系都是在韵律短语的基础上构建的。先对已经有分词边界和词性标注信息的文本进行韵律短语边界的判定，然后再韵律短语边界信息的基础上，在给出其韵律词边界。在这两个部分的处理中，都用到了最大熵模型和错误驱动的规则学习方法。

本发明设计的基于韵律短语的韵律结构生成体系流程概要图如附图1所示。

(二)最大熵模型

(1)最大熵算法描述

假设对于训练数据有一个样本集合为{(x₁，y₂)，(x₁，y₂)，…，(x_N，y_N)}，每一个x_i(1≤i≤N)表示一个上下文，y_i(1≤i≤N)表示对应的结果。对于这个训练样本，我们得到(x，y)的经验分布，定义如下：

\tilde{p} (x, y) = \frac{1}{N} \times numberoftimesthat (x, y) occur \sin thesample

要对上面大小为N的训练样本集合建立统计模型，可利用的是样本集合的统计数据。模型中特征函数的引入，使模型依赖于上下文的信息。假设我们给出n个特征函数f_i，对每个特征进行条件限制：期望概率值等于经验概率值，如下：

p (f_{i}) = \tilde{p} (f_{i}), i &Element; {1,2, . . ., n}

其中，期望值和经验值分别为：

p (f) &equiv; \underset{x, y}{Σ} \tilde{p} (x) p (y | x) f (x, y) \tilde{p} (f) &equiv; \underset{x, y}{Σ} \tilde{p} (x, y) f (x, y)

要求得最优的p(y|x)值，我们要得到一个最为一致(uniform)分布的模型，条件熵作为衡量一致(uniform)的标准，

H (p) &equiv; - \underset{x, y}{Σ} \tilde{p} (x) p (y | x) \log p (y | x)

求在限制条件下具有最大熵值的模型，C表示所有可能满足限制条件的概率分布模型的集合。

p^{*} = \underset{p &Element; C}{\arg \max} H (p)

C &equiv; {p &Element; P | p (f_{i}) = \tilde{p} (f_{i}) fori &Element; {1,2, \cdot \cdot \cdot, n}}

为了求一定条件下H(p)的最大值，为每一个特征引入一个参数，利用拉格朗日函数求解，进而取得熵最大时候的最优值。所求的最大熵模型如下所示：

p^{*} (y | x) = \frac{1}{Z_{λ} (x)} \exp (\underset{i}{Σ} λ_{i} f_{i} (x, y))

其中Z_λ(x)是一个归一化的常量，λ_i是训练集通过GIS算法计算得到的拉格朗日参数。

在解码的时候可以采用维特比解码进行处理。

在韵律短语边界预测中，每一个分词边界都被认为是一个潜在的韵律短语边界。给出分词边界的上下文信息，最大熵模型可以计算出该边界作为韵律短语边界的概率。如果概率达到一定值，则该边界被认为是一个韵律短语边界。所以，最大熵模型可以被用于韵律短语边界的预测。

韵律短语的最大熵模型训练流程图如附图2(a)所示。

(2)特征的设计

本发明采用一种半自动的特征选择方法。首先，手动设计一个特征模板，在上面定义所有的候选模板。然后每次选择其中的一个或者几个特征进行实验，选取其中效果最明显的，即包含韵律边界信息量最大的特征。同时，因为本系统涉及的输入文件都是具有分词边界信息和词性标注的文本，所以以下的所有模版设计都是在分词边界的基础上进行的。

模板的设计是为了获取尽可能多的非标准词信息，针对具体的应用，本发明设计的特征分为公有特征和私有特征。公有特征是指对于韵律短语和韵律词建模都适用的特征，而私有特征则是分别为韵律短语和韵律词所设计的。如表1所示，公有特征主要包括：当前语法词(Word)，当前语法词长度(WordLength)，当前语法词词性标注(POS)，与前一个标点符号的距离(BackDist)以及与后一个标点符号的距离(ForwardDist)等。这些特征中，当前语法词的长度和当前语法词的词性标注这两个特征最为重要，对韵律短语边界的判定具有关键性的作用。私有特征中，本发明针对韵律短语，设计了与前一个语法词的距离(LastLWDist)，与后一个语法词的距离(NextLWDist)等特征。

特征类型	具体含义
特征类型	具体含义	Word	语法词
WordLength	语法词长度	Word	语法词
WordLength	语法词长度	POS	语法词的词性标注
BackDist	与前一个标点符号的距离	POS	语法词的词性标注
BackDist	与前一个标点符号的距离	ForwardDist	与后一个标点符号的距离

表1公有特征设计模板

(3)特征的格式

在公有特征和私有特征的基础上，本发明还考虑对这些特征进行拓展。很多时候，相邻的同一个特征的组合，会对韵律边界的判定提供很大的帮助。本发明主要针对Word和POS这两个特征进行拓展，以得到一些新的特征类型，这两个特征类型设计的拓展窗口长度都为2，如表2所示。

表2特征的拓展

同时，本发明还考虑组合2种不同类别的特征已得到新的特征类型，如下表所示。

符号表示	具体含义
符号表示	具体含义	Word-2POS-2	前面第二个语法词以及词性标注
Word-1POS-1	前1个语法词以及词性标注	Word-2POS-2	前面第二个语法词以及词性标注
Word-1POS-1	前1个语法词以及词性标注	WordOPOSO	当前语法词以及词性标注
Word+1POS+1	后1个语法词以及词性标注	WordOPOSO	当前语法词以及词性标注
Word+1POS+1	后1个语法词以及词性标注	Word+2POS+2	后面第二个语法词以及词性标注

表3特征的组合

综上所述，本发明一共为韵律短语的最大熵模型训练设计了36个特征，并利用以上特征对韵律短语类型进行最大熵建模以用于该阶段的韵律短语边界生成。

(三)错误驱动的规则学习

由于韵律结构中的一些固定模式，部分韵律短语边界的判断存在着一些明显的错误，所以在利用最大熵模型进行韵律短语边界的判定后，加入错误驱动的规则学习模块，通过规则对一些错误进行纠正，进一步提高韵律短语边界预测的准确性。

(1)错误驱动的规则学习模块的设计

错误驱动的规则学习的方法是一种自动机器学习方法，通过适当的规则学习，可以产生一系列最优的规则，以应用于对各种明显的、固定模式的错误判断。该方法从某一初始状态开始，通过一系列设计好的规则，一步一步的转变状态。每应用一条规则就对转变后的状态进行一次判断，与应用这条规则前的结果相比较，如果结果更好，则说明该条规则是合适的；如果结果比原来差，就舍弃该条规则。把所有的合适的规则都列出来，并测试每条规则对真实文本的非标准词识别的正确率提高的多少，最后根据实际需求和运行效率，选取其中部分最优规则。

错误驱动的规则学习算法流程图和算法实例图如附图3(a)和附图3(b)所示。

在训练部分，首先对相关语料做预处理，提取出带有韵律短语信息的特征，然后对这些特征的分析，设计一系列相应的规则模板。对不同的特征，用相应的模板进行规则学习以得出一系列规则。然后在第二部分取适当的测试集，对训练得到的这些规则进行测试，从中提取出符合要求数量的最优规则。

错误驱动的规则学习模块的训练和测试结构图如附图4所示。

(2)特征的设计

在特征的选取上，本发明在这一阶段依然采用与上边最大熵模型训练相同的特征。考虑到这些特征在实际应用中对韵律短语边界识别的重要性的不同，同时也为了提高规则对韵律短语边界的实际识别能力，在这些特征的基础上，对该阶段的特征进行适当拓展，如下表所示，设计并选取了其中30种含信息量最大的的特征模板。

表4特征的设计

为了提高规则的高效性和拓展性，每一个规则都是由2-3个特征组合而成，并且都具有相同的格式。例如：

Word(Y，0)&WordLength(Y，-1)：A-＞B

“Y”表示特征值

“0”和“-1”表示拓展特征的相关位置(这里设计每一个特征的拓展范围是{-3，3})

“A”和“B”分别表示原先的判断结果与经过规则以后的判断结果

“&”用于连接两种或两种以上不同的特征条件

“：”用于区分特征条件与转换结果

通过错误驱动的规则学习，针对实际预料，分析其中的文本特征和韵律结构，归纳最大熵模型未能处理的和处理错误的一些情况，构造韵律短语边界判定的最优规则。

二、韵律词边界识别

(一)韵律词边界信息

基韵律词也叫音素词，是发生变调等音素变化的最小辖域，相当于一个音步。韵律词的基本特点是：由一个音步构成，一般为三个音节以下的语法词或词组，跨度为1-3个音节，极大多数为2-3个音节，少数为单音节。单音节的韵律词一般由单音节词延长为一个音步构成，多数为功能词，例如连词、介词等，也有少数是动词、名词，并且具有类似于语法词的连调模式和词重音模式，内部不出现节奏边界。

本发明设计的韵律词边界预测是在韵律短语边界预测的基础上进行了，所以在处理的时候不仅能用分词边界信息和词性标注信息，还可以用到前面已经生成的韵律短语边界信息。无论是在最大熵建模还是错误驱动的规则学习阶段，都可以加入具有针对性的特征模版，以达到更高的准确率。

(二)最大熵模型

在韵律词的最大熵模型训练的特征设计中，除了上面所提到的公有特征外，还针对韵律词特别设计了一些私有特征。这些特征主要是针对上一阶段得到的韵律短语边界信息展开的，主要包括与前一个韵律短语边界距离(LastPPDist)和与后一个韵律短语边界距离(NextPPDist)等。

特征拓展和组合方式也与上面韵律短语的情况相同。通过实验，本发明一共为韵律词的最大熵模型训练设计了32个特征。利用以上设计的32种特征模板，对韵律词类型进行最大熵建模以用于该阶段的韵律词边界判定。

韵律词的最大熵模型训练流程图如附图2(b)所示。

(三)错误驱动的规则学习

韵律词边界识别阶段的错误驱动的规则学习方法与上面的韵律短语阶段的方法完全相同，一共设计了28种特征进行机器学习并得出最优规则。

三、规则处理

本发明在第三阶段人为的引入一些简单规则，对前两阶段没能处理和处理错误的一些边界进行修正。通过最大熵模型和错误驱动的规则学习方法可以有效地对大部分韵律短语边界和韵律词边界做出识别，但是由于一些语言结构的固定模式，以及人们发音的特殊习惯，总会有一些机器学习不能处理的明显错误情况存在。并且有些时候这些韵律边界对合成语音的自然度还有不小的影响，如果不及时修正，就会对合成语音的实际效果产生很大的影响。所以，在这个阶段，本发明人为的构建了一系列的简单规则，对这些明显的、对语音合成效果影响不小的韵律边界进行修正。

该阶段所设计的规则主要是对前两阶段的判断结果进行修正，设计的规则都是一一对应的简单规则。这些规则都是按照“条件-结果”的结构设计的，规则中的条件与经过前两阶段判断的得到的韵律边界情况进行比较，这里的韵律边界包括韵律短语边界，韵律词边界和语法词边界。如果“条件”相同而“结果”不相同，则按照规则中设计的结果进行修正。例如：

“Word-1＝地”＝＝＞Boundary＝LW

本发明提出的基于韵律短语的分层韵律结构生成体系，采用了机器学习与规则处理相结合的方法，可以对带有分词边界和词性标注的中文输入文本的韵律边界做出有效的识别。本发明在中文语音合成领域有重要的应用，可以提高中文语音合成系统生成语音的自然度，进而提高合成系统的整体效果。另外，该方法不仅仅局限于软件系统，也可以集成到嵌入式或者其他移动设备中，为各种终端提供实时服务。

本发明的总体系统框架图如附图5所示。

对于本领域的技术人员来说，很明显，本发明可以做出各种改进和扩展，因此，只要他们落入所附权力要求书及其等同范围内，本发明就涵盖这些改进及扩展。

Claims

1.一种用于生成中文韵律结构边界的方法，对已经过分词和词性标注的真实文本，给出其韵律短语边界与韵律词边界，以提高语音合成的自然度，该方法包括：

采用基于韵律短语的分层韵律结构生成方法，第一阶段先对韵律短语的边界作出判断；第二阶段在此基础之上，结合韵律短语边界信息，生成韵律词边界；第三阶段总结前两阶段中的错误和不足，整体上对系统进行修正。

2.按照权利要求1的方法，其中所述生成韵律短语边界的方法包括下述步骤：

最大熵模型的方法：通过分析语料中各种句子的韵律短语结构，同时结合最大熵算法的特点，为韵律短语(PP)设计含韵律短语边界信息量最大的特征，并对各种特征进行拓展与组合，设计对韵律短语最具决定性的特征模版，用于建立韵律短语的最大熵模型，并用于韵律短语边界的预测；

错误驱动的规则学习方法：通过分析最大熵模型在预测韵律短语边界中的一些错误和不足，有针对性地设计特征，并对各种特征进行拓展与组合，运用错误驱动的规则学习方法生成一定数量的最优规则，进一步提高韵律短语边界预测的准确率。

3.按照权利要求1的方法，其中所述生成韵律词边界的方法包括下述步骤：

最大熵模型的方法：通过分析语料中各种句子的韵律词结构，结合最大熵算法的特点，同时结合上一阶段已经得到韵律短语边界信息，为韵律词(PW)设计含韵律词边界信息量最大的特征，并对各种特征进行拓展与组合，设计对韵律词最具决定性的特征模版，用于建立韵律词的最大熵模型，并用于韵律词边界的预测；

错误驱动的规则学习方法：通过分析最大熵模型在预测韵律词边界中的一些错误和不足，有针对性地设计特征，并对各种特征进行拓展与组合，运用错误驱动的规则学习方法生成一定数量的最优规则，进一步提高韵律词边界预测的准确率。

4.按照权利要求1的方法，其中所述的分层韵律结构生成方法，先生成韵律短语边界，然后在此基础上判断韵律词边界，最后通过一系列规则对韵律短语边界和韵律词边界进行修正。