CN1956057A

CN1956057A - 一种基于决策树的语音时长预测装置及方法

Info

Publication number: CN1956057A
Application number: CNA2005101170034A
Authority: CN
Inventors: 郭庆; 片江伸之
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-10-28
Filing date: 2005-10-28
Publication date: 2007-05-02
Anticipated expiration: 2025-10-28
Also published as: CN1956057B

Abstract

本发明为一种基于决策树的语音时长预测装置及方法。包括：输入部，用于输入语言、语音学标注序列；决策树生成部，生成用于预测语音单位时长的决策树；语音单位时长预测部，根据所述的决策树对每个语音单位设定固定时长；并以与所述语音单位相邻的音素上下文、语音单位的韵律边界等级、语音单位的重音等级中的至少一个为基准设定改变语音单位固定时长的变更量；以所述的固定时长和所述固定时长的变更量为基准对输入的语言、语音学标注序列的各个相应的语音单位进行改变；输出部，用于输出语音单位时长预测结果序列。从而能够在语音合成时对语音单位时长进行预测。

Description

一种基于决策树的语音时长预测装置及方法

技术领域

本发明涉及语音合成系统的语音时长预测技术，具体的讲是一种基于决策树的语音时长预测装置及方法。

背景技术

语音时长是人类语音交流中最重要的韵律特征之一。语音时长的变化一方面辅助人们对语音本身的辨识，另一方面节奏的变化辅助人们将一段连续的语音流划分为词、短语，从而增加了语音的自然度和可懂度。语音时长预测的好坏与否直接影响到语音合成系统的自然度。

在人类的自然语音中，语音的时长是与上下文环境高度相关的。许多上下文因素如：该语音单元本身、周围的音素、周围的韵律边界等级、是否重读等都对该语音单元的时长具有重要的影响。语音时长的预测也就是研究什么因素对语音时长有影响以及这些因素对语音时长的具体影响效果。关于这方面的研究已发表多篇参考文献，例如：参考文献[1]至[8]。

目前，语音时长预测研究多是基于音节、音素或半音节为基本预测语音单元的。

在早期的汉语语音时长研究中大多采用约束条件下的实验，即在一个固定句型、小规模的音库上调查研究有限几个上下文环境因素对语音时长的作用。这种方法围绕待考察的音素有针对性地为其设计一些不同的上下文语境，每次上下文语境的调整仅限于其中一个特征的调整。这种方法的优点在于，它能够用来考察各个上下文因素对时长变化的影响。但是这种方法的缺点在于，小规模的音库无法覆盖庞大的上下文特征空间，因此不能考察所有上下文因素对语音时长的影响，而且也无法考察各个上下文因素之间的相互影响。

近年来，精心设计的涵盖更多语音现象的音库或者大规模的音库被用来研究语音时长的预测。乘法模型被广泛用于语音时长的预测，在这种模型中，对语音时长有影响的上下文因素如周围音素环境、周围的韵律边界等级、是否重读等因素首先被予以分类或进行等级刻画，从而形成一个特征空间。每个上下文因素作为该特征空间中的一维。然后给出了各个因素在不同等级情况下对语音时长的影响程度，一般用伸缩比率来描述。最后，各个因素作用下的伸缩比率通过乘积的形式作用于语音单位的基本时长从而获得待预测语音单位的语音时长。

在上述分析过程中，最大的缺点在于：在考察某个上下文因素对语音时长的影响时，往往没有对不同的基本预测单元区别对待。譬如在考察韵律词边界对语音时长的影响时，把对不同预测单元如对汉语中不同音节的影响未能进行区分，最后给出了一个唯一的韵律词边界音长影响伸缩比率作用于所有不同的音节。另外又譬如，不同的音素上下文对于不同语音单位的影响也用同一个伸缩比率来描述。而事实上，这显然是不合理的。

在汉语中，一般来说，后续音节的辅音部分为“l”、“m”或“n”时，当前音节韵母部分的时长相对较短。这是因为，这三个辅音为浊辅音，因此这两个音节之间频谱上是连续的，为了保持该特性，前面韵母的时长就会相对比较短。但是这种收缩比率对于不同的韵母是不同的。

发明内容

针对以上问题，本发明的目的在于提供一种基于决策树的语音时长预测装置及方法。以对一个大规模的录音库进行语音单位(音节、半音节等)的边界标注，并对韵律边界等级和重音等级进行标注，针对音素上下文环境和韵律上下文环境设计问题集合，然后采用决策树的方法训练出反应各个语音单位(音节、半音节等)时长规律的知识库，每个语音单位(音节、半音节等)的知识库中包含对该语音单位(音节、半音节等)时长具有重要影响的因素并给出了各个因素对该语音单位(音节、半音节等)时长的影响效果，从而能够在语音合成时对语音单位(音节、半音节等)语音时长进行预测。

本发明的技术方案为：一种基于决策树的语音单位时长预测装置，包括：输入部，用于输入语言、语音学标注序列；

决策树生成部，通过对音库进行语言、语音学的标注，形成语音单位的标注样本，从所述的标注样本中学习语音单位的变化规律，生成用于预测语音单位时长的决策树；

语音单位时长预测部，根据所述的决策树对每个语音单位设定固定时长；并以与所述语音单位相邻的音素上下文、语音单位的韵律边界等级、语音单位的重音等级中的至少一个为基准设定改变语音单位固定时长的变更量；以所述的固定时长和所述固定时长的变更量为基准对输入的语言、语音学标注序列的各个相应的语音单位进行改变；

输出部，用于输出语音单位时长预测结果序列。

本发明还提供了一种基于决策树的汉语音节时长预测装置，包括：输入部，用于输入语言、语音学标注序列；

决策树生成部，通过对音库进行语言、语音学的标注，形成音节的标注样本，从所述的标注样本中学习音节的变化规律，生成用于预测音节时长的决策树；

音节时长预测部，根据所述的决策树对每个音节设定固定时长；并以与所述音节相邻的音素上下文、音节的韵律边界等级、音节的重音等级中的至少一个为基准设定改变音节固定时长的伸缩率系数；以所述的固定时长和所述固定时长的伸缩率系数为基准对输入的语言、语音学标注序列的各个相应的音节进行改变；

输出部，用于输出音节时长预测结果序列。

本发明进一步提供了一种基于决策树的汉语半音节时长预测装置，包括：输入部，用于输入语言、语音学标注序列；

决策树生成部，通过对音库进行语言、语音学的标注，形成半音节的标注样本，从所述的标注样本中学习半音节的变化规律，生成用于预测半音节时长的决策树；

半音节时长预测部，根据所述的决策树对每个半音节设定固定时长；并以与所述半音节相邻的音素上下文、半音节的韵律边界等级、半音节的重音等级中的至少一个为基准设定改变半音节固定时长的伸缩率系数；以所述的固定时长和所述固定时长的伸缩率系数为基准对输入的语言、语音学标注序列的各个相应的半音节进行改变；

输出部，用于输出半音节时长预测结果序列。

本发明也提供了一种基于决策树的语音单位时长预测方法，其包括以下步骤：

输入步骤，用于输入语言、语音学标注序列；

决策树生成步骤，通过对音库进行语言、语音学的标注，形成语音单位的标注样本，从所述的标注样本中学习语音单位的变化规律，生成用于预测语音单位时长的决策树；

语音单位时长预测步骤，根据所述的决策树对每个语音单位设定固定时长；并以与所述语音单位相邻的音素上下文、语音单位的韵律边界等级、语音单位的重音等级中的至少一个为基准设定改变语音单位固定时长的变更量；以所述的固定时长和所述固定时长的变更量为基准对输入的语言、语音学标注序列的各个相应的语音单位进行改变；

输出步骤，用于输出语音单位时长预测结果序列。

本发明进一步提供了一种基于决策树的汉语音节时长预测方法，其包括以下步骤：

输入步骤，用于输入语言、语音学标注序列；

决策树生成步骤，通过对音库进行语言、语音学的标注，形成音节的标注样本，从所述的标注样本中学习音节的变化规律，生成用于预测音节时长的决策树；

音节时长预测步骤，根据所述的决策树对每个音节设定固定时长；并以与所述音节相邻的音素上下文、音节的韵律边界等级、音节的重音等级中的至少一个为基准设定改变音节固定时长的伸缩率系数；以所述的固定时长和所述固定时长的伸缩率系数为基准对输入的语言、语音学标注序列的各个相应的音节进行改变；

输出步骤，用于输出音节时长预测结果序列。

本发明进一步提供了一种基于决策树的汉语半音节时长预测方法，其包括以下步骤：

输入步骤，用于输入语言、语音学标注序列；其特征在于还包括：

决策树生成步骤，通过对音库进行语言、语音学的标注，形成半音节的标注样本，从所述的标注样本中学习半音节的变化规律，生成用于预测半音节时长的决策树；

半音节时长预测步骤，根据所述的决策树对每个半音节设定固定时长；并以与所述半音节相邻的音素上下文、半音节的韵律边界等级、半音节的重音等级中的至少一个为基准设定改变半音节固定时长的伸缩率系数；以所述的固定时长和所述固定时长的伸缩率系数为基准对输入的语言、语音学标注序列的各个相应的半音节进行改变；

输出步骤，用于输出半音节时长预测结果序列。

本发明的有益效果在于，用训练样本充分的语音单元(音节、半音节等)的规则对训练样本非常少的语音单元的语音时长规则进行修正。对于训练数据很少的语音单元，在统计分析中得到的基本时长并不可靠。所以要从声学上相似的语音单元或不同声调的同一个语音单元的决策树中进行考察，修正训练数据很少的半音节的基本时长，使得对于训练样本很少的语音单元也能高精度地预测出其语音时长。

附图说明

图1、本发明装置的结构框图；

图2、本发明具体实施方式的结构框图；

图3、数据稀疏平滑部结构图；

图4、时长预测部结构图；

图5、韵母时长伸缩率数据容纳部工作流程图。

具体实施方式

下面结合附图说明本发明的具体实施方式。

一、语言、语音学标注定义

语言、语音学标注序列是指经过语音合成系统前端语言分析和语音学分析处理得到的序列。通常来说，它对应于一个文本句子。在经过语音合成系统前端处理后，包括以下几个方面的信息：汉字字符、分词信息、词性信息、汉语拼音(音节、半音节)信息、重读信息、韵律边界等级信息。

定义1：韵律边界等级信息：表示在合成语音中需要给出的音节之间的停顿等级。具体来说有：词内、词间、韵律词边界、韵律短语边界、语调短语边界和句子边界六个等级。在本发明中，分别用0～5来表示。

定义2：重音等级信息：表示在合成语音中需要给出的音节的重读等级。具体来说有：强调、正常和轻声三个等级。在本发明中，分别用H，M，L来表示。

二、基于决策树的语音时长预测方法及装置

如图1所示为一种基于决策树的语音单位时长预测装置，包括：输入部，用于输入语言、语音学标注序列；其特征在于还包括：

输出部，用于输出语音单位时长预测结果序列。

所述的输入部可以是计算机，通过计算机的键盘将所述的待分析符号序列输入。也可以通过网络(例如局域网及互联网)将待分析符号序列输入所述的输入部。在该情况下，输入部也可以为采用网络接口的结构。另外，也可以从扫描仪、存储装置(例如硬盘驱动装置)等将待分析符号序列输入所述的输入部。在该情况下，输入部可以为根据将存储装置等和本发明系统的输入部连接为可进行数据通信的规格〔例如USB(Universal Serial Bus)等有线连接及blue tooth等的无线连接的规格〕的结构。另外，也可以将存储介质〔例如各种闪存存储器及软盘(注册商标)、CD(Compact Disk)、DVD(Digital Versatile Disc、Digital Video Disc)〕所存储的待分析符号序列输入到所述的输入部。在该情况下，输入部可以为采用从存储介质中读出数据的装置(例如闪存存储器读出器及软盘驱动装置、CD驱动装置、DVD驱动装置)的结构。

另外，输入部也可以为适合上述多种情况的结构。

所述的输出部可以通过网络将所述分析成分合成部的识别结果输出。在该情况下，输出部为采用网络接口的结构。另外，也可以将所述分析成分合成部的识别结果输出到个人计算机等的其他的信息处理装置及存储装置中。在该情况下，输出部为根据将个人计算机等其他信息处理装置或存储装置等和本发明输出部连接为可进行数据通信的规格的结构。另外，也可以将所述分析成分合成部的识别结果输出(写入)到存储介质内。在该情况下，输出部为采用将数据写入到这些存储装置或存储介质内的装置(例如闪存存储器记录器及软盘驱动装置、CD-R驱动装置、DVD R驱动装置)的结构。

对于输出部所输出的所述分析成分合成部的识别结果的具体用途的例子也进行说明。例如，为了将所述分析成分合成部的识别结果输出到显示器等的显示装置中，也可以使用输出部所输出的数据。在此种情况下，输出部例如也可以为作为和显示器等的显示装置进行数据通信的接口的结构，也可以为作为与显示器等的显示装置相连接、或将数据提交给内置的信息处理装置的接口的结构。

另外，输出部也可以为适合上述的多种情况的结构。

下面以半音节为例来说明本发明：基于决策树的半音节时长预测的基本原则如图2所示。

该装置中，模块104为半音长决策树的训练部分，音库标注部(模块102)对一个大的录音音库(模块101)进行语言、语音学的标注，对半音节的边界进行标注，形成各个半音节的标注样本，模块104从各个半音节的标注样本中学习相应半音节音长在语言、语音上下文环境作用下的变化规律，形成用于音长预测的知识即决策树。模块106是数据稀疏平滑部，指针对训练数据稀疏的半音节的决策树进行平滑处理。模块108是语音时长的作成部分，根据时长的决策树，将各语音单位的时长变化规则记录在时长的知识库109里。

模块111为预测部分，模块111利用模块109的音长知识库，对输入的语言、语音学标注序列中的各个半音节进行其音长的预测，最终给出以半音节为单位的音长结果序列。

音库标注模块102对录音音库中的每一个句子首先进行音节、半音节边界的标注，然后进行语言、语音层面的标注。最后，按照不同的半音节进行分类，输出各个半音节的标注样本集合。这样每个半音节的标注样本集合就是在音库中出现的全部该半音节的集合，并且包含各个出现样本的相关上下文信息，如：音素上下文、音节所在词的词性、音节在词中的位置、左右韵律边界等级、是否重读等信息，以及每个样本下真实发生的语音时长。

模块104使用决策树方法来对标注样本进行统计分析。决策树方法是一种广泛应用于语音识别、字符识别、自然语言处理等领域的分类方法。在模块104中，设计了两类问题，第一类问题是关于音素上下文的，第二类问题是与韵律特征相关的问题，如韵律边界等级、重音等级等。下面是几个问题的例子：

{″k-*″，″t-*″，″p-*″}，该问题将询问当前半音节左边的音素是否是送气清塞音(/p/，/t/，/k/)；

{″*+n″，″*+m″}，该问题将询问当前半音节右边的音素是否是鼻辅音(/n/，/m/)；

{*+2}，该问题将询问当前半音节是否处于一个韵律词的结束处；

{*+0，*+1}，该问题将询问当前半音节右边的韵律等级是否低于韵律词等级，即词内或词间。

模块104的训练过程如下：

(1)给定某半音节的标注样本集合；生成该半音节决策树的根结点。

(2)对于所有的叶子结点，遍历所有问题，按照对问题的回答，把样本集合分成两类，计算这种分类带来的区分度。

(3)选取对样本集合具有最大可分性的问题。

(4)生成两个结点，一个为YES结点，另外一个为NO结点，根据对问题的回答，把所有的标注样本分成两类。

(5)转到步骤(2)继续分类过程，直到一定的约束条件为止。

模块104从标注样本集合中训练得到的各个半音节的决策树存入模块105。

模块106是训练数据稀疏决策树作成部，是指对于一些训练样本稀疏的半音节的决策树进行生成或扩充处理。在大规模的音库情况下，只有一些韵母可能会有这种问题，所有的声母都有非常充足的训练样本。这些训练样本稀疏的半音节的决策树可能是根本就未生成(即分支数为零)，也可能是仅仅只有极少数的几个分支个数。数据稀疏作成部就是针对这类决策树进行生成或扩充处理。数据稀疏作成部(模块106)包括三个子部件：模块203、模块204和模块205，其结构如图3所示：

其中模块204为半音节基本时长修正/生成部。对于训练数据稀疏的半音节，其经过统计分析得到的基本时长是不可靠的。模块204通过模块203对同一类型的韵母以及不同声调下的相同韵母的决策树进行考察，对该数据稀疏的半音节的基本时长进行修正。

其中模块205为半音节时长伸缩率修正/生成部。对于训练数据稀疏的半音节，其经过统计分析得到的各种上下文环境下的时长伸缩比例系数也是不可靠的。模块205通过模块203对同一类型的韵母以及不同声调下的相同韵母的决策树进行考察，对该数据稀疏的半音节的时长伸缩率进行修正。

模块108是时长规则作成部，是指根据时长决策树写出相应各语音单位的基本时长信息以及不同上下文环境下的时长变化规则。相关的知识将用时长知识库进行描述。

模块111根据模块108提供的时长知识库对输入的语言、语音学标注序列进行半音节的时长预测。时长预测部(模块111)包括模块303、模块304、模块305和模块306四个子部件，其结构如图4所示：

其中模块303为半音节语言、语音上下文信息抽取部，模块303读入语言、语音学标注序列，提取其中各个半音节在后续预测部分中需要用到的上下文信息。

模块304为半音节基本音长数据容纳部，其中对于每个半音节都设定了固定的基本时长。

模块305为半音节时间长伸缩率数据容纳部，其中根据与待预测半音节相邻的音素上下文、韵律边界等级、重音等级设定了伸缩该半音节时长的比例系数。

最后，在模块306中，对于各个待预测的半音节，通过在该半音节固定的时间长上，根据具体的上下文信息，乘以与该半音节相邻的音素上下文、韵律边界等级、重音等级相对应的半音节时间长伸缩率，最终给出以半音节为单位的时长预测值序列。

图5中给出了韵母时长伸缩率数据容纳部的工作流程图。给定韵母及其语言、语音上下文信息，首先判断该韵母的右韵律边界等级，如果为韵律词及以上，将再根据该韵母的具体类型：带鼻音韵尾韵母、单元音韵母、复合元音韵母，设置不同的时长伸缩比率。具体为：带鼻音韵尾韵母，设置伸缩比率为1.3～1.4；单元音韵母，设置伸缩比率为1.4～1.7；双元音韵母，设置伸缩比率为1.3～1.6。之后，模块410将对该韵母应用适当的音素上下文规则，并给出相应的时长伸缩比率系数。模块411将对该韵母应用适当的重音等级规则，并给出相应的时长伸缩比率系数。模块412将韵律边界等级、音素上下文、重音等级相对应的时长伸缩率系数相乘，即是该韵母的最终时长伸缩比率。

综上所述，本发明的特征在于用训练样本充分的半音节的规则对训练样本非常少的半音节的语音时长规则进行修正。从而，对于训练样本非常少的半音节，根据对训练样本充分的半音节知识库的分析和类推，也给出了反应这些半音节语音时长规律的知识库。

本发明以汉语为实例，实现的基于决策树的汉语普通话音时长预测方法和装置，该汉语普通话音长预测装置获得了世界领先的音长预测效果。

本发明通过提供基于决策树预测汉语语音合成系统语音时长的方法和装置。该方法基于半音节研究汉语语音时长的内在规律，进而在语音合成系统中对语音时长进行预测。该方法首先对一个大规模的录音库进行半音节的边界标注，并对韵律边界等级和重音等级进行标注，针对音素上下文环境和韵律上下文环境设计问题集合，然后采用决策树的方法训练出反应语音时长规律的知识库，该知识库中包含对语音时长具有重要影响的因素并给出了各个因素对语音时长的影响效果，从而能够在语音合成时对语音时长进行预测。知识库由两个部分组成，半音节基本时长数据部和半音节时长伸缩率数据部。另外，对于训练样本非常少的半音节，知识库平滑部更够依据对训练样本充分的半音节知识库的分析和类推，给出训练数据稀疏半音节语音时长规律的知识库。本发明以汉语为实例，实现的基于决策树的汉语普通话音时长预测方法和装置，该汉语普通话音长预测装置获得了世界领先的音长预测效果。

本发明用训练样本充分的语音单元(音节、半音节等)的规则对训练样本非常少的语音单元的语音时长规则进行修正。对于训练数据很少的语音单元，在统计分析中得到的基本时长并不可靠。所以要从声学上相似的语音单元或不同声调的同一个语音单元的决策树中进行考察，修正训练数据很少的半音节的基本时长，使得对于训练样本很少的语音单元也能高精度地预测出其语音时长。

以上具体实施方式仅用于说明本发明，而非用于限定本发明。

参考文献：

[1]Holm；Frode；Hata；Kazue；6,260,016 July 10，2001，Speech synthesis employingprosody templates[patent].

[2]sharman；Richard Anthony；5,682,501 October 28，1997，speech synthesis system[patent].

[3]Hirschberg；Julia；6,003,005 December 14，1999，Text-to-speech system and a methodand apparatus for training the same based upon intonational feature annotations of input text[patent].

[4]Feng，L.，“Duration of initials，finals and tones in Beijing Mandarin Speech”，AcousticsExperiments in Beijing Mandarin，Beijing Univ.Press，pp.131-195(in Chinese)，1985.

[5]Cao，J.，Lu，S.and Yang，Y.，“Strategy and tactics on the enhancement of naturalness inChinese TTS”，Proc.International Symposium on Chinese Spoken Language Processing，Beijing，2000.

[6]Zhu，W.and Matsui，K.，“A study of phoneme and syllable duration characteristics ofMandaroin Chinese”，Proc.International Symposium on Chinese Spoken Language Processing，Beijing，2000.

[7]Shih C.and Ao B.，“Duration Study for the Bell Laboratories Mandarin Text-to-SpeechSystem”，Progress in Speech Synthesis，J.van Santen，R.Sproat，J.Olive，and J.Hirschberg，Eds.Springer，New York，1997.

[8]Chu，M.and Feng，Y.，“Study on Factors Influencing Durations of Syllables inMandarin”，Proc.of Eurospeech，Scandinavia，2001.

Claims

1.一种基于决策树的语音单位时长预测装置，包括：输入部，用于输入语言、语音学标注序列；其特征在于还包括：

输出部，用于输出语音单位时长预测结果序列。

2.根据权利要求1所述的装置，其特征在于，所述的决策树生成部包括：

语音单位边界标注和语言、语音学标注部，用于对音库中语言、语音学的语音单位的边界进行标注，形成各个语音单位的标注样本；

时长决策树训练部，用于从各个语音单位的标注样本中学习相应语音单位音长在语言、语音上下文环境作用下的变化规律，形成用于语音单位时长决策树；

训练数据稀疏决策树做成部，用于对于训练样本稀疏的语音单位时长决策树进行生成或扩充处理，形成完善后时长决策树；

时长规律作成部，根据所述的完善后时长决策树写出相应各语音单位的基本时长信息以及不同上下文环境下的时长变化规则。

3.根据权利要求1所述的装置，其特征在于，所述的语音单位时长预测部包括：

语音单位语言、语音上下文信息抽取部，用于读入所述的语言、语音学标注序列，并抽取语音单位语言、语音上下文信息；

语音单位固定时长数据容纳部，用于根据所述的决策树对每个语音单位设定固定时长；

语音单位时长变更量数据容纳部，用于以与所述语音单位相邻的音素上下文、语音单位的韵律边界等级、语音单位的重音等级中的至少一个为基准设定改变语音单位固定时长的变更量；

语音单位时长计算部，用于对于各个待预测的语音单位，通过在该语音单位固定时长上，根据上下文信息，乘以与该语音单位相邻的音素上下文、韵律边界等级、重音等级相对应的语音单位固定时长的变更量，输出语音单位的时长预测值序列。

4.根据权利要求2所述的装置，其特征在于，所述的训练数据稀疏决策树做成部进一步包括：根据对训练样本充分的具有规定值以上分支数的相同声调的相似语音单位或者不同声调下的相同语音单位的决策树进行考察，对分支树达不到规定值的语音单位的决策树进行生成或扩充处理，形成完善后时长决策树。

5.根据权利要求1所述的装置，其特征在于，

所述的决策树生成部包括：

训练数据稀疏决策树做成部，用于根据对训练样本充分的具有规定值以上分支数的相同声调的相似语音单位或者不同声调下的相同语音单位的决策树进行考察，对分支树达不到规定值的语音单位的决策树进行生成或扩充处理，形成完善后时长决策树；

时长规律作成部，根据所述的完善后时长决策树写出相应各语音单位的基本时长信息以及不同上下文环境下的时长变化规则；

所述的语音单位时长预测部包括：

语音单位时长变更量数据容纳部，用于以与所述语音单位相邻的音素上下文、语音单位的韵律边界等级、语音单位的重音等级中的至少一个为基准设定改变语音单位固定时长的变更量；对每个语音单位单独设定了语音单位时长变更量数据容纳部；

6.一种基于决策树的汉语音节时长预测装置，包括：输入部，用于输入语言、语音学标注序列；其特征在于还包括：

输出部，用于输出音节时长预测结果序列。

7.根据权利要求6所述的装置，其特征在于，所述的决策树生成部包括：

音节边界标注和语言、语音学标注部，用于对音库中语言、语音学的音节的边界进行标注，形成各个音节的标注样本；

时长决策树训练部，用于从各个音节的标注样本中学习相应音节音长在语言、语音上下文环境作用下的变化规律，形成用于音节时长决策树；

训练数据稀疏决策树做成部，用于对于训练样本稀疏的音节时长决策树进行生成或扩充处理，形成完善后时长决策树；

时长规律作成部，根据所述的完善后时长决策树写出相应各音节的基本时长信息以及不同上下文环境下的时长变化规则。

8.根据权利要求6所述的装置，其特征在于，所述的音节时长预测部包括：

音节语言、语音上下文信息抽取部，用于读入所述的语言、语音学标注序列，并抽取音节语言、语音上下文信息；

音节固定时长数据容纳部，用于根据所述的决策树对每个音节设定固定时长；

音节时长伸缩率数据容纳部，用于以与所述音节相邻的音素上下文、音节的韵律边界等级、音节的重音等级中的至少一个为基准设定改变音节固定时长的伸缩率系数；

音节时长计算部，用于对于各个待预测的音节，通过在该音节固定时长上，根据上下文信息，乘以与该音节相邻的音素上下文、韵律边界等级、重音等级相对应的音节固定时长的伸缩率系数，输出音节的时长预测值序列。

9.根据权利要求7所述的装置，其特征在于，所述的训练数据稀疏决策树做成部进一步包括：

同一类型的韵母以及不同声调下的相同韵母的决策树参照部，

音节固定时长修正/生成部，

音节时长伸缩率修正/生成部。

10.根据权利要求9所述的装置，其特征在于，所述的训练数据稀疏决策树做成部进一步包括：根据对训练样本充分的具有规定值以上分支数的相同声调的相似音节或者不同声调下的相同音节的决策树进行考察，对分支树达不到规定值的音节的决策树进行生成或扩充处理，形成完善后时长决策树。

11.一种基于决策树的汉语半音节时长预测装置，包括：输入部，用于输入语言、语音学标注序列；其特征在于还包括：

输出部，用于输出半音节时长预测结果序列。

12.根据权利要求11所述的装置，其特征在于，所述的决策树生成部包括：

半音节边界标注和语言、语音学标注部，用于对音库中语言、语音学的半音节的边界进行标注，形成各个半音节的标注样本；

时长决策树训练部，用于从各个半音节的标注样本中学习相应半音节音长在语言、语音上下文环境作用下的变化规律，形成用于半音节时长决策树；

训练数据稀疏决策树做成部，用于对于训练样本稀疏的半音节时长决策树进行生成或扩充处理，形成完善后时长决策树；

时长规律作成部，根据所述的完善后时长决策树写出相应各半音节的基本时长信息以及不同上下文环境下的时长变化规则。

13.根据权利要求11所述的装置，其特征在于，所述的半音节时长预测部包括：

半音节语言、语音上下文信息抽取部，用于读入所述的语言、语音学标注序列，并抽取半音节语言、语音上下文信息；

半音节固定时长数据容纳部，用于根据所述的决策树对每个半音节设定固定时长；

半音节时长伸缩率数据容纳部，用于以与所述半音节相邻的音素上下文、半音节的韵律边界等级、半音节的重音等级中的至少一个为基准设定改变半音节固定时长的伸缩率系数；

半音节时长计算部，用于对于各个待预测的半音节，通过在该半音节固定时长上，根据上下文信息，乘以与该半音节相邻的音素上下文、韵律边界等级、重音等级相对应的半音节固定时长的伸缩率系数，输出半音节的时长预测值序列。

14.根据权利要求12所述的装置，其特征在于，所述的训练数据稀疏决策树做成部进一步包括：

半音节固定时长修正/生成部，

半音节时长伸缩率修正/生成部。

15.根据权利要求14所述的装置，其特征在于，所述的训练数据稀疏决策树做成部进一步包括：根据对训练样本充分的具有规定值以上分支数的相同声调的相似半音节或者不同声调下的相同半音节的决策树进行考察，对分支树达不到规定值的半音节的决策树进行生成或扩充处理，形成完善后时长决策树。

16.根据权利要求11所述的装置，其特征在于，所述的半音节时长预测部包括，对于韵律边界等级在韵律词及以上的韵母，单元音韵母的半音节时长伸缩率设定为1.4～1.7，双元音韵母的半音节时长伸缩率为1.3～1.6，含有鼻音韵尾的韵母的半音节时长伸缩率为1.3～1.4。

17.一种基于决策树的语音单位时长预测方法，其特征是包括以下步骤：

输入步骤，用于输入语言、语音学标注序列；

输出步骤，用于输出语音单位时长预测结果序列。

18.根据权利要求17所述的方法，其特征在于，所述的决策树生成步骤包括：

语音单位边界标注和语言、语音学标注步骤，用于对音库中语言、语音学的语音单位的边界进行标注，形成各个语音单位的标注样本；

时长决策树训练步骤，用于从各个语音单位的标注样本中学习相应语音单位音长在语言、语音上下文环境作用下的变化规律，形成用于语音单位时长决策树；

训练数据稀疏决策树做成步骤，用于对于训练样本稀疏的语音单位时长决策树进行生成或扩充处理，形成完善后时长决策树；

时长规律作成步骤，根据所述的完善后时长决策树写出相应各语音单位的基本时长信息以及不同上下文环境下的时长变化规则。

19.根据权利要求17所述的方法，其特征在于，所述的语音单位时长预测步骤包括：

语音单位语言、语音上下文信息抽取步骤，用于读入所述的语言、语音学标注序列，并抽取语音单位语言、语音上下文信息；

语音单位固定时长数据容纳步骤，用于根据所述的决策树对每个语音单位设定固定时长；

语音单位时长变更量数据容纳步骤，用于以与所述语音单位相邻的音素上下文、语音单位的韵律边界等级、语音单位的重音等级中的至少一个为基准设定改变语音单位固定时长的变更量；

语音单位时长计算步骤，用于对于各个待预测的语音单位，通过在该语音单位固定时长上，根据上下文信息，乘以与该语音单位相邻的音素上下文、韵律边界等级、重音等级相对应的语音单位固定时长的变更量，输出语音单位的时长预测值序列。

20.根据权利要求18所述的方法，其特征在于，所述的训练数据稀疏决策树做成步骤进一步包括：根据对训练样本充分的具有规定值以上分支数的相同声调的相似语音单位或者不同声调下的相同语音单位的决策树进行考察，对分支树达不到规定值的语音单位的决策树进行生成或扩充处理，形成完善后时长决策树。

21.根据权利要求17所述的方法，其特征在于，

所述的决策树生成步骤包括：

训练数据稀疏决策树做成步骤，用于根据对训练样本充分的具有规定值以上分支数的相同声调的相似语音单位或者不同声调下的相同语音单位的决策树进行考察，对分支树达不到规定值的语音单位的决策树进行生成或扩充处理，形成完善后时长决策树；

时长规律作成步骤，根据所述的完善后时长决策树写出相应各语音单位的基本时长信息以及不同上下文环境下的时长变化规则；

所述的语音单位时长预测步骤包括：

语音单位时长变更量数据容纳步骤，用于以与所述语音单位相邻的音素上下文、语音单位的韵律边界等级、语音单位的重音等级中的至少一个为基准设定改变语音单位固定时长的变更量；对每个语音单位单独设定了语音单位时长变更量数据容纳部；

22.一种基于决策树的汉语音节时长预测方法，其特征是包括以下步骤：

输入步骤，用于输入语言、语音学标注序列；

输出步骤，用于输出音节时长预测结果序列。

23.根据权利要求22所述的方法，其特征在于，所述的决策树生成步骤包括：

音节边界标注和语言、语音学标注步骤，用于对音库中语言、语音学的音节的边界进行标注，形成各个音节的标注样本；

时长决策树训练步骤，用于从各个音节的标注样本中学习相应音节音长在语言、语音上下文环境作用下的变化规律，形成用于音节时长决策树；

训练数据稀疏决策树做成步骤，用于对于训练样本稀疏的音节时长决策树进行生成或扩充处理，形成完善后时长决策树；

时长规律作成步骤，根据所述的完善后时长决策树写出相应各音节的基本时长信息以及不同上下文环境下的时长变化规则。

24.根据权利要求22所述的方法，其特征在于，所述的音节时长预测步骤包括：

音节语言、语音上下文信息抽取步骤，用于读入所述的语言、语音学标注序列，并抽取音节语言、语音上下文信息；

音节固定时长数据容纳步骤，用于根据所述的决策树对每个音节设定固定时长；

音节时长伸缩率数据容纳步骤，用于以与所述音节相邻的音素上下文、音节的韵律边界等级、音节的重音等级中的至少一个为基准设定改变音节固定时长的伸缩率系数；

音节时长计算步骤，用于对于各个待预测的音节，通过在该音节固定时长上，根据上下文信息，乘以与该音节相邻的音素上下文、韵律边界等级、重音等级相对应的音节固定时长的伸缩率系数，输出音节的时长预测值序列。

25.根据权利要求23所述的方法，其特征在于，所述的训练数据稀疏决策树做成步骤进一步包括：

同一类型的韵母以及不同声调下的相同韵母的决策树参照步骤，

音节固定时长修正/生成步骤，

音节时长伸缩率修正/生成步骤。

26.根据权利要求25所述的方法，其特征在于，所述的训练数据稀疏决策树做成步骤进一步包括：根据对训练样本充分的具有规定值以上分支数的相同声调的相似音节或者不同声调下的相同音节的决策树进行考察，对分支树达不到规定值的音节的决策树进行生成或扩充处理，形成完善后时长决策树。

27.一种基于决策树的汉语半音节时长预测方法，其特征在于包括以下步骤：

输出步骤，用于输出半音节时长预测结果序列。

28.根据权利要求27所述的方法，其特征在于，所述的决策树生成步骤包括：

半音节边界标注和语言、语音学标注步骤，用于对音库中语言、语音学的半音节的边界进行标注，形成各个半音节的标注样本；

时长决策树训练步骤，用于从各个半音节的标注样本中学习相应半音节音长在语言、语音上下文环境作用下的变化规律，形成用于半音节时长决策树；

训练数据稀疏决策树做成步骤，用于对于训练样本稀疏的半音节时长决策树进行生成或扩充处理，形成完善后时长决策树；

时长规律作成步骤，根据所述的完善后时长决策树写出相应各半音节的基本时长信息以及不同上下文环境下的时长变化规则。

29.根据权利要求27所述的方法，其特征在于，所述的半音节时长预测步骤包括：

半音节语言、语音上下文信息抽取步骤，用于读入所述的语言、语音学标注序列，并抽取半音节语言、语音上下文信息；

半音节固定时长数据容纳步骤，用于根据所述的决策树对每个半音节设定固定时长；

半音节时长伸缩率数据容纳步骤，用于以与所述半音节相邻的音素上下文、半音节的韵律边界等级、半音节的重音等级中的至少一个为基准设定改变半音节固定时长的伸缩率系数；

半音节时长计算步骤，用于对于各个待预测的半音节，通过在该半音节固定时长上，根据上下文信息，乘以与该半音节相邻的音素上下文、韵律边界等级、重音等级相对应的半音节固定时长的伸缩率系数，输出半音节的时长预测值序列。

30.根据权利要求28所述的方法，其特征在于，所述的训练数据稀疏决策树做成步骤进一步包括：

半音节固定时长修正/生成步骤，

半音节时长伸缩率修正/生成步骤。

31.根据权利要求30所述的方法，其特征在于，所述的训练数据稀疏决策树做成步骤进一步包括：根据对训练样本充分的具有规定值以上分支数的相同声调的相似半音节或者不同声调下的相同半音节的决策树进行考察，对分支树达不到规定值的半音节的决策树进行生成或扩充处理，形成完善后时长决策树。

32.根据权利要求27所述的方法，其特征在于，所述的半音节时长预测步骤包括，对于韵律边界等级在韵律词及以上的韵母，单元音韵母的半音节时长伸缩率设定为1.4～1.7，双元音韵母的半音节时长伸缩率为1.3～1.6，含有鼻音韵尾的韵母的半音节时长伸缩率为1.3～1.4。