CN103680491A

CN103680491A - 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块

Info

Publication number: CN103680491A
Application number: CN201310066969.4A
Authority: CN
Inventors: 陈信宏; 王逸如; 江振宇; 谢乔华
Original assignee: Spring Foundation of NCTU
Current assignee: Spring Foundation of NCTU
Priority date: 2012-09-10
Filing date: 2013-03-01
Publication date: 2014-03-26
Anticipated expiration: 2033-03-01
Also published as: CN103680491B; TWI503813B; TW201411602A

Abstract

本案系提供一种可控制语速的韵律讯息产生装置，包含一第一输入端，用以接收一语速；一第二输入端，用以接收一语言参数；一语速相依的韵律生成模块，用以接收该语言参数及该语速，以产生该语速相依的一韵律声学特征参数；及一输出端，用以输出与该语速相依的一韵律声学特征参数。

Description

语速相依韵律讯息产生装置及语速相依的阶层式韵律模块

技术领域

本发明系关于一种韵律讯息产生装置，尤指一种以语速相依的阶层式韵律模块为基础的韵律讯息产生装置。

背景技术

目前对于相异语速语音合成的讨论不少，但始终不能达成一流畅的自然合成语音。其中有以每个语音音框的时间轴进行伸张及压缩，藉以调整说话速度慢及快的研究，但并未考虑到语速对于韵律结构的影响；以线性预估的方式对输入语音进行语速修正，对输入的语音信号以线性插入或移除信号本身的研究，该方法虽简易有效率，但对于语速的考虑过于粗糙；以清化元音(devoiced vowel)的决定中考虑了语速影响，有效地改进清化元音在慢语速的退化程度的研究，但其韵律的产生方法并未考虑语速的影响；以对不同语速语料库建立韵律结构的转换关系，藉以达到语速转换的目的的研究，但该方法并不能掌握到连续语速的转换变化；虽有文献实现了可控制语速的TTS(Text-to-Speech)，首先对三种速度(快、正常、慢)各自建立音长模型，对三个音长模型以内插方式来产生目标语速所需的音长，最后结合于HMM为基础的语音合成器，此方法仅考虑韵律之中的音长部份，并未对其它韵律参数进行语速影响调整，且由于不同语速需各自建立自己的音长模型，会使得模型参数量大增；再则它使用内插法去产生音长，无法获得准确的语速控制；另有文献对正常及快速语料分别建立HSMM模型，再以CMLLR对音长模型进行音长平均值的语速调适，该方法仅考虑韵律之中的音长部份，且由于不同语速需各自建立自己的音长模型，会使得模型参数量大增；及有进行大规模主观测试三种语速控制的方法研究，分别为：(1)针对目标语速选取相近语速的语料来训练HMM模型，(2)依比例去伸缩合成语句的发音长度，及(3)基于ML准则去决定状态长度(state duration)，这些方法都是建立于HMM-based的语音合成系统，实验结果发现方法(2)最适合用于快语速合成语音，而方法(1)较适合慢速语音，不同的语速控制方法都只适于某种语速，并没有一种方法能掌握所有语速的控制。

因此，可知习知技术大多以等比例拉长或缩短各个合成单元(如音节、词)的长度来达到语速控制，而于韵律结构、音高轨迹、停顿时间长度及停顿出现频率方面较少着墨，并无考虑声学韵律讯息其背后的产生模型，因此并不能以系统化的方式掌握语速对于韵律多层面的影响，进而用以产生韵律讯息；这些韵律讯息可充分应用于语音合成的语速控制，使各种语速的合成语音应用在语音合成的领域听起来都很流利自然。

爰是之故，申请人有鉴于习知技术的缺失，乃经悉心试验与研究，并一本锲而不舍的精神，终发明出本案「语速相依的韵律讯息产生器及语速相依的阶层式韵律模块」，用以改善上述习用手段的缺失。

发明内容

本案的一面向系提供一韵律讯息产生装置，包含一第一输入端，用以接收一语速；一第二输入端，用以接收一语言参数；一语速相依的韵律生成模块，用以配合该语言参数及该语速，以产生该语速相依的一韵律声学特征参数；及一输出端，用以输出与该语速相依的韵律声学特征参数。

本案的另一面向系提供一种语速相依的阶层式韵律模块，包含至少二模型，其中各该模型系选自由一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型及其组合之一，俾与一语速相依。

本案的又一面向系提供一种语速相依的阶层式韵律模块，包含至少二参数，其中各该参数系选自由一停顿类型、一韵律状态一音节韵律声学特征参数、一音节间韵律声学特征参数及一音节差分韵律声学特征参数及其组合之一，俾该模块与一语速相依。

附图说明

图1：本案一较佳实施例的建构语速相依的阶层式韵律模块流程图。

图2：本案一较佳实施例的产生语速相依的韵律声学特征参数简易流程图。

图3：本案一较佳实施例的语料库语速统计图。

图4：本案一较佳实施例的汉语语音阶层式韵律结构示意图。

图5：本案一较佳实施例的七种停顿类别的停顿时长平均值对语速的关系图。

图6(a)~(b)：本案一较佳实施例的不同声调的基频轨迹于不同语速的差异图。

图7：本案一较佳实施例的产生语速相依的韵律声学特征参数流程图。

【主要组件符号说明】

101：语音语料库

102：语速估计

103：语速正规化函式的建构

104：韵律声学特征参数的语速正规化

105：修正型阶层式韵律模型训练算法

106：语速相依的阶层式韵律模块

201：文字分析器

202：语速相依的韵律参数产生方法

203：语速正规化函式

204：语速相依的阶层式韵律模块

701：语速相依的阶层式韵律模块

702：停顿标记预估器

703：韵律状态预估器

704：语速正规化函式

705：韵律状态语法模型

706：语速相依的韵律讯息产生器

707：语速相依的韵律生成模块

具体实施方式

本发明将可由以下的实施例说明而得到充分了解，使得熟习本技艺的人士可以据以完成之，然本案的实施并非可由下列实施案例而被限制其实施型态。

本发明建立一个可应用于电子有声书、手机、PDA及计算机等装置上的考虑语速对于音长、音高轨迹、停顿时机、停顿出现频率、停顿时长所造成的影响的语速相依的阶层式韵律模块；以及基于语速相依的阶层式韵律模块，可以产生出各种语速的韵律声学特征参数，帮助语音合成达到良好的语速控制效果。其步骤包含两个阶段：模块建立及韵律合成。模块建立阶段请参阅图1，其中是以阶层式韵律模型为基础建立语速相依的阶层式韵律模块。请参阅图2，韵律合成阶段是语速相依的韵律声学特征参数产生方法阶段，其中是以语速相依的阶层式韵律模块为基础，产生语音合成所需要的各种韵律声学特征参数，且满足不同语速的要求。

如前所述的模块建立阶段的步骤包含对语音语料库101中的每一句话，先做音节切割，再由每一音节抽取韵律声学特征参数；接着由语速估计102求取音节平均长度做为语速SR；然后由语速正规化函式的建构103依据整个语音数据库各句话的韵律声学特征参数对语速的统计分布来求取正规化函式；接着由韵律声学特征参数的语速正规化104来将韵律声学特征参数做正规化而获得正规化韵律声学特征参数，再由修正型阶层式韵律模型训练算法105使用整个语音语料库每一句话的语速、语言参数、及正规化韵律声学特征参数来训练获得语速相依的阶层式韵律模块106，其中修正型阶层式韵律模型训练算法，考虑语速的进一步影响，修正原本的阶层式韵律模型训练算法，将其中两个子模型：停顿语法模型及韵律状态模型，加入语速考虑，藉此补偿语速对停顿时机(或出现频率)、以及韵律状态转移所造成的影响。

如前所述的韵律合成阶段的步骤包含:首先由文字分析器201将输入文字做断词及词类标记分析，获得语言参数，再由语速相依的韵律声学特征参数产生方法202使用语言参数、语速、语速相依的阶层式韵律模块204、以及语速正规化函式203来产生四种韵律声学特征参数。语速相依的阶层式韵律模块204主要是决定整个语句的韵律架构(依据语速)及基本韵律参数合成，而语速正规化函式203是将基本韵律参数的统计特性调到指定语速的统计特性。

请参阅表一及图3，其分别为本发明中使用语料库大小的统计信息及语料库语速的统计分布图。该语料库是以一女性专业播音员依四种语速所录制的平行语音数据库当作实施目标，由该图中可知四种语速所录制的平行语音数据语速分布在0.15-0.3second/syllable之间。

表一

	语句数	音节数	小时数
				快语速	368	50691	3.4
一般语速	376	51868	3.9
				中等语速	362	49956	4.8
慢语速	372	51231	6.0

对于韵律声学特征参数的正规化函式建构方法，其中一般正规化方法是对每个语句各自的资料统计参数做正规化，该方法简易且具有效率，但可能造成过度正规化，导致除了语速之外的其它影响因素亦被调整而扭曲，进而使模块建造错误。本发明采用一较合理的正规化方法，即使用平滑曲线去仿真每个语句的正规化参数与语速的关系，藉由这些平滑曲线来形成语速正规化函式。

对于韵律声学特征参数中的音节长度，采取高斯正规化的方法，并使用二阶多项式曲线来仿真音节长度的标准差，如下列式子所示：

其中

为平滑化后的标准差，

为语句k的音节平均长度(也就是语速)，sd_n和sd_n′分别代表原始音节长度和语速正规化的音节长度；

和为语料库整体的音节长度平均值与标准差。

对于停顿长度，使用Gamma分布来表示其分布，同样使用二阶多项式曲线来仿真语句的停顿长度平均值与标准差对语速SR的关系，其数学式子如下：

接着利用平滑化的平均值

和标准差

去对停顿长度pd_n做分布正规化，其使用的公式为：

其中G(pd,α,β)为Gamma分布的累积分布函数(cumulative distribution function)，G^-1为G的反函数；

和

为Gamma函数的两个参数的平滑值，

和为由语料库整体的停顿长度平均值和标准差所计算的Gamma函数参数。

对于音节音高轨迹，先进行正交展开(orthogonal expansion)，使用四个Legendre多项式为基底，用所得到的四维正交参数来表示基频轨迹，即

{sp}_{n} = {[\begin{matrix} a_{n}^{0} & a_{n}^{1} & a_{n}^{2} & a_{n}^{3} \end{matrix}]}^{T},

接着依每一音节声调(lexical tone)的每一维度来正规化SR对sp_n的影响，公式如下：

其中

分别为sp第i维、第t声调的平滑化平均值与标准差，它们都以一阶函数来表示；

和为整个语料库的sp第i维、第t声调的平均值与标准差。

对于音节能量位阶，由于它与录音条件有很大的相关性，包含麦克风与语者距离、麦克风本身的录音质量、录音的环境等等因素的影响远远大于语速所造成的，因此本实施案例采取非语速相依的高斯正规化。

在完成参数正规化后，再对所有训练语句以实施方块105修正型阶层式韵律模型训练算法来自动产生一个语速相依的阶层式韵律模块，该模块包括四个子模型，用来描述观察到的韵律声学特征参数、语言参数及韵律阶层架构标记之间的关系。虽然我们在之前参数正规化时已把语速对韵律声学特征参数的影响做适当补偿消除，但停顿出现的频率及韵律状态的转移仍与语速有很大的相关性，因此我们以决策树描述七种停顿类型(请参阅图4)出现频率与语言参数之间的关系来修正停顿语法子模型；以及使用一阶马可夫模型来描述前一个韵律状态和目前韵律状态之间的转移关系来修正韵律状态子模型，使所述的二个子模型与语速相依。修正型韵律模型训练算法为一参数最佳化问题求解的方法，在已知正规化韵律声学特征参数{X,Y,Z}、语言参数{L}及语速SR的情况下找到最佳的韵律标记序列T={B,PS}，即下列数学式子：

B^{*}, {PS}^{*} = \underset{B, PS}{\arg \max} P (B, PS | X, Y, Z, L, SR)

其中B代表停顿标记序列，PS={p,q,r}分别为音节基频、长度及能量位阶的韵律状态标记序列，此两类韵律标记是用来描述图4所考虑的中文韵律阶层结构，此结构包含四种韵律成分：音节、韵律词、韵律词组、及呼吸或韵律词组群组；韵律停顿B_n是用来描述音节n和音节n+1之间的停顿状态，共使用七种韵律停顿状态来描述此四种韵律成分的边界；A={X,Y,Z}为韵律声学特征参数序列，其中X={sp,sd,se}、Y={pd,ed}和Z={pj,dl,df}分别代表与音节相关的韵律声学特征参数、音节间及差分的韵律声学特征参数序列；L={POS,PM,WL,t,s,f}为语言参数序列，其中{POS,PM,WL}为高阶语言参数序列，POS、PM及WL分别为词类序列、标点符号序列及词长序列，而{t,s,f}为低阶语言参数序列，t、s及f分别为声调、基本音节类别及韵母类别序列；SR为语句的语速。详细符号定义请参阅表二。

表二

(1)音节韵律声学模型P(X|B,PS,L)：

如下式所示，它再以三个子模型来近似：

P (X | B, PS, L) \approx P (sp | B, p, t) P (sd | B, q, t, s) P (se | B, r, t, f)

\approx Π_{n = 1}^{N} P ({sp}_{n} | B_{n - 1}^{n}, p_{n}, t_{n - 1}^{n + 1}) P ({sd}_{n} | q_{n}, s_{n}, t_{n}) P ({se}_{n} | r_{n}, f_{n}, t_{n})

其中子模型、P(sd_n|q_n,s_n,t_n)以及P(se_n|r_n,f_n,t_n)分别代表第n个音节的音高轨迹、音节长度、能量位阶的模型，t_n、s_n及f_n分别表示第n个音节的声调、基本音节、及韵母类型；

B_{n - 1}^{n} = (B_{n - 1}, B_{n});

和

t_{n - 1}^{n + 1} = (t_{n - 1}, t_{n}, t_{n + 1}) .

在本实施例中，这三个子模型各考虑了多个影响因子(Affecting Factors,AFs)，这些影响因子以加成方式结合，以第n个音节的音高轨迹为例，我们可得：

{sp}_{n} = {sp}_{n}^{r} + β_{t_{n}} + β_{p_{n}} + β_{B_{n - 1}, {tp}_{n - 1}}^{f} + β_{B_{n}, {tp}_{n}}^{b} + μ_{sp}

其中sp_n=[α_0,n,α_1,n,α_2,n,α_3,n]为一四维正交化系数向量，用以表示第n个音节观察到的音高轨迹，为正规化后的残余值，

和分别为声调和韵律状态两影响因子的影响数值(AffectingPattern,AP)，

和

为向前及向后连音两AF的影响数值;

μ_sp为音高的全域平均值。基于假设

为零平均值的高斯常态分布，我们可以高斯常态分布来表示sp_n如下所示

P ({sp}_{n} | B_{n - 1}^{n}, p_{n}, t_{n - 1}^{n + 1}) = N ({sp}_{n}; β_{t_{n}} + β_{p_{n}} + β_{B_{n - 1}, {tp}_{n - 1}}^{f} + β_{B_{n}, {tp}_{n}}^{b} + μ_{sp}, R_{sp})

其中N(x;μ,R)表示向量x为mean vectorμ及covariance matrixR的常态分布。

音节长度P(sd_n|q_n,s_n,t_n)及能量位阶P(se_n|r_n,f_n,t_n)亦是以此方式去实现：

P ({sd}_{n} | q_{n}, s_{n}, t_{n}) = N ({sd}_{n}; γ_{t_{n}} + γ_{s_{n}} + γ_{q_{n}} + μ_{sd}, R_{sd})

P ({se}_{n} | r_{n}, f_{n}, t_{n}) = N ({se}_{n}; ω_{t_{n}} + ω_{f_{n}} + ω_{r_{n}} + μ_{se}, R_{se})

其中γ_x及ω_x分别代表音节长度以及音节能量位阶受影响因素x的影响数值(AP)。

(2)停顿声学模型P(Y,Z|B,L)：

音节间韵律声学模型则以五个子模型近似之，如下式所示：

P (Y, Z | B, L) \approx P (pd, ed, pj, dl, df | B, L) \approx Π_{n = 1}^{N - 1} P ({pd}_{n}, {ed}_{n}, {pj}_{n}, {dl}_{n}, {df}_{n} | B_{n}, L_{n})

\approx Π_{n = 1}^{N - 1} {g ({pd}_{n}; α_{B_{n}, L_{n}}, β_{B_{n}, L_{n}}) N ({ed}_{n}; μ_{ed, B_{n}, L_{n}}, σ_{ed, B_{n}, L_{n}}^{2}) \cdot N ({pj}_{n}; μ_{pj, B_{n}, L_{n}}, σ_{pj, B_{n}, L_{n}}^{2})

\cdot N ({dl}_{n}; μ_{dl, B_{n}, L_{n}}, σ_{dl, B_{n}, L_{n}}^{2}) N ({df}_{n}; μ_{df, B_{n}, L_{n}}, σ_{df, B_{n}, L_{n}}^{2})}

其中在第n个音节所跟随的接合点(juncturen，之后以第n个接合点表示)的停顿长度pd_n以Gamma分布模拟，ed_n为第n个接合点的能量低点位阶；pj_n为跨越第n个接合点的正规化音高差，其定义如下：

{pj}_{n} = ({sp}_{n + 1} (1) - χ_{t_{n + 1}}) - ({sp}_{n} (1) - χ_{t_{n}})

其中sp_n(1)为sp_n的第一维度(即音节音高平均值)，χ_t为声调t平均音高位阶；dl_n及sf_n分别为跨越第n-1及第n个接合点的两个正规化的音节拉长因子，其定义如下：

{dl}_{n} = ({sd}_{n} - π_{t_{n}} - π_{s_{n}}) - ({sd}_{n - 1} - π_{t_{n - 1}} - π_{s_{n - 1}})

{df}_{n} = ({sd}_{n} - π_{t_{n}} - π_{s_{n}}) - ({sd}_{n + 1} - π_{t_{n + 1}} - π_{s_{n + 1}})

其中π_x代表影响因素x的平均音长。除了pd_n以Gamma分布仿真外，其它四种模型皆以常态分布仿真；因为对韵律停顿而言L_n的参数空间仍是太大，可以使用CART(Classification AndRegression Trees)决策树分类法将L_n分成几类，然后同时估计Gamma及常态分布的参数。

(3)韵律状态模型P(PS|B,SR)

韵律状态模型P(PS|B,SR)以三个子模型近似之，分别用来模拟音节音高、长度及能量三种韵律状态，并以语速等分成小段bin来区分不同语速所造成的影响，如下式所示：

P (P | B, SR) = P (p | B, SR) P (q | B, SR) P (r | B, SR)

其中，p_n,q_n,r_n表示音节n的音高、长度及能量韵律状态；bin(SR(k))为语句k的语速SR(k)所属的小段(bin)。

(4)停顿语法模型P(B|L,SR)

停顿语法模型

由两个步骤建构成，第一步先由CART决策树分析算法来估计P(B_n|L_n)，第二步再使用多项式曲线来仿真7种停顿类型在每个决策树子结点的出现频率和语速SR的关系，最后估计出P(B_n|L_n,SR)，其公式如下所示：

P (B_{n} = m | L_{n}, SR (k)) = \frac{P (B_{n} = m | L_{n}, SR (k))}{\underset{x &Element; allbreaktypes}{Σ} P (B_{n} = x | L_{n}, SR (k))} \approx \frac{c_{m, j} SR (k) + d_{m, j}}{\underset{x &Element; allbreaktype}{Σ} c_{x, j} SR (k) + d_{x, j}}

其中B_n为第k个语句第n个音节后的停顿类型，j为决策树子结点的索引值，L_n为对应的语言参数向量，c_m,j和d_m,j为停顿类型m、子结点j的线性回归系数。

此修正型阶层式韵律模式训练算法，在适当的韵律断点和韵律状态初始化后，是以依序最佳化程序(sequential optimization procedure)来训练韵律模型，同时对于训练语料以最大似然性法则(maximum likelihood criterion)来产生韵律标记及获得语速相依的阶层式韵律模式的参数。

下列为该模块训练的实验结果。请参阅表三，其列出在使用不同影响因子组合下，各韵律声学参数重建的总残余误差值(Total Residual Error,TRE)，即扣除各种影响因子的AP组合后，韵律声学特征参数残余值变异数与原始韵律声学特征参数变异数的比值，其中，加入韵律状态的AP后，各韵律声学特征参数的TRE都变得非常小。

表三

停顿时长为音节间韵律声学子模型最重要的参数，请参阅图5，其显示出七种停顿类别的平均值对语速的关系，其中在B0、B1、B2-1及B2-3四种不明显停顿时长的类别，它们与语速相关性甚小，其余停顿类别的停顿时长皆随着SR呈非线性增加。而表四为对每种停顿类别计算重建停顿时长的均方根误差，发现只有B2-2、b3及B4的误差会比较大，这是因为这些停顿类别通常发生在MINOR BREAK或MAJOR BREAK位置，因其变异较大所以重建误差也自然较大，此结果是在合理的范围。

表四

停顿类型

B0

B1

B2-1

B2-2

B2-3

B3

B4

均方根误差

3毫秒

19毫秒

25毫秒

90毫秒

30毫秒

104毫秒

149毫秒

请参阅图6，其是用声调的AP来产生快、慢两种语速的音高轨迹，可观察到每一声调的基频轨迹受语速的影响程度皆不尽相同。

请参阅表五，其显示一个停顿类别的标记例子，此例子对四个不同语速(由上往下语速渐慢)的平行语料标记，在此只标示出B4()、B3(/)及B2-2(*)三种具明显停顿时长的类别，其显示出语速越慢时越容易出现明显类别的停顿，符合预期的结果。

表五

上述各项实验数据显示该模块可有效地描述汉语语音韵律参数的各种变化。

对于可控制语速的韵律声学特征参数产生方法可经由参阅图7得到进一步了解，其为图2的较详细图示，其是基于训练出来的语速相依的阶层式韵律模块701的可控制语速的汉语韵律声学特征参数产生法流程图。方块702为停顿标记预估器，其使用该韵律模型中的停顿语法模型来做停顿标记预估的方法：

B_{n}^{*} = \underset{B_{n}}{\arg \max} P (B_{n} | L_{n}, SR)

其中L_n为输入的语言参数，SR为指定的语速。

方块703为韵律状态标记预估器，其使用此韵律模型中的韵律状态模型搭配一组额外的韵律状态语法模型705，以维特比算法(Viterbi algorithm)来预估之，如以下数学式所示：

p^{*}, q^{*}, r^{*} = \underset{p, q, r}{\arg \max} (\begin{matrix} P (p_{1} | bin (SR)) P (q_{1} | bin (SR)) P (r_{1} | bin (SR)) \\ \cdot Π_{n = 2}^{N} P (p_{n} | p_{n - 1}, B_{n - 1}^{*}, bin (SR) P (q_{n} | q_{n - 1}, B_{n - 1}^{*}, bin (SR)) P (r_{n} | r_{n - 1}, B_{n - 1}^{*}, bin (SR)) \end{matrix})

\cdot (Π_{n = 1}^{N} P (p_{n} | L_{n}) P (q_{n} | L_{n}) P (r_{n} | L_{n}))

其中p(p_n|L_n)、p(q_n|L_n)、p(r_n|L_n)为韵律状态语法模型，它们系使用做完韵律标记的训练语料以CART算法实现之，

为停顿标记预估结果。

有了韵律标记预估结果后，可利用韵律模型中的的音节韵律声学模型P(X|B,PS,L)和停顿声学模型P(X,Y|B,L)来产生语速正规化的韵律声学特征参数，再藉由语速正规化函式704的反函式来还原产生指定语速的韵律声学特征参数，各韵律声学特征参数的产生说明如下：

语速控制的停顿时长产生方法为

其中

{pd}_{n}^{*} &equiv; μ_{n}^{*} = α_{n}^{*} β_{n}^{*}

为语速正规化的停顿时长，它使用停顿声学模型中由

和前后文参数L_n所找到的节点的Gamma分布的参数

及

去计算的平均值

来估计；语速控制的音节音高轨迹产生方法为

其中语速正规化的基频轨迹

的预估如下面数学式所示，它是以预估的韵律标记和声调语言参数来挑选对应的AP所迭加产生：

{sp}_{n}^{*} = β_{t_{n}} + β_{p_{n}^{*}} + β_{B_{n - 1}^{*}, t_{n - 1}^{n}}^{f} + β_{B_{n}^{*}, t_{n}^{n + 1}}^{b} + μ_{sp}

语速控制的音节长度产生方法如下：

其中语速正规化的音节长度

是以对应的AP所迭加产生：

{sd}_{n}^{*} = γ_{t_{n}} + γ_{s_{n}} + γ_{q_{n}^{*}} + μ_{sd}

最后音节能量位阶的产生方法为

{se}_{n}^{*} = ω_{t_{n}} + ω_{f_{n}} + ω_{r_{n}^{*}} + μ_{se}

以下为语音合成范例。本发明所产生的韵律声学特征参数能结合于任何语音合成器，以达到语速控制的语音合成。在此以一隐藏式马可夫为基础的语音合成技术(HMM-based speechsynthesis)为例将语音合成出来，此技术为习知技术，在此简短说明其参数设定：中文的21个声母及39个韵母都各以一个HMM表示，每个HMM包含5个HMM状态，每一个状态内的观察向量包含两个类别串：一个为维度75的频谱参数，另一个为离散的事件来表示清音(unvoiced)或浊音(voiced)的状态，每一个状态皆以多变量单一高斯函数(multi-variate singleGaussian)表示其观察机率。训练HMM模型的方法是以习知方法(embedded-trained及决策树方法对HMM状态分群)训练其参数，上述的参数设定及训练方法可视实际情况而调整，其并非用以限制本发明的范围。

请参阅表六，其为MOS主观听觉评估结果，其系经由十五位测试者聆听三种语速各十句所做主观音质评定的MOS分数平均，由该表中可看出合成语音在不同语速皆有不错的声音质量。

表六

语速	快(SR＝0.17)	中(SR=0.20)	慢(SR=0.25)
				MOS	3.35	3.44	3.28

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明的范围，任何熟习此技艺者，在不脱离本发明的精神和范围内，当可作各种更动与润饰，因此本发明的保护范围当视后附的申请专利范围所界定者为准。

实施例:

1.一种可控制语速的韵律讯息产生装置，包含：

一第一输入端，用以接收一语速；

一第二输入端，用以接收一语言参数；

一语速相依的韵律生成模块，用以配合该语言参数及该语速，以产生该语速相依的一韵律声学特征参数；及

一输出端，用以输出与该语速相依的该韵律声学特征参数，

2.如实施例1所述的装置，其中根据所产生的语速相依的韵律声学特征参数，可使用习知的语音合成器来合成出相对应的任一指定语速的合成语音。

3.如实施例1-2所述的装置，其中该语言参数至少包含两参数，其中各该参数系选自由包含词类、标点符号、词长声调、基本音节类型及韵母类型及其组合之一。

4.如实施例1-3所述的装置，其中该语速相依的韵律生成模块包含一语速相依的阶层式韵律模块、一语速相依的韵律讯息产生器、以及至少一个预估器，其中各该预估器系选自由包含一停顿标记预估器及一韵律状态预估器。

5.如实施例1-4所述的装置，其中该语速相依的韵律讯息产生器，根据一语速正规化函式、该语速相依的阶层式韵律模块的音节韵律声学模型及停顿声学模型、该韵律状态预估结果、该停顿标记预估结果、该输入语速及该语言参数，以产生一对应语速的韵律声学特征参数。

6.如实施例1-5所述的装置，其中该语速正规化函式用以调整韵律声学特征参数的统计特性成任一语速的统计特性;其所使用的正规化参数系采用整体语料的统计分布经平滑化而得到。

7.如实施例1-6所述的装置，其中该语速相依的阶层式韵律模块包含一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型，俾与一语速相依。

8.如实施例1-7所述的装置，其中该停顿标记预估器，根据该语速、该语言参数和该语速相依的阶层式韵律模块的停顿语法模型而执行一停顿标记预估操作，以产生一停顿标记预估结果。

9.如实施例1-8所述的装置，其中该韵律状态预估器，根据该语速、该语速相依的阶层式韵律模块的韵律状态模型、一韵律状态语法模型和该停顿标记预估结果而执行一韵律状态预估操作，以产生一韵律状态预估结果。

10.一种语速相依的阶层式韵律模块，包含至少二子模型，其中各该子模型系选自由一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型及其组合之一，俾与一语速相依。

11.如实施例10所述的模块，其中该语速相依的阶层式韵律模块根据一汉语语音数据库的语言参数、一正规化韵律声学参数及各语句的语速，再以一修正型阶层式韵律模型训练算法来建构。

12.如实施例10-11所述的模块，其中该音节韵律声学模型、该停顿声学模型、该韵律状态模型及该停顿语法模型各包含至少两种的子模型来建构。

13.如实施例10-12所述的模块，其中该正规化韵律声学参数根据各语句的语速，使用语速正规化函式对韵律声学参数做一正规化操作所产生。

14.如实施例10-13所述的模块，其中该修正型阶层式韵律模型训练算法亦施用于至少一停顿语法子模型与一韵律状态子模型。

15.如实施例10-14所述的模块，该语速相依的阶层式韵律模块根据一输入语速、一输入语言参数于该模块中，以产生相对应的一停顿类型机率用以协助停顿标记的预估、一韵律状态机率用以协助韵律状态的预估、一音节韵律声学特征参数机率及一音节间停顿时长的机率用以协助产生一语速相依的韵律声学特征参数。

16.一种语速相依的阶层式韵律模块，包含至少二参数，其中各该参数系选自由一停顿类型、一韵律状态、一音节韵律声学特征参数、一音节间韵律声学特征参数及一音节差分韵律声学特征参数及其组合之一，俾该模块与一语速相依。

17.如实施例16所述的模块，其中该韵律状态包含基频韵律状态、时长韵律状态及能量位阶韵律状态。

18.如实施例16-17所述的模块，其中该音节韵律声学特征参数包含音节基频轨迹、音节时长及音节能量位阶；

该音节间韵律声学特征参数包含停顿时长及能量低点位阶；及该音节差分韵律声学特征参数包含基频跳跃、时长拉长因子1及时长拉长因子2。

Claims

1.一种可控制语速的韵律讯息产生装置，包含：

一第一输入端，用以接收一语速；

一第二输入端，用以接收一语言参数；

一输出端，用以输出与该语速相依的该韵律声学特征参数。

2.如权利要求1所述的装置，其中根据所产生的语速相依的韵律声学特征参数，可使用习知的语音合成器来合成出相对应的任一指定语速的合成语音。

3.如权利要求1所述的装置，其中该语言参数至少包含两参数，其中各该参数系选自由包含词类、标点符号、词长、声调、基本音节类型及韵母类型及其组合之一。

4.如权利要求1所述的装置，其中该语速相依的韵律生成模块包含一语速相依的阶层式韵律模块、一语速相依的韵律讯息产生器、以及至少一个预估器，其中各该预估器系选自由包含一停顿标记预估器及一韵律状态预估器。

5.如权利要求4所述的装置，其中该语速相依的韵律讯息产生器，根据一语速正规化函式、该语速相依的阶层式韵律模块的音节韵律声学模型及停顿声学模型、该韵律状态预估结果、该停顿标记预估结果、该输入语速及该语言参数，以产生一对应语速的韵律声学特征参数。

6.如权利要求5所述的装置，其中该语速正规化函式用以调整韵律声学特征参数的统计特性成任一语速的统计特性;其所使用的正规化参数系采用整体语料的统计分布经平滑化而得到。

7.如权利要求4所述的装置，其中该语速相依的阶层式韵律模块包含一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型，俾与一语速相依。

8.如权利要求4所述的装置，其中该停顿标记预估器，根据该语速、该语言参数和该语速相依的阶层式韵律模块的停顿语法模型而执行一停顿标记预估操作，以产生一停顿标记预估结果。

9.如权利要求4所述的装置，其中该韵律状态预估器，根据该语速、该语速相依的阶层式韵律模块的韵律状态模型、一韵律状态语法模型和该停顿标记预估结果而执行一韵律状态预估操作，以产生一韵律状态预估结果。

11.如权利要求10所述的模块，其中该语速相依的阶层式韵律模块根据一汉语语音数据库的语言参数、一正规化韵律声学参数及各语句的语速，再以一修正型阶层式韵律模型训练算法来建构。

12.如权利要求10所述的模块，其中该音节韵律声学模型、该停顿声学模型、该韵律状态模型及该停顿语法模型各包含至少两种的子模型来建构。

13.如权利要求10-11所述的模块，其中该正规化韵律声学参数根据各语句的语速，使用语速正规化函式对韵律声学参数做一正规化操作所产生。

14.如权利要求10-11所述的模块，其中该修正型阶层式韵律模型训练算法亦施用于至少一停顿语法子模型与一韵律状态子模型。

15.如权利要求10所述的模块，该语速相依的阶层式韵律模块根据一输入语速、一输入语言参数于该模块中，以产生相对应的一停顿类型机率用以协助停顿标记的预估、一韵律状态机率用以协助韵律状态的预估、一音节韵律声学特征参数机率及一音节间停顿时长的机率用以协助产生一语速相依的韵律声学特征参数。

16.一种语速相依的阶层式韵律模块，包含至少二参数，其中各该参数系选自由一停顿类型、一韵律状态一音节韵律声学特征参数、一音节间韵律声学特征参数及一音节差分韵律声学特征参数及其组合之一，俾该模块与一语速相依。

17.如权利要求16所述的模块，其中该韵律状态包含基频韵律状态时长韵律状态及能量位阶韵律状态。

18.如权利要求16所述的模块，其中该音节韵律声学特征参数包含音节基频轨迹、音节时长及音节能量位阶；