CN102543081B

CN102543081B - 可调控式韵律重估测系统与方法及计算机程序产品

Info

Publication number: CN102543081B
Application number: CN201110039235.8A
Authority: CN
Inventors: 林政源; 黄健纮; 郭志忠
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2010-12-22
Filing date: 2011-02-15
Publication date: 2014-04-09
Anticipated expiration: 2031-02-15
Also published as: TWI413104B; US8706493B2; TW201227714A; CN102543081A; US20120166198A1

Abstract

本发明公开了一种可调控式韵律重估测系统与方法及计算机程序产品，该可调控式韵律重估测系统包括，一个语音或文字转语音的核心引擎系由一韵律预测或估算模块、一韵律重估测模块、以及一语音合成模块所组成。此韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息，并传送至此韵律重估测模块。此韵律重估测模块根据由一个可调控式韵律参数接口所提供的一可调控参数组及收到的韵律信息，将此韵律信息重估测后，产生新的韵律信息，再提供给此语音合成模块以产生合成语音。

Description

可调控式韵律重估测系统与方法及计算机程序产品

技术领域

本发明关于一种可调控式韵律重估测(controllable prosodyre-estimation)系统与方法及计算机程序产品。

背景技术

韵律预测在文字转语音(Text-To-Speech，TTS)系统上，对语音合成的自然性有很大的影响。文字转语音合成系统主要有基于大语料库(Corpus-based)的最佳单元选取合成方法以及隐藏式马可夫(HMM-based)统计模型方法。隐藏式马可夫模型统计方法的合成效果比较有一致性，不会因为输入的句子不同而有明显差异性。而训练出的语音模型文件通常都很小(例如3MB)，这些特点都优于大语料库的方法，所以此HMM-based的语音合成最近变得很普及。然而，利用此方法在产生韵律时，通常有过度平滑化(over-smoothing)的问题。虽然有文献提出全域变异数的方法(global variance method)来改善此问题，使用此方法去调整频谱有明显正向效果，但用于调整基频(FO)则无听觉上的偏好效果，有时候似乎会因为伴随产生的副效应(side effect)而降低语音质量。

最近一些关于TTS的文献也提出加强TTS的丰富表现的技术，这些技术通常需要大量收集多样式的语料库(corpora)，因此往往需要很多的后制处理。然而，建构一个韵律丰富性的TTS系统是十分耗时的，因此有部分的文献提出采用外部工具的方式提供TTS产生更多样化的韵律信息。例如，基于工具(tool-based)的系统提供使用者多种更新韵律的可行方案，像是提供使用者一个图形使用者接口(GUI)工具，来调整音高曲线(pitch contour)以改变韵律，并且根据新韵律重新合成语音；或是使用标记语言(markup language)来调整韵律等。然而，多数使用者无法正确地透过图形使用者接口来修改音高曲线，同样地，一般人并不熟悉如何撰写标记语言，所以，基于工具的系统在实际使用上也是不方便的。

关于TTS的专利文献有很多，例如可控制TTS输出质量、控制TTS不同速度输出的、用于计算机合成语音的中文语音音韵转换、使用韵律控制的中文文本至语音拼接合成、TTS韵预测方法以及语音合成系统及其韵律控制方法等。

举例来说，如图1所示的中文语音音韵转换系统100，是利用一个音韵分析单元130，接收一来源语音及相对应的文字，透过此分析单元里面的阶层拆解模块131、音韵转换函式选择模块132、音韵转换模块133撷取音韵信息，最后套用到语音合成单元150以产生合成语音(synthesized speech)。

如图2所示的语音合成系统与方法是一种针对外来语的TTS技术，以语言分析模块(language analysis module)204分析文字数据(text data)200而得的语言信息(language information)204a，透过韵律预测模块(prosodyprediction module)209产生韵律信息(prosody information)209a，接着由语音单元挑选模块(speech-unit selection module)208至特征参数数据库(characteristic parameter database)206中，挑选一序列较符合文字内容与预测韵律信息的语音数据，最后由语音语合成模块(speech synthesismodule)210合成出语音211。

发明内容

本发明实施的范例可提供一种可调控式韵律重估测系统与方法及计算机程序产品。

本发明公开了一种可调控式韵律重估测系统。此系统包含一个可调控式韵律参数接口以及一个语音或文字转语音(Speech-To-Speech orText-To-Speech，STS/TTS)的核心引擎。此可调控式韵律参数接口用来输入一可调控参数组。此核心引擎由一韵律预测或估算模块(prosodypredict/estimation module)、一韵律重估测模块(prosody re-estimationmodule)、以及一语音合成模块(speech synthesis module)所组成。此韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息，并传送至此韵律重估测模块。此韵律重估测模块根据输入的可调控参数组及收到的韵律信息，将此韵律信息重估测后，产生新的韵律信息，再提供给此语音合成模块以产生合成语音。

本发明公开了一种可调控式韵律重估测系统，此韵律重估测系统系执行于一计算机系统中。此计算机系统备有一内存设备，用来储存一原始录音语料库与一合成的语料库。此韵律重估测系统可包含一可调控式韵律参数接口及一处理器。此处理器备有一韵律预测或估算模块、一韵律重估测模块以及一语音合成模块。此韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息，并传送至此韵律重估测模块，此韵律重估测模块根据输入的可调控参数组及收到的韵律信息，将此韵律信息重估测后，产生新的韵律信息，再套用至此语音合成模块以产生合成语音。其中，此处理器统计此两语料库的韵律差异来建构一韵律重估测模型，以提供给此韵律重估测模块使用。

本发明公开了一种可调控式韵律重估测方法。此方法包含：准备一个可调控式韵律参数接口，以供输入一可调控参数组；根据输入文稿或输入语音来预测出或估算出韵律信息；建构一韵律重估测模型，并根据此可调控参数组及预测出或估算出的韵律信息，藉由此韵律重估测模型来调整出新的韵律信息；以及将此新的韵律信息提供给一语音合成模块以产生合成语音。

本发明公开了一种可调控式韵律重估测的计算机程序产品。此计算机程序产品包含一内存以及储存于此内存的一可执行的计算机程序。此计算机程序藉由一处理器来执行：准备一个可调控式韵律参数接口，以供输入一可调控参数组；根据输入文稿或输入语音来预测出或估算出韵律信息；建构一韵律重估测模型，并根据此可调控参数组及预测出或估算出的韵律信息，藉由此韵律重估测模型来调整出新的韵律信息；以及将此新的韵律信息提供给一语音合成模块以产生合成语音。

兹配合下列附图、具体实施方式的详细说明及权利要求书保护范围，将上述及本发明的其它目的与优点详述于后。

附图说明

图1是一种中文语音音韵转换系统的一个范例示意图；

图2是语音合成系统与方法的一个范例示意图；

图3是一范例示意图，说明多样式韵律分布的表示法，与本发明的某些实施范例一致；

图4是一种可调控式韵律重估测系统的一个范例示意图，与本发明的某些实施范例一致；

图5是图4的韵律重估测系统应用在TTS上的一个范例示意图，与本发明的某些实施范例一致；

图6是图4的韵律重估测系统应用在STS上的一个范例示意图，与本发明的某些实施范例一致；

图7是当韵律重估测系统应用在TTS上时，韵律重估测模块与其它模块的一个关联示意图，与本发明的某些实施范例一致；

图8是当韵律重估测系统应用在STS上时，韵律重估测模块与其它模块的一个关联示意图，与本发明的某些实施范例一致；

图9是一范例示意图，以应用在TTS上为例，说明如何建构一韵律重估测模型，与本发明的某些实施范例一致；

图10是产生回归模型的一个范例示意图，与本发明的某些实施范例一致；

图11是一范例流程图，说明一种可调控式韵律重估测方法的运作，与本发明的某些实施范例一致；

图12是韵律重估测系统执行于一计算机系统中的一范例流程图，与本发明的某些实施范例一致；

图13是对一句子的四种音高曲线的范例示意图，与本发明的某些实施范例一致；

图14是8个相异句子在图13所示四种情况下的音高平均值及标准差的范例示意图，与本发明的某些实施范例一致；

图15是给予不同的三组可调控参数所产生的三种音高曲线的范例示意图，与本发明的某些实施范例一致。

其中，附图标记：

100中文语音音韵转换系统 130音韵分析单元

131阶层拆解模块 132音韵转换函式选择模块

133音韵转换模块

150语音合成单元

200文字数据

204语言分析模块

204a语言信息

206特征参数数据库

208语音单元挑选模块

209韵律预测模块

209a韵律信息

210语音合成模块

211合成语音

X_ttsTTS系统所产生的韵律信息

X_tar目标韵律

调整后的韵律

(μ_tts，σ_tts)X_tts的分布

(μ_tar，σ_tar)X_tar的分布

调整后的韵律分布

400韵律重估测系统

410可调控式韵律参数接口

412可调控参数组

420STS/TTS的核心引擎

422韵律预测或估算模块

422a输入文稿

422b输入语音

424韵律重估测模块

426语音合成模块

428合成语音

X_src韵律信息

调整后的韵律信息

520TTS核心引擎

522韵律预测模块

620STS核心引擎

622韵律估算模块

(μ_shift，σ_center，γ_σ)三个可调控参数

910文字语料库

920原始录音语料库

930TTS系统

940合成的语料库

950韵律差异

960韵律重估测模型

1110准备一个可调控式韵律参数接口，以供输入一可调控参数组

1120根据输入文稿或输入语音来预测出或估算出韵律信息

1130建构一韵律重估测模型，并根据此可调控参数组及预测出或估算出的韵律信息，藉由此韵律重估测模型来调整出新的韵律信息

1140将此新的韵律信息提供给一语音合成模块以产生合成语音

1200韵律重估测系统

1210处理器

1290内存设备

1310基于HMM的TTS方法的TTS的音高曲线

具体实施方式

本发明实施的范例是要提供一个基于韵律重估测的可调控式的系统与方法及计算机程序产品，来提升韵律丰富性以更贴近原始录音的韵律表现，以及提供可控制的多样式韵律调整功能来区别单一种韵律的TTS系统。因此，本发明中，利用系统先前所估测的韵律信息当作初始值，经过一个韵律重估测模块后求得新的韵律信息，并且提供一个可调控韵律参数的接口，使其调整后韵律具有丰富性。而此核心的韵律重估测模块是统计两份语料库的韵律信息差异而求得，此两份语料库分别是原始录音的训练语句以及文字转语音系统的合成语句的语料库。

在说明如何利用可调控韵律参数来产生具有丰富性的韵律之前，先说明韵律重估测的建构。图3是一范例示意图，说明多样式韵律分布的表示法，与所发明的某些实施范例一致。图3的范例中，X_tts代表TTS系统所产生的韵律信息，并且X_tts的分布是由它的平均数μ_tts以及标准差σ_tts来规范，表示为(μ_tts，σ_tts)。X_tar代表目标韵律，并且X_tar的分布是由(μ_tar，σ_tar)来规范。如果(μ_tts，σ_tts)与(μ_tar，σ_tar)都为已知的话，则根据两分布，(μ_tts，σ_tts)与(μ_tar，σ_tar)，之间的统计差异(statistical difference)，X_tar可以被重估测而得出。正规化后的统计上的均等(normalized statisticalequivalent)公式如下：

(X_tar-μ_tar)/σ_tar＝(X_tts-μ_tts)/σ_tts (1)

将韵律重估测的观念延伸，则如图3所示，可以在(μ_tts，σ_tts)与(μ_tar，σ_tar)之间使用内插法(interpolation)，计算出多样式的调整后的韵律分布

依此，就容易产生出丰富的(rich)调整后的韵律

以提供给TTS系统。

无论使用何种训练方法，来自TTS系统的合成语音与来自它的训练语料库(training corpus)的录音(recorded speech)之间始终存在着韵律差异(prosody difference)。换句话说，如果有一个TTS系统的韵律补偿机制可以减少韵律差异的话，就可以产生出更自然的合成语音。所以，本发明实施的范例所要提供的一种有效的系统，以基于一种重估测的模式，来改善韵律预测(pitch prediction)。

图4是一种可调控式韵律重估测系统的一个范例示意图，与本发明的某些实施范例一致。图4的范例中，韵律重估测系统400可包含一个可调控式韵律参数接口410以及一个语音或文字转语音(Speech-To-Speech orText-To-Speech，STS/TTS)的核心引擎420。可调控式韵律参数接口410用来输入一可调控参数组412。核心引擎420可由一韵律预测或估算模块422、一韵律重估测模块424以及一语音合成模块426所组成。韵律预测或估算模块422根据输入文稿422a或输入语音422b来预测出或估算出韵律信息X_src，并传送至韵律重估测模块424。韵律重估测模块424根据输入的可调控参数组412以及收到的韵律信息X_src，将韵律信息X_src重估测后，产生新的韵律信息，也就是调整后的韵律信息

再套用至语音合成模块426以产生合成语音428。

在本发明实施的范例中，韵律信息X_src的求取方式是根据输入数据的型态来决定，假如是一段语音，则采用韵律估算模块进行韵律萃取，假如是一段文字，则是采用韵律预测模块。可调控参数组412至少包括有三个参数，彼此是独立的。此三个参数可由外部输入0个或1个或2个，其余未输入者可采用系统默认值。韵律重估测模块424可根据如公式(1)的韵律调整公式来重估测韵律信息X_src。可调控参数组412里的参数可采用两个平行语料库的方式统计而得。两个平行语料库分别是前述提及的原始录音的训练语句以及文字转语音系统的合成语句的语料库。而统计方式则分为静态分布法(static distributionmethod)及动态分布法(dynamic distribution method)。

图5与图6是韵律重估测系统400分别应用在TTS与STS上的范例示意图，与本发明的某些实施范例一致。图5的范例中，当韵律重估测系统400应用在TTS上时，图4中的STS/TTS的核心引擎420扮演TTS核心引擎520的角色，而图4中的韵律预测或估算模块422扮演韵律预测模块522的角色，根据输入文稿422a来预测出韵律信息。而图6的范例中，当韵律重估测系统400应用在STS上时，图4中的STS/TTS的核心引擎420扮演STS核心引擎620的角色，而图4中的韵律预测或估算模块422扮演韵律估算模块622的角色，根据输入语音422b来估算出韵律信息。

承上述，图7与图8是当韵律重估测系统400分别应用在TTS与STS上时，韵律重估测模块与其它模块的关联示意图，与本发明的某些实施范例一致。图7的范例中，当韵律重估测系统400应用在TTS上时，韵律重估测模块424接收韵律预测模块522预测出的韵律信息X_src，及参考可调控参数组412中的三个可调控参数，记为(μ_shift，μ_center，γ_σ)，然后采用一韵律重估测模型，来调整韵律信息X_src，产生新的韵律信息，即调整后的韵律信息

并传送至语音合成模块426。

图8的范例中，当韵律重估测系统400应用在STS上时，与图7不同的是，韵律重估测模块424所接收的韵律信息X_src是韵律估算模块622根据输入语音422b估算出的韵律信息。而韵律重估测模块424后续的运作与图7中所载相同，不再重述。关于三个可调控参数(μ_shift，μ_center，γ_σ)与韵律重估测模型将再详细说明。

以下以应用在TTS为例，先以图9的范例示意图来说明如何建构韵律重估测模型，与本发明的某些实施范例一致。在韵律重估测模型建构的阶段，需要有两份平行的语料库，也就是句子内容相同的两份语料库，一个定义为来源语料库(source corpus)，另一个定义为目标语料库(target corpus)。在图9的范例中，目标语料库是根据一个给定的(given)文字语料库(textcorpus)910而录制(record)的原始录音语料库(recorded speechcorpus)920，是作TTS训练之用。然后，可利用一种训练方法，例如HMM-based，来建构TTS系统930。一旦TTS系统930建立后，根据相同的文字语料库910输入的文稿内容，可使用此训练出的TTS系统930来产生一个合成的语料库(synthesized speech corpus)940，此即来源语料库。

因为原始录音语料库920与合成的语料库940是两份平行的语料库，可直接经由简单的统计来估测此两平行语料库的韵律差异950。在本发明实施的范例中，利用韵律差异950，提供两种统计法来获得一韵律重估测模型960，其中一种是全域统计法，另一种是单句统计法。全域统计法是一静态分布法(static distribution meethod)，而单句统计法是动态分布法(dynamicdistribution method)。此两种统计法说明如下。

全域统计法是以全体语料为统计单位，统计原始录音语料库与合成语音语料库的方式，并以整体语料库的韵律来衡量彼此之间的差异，而希望文字转语音系统所产生的合成语音韵律可以尽量近似于原始录音的自然韵律，因此对于原始录音语料库整体的平均数μ_rec和标准差σ_rec，以及合成语音语料库整体的平均数μ_tts和标准差σ_tts而言，这两者之间存在一个正规化统计均等(Normalized Statistical Equivalent)关系，如下式。

\frac{X_{rec} - μ_{rec}}{σ_{rec}} = \frac{X_{tts} - μ_{tts}}{σ_{tts}} - - - (2)

其中，X_tts表示由TTS系统所预测的韵律，而X_rec表示原始录音的韵律。换句话说，假设给予一个X_tts，则应该依下式来修正：

{\hat{X}}_{tts} = μ_{rec} + (X_{tts} - μ_{tts}) \frac{σ_{rec}}{σ_{tts}},

才能使得修正后的韵律有机会近似于原先录音的韵律表现。

单句统计法是以一个句子当作基本的统计单位。并以原始录音语料库及合成语料库的每一句子为基本单位，比较该两语料库的每一句的韵律差异性来观察与统计彼此的差异，做法说明如下：(1)对于每一平行序列对，亦即每一合成语句及每一原始录音语句，计算其韵律分布(μ_tts，σ_tts)及(μ_rec，σ_rec)。(2)假设共计算出K对韵律分布，标记为(μ_tts，σ_tts)₁及(μ_rec，σ_rec)₁至(μ_tts，σ_tts)_K及(μ_rec，σ_rec)_K，则可利用一回归法(regression method)，例如最小平方误差法、高斯混合模型法、支持向量机方法、类神经方法等，建立一回归模型(regression model)RM。(3)在合成阶段(synthesis stage)时，由TTS系统先预测出输入语句的初始韵律统计(μ_s，σ_s)，尔后套用回归模型RM就可得出新的韵律统计

即输入语句的目标韵律分布。图10是产生回归模型RM的一个范例示意图，与本发明的某些实施范例一致。其中，回归模型RM采用最小平方误差法而建立，所以套用时只需将初始韵律信息乘上RM即可，此回归模型RM是用来预测任一输入语句的目标韵律分布。

当韵律重估测模型建构完成后(不论是采用全域统计法或是单句统计法)，本发明实施的范例还提供一个可由参数调控(parameter controllable)的方式，来让TTS或STS系统能够产生更丰富的韵律。其原理先说明如下。

将方程式(1)中的tts替换成src，并且引入参数α及β，在(μ_src，σ_src)与(μ_tar，σ_tar)之间使用插入法，如下列方程式。

\{\begin{matrix} {\hat{μ}}_{tar} = α \cdot μ_{tar} + (1 - α) \cdot μ_{src} \\ {\hat{σ}}_{tar} = β \cdot σ_{tar} + (1 - β) \cdot σ_{src} \end{matrix}, 0 \leq α, β \leq 1

其中，μ_src与σ_src分别是来源语料库的韵律平均值μ_src以及韵律标准差σ_src。所以，欲计算出多样式的调整后的韵律分布，韵律重估测模型可用下列的形式来表达，X_src是来源语音。

{\hat{X}}_{tar} = {\hat{μ}}_{tar} + (X_{src} - μ_{src}) \frac{{\hat{σ}}_{tar}}{σ_{src}}

韵律重估测模型也可用下列的另一形式来表达。

{\hat{X}}_{tar} = μ_{shift} + (X_{src} - μ_{center}) \cdot γ_{σ}

其中，μ_center就是上一形式中的μ_src，也就是所有X_src的平均值，μ_shift就是上一形式中的γ_σ就是上一形式中的当韵律重估测模型采用此种表达形式时，共有三种参数(μ_shift，μ_center，γ_σ)可调整。透过此三种参数(μ_shift，μ_center，γ_σ)的调整，可使调整后的韵律更具有丰富性。以γ_σ值的变化说明如下。

当γ_σ＝0时，调整后的韵律

等于参数μ_shift的值，表示调整后的韵律

等于一个输入的常数值，例如合成的机器人的声音(synthetic roboticvoice)。当γ_σ＜0时，即

表示调整后的韵律是特殊韵律的调整，例如外国腔调的语音(foreign accented speech)。当γ_σ＞0时，表示调整后的韵律

是正规韵律的调整，其中，当γ_σ＝1时，

当γ_σ＞1时，1＜γ_σ＜σ_tar/σ_src；当γ_σ＜1时，σ_tar/σ_src＜γ_σ＜1。

因此，透过适当参数的调控，可适合某些情境或语气或不同语言的表达，可视终端需求而定。而本发明实施的范例中，韵律重估测系统400只需开放一个可调控式韵律参数接口410供终端输入此三个参数即可。当此三个参数有未输入者时，也可采用系统默认值。此三个参数的系统默认值可设定如下。

μ_center＝μ_src；μ_shift＝μ_tar；γ_σ＝σ_tar/σ_src。

而这些μ_src、μ_tar、σ_tar、σ_src的值可透过前述所提的两个平行语料库的方式统计而得。也就是说，本发明中的系统也提供参数未输入者的默认值。因此，在本发明实施的范例中，此可调控参数组412，例如μ_shift，μ_center，γ_σ)，是可弹性调控的(flexible control)。

承上述，图11是一范例流程图，说明一种可调控式韵律重估测方法的运作，与所发明的某些实施范例一致。图11的范例中，首先，准备一个可调控式韵律参数接口，以供输入一可调控参数组，如步骤1110所示。然后，根据输入文稿或输入语音来预测出或估算出韵律信息，如步骤1120所示。建构一韵律重估测模型，并根据此可调控参数组及预测出或估算出的韵律信息，藉由此韵律重估测模型来调整出新的韵律信息，如步骤1130所示。最后，将此新的韵律信息提供给一语音合成模块以产生合成语音，如步骤1140所示。

在图11的范例中，各步骤的实施细节，例如步骤1110的可调控参数组的输入与调控、步骤1120的韵律重估测模型的建构与表达形式、步骤1130的韵律重估测等，如同上述所载，不再重述。

本发明实施的韵律重估测系统也可执行于一计算机系统上。此计算机系统(未示于图标)备有一内存设备，用来储存原始录音语料库920与合成的语料库940。如图12的范例所示，韵律重估测系统1200包含可调控式韵律参数接口410及一处理器1210。处理器1210里可备有韵律预测或估算模块422、韵律重估测模块424以及语音合成模块426，来执行韵律预测或估算模块422、韵律重估测模块424、以及语音合成模块426的上述功能。处理器1210可经由统计内存设备1290中此两语料库的韵律差异，来建构上述的韵律重估测模型，以提供给韵律重估测模块424使用。处理器1210可以是计算机系统中的处理器。

本发明的实施范例也可以用一计算机程序产品(computer programproduct)来实现。此计算机程序产品至少包含一内存以及储存于此内存的一可执行的计算机程序(executable computer program)。此计算机程序可藉由一处理器或计算机系统来执行图11的可调控式韵律重估测方法的步骤1110至步骤1140。此处理器还可韵律预测或估算模块422、韵律重估测模块424以及语音合成模块426、及透过可调控式韵律参数接口410输入可调控式韵律参数，来执行韵律预测或估算模块422、韵律重估测模块424以及语音合成模块426的上述功能。藉由这些模块来执行步骤1110至步骤1140。当前述三个参数(μ_shift，μ_center，γ_σ)有未输入者时，也可采用前述的默认值。各实施细节如同上述所载，不再重述。

在本发明中，进行一系列的实验来证明其实施范例的可行性。首先，以全域统计法以及单句统计法来进行音高准位(pitch level)的验证实验，例如可采用音素、韵母(final)或音节(syllable)等当作基本单位来求取音高曲线(pitch contour)后再求其平均数。这里采用音高作为实验的依据是因为韵律的变化与音高变化是十分密切相关，所以可以透过观察音高的预测结果来验证所提的方法可行性。另外，以微观的方式进一步作比较，来观察比较音高曲线的预测差异程度。例如，以韵母当作基本单位为例，先以2605个中文句子(Chinese Mandarin sentences)的语料库并采用基于HMM的TTS方法来建构一TTS系统。然后，建立韵律重估测模型。再给予前述可调控参数组，并观察有使用与无使用其韵律重估测模型的TTS系统之间的合成自然度差异。

图13是对一句子的四种音高曲线的范例示意图，包括原始录音语料、采用HTS方法的TTS、采用静态分布法的TTS、及采用动态分布法的TTS，其中横轴代表句子的时间长度(单位为秒)，纵轴代表韵母的音高曲线(Final’spitch contour)，其单位为log Hz。从图13的范例可以看出，在基于HTS方法(基于HMM的其中一种方法)的TTS的音高曲线1310中，有明显的过度平滑化的现象。图14是8个相异句子在图13所示四种情况下的音高平均值及标准差的范例示意图，其中横轴代表句子的号码(sentence number)，纵轴代表平均值±标准差，其单位为log Hz。从图13及图14的范例可以看出，相较于采用传统HTS方法的TTS，本发明实施范例的TTS(无论是采用动态或静态分布法)可以产生与原始录音语料更具相似韵律的结果。

在本发明中，分别进行两项听觉测试(listening test)，包括偏好度测试(preference test)及相似度测试(similarity test)。相较于传统基于HMM的TTS方法，其测试结果显示本发明的经重估测后的合成语音有非常好的效果，特别是偏好度测试的结果。主要是因为本发明的重估测后的合成语音已经妥善补偿原始的TTS系统所产生的过度平滑的韵律，而产生更逼真的韵律。

在本发明中，也进行另一实验来观察给予前述可调控参数组后，其实施范例中的TTS的韵律是否变得更丰富。图15是给予不同的三组可调控参数所产生的三种音高曲线的范例示意图，这三种音高曲线分别由三种合成声音所估算而得，包括原始HTS方法的合成声音、合成的机器人的声音、及外国腔调的语音，其中横轴代表句子的时间长度(单位为秒)，纵轴代表韵母的音高曲线，其单位为log Hz。从图15的范例可以看出，对于合成的机器人的声音，经重估测后的音高曲线是几乎接近于平坦(flat)；至于外国腔调的语音，经重估测的音高曲线的形状(pitch shape)与HTS方法所产生的音高曲线相较，是呈现相反方向(opposite direction)。经过非正式的语音听测实验，多数听者认为，提供这些特殊的合成语音对目前TTS系统韵律表现上有加分的效果。

所以，从实验与量测显示本发明实施的范例都有优异的实现结果。本发明实施的范例在TTS或STS的应用上，可提供丰富的韵律及更贴近原始录音的韵律表现，也可提供可控制的多样式韵律调整功能。从本发明实施的范例中，也观察到当给予某些值的可调控参数后，经重估测后的合成语音，例如机器人的声音或外国腔调的语音，会有特殊的效果。

综上所述，本发明实施的范例可提供一种有效率的可调控式韵律重估测系统与方法，可应用于语音合成。本发明的实施范例利用先前所估测的韵律信息当作初始值，经过一个重估测模型后求得新的韵律信息，并且提供一个可调控式韵律参数接口，使其调整后韵律具有丰富性。重估测模型可藉由统计两平行语料库的韵律信息差异而求得，此两平行语料库分别是原始录音的训练语句以及文字转语音系统的合成语句。

以上所述者仅为本发明实施的范例，当不能依此限定本发明实施的范围。即大凡本发明权利要求范围所作的均等变化与修改，皆应仍属本发明专利的保护范围。

Claims

1.一种可调控式韵律重估测系统，其特征在于，该系统包含:

一个可调控式韵律参数接口，用来输入一可调控参数组；以及

一个语音或文字转语音的核心引擎，该核心引擎至少由一韵律预测或估算模块、一韵律重估测模块及一语音合成模块所组成，其中该韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息，并传送至该韵律重估测模块，该韵律重估测模块根据输入的该可调控参数组及收到的韵律信息，将该韵律信息重估测后，产生新的韵律信息，再提供给该语音合成模块以产生合成语音；

其中，该系统还建构一韵律重估测模型，并且该韵律重估测模块采用该韵律重估测模型来将该韵律信息重估测，以产生该新的韵律信息；

该韵律重估测模型以下列的形式来表达:

{\hat{X}}_{tar} = μ_{shift} + (X_{src} - μ_{center}) \cdot γ_{σ}

其中，X_src代表由一来源语音所产生的韵律信息，

代表该新的韵律信息，μ_center、μ_shift及γ_σ是三个可调控参数；

当μ_center未输入时，该系统设定μ_center的默认值为一来源语料库的韵律平均值，当μ_shift未输入时，该系统设定μ_shift的默认值为一目标语料库的韵律平均值，当γ_σ未输入时，该系统设定γ_σ的默认值为σ_tar/σ_src，σ_tar为一目标语料库的韵律标准差，σ_src为一来源语料库的韵律标准差。

2.如权利要求1所述的系统，其特征在于，该可调控参数组中的参数彼此是独立的。

3.如权利要求1所述的系统，其特征在于，该韵律重估测系统应用在文字转语音上时，该韵律预测或估算模块扮演一韵律预测模块的角色，根据该输入文稿来预测出该韵律信息。

4.如权利要求1所述的系统，其特征在于，该韵律重估测系统应用在语音转语音上时，该韵律预测或估算模块扮演一韵律估算模块的角色，根据该输入语音来估算出该韵律信息。

5.如权利要求1所述的系统，其特征在于，该系统透过一原始录音语料库以及一合成的语料库来建构该韵律重估测模型。

6.如权利要求1所述的系统，其特征在于，该可调控参数组包括多个可调控参数，并且当其中至少一参数未输入时，该系统提供该未输入的至少一参数的默认值。

7.一种可调控式韵律重估测系统，执行于一计算机系统中，其特征在于，该计算机系统备有一内存设备，用来储存一原始录音语料库与一合成的语料库，该韵律重估测系统包含:

一可调控式韵律参数接口，用来输入一可调控参数组；以及

一处理器，该处理器备有一韵律预测或估算模块、一韵律重估测模块及一语音合成模块，该韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息，并传送至该韵律重估测模块，该韵律重估测模块根据输入的该可调控参数组及收到的韵律信息，将该韵律信息重估测后，产生新的韵律信息，再提供给该语音合成模块以产生合成语音；

其中，该处理器统计该两语料库的韵律差异来建构一韵律重估测模型，以提供给该韵律信息重估测模块使用；

该韵律重估测模型以下列的形式来表达:

{\hat{X}}_{tar} = μ_{shift} + (X_{src} - μ_{center}) \cdot γ_{σ}

其中，X_src代表由一来源语音所产生的韵律信息，

8.如权利要求7所述的系统，其特征在于，该计算机系统包括该处理器。

9.如权利要求7所述的系统，其特征在于，该系统利用一单句统计法来获得该韵律重估测模型。

10.一种可调控式韵律重估测方法，执行于一可调控式韵律重估测系统或一计算机系统中，其特征在于，该方法包含:

准备一个可调控式韵律参数接口，以供输入一可调控参数组；

根据输入文稿或输入语音来预测出或估算出韵律信息；

建构一韵律重估测模型，并根据该可调控参数组及该预测出或估算出的韵律信息，藉由该韵律重估测模型来调整出新的韵律信息；以及

将该新的韵律信息套用至一语音合成模块以产生合成语音；

该韵律重估测模型以下列的形式来表达:

{\hat{X}}_{tar} = μ_{shift} + (X_{src} - μ_{center}) \cdot γ_{σ}

其中，X_src代表由一来源语音所产生的韵律信息，代表该新的韵律信息，μ_center、μ_shift及γ_σ是三个可调控参数；

当μ_center未输入时，该方法设定μ_center的默认值为一来源语料库的韵律平均值，当μ_shift未输入时，该方法设定μ_shift的默认值为一目标语料库的韵律平均值，当γ_σ未输入时，该方法设定γ_σ的默认值为σ_tar/σ_src，σ_tar为一目标语料库的韵律标准差，σ_src为一来源语料库的韵律标准差。

11.如权利要求10所述的方法，其特征在于，该可调控参数组包括多个可调控参数，并且当其中至少一参数未输入时，该方法还包括设定该未输入的至少一参数的默认值，并且该至少一参数的默认值系统计两平行语料库的韵律分布而得出。

12.如权利要求10所述的方法，其特征在于，该韵律重估测模型经由统计两平行语料库的韵律差异而建构，该两平行语料库为一原始录音语料库以及一合成的语料库。

13.如权利要求12所述的方法，其特征在于，该原始录音语料库是根据一个给定的文字语料库而录制的原始录音语料库，而该合成的语料库是经由该原始录音语料库训练出的一文字转语音系统所合成语句的语料库。

14.如权利要求10所述的方法，其特征在于，该方法利用一静态分布法来获得该韵律重估测模型。

15.如权利要求12所述的方法，其特征在于，该方法利用一单句统计法来获得该韵律重估测模型。

16.如权利要求15所述的方法，其特征在于，该单句统计法还包括:

以该原始录音语料库及该合成语料库的每一句子为基本单位，比较该两语料库的每一句子间的韵律差异性并统计彼此的差异；

根据该统计出的差异，利用一回归法，建立一回归模型；以及

在合成语音时，以该回归模型来预测一输入语句的目标韵律分布。