CN102543081B - 可调控式韵律重估测系统与方法及计算机程序产品 - Google Patents
可调控式韵律重估测系统与方法及计算机程序产品 Download PDFInfo
- Publication number
- CN102543081B CN102543081B CN201110039235.8A CN201110039235A CN102543081B CN 102543081 B CN102543081 B CN 102543081B CN 201110039235 A CN201110039235 A CN 201110039235A CN 102543081 B CN102543081 B CN 102543081B
- Authority
- CN
- China
- Prior art keywords
- rhythm
- corpus
- revaluation
- prosodic information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000033764 rhythmic process Effects 0.000 title claims description 198
- 238000004590 computer program Methods 0.000 title abstract description 15
- 238000010276 construction Methods 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 16
- 230000001105 regulatory effect Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 230000003068 static effect Effects 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 abstract description 15
- 238000003786 synthesis reaction Methods 0.000 abstract description 15
- 230000008569 process Effects 0.000 description 17
- 238000012360 testing method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种可调控式韵律重估测系统与方法及计算机程序产品,该可调控式韵律重估测系统包括,一个语音或文字转语音的核心引擎系由一韵律预测或估算模块、一韵律重估测模块、以及一语音合成模块所组成。此韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息,并传送至此韵律重估测模块。此韵律重估测模块根据由一个可调控式韵律参数接口所提供的一可调控参数组及收到的韵律信息,将此韵律信息重估测后,产生新的韵律信息,再提供给此语音合成模块以产生合成语音。
Description
技术领域
本发明关于一种可调控式韵律重估测(controllable prosodyre-estimation)系统与方法及计算机程序产品。
背景技术
韵律预测在文字转语音(Text-To-Speech,TTS)系统上,对语音合成的自然性有很大的影响。文字转语音合成系统主要有基于大语料库(Corpus-based)的最佳单元选取合成方法以及隐藏式马可夫(HMM-based)统计模型方法。隐藏式马可夫模型统计方法的合成效果比较有一致性,不会因为输入的句子不同而有明显差异性。而训练出的语音模型文件通常都很小(例如3MB),这些特点都优于大语料库的方法,所以此HMM-based的语音合成最近变得很普及。然而,利用此方法在产生韵律时,通常有过度平滑化(over-smoothing)的问题。虽然有文献提出全域变异数的方法(global variance method)来改善此问题,使用此方法去调整频谱有明显正向效果,但用于调整基频(FO)则无听觉上的偏好效果,有时候似乎会因为伴随产生的副效应(side effect)而降低语音质量。
最近一些关于TTS的文献也提出加强TTS的丰富表现的技术,这些技术通常需要大量收集多样式的语料库(corpora),因此往往需要很多的后制处理。然而,建构一个韵律丰富性的TTS系统是十分耗时的,因此有部分的文献提出采用外部工具的方式提供TTS产生更多样化的韵律信息。例如,基于工具(tool-based)的系统提供使用者多种更新韵律的可行方案,像是提供使用者一个图形使用者接口(GUI)工具,来调整音高曲线(pitch contour)以改变韵律,并且根据新韵律重新合成语音;或是使用标记语言(markup language)来调整韵律等。然而,多数使用者无法正确地透过图形使用者接口来修改音高曲线,同样地,一般人并不熟悉如何撰写标记语言,所以,基于工具的系统在实际使用上也是不方便的。
关于TTS的专利文献有很多,例如可控制TTS输出质量、控制TTS不同速度输出的、用于计算机合成语音的中文语音音韵转换、使用韵律控制的中文文本至语音拼接合成、TTS韵预测方法以及语音合成系统及其韵律控制方法等。
举例来说,如图1所示的中文语音音韵转换系统100,是利用一个音韵分析单元130,接收一来源语音及相对应的文字,透过此分析单元里面的阶层拆解模块131、音韵转换函式选择模块132、音韵转换模块133撷取音韵信息,最后套用到语音合成单元150以产生合成语音(synthesized speech)。
如图2所示的语音合成系统与方法是一种针对外来语的TTS技术,以语言分析模块(language analysis module)204分析文字数据(text data)200而得的语言信息(language information)204a,透过韵律预测模块(prosodyprediction module)209产生韵律信息(prosody information)209a,接着由语音单元挑选模块(speech-unit selection module)208至特征参数数据库(characteristic parameter database)206中,挑选一序列较符合文字内容与预测韵律信息的语音数据,最后由语音语合成模块(speech synthesismodule)210合成出语音211。
发明内容
本发明实施的范例可提供一种可调控式韵律重估测系统与方法及计算机程序产品。
本发明公开了一种可调控式韵律重估测系统。此系统包含一个可调控式韵律参数接口以及一个语音或文字转语音(Speech-To-Speech orText-To-Speech,STS/TTS)的核心引擎。此可调控式韵律参数接口用来输入一可调控参数组。此核心引擎由一韵律预测或估算模块(prosodypredict/estimation module)、一韵律重估测模块(prosody re-estimationmodule)、以及一语音合成模块(speech synthesis module)所组成。此韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息,并传送至此韵律重估测模块。此韵律重估测模块根据输入的可调控参数组及收到的韵律信息,将此韵律信息重估测后,产生新的韵律信息,再提供给此语音合成模块以产生合成语音。
本发明公开了一种可调控式韵律重估测系统,此韵律重估测系统系执行于一计算机系统中。此计算机系统备有一内存设备,用来储存一原始录音语料库与一合成的语料库。此韵律重估测系统可包含一可调控式韵律参数接口及一处理器。此处理器备有一韵律预测或估算模块、一韵律重估测模块以及一语音合成模块。此韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息,并传送至此韵律重估测模块,此韵律重估测模块根据输入的可调控参数组及收到的韵律信息,将此韵律信息重估测后,产生新的韵律信息,再套用至此语音合成模块以产生合成语音。其中,此处理器统计此两语料库的韵律差异来建构一韵律重估测模型,以提供给此韵律重估测模块使用。
本发明公开了一种可调控式韵律重估测方法。此方法包含:准备一个可调控式韵律参数接口,以供输入一可调控参数组;根据输入文稿或输入语音来预测出或估算出韵律信息;建构一韵律重估测模型,并根据此可调控参数组及预测出或估算出的韵律信息,藉由此韵律重估测模型来调整出新的韵律信息;以及将此新的韵律信息提供给一语音合成模块以产生合成语音。
本发明公开了一种可调控式韵律重估测的计算机程序产品。此计算机程序产品包含一内存以及储存于此内存的一可执行的计算机程序。此计算机程序藉由一处理器来执行:准备一个可调控式韵律参数接口,以供输入一可调控参数组;根据输入文稿或输入语音来预测出或估算出韵律信息;建构一韵律重估测模型,并根据此可调控参数组及预测出或估算出的韵律信息,藉由此韵律重估测模型来调整出新的韵律信息;以及将此新的韵律信息提供给一语音合成模块以产生合成语音。
兹配合下列附图、具体实施方式的详细说明及权利要求书保护范围,将上述及本发明的其它目的与优点详述于后。
附图说明
图1是一种中文语音音韵转换系统的一个范例示意图;
图2是语音合成系统与方法的一个范例示意图;
图3是一范例示意图,说明多样式韵律分布的表示法,与本发明的某些实施范例一致;
图4是一种可调控式韵律重估测系统的一个范例示意图,与本发明的某些实施范例一致;
图5是图4的韵律重估测系统应用在TTS上的一个范例示意图,与本发明的某些实施范例一致;
图6是图4的韵律重估测系统应用在STS上的一个范例示意图,与本发明的某些实施范例一致;
图7是当韵律重估测系统应用在TTS上时,韵律重估测模块与其它模块的一个关联示意图,与本发明的某些实施范例一致;
图8是当韵律重估测系统应用在STS上时,韵律重估测模块与其它模块的一个关联示意图,与本发明的某些实施范例一致;
图9是一范例示意图,以应用在TTS上为例,说明如何建构一韵律重估测模型,与本发明的某些实施范例一致;
图10是产生回归模型的一个范例示意图,与本发明的某些实施范例一致;
图11是一范例流程图,说明一种可调控式韵律重估测方法的运作,与本发明的某些实施范例一致;
图12是韵律重估测系统执行于一计算机系统中的一范例流程图,与本发明的某些实施范例一致;
图13是对一句子的四种音高曲线的范例示意图,与本发明的某些实施范例一致;
图14是8个相异句子在图13所示四种情况下的音高平均值及标准差的范例示意图,与本发明的某些实施范例一致;
图15是给予不同的三组可调控参数所产生的三种音高曲线的范例示意图,与本发明的某些实施范例一致。
其中,附图标记:
100中文语音音韵转换系统 130音韵分析单元
131阶层拆解模块 132音韵转换函式选择模块
133音韵转换模块
150语音合成单元
200文字数据
204语言分析模块
204a语言信息
206特征参数数据库
208语音单元挑选模块
209韵律预测模块
209a韵律信息
210语音合成模块
211合成语音
XttsTTS系统所产生的韵律信息
Xtar目标韵律
(μtts,σtts)Xtts的分布
(μtar,σtar)Xtar的分布
400韵律重估测系统
410可调控式韵律参数接口
412可调控参数组
420STS/TTS的核心引擎
422韵律预测或估算模块
422a输入文稿
422b输入语音
424韵律重估测模块
426语音合成模块
428合成语音
Xsrc韵律信息
520TTS核心引擎
522韵律预测模块
620STS核心引擎
622韵律估算模块
(μshift,σcenter,γσ)三个可调控参数
910文字语料库
920原始录音语料库
930TTS系统
940合成的语料库
950韵律差异
960韵律重估测模型
1110准备一个可调控式韵律参数接口,以供输入一可调控参数组
1120根据输入文稿或输入语音来预测出或估算出韵律信息
1130建构一韵律重估测模型,并根据此可调控参数组及预测出或估算出的韵律信息,藉由此韵律重估测模型来调整出新的韵律信息
1140将此新的韵律信息提供给一语音合成模块以产生合成语音
1200韵律重估测系统
1210处理器
1290内存设备
1310基于HMM的TTS方法的TTS的音高曲线
具体实施方式
本发明实施的范例是要提供一个基于韵律重估测的可调控式的系统与方法及计算机程序产品,来提升韵律丰富性以更贴近原始录音的韵律表现,以及提供可控制的多样式韵律调整功能来区别单一种韵律的TTS系统。因此,本发明中,利用系统先前所估测的韵律信息当作初始值,经过一个韵律重估测模块后求得新的韵律信息,并且提供一个可调控韵律参数的接口,使其调整后韵律具有丰富性。而此核心的韵律重估测模块是统计两份语料库的韵律信息差异而求得,此两份语料库分别是原始录音的训练语句以及文字转语音系统的合成语句的语料库。
在说明如何利用可调控韵律参数来产生具有丰富性的韵律之前,先说明韵律重估测的建构。图3是一范例示意图,说明多样式韵律分布的表示法,与所发明的某些实施范例一致。图3的范例中,Xtts代表TTS系统所产生的韵律信息,并且Xtts的分布是由它的平均数μtts以及标准差σtts来规范,表示为(μtts,σtts)。Xtar代表目标韵律,并且Xtar的分布是由(μtar,σtar)来规范。如果(μtts,σtts)与(μtar,σtar)都为已知的话,则根据两分布,(μtts,σtts)与(μtar,σtar),之间的统计差异(statistical difference),Xtar可以被重估测而得出。正规化后的统计上的均等(normalized statisticalequivalent)公式如下:
(Xtar-μtar)/σtar=(Xtts-μtts)/σtts (1)
将韵律重估测的观念延伸,则如图3所示,可以在(μtts,σtts)与(μtar,σtar)之间使用内插法(interpolation),计算出多样式的调整后的韵律分布依此,就容易产生出丰富的(rich)调整后的韵律以提供给TTS系统。
无论使用何种训练方法,来自TTS系统的合成语音与来自它的训练语料库(training corpus)的录音(recorded speech)之间始终存在着韵律差异(prosody difference)。换句话说,如果有一个TTS系统的韵律补偿机制可以减少韵律差异的话,就可以产生出更自然的合成语音。所以,本发明实施的范例所要提供的一种有效的系统,以基于一种重估测的模式,来改善韵律预测(pitch prediction)。
图4是一种可调控式韵律重估测系统的一个范例示意图,与本发明的某些实施范例一致。图4的范例中,韵律重估测系统400可包含一个可调控式韵律参数接口410以及一个语音或文字转语音(Speech-To-Speech orText-To-Speech,STS/TTS)的核心引擎420。可调控式韵律参数接口410用来输入一可调控参数组412。核心引擎420可由一韵律预测或估算模块422、一韵律重估测模块424以及一语音合成模块426所组成。韵律预测或估算模块422根据输入文稿422a或输入语音422b来预测出或估算出韵律信息Xsrc,并传送至韵律重估测模块424。韵律重估测模块424根据输入的可调控参数组412以及收到的韵律信息Xsrc,将韵律信息Xsrc重估测后,产生新的韵律信息,也就是调整后的韵律信息再套用至语音合成模块426以产生合成语音428。
在本发明实施的范例中,韵律信息Xsrc的求取方式是根据输入数据的型态来决定,假如是一段语音,则采用韵律估算模块进行韵律萃取,假如是一段文字,则是采用韵律预测模块。可调控参数组412至少包括有三个参数,彼此是独立的。此三个参数可由外部输入0个或1个或2个,其余未输入者可采用系统默认值。韵律重估测模块424可根据如公式(1)的韵律调整公式来重估测韵律信息Xsrc。可调控参数组412里的参数可采用两个平行语料库的方式统计而得。两个平行语料库分别是前述提及的原始录音的训练语句以及文字转语音系统的合成语句的语料库。而统计方式则分为静态分布法(static distributionmethod)及动态分布法(dynamic distribution method)。
图5与图6是韵律重估测系统400分别应用在TTS与STS上的范例示意图,与本发明的某些实施范例一致。图5的范例中,当韵律重估测系统400应用在TTS上时,图4中的STS/TTS的核心引擎420扮演TTS核心引擎520的角色,而图4中的韵律预测或估算模块422扮演韵律预测模块522的角色,根据输入文稿422a来预测出韵律信息。而图6的范例中,当韵律重估测系统400应用在STS上时,图4中的STS/TTS的核心引擎420扮演STS核心引擎620的角色,而图4中的韵律预测或估算模块422扮演韵律估算模块622的角色,根据输入语音422b来估算出韵律信息。
承上述,图7与图8是当韵律重估测系统400分别应用在TTS与STS上时,韵律重估测模块与其它模块的关联示意图,与本发明的某些实施范例一致。图7的范例中,当韵律重估测系统400应用在TTS上时,韵律重估测模块424接收韵律预测模块522预测出的韵律信息Xsrc,及参考可调控参数组412中的三个可调控参数,记为(μshift,μcenter,γσ),然后采用一韵律重估测模型,来调整韵律信息Xsrc,产生新的韵律信息,即调整后的韵律信息并传送至语音合成模块426。
图8的范例中,当韵律重估测系统400应用在STS上时,与图7不同的是,韵律重估测模块424所接收的韵律信息Xsrc是韵律估算模块622根据输入语音422b估算出的韵律信息。而韵律重估测模块424后续的运作与图7中所载相同,不再重述。关于三个可调控参数(μshift,μcenter,γσ)与韵律重估测模型将再详细说明。
以下以应用在TTS为例,先以图9的范例示意图来说明如何建构韵律重估测模型,与本发明的某些实施范例一致。在韵律重估测模型建构的阶段,需要有两份平行的语料库,也就是句子内容相同的两份语料库,一个定义为来源语料库(source corpus),另一个定义为目标语料库(target corpus)。在图9的范例中,目标语料库是根据一个给定的(given)文字语料库(textcorpus)910而录制(record)的原始录音语料库(recorded speechcorpus)920,是作TTS训练之用。然后,可利用一种训练方法,例如HMM-based,来建构TTS系统930。一旦TTS系统930建立后,根据相同的文字语料库910输入的文稿内容,可使用此训练出的TTS系统930来产生一个合成的语料库(synthesized speech corpus)940,此即来源语料库。
因为原始录音语料库920与合成的语料库940是两份平行的语料库,可直接经由简单的统计来估测此两平行语料库的韵律差异950。在本发明实施的范例中,利用韵律差异950,提供两种统计法来获得一韵律重估测模型960,其中一种是全域统计法,另一种是单句统计法。全域统计法是一静态分布法(static distribution meethod),而单句统计法是动态分布法(dynamicdistribution method)。此两种统计法说明如下。
全域统计法是以全体语料为统计单位,统计原始录音语料库与合成语音语料库的方式,并以整体语料库的韵律来衡量彼此之间的差异,而希望文字转语音系统所产生的合成语音韵律可以尽量近似于原始录音的自然韵律,因此对于原始录音语料库整体的平均数μrec和标准差σrec,以及合成语音语料库整体的平均数μtts和标准差σtts而言,这两者之间存在一个正规化统计均等(Normalized Statistical Equivalent)关系,如下式。
其中,Xtts表示由TTS系统所预测的韵律,而Xrec表示原始录音的韵律。换句话说,假设给予一个Xtts,则应该依下式来修正:
才能使得修正后的韵律有机会近似于原先录音的韵律表现。
单句统计法是以一个句子当作基本的统计单位。并以原始录音语料库及合成语料库的每一句子为基本单位,比较该两语料库的每一句的韵律差异性来观察与统计彼此的差异,做法说明如下:(1)对于每一平行序列对,亦即每一合成语句及每一原始录音语句,计算其韵律分布(μtts,σtts)及(μrec,σrec)。(2)假设共计算出K对韵律分布,标记为(μtts,σtts)1及(μrec,σrec)1至(μtts,σtts)K及(μrec,σrec)K,则可利用一回归法(regression method),例如最小平方误差法、高斯混合模型法、支持向量机方法、类神经方法等,建立一回归模型(regression model)RM。(3)在合成阶段(synthesis stage)时,由TTS系统先预测出输入语句的初始韵律统计(μs,σs),尔后套用回归模型RM就可得出新的韵律统计即输入语句的目标韵律分布。图10是产生回归模型RM的一个范例示意图,与本发明的某些实施范例一致。其中,回归模型RM采用最小平方误差法而建立,所以套用时只需将初始韵律信息乘上RM即可,此回归模型RM是用来预测任一输入语句的目标韵律分布。
当韵律重估测模型建构完成后(不论是采用全域统计法或是单句统计法),本发明实施的范例还提供一个可由参数调控(parameter controllable)的方式,来让TTS或STS系统能够产生更丰富的韵律。其原理先说明如下。
将方程式(1)中的tts替换成src,并且引入参数α及β,在(μsrc,σsrc)与(μtar,σtar)之间使用插入法,如下列方程式。
其中,μsrc与σsrc分别是来源语料库的韵律平均值μsrc以及韵律标准差σsrc。所以,欲计算出多样式的调整后的韵律分布,韵律重估测模型可用下列的形式来表达,Xsrc是来源语音。
韵律重估测模型也可用下列的另一形式来表达。
其中,μcenter就是上一形式中的μsrc,也就是所有Xsrc的平均值,μshift就是上一形式中的γσ就是上一形式中的当韵律重估测模型采用此种表达形式时,共有三种参数(μshift,μcenter,γσ)可调整。透过此三种参数(μshift,μcenter,γσ)的调整,可使调整后的韵律更具有丰富性。以γσ值的变化说明如下。
当γσ=0时,调整后的韵律等于参数μshift的值,表示调整后的韵律等于一个输入的常数值,例如合成的机器人的声音(synthetic roboticvoice)。当γσ<0时,即表示调整后的韵律是特殊韵律的调整,例如外国腔调的语音(foreign accented speech)。当γσ>0时,表示调整后的韵律是正规韵律的调整,其中,当γσ=1时,当γσ>1时,1<γσ<σtar/σsrc;当γσ<1时,σtar/σsrc<γσ<1。
因此,透过适当参数的调控,可适合某些情境或语气或不同语言的表达,可视终端需求而定。而本发明实施的范例中,韵律重估测系统400只需开放一个可调控式韵律参数接口410供终端输入此三个参数即可。当此三个参数有未输入者时,也可采用系统默认值。此三个参数的系统默认值可设定如下。
μcenter=μsrc;μshift=μtar;γσ=σtar/σsrc。
而这些μsrc、μtar、σtar、σsrc的值可透过前述所提的两个平行语料库的方式统计而得。也就是说,本发明中的系统也提供参数未输入者的默认值。因此,在本发明实施的范例中,此可调控参数组412,例如μshift,μcenter,γσ),是可弹性调控的(flexible control)。
承上述,图11是一范例流程图,说明一种可调控式韵律重估测方法的运作,与所发明的某些实施范例一致。图11的范例中,首先,准备一个可调控式韵律参数接口,以供输入一可调控参数组,如步骤1110所示。然后,根据输入文稿或输入语音来预测出或估算出韵律信息,如步骤1120所示。建构一韵律重估测模型,并根据此可调控参数组及预测出或估算出的韵律信息,藉由此韵律重估测模型来调整出新的韵律信息,如步骤1130所示。最后,将此新的韵律信息提供给一语音合成模块以产生合成语音,如步骤1140所示。
在图11的范例中,各步骤的实施细节,例如步骤1110的可调控参数组的输入与调控、步骤1120的韵律重估测模型的建构与表达形式、步骤1130的韵律重估测等,如同上述所载,不再重述。
本发明实施的韵律重估测系统也可执行于一计算机系统上。此计算机系统(未示于图标)备有一内存设备,用来储存原始录音语料库920与合成的语料库940。如图12的范例所示,韵律重估测系统1200包含可调控式韵律参数接口410及一处理器1210。处理器1210里可备有韵律预测或估算模块422、韵律重估测模块424以及语音合成模块426,来执行韵律预测或估算模块422、韵律重估测模块424、以及语音合成模块426的上述功能。处理器1210可经由统计内存设备1290中此两语料库的韵律差异,来建构上述的韵律重估测模型,以提供给韵律重估测模块424使用。处理器1210可以是计算机系统中的处理器。
本发明的实施范例也可以用一计算机程序产品(computer programproduct)来实现。此计算机程序产品至少包含一内存以及储存于此内存的一可执行的计算机程序(executable computer program)。此计算机程序可藉由一处理器或计算机系统来执行图11的可调控式韵律重估测方法的步骤1110至步骤1140。此处理器还可韵律预测或估算模块422、韵律重估测模块424以及语音合成模块426、及透过可调控式韵律参数接口410输入可调控式韵律参数,来执行韵律预测或估算模块422、韵律重估测模块424以及语音合成模块426的上述功能。藉由这些模块来执行步骤1110至步骤1140。当前述三个参数(μshift,μcenter,γσ)有未输入者时,也可采用前述的默认值。各实施细节如同上述所载,不再重述。
在本发明中,进行一系列的实验来证明其实施范例的可行性。首先,以全域统计法以及单句统计法来进行音高准位(pitch level)的验证实验,例如可采用音素、韵母(final)或音节(syllable)等当作基本单位来求取音高曲线(pitch contour)后再求其平均数。这里采用音高作为实验的依据是因为韵律的变化与音高变化是十分密切相关,所以可以透过观察音高的预测结果来验证所提的方法可行性。另外,以微观的方式进一步作比较,来观察比较音高曲线的预测差异程度。例如,以韵母当作基本单位为例,先以2605个中文句子(Chinese Mandarin sentences)的语料库并采用基于HMM的TTS方法来建构一TTS系统。然后,建立韵律重估测模型。再给予前述可调控参数组,并观察有使用与无使用其韵律重估测模型的TTS系统之间的合成自然度差异。
图13是对一句子的四种音高曲线的范例示意图,包括原始录音语料、采用HTS方法的TTS、采用静态分布法的TTS、及采用动态分布法的TTS,其中横轴代表句子的时间长度(单位为秒),纵轴代表韵母的音高曲线(Final’spitch contour),其单位为log Hz。从图13的范例可以看出,在基于HTS方法(基于HMM的其中一种方法)的TTS的音高曲线1310中,有明显的过度平滑化的现象。图14是8个相异句子在图13所示四种情况下的音高平均值及标准差的范例示意图,其中横轴代表句子的号码(sentence number),纵轴代表平均值±标准差,其单位为log Hz。从图13及图14的范例可以看出,相较于采用传统HTS方法的TTS,本发明实施范例的TTS(无论是采用动态或静态分布法)可以产生与原始录音语料更具相似韵律的结果。
在本发明中,分别进行两项听觉测试(listening test),包括偏好度测试(preference test)及相似度测试(similarity test)。相较于传统基于HMM的TTS方法,其测试结果显示本发明的经重估测后的合成语音有非常好的效果,特别是偏好度测试的结果。主要是因为本发明的重估测后的合成语音已经妥善补偿原始的TTS系统所产生的过度平滑的韵律,而产生更逼真的韵律。
在本发明中,也进行另一实验来观察给予前述可调控参数组后,其实施范例中的TTS的韵律是否变得更丰富。图15是给予不同的三组可调控参数所产生的三种音高曲线的范例示意图,这三种音高曲线分别由三种合成声音所估算而得,包括原始HTS方法的合成声音、合成的机器人的声音、及外国腔调的语音,其中横轴代表句子的时间长度(单位为秒),纵轴代表韵母的音高曲线,其单位为log Hz。从图15的范例可以看出,对于合成的机器人的声音,经重估测后的音高曲线是几乎接近于平坦(flat);至于外国腔调的语音,经重估测的音高曲线的形状(pitch shape)与HTS方法所产生的音高曲线相较,是呈现相反方向(opposite direction)。经过非正式的语音听测实验,多数听者认为,提供这些特殊的合成语音对目前TTS系统韵律表现上有加分的效果。
所以,从实验与量测显示本发明实施的范例都有优异的实现结果。本发明实施的范例在TTS或STS的应用上,可提供丰富的韵律及更贴近原始录音的韵律表现,也可提供可控制的多样式韵律调整功能。从本发明实施的范例中,也观察到当给予某些值的可调控参数后,经重估测后的合成语音,例如机器人的声音或外国腔调的语音,会有特殊的效果。
综上所述,本发明实施的范例可提供一种有效率的可调控式韵律重估测系统与方法,可应用于语音合成。本发明的实施范例利用先前所估测的韵律信息当作初始值,经过一个重估测模型后求得新的韵律信息,并且提供一个可调控式韵律参数接口,使其调整后韵律具有丰富性。重估测模型可藉由统计两平行语料库的韵律信息差异而求得,此两平行语料库分别是原始录音的训练语句以及文字转语音系统的合成语句。
以上所述者仅为本发明实施的范例,当不能依此限定本发明实施的范围。即大凡本发明权利要求范围所作的均等变化与修改,皆应仍属本发明专利的保护范围。
Claims (16)
1.一种可调控式韵律重估测系统,其特征在于,该系统包含:
一个可调控式韵律参数接口,用来输入一可调控参数组;以及
一个语音或文字转语音的核心引擎,该核心引擎至少由一韵律预测或估算模块、一韵律重估测模块及一语音合成模块所组成,其中该韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息,并传送至该韵律重估测模块,该韵律重估测模块根据输入的该可调控参数组及收到的韵律信息,将该韵律信息重估测后,产生新的韵律信息,再提供给该语音合成模块以产生合成语音;
其中,该系统还建构一韵律重估测模型,并且该韵律重估测模块采用该韵律重估测模型来将该韵律信息重估测,以产生该新的韵律信息;
该韵律重估测模型以下列的形式来表达:
当μcenter未输入时,该系统设定μcenter的默认值为一来源语料库的韵律平均值,当μshift未输入时,该系统设定μshift的默认值为一目标语料库的韵律平均值,当γσ未输入时,该系统设定γσ的默认值为σtar/σsrc,σtar为一目标语料库的韵律标准差,σsrc为一来源语料库的韵律标准差。
2.如权利要求1所述的系统,其特征在于,该可调控参数组中的参数彼此是独立的。
3.如权利要求1所述的系统,其特征在于,该韵律重估测系统应用在文字转语音上时,该韵律预测或估算模块扮演一韵律预测模块的角色,根据该输入文稿来预测出该韵律信息。
4.如权利要求1所述的系统,其特征在于,该韵律重估测系统应用在语音转语音上时,该韵律预测或估算模块扮演一韵律估算模块的角色,根据该输入语音来估算出该韵律信息。
5.如权利要求1所述的系统,其特征在于,该系统透过一原始录音语料库以及一合成的语料库来建构该韵律重估测模型。
6.如权利要求1所述的系统,其特征在于,该可调控参数组包括多个可调控参数,并且当其中至少一参数未输入时,该系统提供该未输入的至少一参数的默认值。
7.一种可调控式韵律重估测系统,执行于一计算机系统中,其特征在于,该计算机系统备有一内存设备,用来储存一原始录音语料库与一合成的语料库,该韵律重估测系统包含:
一可调控式韵律参数接口,用来输入一可调控参数组;以及
一处理器,该处理器备有一韵律预测或估算模块、一韵律重估测模块及一语音合成模块,该韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息,并传送至该韵律重估测模块,该韵律重估测模块根据输入的该可调控参数组及收到的韵律信息,将该韵律信息重估测后,产生新的韵律信息,再提供给该语音合成模块以产生合成语音;
其中,该处理器统计该两语料库的韵律差异来建构一韵律重估测模型,以提供给该韵律信息重估测模块使用;
该韵律重估测模型以下列的形式来表达:
当μcenter未输入时,该系统设定μcenter的默认值为一来源语料库的韵律平均值,当μshift未输入时,该系统设定μshift的默认值为一目标语料库的韵律平均值,当γσ未输入时,该系统设定γσ的默认值为σtar/σsrc,σtar为一目标语料库的韵律标准差,σsrc为一来源语料库的韵律标准差。
8.如权利要求7所述的系统,其特征在于,该计算机系统包括该处理器。
9.如权利要求7所述的系统,其特征在于,该系统利用一单句统计法来获得该韵律重估测模型。
10.一种可调控式韵律重估测方法,执行于一可调控式韵律重估测系统或一计算机系统中,其特征在于,该方法包含:
准备一个可调控式韵律参数接口,以供输入一可调控参数组;
根据输入文稿或输入语音来预测出或估算出韵律信息;
建构一韵律重估测模型,并根据该可调控参数组及该预测出或估算出的韵律信息,藉由该韵律重估测模型来调整出新的韵律信息;以及
将该新的韵律信息套用至一语音合成模块以产生合成语音;
该韵律重估测模型以下列的形式来表达:
其中,Xsrc代表由一来源语音所产生的韵律信息,代表该新的韵律信息,μcenter、μshift及γσ是三个可调控参数;
当μcenter未输入时,该方法设定μcenter的默认值为一来源语料库的韵律平均值,当μshift未输入时,该方法设定μshift的默认值为一目标语料库的韵律平均值,当γσ未输入时,该方法设定γσ的默认值为σtar/σsrc,σtar为一目标语料库的韵律标准差,σsrc为一来源语料库的韵律标准差。
11.如权利要求10所述的方法,其特征在于,该可调控参数组包括多个可调控参数,并且当其中至少一参数未输入时,该方法还包括设定该未输入的至少一参数的默认值,并且该至少一参数的默认值系统计两平行语料库的韵律分布而得出。
12.如权利要求10所述的方法,其特征在于,该韵律重估测模型经由统计两平行语料库的韵律差异而建构,该两平行语料库为一原始录音语料库以及一合成的语料库。
13.如权利要求12所述的方法,其特征在于,该原始录音语料库是根据一个给定的文字语料库而录制的原始录音语料库,而该合成的语料库是经由该原始录音语料库训练出的一文字转语音系统所合成语句的语料库。
14.如权利要求10所述的方法,其特征在于,该方法利用一静态分布法来获得该韵律重估测模型。
15.如权利要求12所述的方法,其特征在于,该方法利用一单句统计法来获得该韵律重估测模型。
16.如权利要求15所述的方法,其特征在于,该单句统计法还包括:
以该原始录音语料库及该合成语料库的每一句子为基本单位,比较该两语料库的每一句子间的韵律差异性并统计彼此的差异;
根据该统计出的差异,利用一回归法,建立一回归模型;以及
在合成语音时,以该回归模型来预测一输入语句的目标韵律分布。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW099145318A TWI413104B (zh) | 2010-12-22 | 2010-12-22 | 可調控式韻律重估測系統與方法及電腦程式產品 |
TW099145318 | 2010-12-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102543081A CN102543081A (zh) | 2012-07-04 |
CN102543081B true CN102543081B (zh) | 2014-04-09 |
Family
ID=46318145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110039235.8A Active CN102543081B (zh) | 2010-12-22 | 2011-02-15 | 可调控式韵律重估测系统与方法及计算机程序产品 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8706493B2 (zh) |
CN (1) | CN102543081B (zh) |
TW (1) | TWI413104B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
JP2014038282A (ja) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | 韻律編集装置、方法およびプログラム |
TWI471854B (zh) * | 2012-10-19 | 2015-02-01 | Ind Tech Res Inst | 引導式語者調適語音合成的系統與方法及電腦程式產品 |
TWI573129B (zh) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 |
CN106803422B (zh) * | 2015-11-26 | 2020-05-12 | 中国科学院声学研究所 | 一种基于长短时记忆网络的语言模型重估方法 |
WO2018048945A1 (en) | 2016-09-06 | 2018-03-15 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
EP3497629B1 (en) | 2016-09-06 | 2020-11-04 | Deepmind Technologies Limited | Generating audio using neural networks |
US11080591B2 (en) | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
CN110023963B (zh) | 2016-10-26 | 2023-05-30 | 渊慧科技有限公司 | 使用神经网络处理文本序列 |
EP3776532A4 (en) * | 2018-03-28 | 2021-12-01 | Telepathy Labs, Inc. | VOICE SYNTHESIS PROCESS AND SYSTEM |
CN110010136B (zh) * | 2019-04-04 | 2021-07-20 | 北京地平线机器人技术研发有限公司 | 韵律预测模型的训练和文本分析方法、装置、介质和设备 |
KR20210072374A (ko) * | 2019-12-09 | 2021-06-17 | 엘지전자 주식회사 | 발화 스타일을 제어하여 음성 합성을 하는 인공 지능 장치 및 그 방법 |
US11978431B1 (en) * | 2021-05-21 | 2024-05-07 | Amazon Technologies, Inc. | Synthetic speech processing by representing text by phonemes exhibiting predicted volume and pitch using neural networks |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1825430A (zh) * | 2005-02-23 | 2006-08-30 | 台达电子工业股份有限公司 | 可调适韵律的语音合成方法、装置及其对话系统 |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW275122B (en) | 1994-05-13 | 1996-05-01 | Telecomm Lab Dgt Motc | Mandarin phonetic waveform synthesis method |
JP3587048B2 (ja) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | 韻律制御方法及び音声合成装置 |
JP3854713B2 (ja) * | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | 音声合成方法および装置および記憶媒体 |
US6101470A (en) | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
CN1259631A (zh) | 1998-10-31 | 2000-07-12 | 彭加林 | 一种在头部开关的陶瓷芯片水嘴 |
US6260016B1 (en) * | 1998-11-25 | 2001-07-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing prosody templates |
US6847931B2 (en) * | 2002-01-29 | 2005-01-25 | Lessac Technology, Inc. | Expressive parsing in computerized conversion of text to speech |
US6879952B2 (en) * | 2000-04-26 | 2005-04-12 | Microsoft Corporation | Sound source separation using convolutional mixing and a priori sound source knowledge |
US6856958B2 (en) | 2000-09-05 | 2005-02-15 | Lucent Technologies Inc. | Methods and apparatus for text to speech processing using language independent prosody markup |
US7200558B2 (en) | 2001-03-08 | 2007-04-03 | Matsushita Electric Industrial Co., Ltd. | Prosody generating device, prosody generating method, and program |
GB0113583D0 (en) | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Speech system barge-in control |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
US7165030B2 (en) * | 2001-09-17 | 2007-01-16 | Massachusetts Institute Of Technology | Concatenative speech synthesis using a finite-state transducer |
US7136816B1 (en) | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
US6961704B1 (en) * | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
US7698141B2 (en) * | 2003-02-28 | 2010-04-13 | Palo Alto Research Center Incorporated | Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications |
US20050119890A1 (en) | 2003-11-28 | 2005-06-02 | Yoshifumi Hirose | Speech synthesis apparatus and speech synthesis method |
CA2557079A1 (en) * | 2004-03-05 | 2005-09-22 | Lessac Technologies, Inc. | Prosodic speech text codes and their use in computerized speech systems |
FR2868586A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme ameliores de conversion d'un signal vocal |
CN100524457C (zh) * | 2004-05-31 | 2009-08-05 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
US7472065B2 (en) * | 2004-06-04 | 2008-12-30 | International Business Machines Corporation | Generating paralinguistic phenomena via markup in text-to-speech synthesis |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
TWI281145B (en) * | 2004-12-10 | 2007-05-11 | Delta Electronics Inc | System and method for transforming text to speech |
TW200620239A (en) * | 2004-12-13 | 2006-06-16 | Delta Electronic Inc | Speech synthesis method capable of adjust prosody, apparatus, and its dialogue system |
US8073696B2 (en) * | 2005-05-18 | 2011-12-06 | Panasonic Corporation | Voice synthesis device |
JP4684770B2 (ja) * | 2005-06-30 | 2011-05-18 | 三菱電機株式会社 | 韻律生成装置及び音声合成装置 |
JP4559950B2 (ja) | 2005-10-20 | 2010-10-13 | 株式会社東芝 | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム |
JP4539537B2 (ja) | 2005-11-17 | 2010-09-08 | 沖電気工業株式会社 | 音声合成装置,音声合成方法,およびコンピュータプログラム |
TW200725310A (en) * | 2005-12-16 | 2007-07-01 | Univ Nat Chunghsing | Method for determining pause position and type and method for converting text into voice by use of the method |
CN101064103B (zh) * | 2006-04-24 | 2011-05-04 | 中国科学院自动化研究所 | 基于音节韵律约束关系的汉语语音合成方法及系统 |
JP4966048B2 (ja) * | 2007-02-20 | 2012-07-04 | 株式会社東芝 | 声質変換装置及び音声合成装置 |
US8244534B2 (en) * | 2007-08-20 | 2012-08-14 | Microsoft Corporation | HMM-based bilingual (Mandarin-English) TTS techniques |
JP2009047957A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
CN101452699A (zh) | 2007-12-04 | 2009-06-10 | 株式会社东芝 | 韵律自适应及语音合成的方法和装置 |
TW200935399A (en) | 2008-02-01 | 2009-08-16 | Univ Nat Cheng Kung | Chinese-speech phonologic transformation system and method thereof |
US8140326B2 (en) * | 2008-06-06 | 2012-03-20 | Fuji Xerox Co., Ltd. | Systems and methods for reducing speech intelligibility while preserving environmental sounds |
US8321225B1 (en) * | 2008-11-14 | 2012-11-27 | Google Inc. | Generating prosodic contours for synthesized speech |
WO2010119534A1 (ja) * | 2009-04-15 | 2010-10-21 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
JP5148026B1 (ja) * | 2011-08-01 | 2013-02-20 | パナソニック株式会社 | 音声合成装置および音声合成方法 |
-
2010
- 2010-12-22 TW TW099145318A patent/TWI413104B/zh active
-
2011
- 2011-02-15 CN CN201110039235.8A patent/CN102543081B/zh active Active
- 2011-07-11 US US13/179,671 patent/US8706493B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1825430A (zh) * | 2005-02-23 | 2006-08-30 | 台达电子工业股份有限公司 | 可调适韵律的语音合成方法、装置及其对话系统 |
Also Published As
Publication number | Publication date |
---|---|
TWI413104B (zh) | 2013-10-21 |
US8706493B2 (en) | 2014-04-22 |
TW201227714A (en) | 2012-07-01 |
CN102543081A (zh) | 2012-07-04 |
US20120166198A1 (en) | 2012-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102543081B (zh) | 可调控式韵律重估测系统与方法及计算机程序产品 | |
CN105551481B (zh) | 语音数据的韵律标注方法及装置 | |
US8594993B2 (en) | Frame mapping approach for cross-lingual voice transformation | |
CN100524457C (zh) | 文本至语音转换以及调整语料库的装置和方法 | |
US7596499B2 (en) | Multilingual text-to-speech system with limited resources | |
US20120173241A1 (en) | Multi-lingual text-to-speech system and method | |
Tihelka et al. | Current state of text-to-speech system ARTIC: a decade of research on the field of speech technologies | |
CN105261355A (zh) | 一种语音合成方法和装置 | |
Qian et al. | Improved prosody generation by maximizing joint probability of state and longer units | |
Ćavar et al. | Endangered language documentation: Bootstrapping a Chatino speech corpus, forced aligner, ASR | |
CN112820268A (zh) | 个性化语音转换训练方法、装置、计算机设备及存储介质 | |
Meng et al. | Synthesizing English emphatic speech for multimodal corrective feedback in computer-aided pronunciation training | |
Hirst | ProZed: A speech prosody editor for linguists, using analysis-by-synthesis | |
EP3770906B1 (en) | Sound processing method, sound processing device, and program | |
Laurinčiukaitė et al. | Lithuanian Speech Corpus Liepa for development of human-computer interfaces working in voice recognition and synthesis mode | |
Lorenzo-Trueba et al. | Simple4all proposals for the albayzin evaluations in speech synthesis | |
Van Do et al. | Non-uniform unit selection in Vietnamese speech synthesis | |
Lee et al. | Modeling Japanese F0 contours using the PENTAtrainers and AMtrainer | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
Freixes et al. | A unit selection text-to-speech-and-singing synthesis framework from neutral speech: proof of concept | |
Hanzlíček et al. | WaveNet-based speech synthesis applied to Czech: a comparison with the traditional synthesis methods | |
Meng et al. | Hierarchical English Emphatic Speech Synthesis Based on HMM with Limited Training Data. | |
Asadi et al. | Speech rhythm measures: Acoustic cues for speaker identification | |
Kamble et al. | Audio Visual Speech Synthesis and Speech Recognition for Hindi Language | |
Li et al. | A lyrics to singing voice synthesis system with variable timbre |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |