CN102543081A - 可调控式韵律重估测系统与方法及计算机程序产品 - Google Patents

可调控式韵律重估测系统与方法及计算机程序产品 Download PDF

Info

Publication number
CN102543081A
CN102543081A CN2011100392358A CN201110039235A CN102543081A CN 102543081 A CN102543081 A CN 102543081A CN 2011100392358 A CN2011100392358 A CN 2011100392358A CN 201110039235 A CN201110039235 A CN 201110039235A CN 102543081 A CN102543081 A CN 102543081A
Authority
CN
China
Prior art keywords
rhythm
revaluation
corpus
prosodic information
surveyed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100392358A
Other languages
English (en)
Other versions
CN102543081B (zh
Inventor
林政源
黄健纮
郭志忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of CN102543081A publication Critical patent/CN102543081A/zh
Application granted granted Critical
Publication of CN102543081B publication Critical patent/CN102543081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种可调控式韵律重估测系统与方法及计算机程序产品,该可调控式韵律重估测系统包括,一个语音或文字转语音的核心引擎系由一韵律预测或估算模块、一韵律重估测模块、以及一语音合成模块所组成。此韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息,并传送至此韵律重估测模块。此韵律重估测模块根据由一个可调控式韵律参数接口所提供的一可调控参数组及收到的韵律信息,将此韵律信息重估测后,产生新的韵律信息,再提供给此语音合成模块以产生合成语音。

Description

可调控式韵律重估测系统与方法及计算机程序产品
技术领域
本发明关于一种可调控式韵律重估测(controllable prosodyre-estimation)系统与方法及计算机程序产品。
背景技术
韵律预测在文字转语音(Text-To-Speech,TTS)系统上,对语音合成的自然性有很大的影响。文字转语音合成系统主要有基于大语料库(Corpus-based)的最佳单元选取合成方法以及隐藏式马可夫(HMM-based)统计模型方法。隐藏式马可夫模型统计方法的合成效果比较有一致性,不会因为输入的句子不同而有明显差异性。而训练出的语音模型文件通常都很小(例如3MB),这些特点都优于大语料库的方法,所以此HMM-based的语音合成最近变得很普及。然而,利用此方法在产生韵律时,通常有过度平滑化(over-smoothing)的问题。虽然有文献提出全域变异数的方法(global variance method)来改善此问题,使用此方法去调整频谱有明显正向效果,但用于调整基频(FO)则无听觉上的偏好效果,有时候似乎会因为伴随产生的副效应(side effect)而降低语音质量。
最近一些关于TTS的文献也提出加强TTS的丰富表现的技术,这些技术通常需要大量收集多样式的语料库(corpora),因此往往需要很多的后制处理。然而,建构一个韵律丰富性的TTS系统是十分耗时的,因此有部分的文献提出采用外部工具的方式提供TTS产生更多样化的韵律信息。例如,基于工具(tool-based)的系统提供使用者多种更新韵律的可行方案,像是提供使用者一个图形使用者接口(GUI)工具,来调整音高曲线(pitch contour)以改变韵律,并且根据新韵律重新合成语音;或是使用标记语言(markup language)来调整韵律等。然而,多数使用者无法正确地透过图形使用者接口来修改音高曲线,同样地,一般人并不熟悉如何撰写标记语言,所以,基于工具的系统在实际使用上也是不方便的。
关于TTS的专利文献有很多,例如可控制TTS输出质量、控制TTS不同速度输出的、用于计算机合成语音的中文语音音韵转换、使用韵律控制的中文文本至语音拼接合成、TTS韵预测方法以及语音合成系统及其韵律控制方法等。
举例来说,如图1所示的中文语音音韵转换系统100,是利用一个音韵分析单元130,接收一来源语音及相对应的文字,透过此分析单元里面的阶层拆解模块131、音韵转换函式选择模块132、音韵转换模块133撷取音韵信息,最后套用到语音合成单元150以产生合成语音(synthesized speech)。
如图2所示的语音合成系统与方法是一种针对外来语的TTS技术,以语言分析模块(language analysis module)204分析文字数据(text data)200而得的语言信息(language information)204a,透过韵律预测模块(prosodyprediction module)209产生韵律信息(prosody information)209a,接着由语音单元挑选模块(speech-unit selection module)208至特征参数数据库(characteristic parameter database)206中,挑选一序列较符合文字内容与预测韵律信息的语音数据,最后由语音语合成模块(speech synthesismodule)210合成出语音211。
发明内容
本发明实施的范例可提供一种可调控式韵律重估测系统与方法及计算机程序产品。
本发明公开了一种可调控式韵律重估测系统。此系统包含一个可调控式韵律参数接口以及一个语音或文字转语音(Speech-To-Speech orText-To-Speech,STS/TTS)的核心引擎。此可调控式韵律参数接口用来输入一可调控参数组。此核心引擎由一韵律预测或估算模块(prosodypredict/estimation module)、一韵律重估测模块(prosody re-estimationmodule)、以及一语音合成模块(speech synthesis module)所组成。此韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息,并传送至此韵律重估测模块。此韵律重估测模块根据输入的可调控参数组及收到的韵律信息,将此韵律信息重估测后,产生新的韵律信息,再提供给此语音合成模块以产生合成语音。
本发明公开了一种可调控式韵律重估测系统,此韵律重估测系统系执行于一计算机系统中。此计算机系统备有一内存设备,用来储存一原始录音语料库与一合成的语料库。此韵律重估测系统可包含一可调控式韵律参数接口及一处理器。此处理器备有一韵律预测或估算模块、一韵律重估测模块以及一语音合成模块。此韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息,并传送至此韵律重估测模块,此韵律重估测模块根据输入的可调控参数组及收到的韵律信息,将此韵律信息重估测后,产生新的韵律信息,再套用至此语音合成模块以产生合成语音。其中,此处理器统计此两语料库的韵律差异来建构一韵律重估测模型,以提供给此韵律重估测模块使用。
本发明公开了一种可调控式韵律重估测方法。此方法包含:准备一个可调控式韵律参数接口,以供输入一可调控参数组;根据输入文稿或输入语音来预测出或估算出韵律信息;建构一韵律重估测模型,并根据此可调控参数组及预测出或估算出的韵律信息,藉由此韵律重估测模型来调整出新的韵律信息;以及将此新的韵律信息提供给一语音合成模块以产生合成语音。
本发明公开了一种可调控式韵律重估测的计算机程序产品。此计算机程序产品包含一内存以及储存于此内存的一可执行的计算机程序。此计算机程序藉由一处理器来执行:准备一个可调控式韵律参数接口,以供输入一可调控参数组;根据输入文稿或输入语音来预测出或估算出韵律信息;建构一韵律重估测模型,并根据此可调控参数组及预测出或估算出的韵律信息,藉由此韵律重估测模型来调整出新的韵律信息;以及将此新的韵律信息提供给一语音合成模块以产生合成语音。
兹配合下列附图、具体实施方式的详细说明及权利要求书保护范围,将上述及本发明的其它目的与优点详述于后。
附图说明
图1是一种中文语音音韵转换系统的一个范例示意图;
图2是语音合成系统与方法的一个范例示意图;
图3是一范例示意图,说明多样式韵律分布的表示法,与本发明的某些实施范例一致;
图4是一种可调控式韵律重估测系统的一个范例示意图,与本发明的某些实施范例一致;
图5是图4的韵律重估测系统应用在TTS上的一个范例示意图,与本发明的某些实施范例一致;
图6是图4的韵律重估测系统应用在STS上的一个范例示意图,与本发明的某些实施范例一致;
图7是当韵律重估测系统应用在TTS上时,韵律重估测模块与其它模块的一个关联示意图,与本发明的某些实施范例一致;
图8是当韵律重估测系统应用在STS上时,韵律重估测模块与其它模块的一个关联示意图,与本发明的某些实施范例一致;
图9是一范例示意图,以应用在TTS上为例,说明如何建构一韵律重估测模型,与本发明的某些实施范例一致;
图10是产生回归模型的一个范例示意图,与本发明的某些实施范例一致;
图11是一范例流程图,说明一种可调控式韵律重估测方法的运作,与本发明的某些实施范例一致;
图12是韵律重估测系统执行于一计算机系统中的一范例流程图,与本发明的某些实施范例一致;
图13是对一句子的四种音高曲线的范例示意图,与本发明的某些实施范例一致;
图14是8个相异句子在图13所示四种情况下的音高平均值及标准差的范例示意图,与本发明的某些实施范例一致;
图15是给予不同的三组可调控参数所产生的三种音高曲线的范例示意图,与本发明的某些实施范例一致。
其中,附图标记:
100中文语音音韵转换系统    130音韵分析单元
131阶层拆解模块            132音韵转换函式选择模块
133音韵转换模块
150语音合成单元
200文字数据
204语言分析模块
204a语言信息
206特征参数数据库
208语音单元挑选模块
209韵律预测模块
209a韵律信息
210语音合成模块
211合成语音
XttsTTS系统所产生的韵律信息
Xtar目标韵律
Figure BSA00000435185200051
调整后的韵律
tts,σtts)Xtts的分布
tar,σtar)Xtar的分布
调整后的韵律分布
400韵律重估测系统
410可调控式韵律参数接口
412可调控参数组
420STS/TTS的核心引擎
422韵律预测或估算模块
422a输入文稿
422b输入语音
424韵律重估测模块
426语音合成模块
428合成语音
Xsrc韵律信息
Figure BSA00000435185200053
调整后的韵律信息
520TTS核心引擎
522韵律预测模块
620STS核心引擎
622韵律估算模块
shift,σcenter,γσ)三个可调控参数
910文字语料库
920原始录音语料库
930TTS系统
940合成的语料库
950韵律差异
960韵律重估测模型
1110准备一个可调控式韵律参数接口,以供输入一可调控参数组
1120根据输入文稿或输入语音来预测出或估算出韵律信息
1130建构一韵律重估测模型,并根据此可调控参数组及预测出或估算出的韵律信息,藉由此韵律重估测模型来调整出新的韵律信息
1140将此新的韵律信息提供给一语音合成模块以产生合成语音
1200韵律重估测系统
1210处理器
1290内存设备
1310基于HMM的TTS方法的TTS的音高曲线
具体实施方式
本发明实施的范例是要提供一个基于韵律重估测的可调控式的系统与方法及计算机程序产品,来提升韵律丰富性以更贴近原始录音的韵律表现,以及提供可控制的多样式韵律调整功能来区别单一种韵律的TTS系统。因此,本发明中,利用系统先前所估测的韵律信息当作初始值,经过一个韵律重估测模块后求得新的韵律信息,并且提供一个可调控韵律参数的接口,使其调整后韵律具有丰富性。而此核心的韵律重估测模块是统计两份语料库的韵律信息差异而求得,此两份语料库分别是原始录音的训练语句以及文字转语音系统的合成语句的语料库。
在说明如何利用可调控韵律参数来产生具有丰富性的韵律之前,先说明韵律重估测的建构。图3是一范例示意图,说明多样式韵律分布的表示法,与所发明的某些实施范例一致。图3的范例中,Xtts代表TTS系统所产生的韵律信息,并且Xtts的分布是由它的平均数μtts以及标准差σtts来规范,表示为(μtts,σtts)。Xtar代表目标韵律,并且Xtar的分布是由(μtar,σtar)来规范。如果(μtts,σtts)与(μtar,σtar)都为已知的话,则根据两分布,(μtts,σtts)与(μtar,σtar),之间的统计差异(statistical difference),Xtar可以被重估测而得出。正规化后的统计上的均等(normalized statisticalequivalent)公式如下:
(Xtartar)/σtar=(Xttstts)/σtts         (1)
将韵律重估测的观念延伸,则如图3所示,可以在(μtts,σtts)与(μtar,σtar)之间使用内插法(interpolation),计算出多样式的调整后的韵律分布
Figure BSA00000435185200071
依此,就容易产生出丰富的(rich)调整后的韵律
Figure BSA00000435185200072
以提供给TTS系统。
无论使用何种训练方法,来自TTS系统的合成语音与来自它的训练语料库(training corpus)的录音(recorded speech)之间始终存在着韵律差异(prosody difference)。换句话说,如果有一个TTS系统的韵律补偿机制可以减少韵律差异的话,就可以产生出更自然的合成语音。所以,本发明实施的范例所要提供的一种有效的系统,以基于一种重估测的模式,来改善韵律预测(pitch prediction)。
图4是一种可调控式韵律重估测系统的一个范例示意图,与本发明的某些实施范例一致。图4的范例中,韵律重估测系统400可包含一个可调控式韵律参数接口410以及一个语音或文字转语音(Speech-To-Speech orText-To-Speech,STS/TTS)的核心引擎420。可调控式韵律参数接口410用来输入一可调控参数组412。核心引擎420可由一韵律预测或估算模块422、一韵律重估测模块424以及一语音合成模块426所组成。韵律预测或估算模块422根据输入文稿422a或输入语音422b来预测出或估算出韵律信息Xsrc,并传送至韵律重估测模块424。韵律重估测模块424根据输入的可调控参数组412以及收到的韵律信息Xsrc,将韵律信息Xsrc重估测后,产生新的韵律信息,也就是调整后的韵律信息
Figure BSA00000435185200073
再套用至语音合成模块426以产生合成语音428。
在本发明实施的范例中,韵律信息Xsrc的求取方式是根据输入数据的型态来决定,假如是一段语音,则采用韵律估算模块进行韵律萃取,假如是一段文字,则是采用韵律预测模块。可调控参数组412至少包括有三个参数,彼此是独立的。此三个参数可由外部输入0个或1个或2个,其余未输入者可采用系统默认值。韵律重估测模块424可根据如公式(1)的韵律调整公式来重估测韵律信息Xsrc。可调控参数组412里的参数可采用两个平行语料库的方式统计而得。两个平行语料库分别是前述提及的原始录音的训练语句以及文字转语音系统的合成语句的语料库。而统计方式则分为静态分布法(static distributionmethod)及动态分布法(dynamic distribution method)。
图5与图6是韵律重估测系统400分别应用在TTS与STS上的范例示意图,与本发明的某些实施范例一致。图5的范例中,当韵律重估测系统400应用在TTS上时,图4中的STS/TTS的核心引擎420扮演TTS核心引擎520的角色,而图4中的韵律预测或估算模块422扮演韵律预测模块522的角色,根据输入文稿422a来预测出韵律信息。而图6的范例中,当韵律重估测系统400应用在STS上时,图4中的STS/TTS的核心引擎420扮演STS核心引擎620的角色,而图4中的韵律预测或估算模块422扮演韵律估算模块622的角色,根据输入语音422b来估算出韵律信息。
承上述,图7与图8是当韵律重估测系统400分别应用在TTS与STS上时,韵律重估测模块与其它模块的关联示意图,与本发明的某些实施范例一致。图7的范例中,当韵律重估测系统400应用在TTS上时,韵律重估测模块424接收韵律预测模块522预测出的韵律信息Xsrc,及参考可调控参数组412中的三个可调控参数,记为(μshift,μcenter,γσ),然后采用一韵律重估测模型,来调整韵律信息Xsrc,产生新的韵律信息,即调整后的韵律信息
Figure BSA00000435185200081
并传送至语音合成模块426。
图8的范例中,当韵律重估测系统400应用在STS上时,与图7不同的是,韵律重估测模块424所接收的韵律信息Xsrc是韵律估算模块622根据输入语音422b估算出的韵律信息。而韵律重估测模块424后续的运作与图7中所载相同,不再重述。关于三个可调控参数(μshift,μcenter,γσ)与韵律重估测模型将再详细说明。
以下以应用在TTS为例,先以图9的范例示意图来说明如何建构韵律重估测模型,与本发明的某些实施范例一致。在韵律重估测模型建构的阶段,需要有两份平行的语料库,也就是句子内容相同的两份语料库,一个定义为来源语料库(source corpus),另一个定义为目标语料库(target corpus)。在图9的范例中,目标语料库是根据一个给定的(given)文字语料库(textcorpus)910而录制(record)的原始录音语料库(recorded speechcorpus)920,是作TTS训练之用。然后,可利用一种训练方法,例如HMM-based,来建构TTS系统930。一旦TTS系统930建立后,根据相同的文字语料库910输入的文稿内容,可使用此训练出的TTS系统930来产生一个合成的语料库(synthesized speech corpus)940,此即来源语料库。
因为原始录音语料库920与合成的语料库940是两份平行的语料库,可直接经由简单的统计来估测此两平行语料库的韵律差异950。在本发明实施的范例中,利用韵律差异950,提供两种统计法来获得一韵律重估测模型960,其中一种是全域统计法,另一种是单句统计法。全域统计法是一静态分布法(static distribution meethod),而单句统计法是动态分布法(dynamicdistribution method)。此两种统计法说明如下。
全域统计法是以全体语料为统计单位,统计原始录音语料库与合成语音语料库的方式,并以整体语料库的韵律来衡量彼此之间的差异,而希望文字转语音系统所产生的合成语音韵律可以尽量近似于原始录音的自然韵律,因此对于原始录音语料库整体的平均数μrec和标准差σrec,以及合成语音语料库整体的平均数μtts和标准差σtts而言,这两者之间存在一个正规化统计均等(Normalized Statistical Equivalent)关系,如下式。
X rec - μ rec σ rec = X tts - μ tts σ tts - - - ( 2 )
其中,Xtts表示由TTS系统所预测的韵律,而Xrec表示原始录音的韵律。换句话说,假设给予一个Xtts,则应该依下式来修正:
X ^ tts = μ rec + ( X tts - μ tts ) σ rec σ tts ,
才能使得修正后的韵律有机会近似于原先录音的韵律表现。
单句统计法是以一个句子当作基本的统计单位。并以原始录音语料库及合成语料库的每一句子为基本单位,比较该两语料库的每一句的韵律差异性来观察与统计彼此的差异,做法说明如下:(1)对于每一平行序列对,亦即每一合成语句及每一原始录音语句,计算其韵律分布(μtts,σtts)及(μrec,σrec)。(2)假设共计算出K对韵律分布,标记为(μtts,σtts)1及(μrec,σrec)1至(μtts,σtts)K及(μrec,σrec)K,则可利用一回归法(regression method),例如最小平方误差法、高斯混合模型法、支持向量机方法、类神经方法等,建立一回归模型(regression model)RM。(3)在合成阶段(synthesis stage)时,由TTS系统先预测出输入语句的初始韵律统计(μs,σs),尔后套用回归模型RM就可得出新的韵律统计
Figure BSA00000435185200093
即输入语句的目标韵律分布。图10是产生回归模型RM的一个范例示意图,与本发明的某些实施范例一致。其中,回归模型RM采用最小平方误差法而建立,所以套用时只需将初始韵律信息乘上RM即可,此回归模型RM是用来预测任一输入语句的目标韵律分布。
当韵律重估测模型建构完成后(不论是采用全域统计法或是单句统计法),本发明实施的范例还提供一个可由参数调控(parameter controllable)的方式,来让TTS或STS系统能够产生更丰富的韵律。其原理先说明如下。
将方程式(1)中的tts替换成src,并且引入参数α及β,在(μsrc,σsrc)与(μtar,σtar)之间使用插入法,如下列方程式。
μ ^ tar = α · μ tar + ( 1 - α ) · μ src σ ^ tar = β · σ tar + ( 1 - β ) · σ src , 0 ≤ α , β ≤ 1
其中,μsrc与σsrc分别是来源语料库的韵律平均值μsrc以及韵律标准差σsrc。所以,欲计算出多样式的调整后的韵律分布,韵律重估测模型可用下列的形式来表达,Xsrc是来源语音。
X ^ tar = μ ^ tar + ( X src - μ src ) σ ^ tar σ src
韵律重估测模型也可用下列的另一形式来表达。
X ^ tar = μ shift + ( X src - μ center ) · γ σ
其中,μcenter就是上一形式中的μsrc,也就是所有Xsrc的平均值,μshift就是上一形式中的
Figure BSA00000435185200104
γσ就是上一形式中的
Figure BSA00000435185200105
当韵律重估测模型采用此种表达形式时,共有三种参数(μshift,μcenter,γσ)可调整。透过此三种参数(μshift,μcenter,γσ)的调整,可使调整后的韵律更具有丰富性。以γσ值的变化说明如下。
当γσ=0时,调整后的韵律
Figure BSA00000435185200106
等于参数μshift的值,表示调整后的韵律
Figure BSA00000435185200107
等于一个输入的常数值,例如合成的机器人的声音(synthetic roboticvoice)。当γσ<0时,即
Figure BSA00000435185200108
表示调整后的韵律
Figure BSA00000435185200109
是特殊韵律的调整,例如外国腔调的语音(foreign accented speech)。当γσ>0时,表示调整后的韵律
Figure BSA000004351852001010
是正规韵律的调整,其中,当γσ=1时,当γσ>1时,1<γσ<σtarsrc;当γσ<1时,σtarsrc<γσ<1。
因此,透过适当参数的调控,可适合某些情境或语气或不同语言的表达,可视终端需求而定。而本发明实施的范例中,韵律重估测系统400只需开放一个可调控式韵律参数接口410供终端输入此三个参数即可。当此三个参数有未输入者时,也可采用系统默认值。此三个参数的系统默认值可设定如下。
μcenter=μsrc;μshift=μtar;γσ=σtarsrc
而这些μsrc、μtar、σtar、σsrc的值可透过前述所提的两个平行语料库的方式统计而得。也就是说,本发明中的系统也提供参数未输入者的默认值。因此,在本发明实施的范例中,此可调控参数组412,例如μshift,μcenter,γσ),是可弹性调控的(flexible control)。
承上述,图11是一范例流程图,说明一种可调控式韵律重估测方法的运作,与所发明的某些实施范例一致。图11的范例中,首先,准备一个可调控式韵律参数接口,以供输入一可调控参数组,如步骤1110所示。然后,根据输入文稿或输入语音来预测出或估算出韵律信息,如步骤1120所示。建构一韵律重估测模型,并根据此可调控参数组及预测出或估算出的韵律信息,藉由此韵律重估测模型来调整出新的韵律信息,如步骤1130所示。最后,将此新的韵律信息提供给一语音合成模块以产生合成语音,如步骤1140所示。
在图11的范例中,各步骤的实施细节,例如步骤1110的可调控参数组的输入与调控、步骤1120的韵律重估测模型的建构与表达形式、步骤1130的韵律重估测等,如同上述所载,不再重述。
本发明实施的韵律重估测系统也可执行于一计算机系统上。此计算机系统(未示于图标)备有一内存设备,用来储存原始录音语料库920与合成的语料库940。如图12的范例所示,韵律重估测系统1200包含可调控式韵律参数接口410及一处理器1210。处理器1210里可备有韵律预测或估算模块422、韵律重估测模块424以及语音合成模块426,来执行韵律预测或估算模块422、韵律重估测模块424、以及语音合成模块426的上述功能。处理器1210可经由统计内存设备1290中此两语料库的韵律差异,来建构上述的韵律重估测模型,以提供给韵律重估测模块424使用。处理器1210可以是计算机系统中的处理器。
本发明的实施范例也可以用一计算机程序产品(computer programproduct)来实现。此计算机程序产品至少包含一内存以及储存于此内存的一可执行的计算机程序(executable computer program)。此计算机程序可藉由一处理器或计算机系统来执行图11的可调控式韵律重估测方法的步骤1110至步骤1140。此处理器还可韵律预测或估算模块422、韵律重估测模块424以及语音合成模块426、及透过可调控式韵律参数接口410输入可调控式韵律参数,来执行韵律预测或估算模块422、韵律重估测模块424以及语音合成模块426的上述功能。藉由这些模块来执行步骤1110至步骤1140。当前述三个参数(μshift,μcenter,γσ)有未输入者时,也可采用前述的默认值。各实施细节如同上述所载,不再重述。
在本发明中,进行一系列的实验来证明其实施范例的可行性。首先,以全域统计法以及单句统计法来进行音高准位(pitch level)的验证实验,例如可采用音素、韵母(final)或音节(syllable)等当作基本单位来求取音高曲线(pitch contour)后再求其平均数。这里采用音高作为实验的依据是因为韵律的变化与音高变化是十分密切相关,所以可以透过观察音高的预测结果来验证所提的方法可行性。另外,以微观的方式进一步作比较,来观察比较音高曲线的预测差异程度。例如,以韵母当作基本单位为例,先以2605个中文句子(Chinese Mandarin sentences)的语料库并采用基于HMM的TTS方法来建构一TTS系统。然后,建立韵律重估测模型。再给予前述可调控参数组,并观察有使用与无使用其韵律重估测模型的TTS系统之间的合成自然度差异。
图13是对一句子的四种音高曲线的范例示意图,包括原始录音语料、采用HTS方法的TTS、采用静态分布法的TTS、及采用动态分布法的TTS,其中横轴代表句子的时间长度(单位为秒),纵轴代表韵母的音高曲线(Final’spitch contour),其单位为log Hz。从图13的范例可以看出,在基于HTS方法(基于HMM的其中一种方法)的TTS的音高曲线1310中,有明显的过度平滑化的现象。图14是8个相异句子在图13所示四种情况下的音高平均值及标准差的范例示意图,其中横轴代表句子的号码(sentence number),纵轴代表平均值±标准差,其单位为log Hz。从图13及图14的范例可以看出,相较于采用传统HTS方法的TTS,本发明实施范例的TTS(无论是采用动态或静态分布法)可以产生与原始录音语料更具相似韵律的结果。
在本发明中,分别进行两项听觉测试(listening test),包括偏好度测试(preference test)及相似度测试(similarity test)。相较于传统基于HMM的TTS方法,其测试结果显示本发明的经重估测后的合成语音有非常好的效果,特别是偏好度测试的结果。主要是因为本发明的重估测后的合成语音已经妥善补偿原始的TTS系统所产生的过度平滑的韵律,而产生更逼真的韵律。
在本发明中,也进行另一实验来观察给予前述可调控参数组后,其实施范例中的TTS的韵律是否变得更丰富。图15是给予不同的三组可调控参数所产生的三种音高曲线的范例示意图,这三种音高曲线分别由三种合成声音所估算而得,包括原始HTS方法的合成声音、合成的机器人的声音、及外国腔调的语音,其中横轴代表句子的时间长度(单位为秒),纵轴代表韵母的音高曲线,其单位为log Hz。从图15的范例可以看出,对于合成的机器人的声音,经重估测后的音高曲线是几乎接近于平坦(flat);至于外国腔调的语音,经重估测的音高曲线的形状(pitch shape)与HTS方法所产生的音高曲线相较,是呈现相反方向(opposite direction)。经过非正式的语音听测实验,多数听者认为,提供这些特殊的合成语音对目前TTS系统韵律表现上有加分的效果。
所以,从实验与量测显示本发明实施的范例都有优异的实现结果。本发明实施的范例在TTS或STS的应用上,可提供丰富的韵律及更贴近原始录音的韵律表现,也可提供可控制的多样式韵律调整功能。从本发明实施的范例中,也观察到当给予某些值的可调控参数后,经重估测后的合成语音,例如机器人的声音或外国腔调的语音,会有特殊的效果。
综上所述,本发明实施的范例可提供一种有效率的可调控式韵律重估测系统与方法,可应用于语音合成。本发明的实施范例利用先前所估测的韵律信息当作初始值,经过一个重估测模型后求得新的韵律信息,并且提供一个可调控式韵律参数接口,使其调整后韵律具有丰富性。重估测模型可藉由统计两平行语料库的韵律信息差异而求得,此两平行语料库分别是原始录音的训练语句以及文字转语音系统的合成语句。
以上所述者仅为本发明实施的范例,当不能依此限定本发明实施的范围。即大凡本发明权利要求范围所作的均等变化与修改,皆应仍属本发明专利的保护范围。

Claims (30)

1.一种可调控式韵律重估测系统,其特征在于,该系统包含:
一个可调控式韵律参数接口,用来输入一可调控参数组;以及
一个语音或文字转语音的核心引擎,该核心引擎至少由一韵律预测或估算模块、一韵律重估测模块及一语音合成模块所组成,其中该韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息,并传送至该韵律重估测模块,该韵律重估测模块根据输入的该可调控参数组及收到的韵律信息,将该韵律信息重估测后,产生新的韵律信息,再提供给该语音合成模块以产生合成语音。
2.如权利要求1所述的系统,其特征在于,该可调控参数组中的参数彼此是独立的。
3.如权利要求1所述的系统,其特征在于,该韵律重估测系统应用在文字转语音上时,该韵律预测或估算模块扮演一韵律预测模块的角色,根据该输入文稿来预测出该韵律信息。
4.如权利要求1所述的系统,其特征在于,该韵律重估测系统应用在语音转语音上时,该韵律预测或估算模块扮演一韵律估算模块的角色,根据该输入语音来估算出该韵律信息。
5.如权利要求1所述的系统,其特征在于,该系统还建构一韵律重估测模型,并且该韵律重估测模块采用该韵律信息重估测模型来将该韵律信息重估测,以产生该新的韵律信息。
6.如权利要求5所述的系统,其特征在于,该系统透过一原始录音语料库以及一合成的语料库来建构该韵律重估测模型。
7.如权利要求1所述的系统,其特征在于,该可调控参数组包括多个可调控参数,并且当其中至少一参数未输入时,该系统提供该未输入的至少一参数的默认值。
8.如权利要求5所述的系统,其特征在于,该韵律重估测模型以下列的形式来表达:
X ^ tar = μ shift + ( X src - μ center ) · γ σ
其中,Xsrc代表由一来源语音所产生的韵律信息,
Figure FSA00000435185100021
代表该新的韵律信息,μcenter、μshift及γσ是三个可调控参数。
9.如权利要求8所述的系统,其特征在于,当μcenter未输入时,该系统设定μcenter的默认值为一来源语料库的韵律平均值,当μshift未输入时,该系统设定μshift的默认值为一目标语料库的韵律平均值,当γσ未输入时,该系统设定γσ的默认值为σtarsrc,σtar为一目标语料库的韵律标准差,σsrc为一来源语料库的韵律标准差。
10.一种可调控式韵律重估测系统,执行于一计算机系统中,其特征在于,该计算机系统备有一内存设备,用来储存一原始录音语料库与一合成的语料库,该韵律重估测系统包含:
一可调控式韵律参数接口,用来输入一可调控参数组;以及
一处理器,该处理器备有一韵律预测或估算模块、一韵律重估测模块及一语音合成模块,该韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息,并传送至该韵律重估测模块,该韵律重估测模块根据输入的该可调控参数组及收到的韵律信息,将该韵律信息重估测后,产生新的韵律信息,再提供给该语音合成模块以产生合成语音;
其中,该处理器统计该两语料库的韵律差异来建构一韵律重估测模型,以提供给该韵律信息重估测模块使用。
11.如权利要求10所述的系统,其特征在于,该计算机系统包括该处理器。
12.如权利要求10所述的系统,其特征在于,该韵律重估测模型以下列的形式来表达:
X ^ tar = μ shift + ( X src - μ center ) · γ σ
其中,Xsrc代表由一来源语音所产生的韵律信息,
Figure FSA00000435185100023
代表该新的韵律信息,μcenter、μshift及γσ是三个可调控参数。
13.如权利要求12所述的系统,其特征在于,当μcenter未输入时,该系统设定μcenter的默认值为一来源语料库的韵律平均值,当μshift未输入时,该系统设定μshift的默认值为一目标语料库的韵律平均值,当γσ未输入时,该系统设定γσ的默认值为σtarsrc,σtar为一目标语料库的韵律标准差,σsrc为一来源语料库的韵律标准差。
14.如权利要求10所述的系统,其特征在于,该系统利用一单句统计法来获得该韵律重估测模型。
15.一种可调控式韵律重估测方法,执行于一可调控式韵律重估测系统或一计算机系统中,其特征在于,该方法包含:
准备一个可调控式韵律参数接口,以供输入一可调控参数组;
根据输入文稿或输入语音来预测出或估算出韵律信息;
建构一韵律重估测模型,并根据该可调控参数组及该预测出或估算出的韵律信息,藉由该韵律重估测模型来调整出新的韵律信息;以及
将该新的韵律信息套用至一语音合成模块以产生合成语音。
16.如权利要求15所述的方法,其特征在于,该可调控参数组包括多个可调控参数,并且当其中至少一参数未输入时,该方法还包括设定该未输入的至少一参数的默认值,并且该至少一参数的默认值系统计两平行语料库的韵律分布而得出。
17.如权利要求15所述的方法,其特征在于,该韵律重估测模型经由统计两平行语料库的韵律差异而建构,该两平行语料库为一原始录音语料库以及一合成的语料库。
18.如权利要求17所述的方法,其特征在于,该原始录音语料库是根据一个给定的文字语料库而录制的原始录音语料库,而该合成的语料库是经由该原始录音语料库训练出的一文字转语音系统所合成语句的语料库。
19.如权利要求15所述的方法,其特征在于,该方法利用一静态分布法来获得该韵律重估测模型。
20.如权利要求17所述的方法,其特征在于,该方法利用一单句统计法来获得该韵律重估测模型。
21.如权利要求15所述的方法,其特征在于,该韵律重估测模型以下列的形式来表达:
X ^ tar = μ shift + ( X src - μ center ) · γ σ
其中,Xsrc代表由一来源语音所产生的韵律信息,
Figure FSA00000435185100032
代表该新的韵律信息,μcenter、μshift及γσ是三个可调控参数。
22.如权利要求20所述的方法,其特征在于,该单句统计法还包括:
以该原始录音语料库及该合成语料库的每一句子为基本单位,比较该两语料库的每一句子间的韵律差异性并统计彼此的差异;
根据该统计出的差异,利用一回归法,建立一回归模型;以及
在合成语音时,以该回归模型来预测一输入语句的目标韵律分布。
23.如权利要求21所述的方法,其特征在于,当μcenter未输入时,该方法设定μcenter的默认值为一来源语料库的韵律平均值,当μshift未输入时,该方法设定μshift的默认值为一目标语料库的韵律平均值,当γσ未输入时,该方法设定γσ的默认值为σtarsrc,σtar为一目标语料库的韵律标准差,σsrc为一来源语料库的韵律标准差。
24.一种可调控式韵律重估测的计算机程序产品,其特征在于,该计算机程序产品包含一内存以及储存于该内存的一可执行的计算机程序,该计算机程序藉由一处理器来执行:
准备一个可调控式韵律参数接口,以供输入一可调控参数组;
根据输入文稿或输入语音来预测出或估算出韵律信息;建构一韵律重估测模型,并根据该可调控参数组及预测出或估算出的韵律信息,藉由一韵律重估测模型来调整出新的韵律信息;以及
将该新的韵律信息提供给一语音合成模块以产生合成语音。
25.如权利要求24所述的计算机程序产品,其特征在于,该韵律重估测模型经由统计两平行语料库的韵律差异而建构,该两平行语料库为一原始录音语料库以及一合成的语料库。
26.如权利要求25所述的计算机程序产品,其特征在于,该韵律重估测模型利用一单句统计法来获得。
27.如权利要求24所述的计算机程序产品,其特征在于,该韵律重估测模型以下列的形式来表达:
X ^ tar = μ shift + ( X src - μ center ) · γ σ
其中,Xsrc代表由一来源语音所产生的韵律信息,
Figure FSA00000435185100042
代表该新的韵律信息,μcenter、μshift及γσ是三个可调控参数。
28.如权利要求26所述的计算机程序产品,其特征在于,该单句统计法还包括:
以该原始录音语料库及该合成语料库的每一句子为基本单位,比较该两语料库的每一句子间的韵律差异性并统计彼此的差异;
根据该统计出的差异,利用一回归法,建立一回归模型;以及
在合成语音时,以该回归模型来预测一输入语句的目标韵律分布。
29.如权利要求28所述的计算机程序产品,其特征在于,当μcenter未输入时,该方法设定μcenter的默认值为一来源语料库的韵律平均值,当μshift未输入时,该方法设定μshift的默认值为一目标语料库的韵律平均值,当γσ未输入时,该方法设定γσ的默认值为σtarsrc,σtar为一目标语料库的韵律标准差,σsrc为一来源语料库的韵律标准差。
30.如权利要求25所述的计算机程序产品,其特征在于,该韵律重估测模型利用一静态分布法来获得。
CN201110039235.8A 2010-12-22 2011-02-15 可调控式韵律重估测系统与方法及计算机程序产品 Active CN102543081B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW099145318A TWI413104B (zh) 2010-12-22 2010-12-22 可調控式韻律重估測系統與方法及電腦程式產品
TW099145318 2010-12-22

Publications (2)

Publication Number Publication Date
CN102543081A true CN102543081A (zh) 2012-07-04
CN102543081B CN102543081B (zh) 2014-04-09

Family

ID=46318145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110039235.8A Active CN102543081B (zh) 2010-12-22 2011-02-15 可调控式韵律重估测系统与方法及计算机程序产品

Country Status (3)

Country Link
US (1) US8706493B2 (zh)
CN (1) CN102543081B (zh)
TW (1) TWI413104B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778912A (zh) * 2012-10-19 2014-05-07 财团法人工业技术研究院 引导式说话人自适应语音合成的系统与方法及程序产品
CN106803422A (zh) * 2015-11-26 2017-06-06 中国科学院声学研究所 一种基于长短时记忆网络的语言模型重估方法
CN110010136A (zh) * 2019-04-04 2019-07-12 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2505400B (en) * 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
TWI573129B (zh) * 2013-02-05 2017-03-01 國立交通大學 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法
WO2018048945A1 (en) 2016-09-06 2018-03-15 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3497629B1 (en) 2016-09-06 2020-11-04 Deepmind Technologies Limited Generating audio using neural networks
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CN110023963B (zh) 2016-10-26 2023-05-30 渊慧科技有限公司 使用神经网络处理文本序列
EP3776532A4 (en) * 2018-03-28 2021-12-01 Telepathy Labs, Inc. VOICE SYNTHESIS PROCESS AND SYSTEM
KR20210072374A (ko) * 2019-12-09 2021-06-17 엘지전자 주식회사 발화 스타일을 제어하여 음성 합성을 하는 인공 지능 장치 및 그 방법
US11978431B1 (en) * 2021-05-21 2024-05-07 Amazon Technologies, Inc. Synthetic speech processing by representing text by phonemes exhibiting predicted volume and pitch using neural networks

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004723A1 (en) * 2001-06-26 2003-01-02 Keiichi Chihara Method of controlling high-speed reading in a text-to-speech conversion system
US20040172255A1 (en) * 2003-02-28 2004-09-02 Palo Alto Research Center Incorporated Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
CN1705016A (zh) * 2004-05-31 2005-12-07 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
TW200620240A (en) * 2004-12-10 2006-06-16 Delta Electronics Inc System and method for transforming text to speech
TW200620239A (en) * 2004-12-13 2006-06-16 Delta Electronic Inc Speech synthesis method capable of adjust prosody, apparatus, and its dialogue system
CN1825430A (zh) * 2005-02-23 2006-08-30 台达电子工业股份有限公司 可调适韵律的语音合成方法、装置及其对话系统
JP2007011042A (ja) * 2005-06-30 2007-01-18 Mitsubishi Electric Corp 韻律生成装置及び音声合成装置
TW200725310A (en) * 2005-12-16 2007-07-01 Univ Nat Chunghsing Method for determining pause position and type and method for converting text into voice by use of the method
CN101064103A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于音节韵律约束关系的汉语语音合成方法及系统
US20070260461A1 (en) * 2004-03-05 2007-11-08 Lessac Technogies Inc. Prosodic Speech Text Codes and Their Use in Computerized Speech Systems
US20090055188A1 (en) * 2007-08-21 2009-02-26 Kabushiki Kaisha Toshiba Pitch pattern generation method and apparatus thereof
US20090234652A1 (en) * 2005-05-18 2009-09-17 Yumiko Kato Voice synthesis device

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW275122B (en) 1994-05-13 1996-05-01 Telecomm Lab Dgt Motc Mandarin phonetic waveform synthesis method
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
JP3854713B2 (ja) * 1998-03-10 2006-12-06 キヤノン株式会社 音声合成方法および装置および記憶媒体
US6101470A (en) 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
CN1259631A (zh) 1998-10-31 2000-07-12 彭加林 一种在头部开关的陶瓷芯片水嘴
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6847931B2 (en) * 2002-01-29 2005-01-25 Lessac Technology, Inc. Expressive parsing in computerized conversion of text to speech
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US6856958B2 (en) 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup
US7200558B2 (en) 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
GB0113583D0 (en) 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
US7165030B2 (en) * 2001-09-17 2007-01-16 Massachusetts Institute Of Technology Concatenative speech synthesis using a finite-state transducer
US7136816B1 (en) 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
US20050119890A1 (en) 2003-11-28 2005-06-02 Yoshifumi Hirose Speech synthesis apparatus and speech synthesis method
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
US7472065B2 (en) * 2004-06-04 2008-12-30 International Business Machines Corporation Generating paralinguistic phenomena via markup in text-to-speech synthesis
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
JP4559950B2 (ja) 2005-10-20 2010-10-13 株式会社東芝 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
JP4539537B2 (ja) 2005-11-17 2010-09-08 沖電気工業株式会社 音声合成装置,音声合成方法,およびコンピュータプログラム
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US8244534B2 (en) * 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
CN101452699A (zh) 2007-12-04 2009-06-10 株式会社东芝 韵律自适应及语音合成的方法和装置
TW200935399A (en) 2008-02-01 2009-08-16 Univ Nat Cheng Kung Chinese-speech phonologic transformation system and method thereof
US8140326B2 (en) * 2008-06-06 2012-03-20 Fuji Xerox Co., Ltd. Systems and methods for reducing speech intelligibility while preserving environmental sounds
US8321225B1 (en) * 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
WO2010119534A1 (ja) * 2009-04-15 2010-10-21 株式会社東芝 音声合成装置、方法およびプログラム
JP5148026B1 (ja) * 2011-08-01 2013-02-20 パナソニック株式会社 音声合成装置および音声合成方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004723A1 (en) * 2001-06-26 2003-01-02 Keiichi Chihara Method of controlling high-speed reading in a text-to-speech conversion system
US20040172255A1 (en) * 2003-02-28 2004-09-02 Palo Alto Research Center Incorporated Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
US20070260461A1 (en) * 2004-03-05 2007-11-08 Lessac Technogies Inc. Prosodic Speech Text Codes and Their Use in Computerized Speech Systems
CN1705016A (zh) * 2004-05-31 2005-12-07 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
TW200620240A (en) * 2004-12-10 2006-06-16 Delta Electronics Inc System and method for transforming text to speech
TW200620239A (en) * 2004-12-13 2006-06-16 Delta Electronic Inc Speech synthesis method capable of adjust prosody, apparatus, and its dialogue system
CN1825430A (zh) * 2005-02-23 2006-08-30 台达电子工业股份有限公司 可调适韵律的语音合成方法、装置及其对话系统
US20090234652A1 (en) * 2005-05-18 2009-09-17 Yumiko Kato Voice synthesis device
JP2007011042A (ja) * 2005-06-30 2007-01-18 Mitsubishi Electric Corp 韻律生成装置及び音声合成装置
TW200725310A (en) * 2005-12-16 2007-07-01 Univ Nat Chunghsing Method for determining pause position and type and method for converting text into voice by use of the method
CN101064103A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于音节韵律约束关系的汉语语音合成方法及系统
US20090055188A1 (en) * 2007-08-21 2009-02-26 Kabushiki Kaisha Toshiba Pitch pattern generation method and apparatus thereof

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778912A (zh) * 2012-10-19 2014-05-07 财团法人工业技术研究院 引导式说话人自适应语音合成的系统与方法及程序产品
CN106803422A (zh) * 2015-11-26 2017-06-06 中国科学院声学研究所 一种基于长短时记忆网络的语言模型重估方法
CN106803422B (zh) * 2015-11-26 2020-05-12 中国科学院声学研究所 一种基于长短时记忆网络的语言模型重估方法
CN110010136A (zh) * 2019-04-04 2019-07-12 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备

Also Published As

Publication number Publication date
CN102543081B (zh) 2014-04-09
TWI413104B (zh) 2013-10-21
US8706493B2 (en) 2014-04-22
TW201227714A (en) 2012-07-01
US20120166198A1 (en) 2012-06-28

Similar Documents

Publication Publication Date Title
CN102543081B (zh) 可调控式韵律重估测系统与方法及计算机程序产品
CN105551481B (zh) 语音数据的韵律标注方法及装置
US7596499B2 (en) Multilingual text-to-speech system with limited resources
CN105261355A (zh) 一种语音合成方法和装置
Tihelka et al. Current state of text-to-speech system ARTIC: a decade of research on the field of speech technologies
US20100268539A1 (en) System and method for distributed text-to-speech synthesis and intelligibility
Van Santen Prosodic modeling in text-to-speech synthesis
Ćavar et al. Endangered language documentation: Bootstrapping a Chatino speech corpus, forced aligner, ASR
CN106128450A (zh) 一种汉藏双语跨语言语音转换的方法及其系统
JP2018146803A (ja) 音声合成装置及びプログラム
Campbell Developments in corpus-based speech synthesis: Approaching natural conversational speech
Hirst ProZed: A speech prosody editor for linguists, using analysis-by-synthesis
Bulyko et al. Efficient integrated response generation from multiple targets using weighted finite state transducers
Van Do et al. Non-uniform unit selection in Vietnamese speech synthesis
Freixes et al. A unit selection text-to-speech-and-singing synthesis framework from neutral speech: proof of concept
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
CN101350195A (zh) 语音合成器产生系统与方法
Cutugno et al. The chrome manifesto: integrating multimodal data into cultural heritage resources
Gerazov et al. Pysfc-a system for prosody analysis based on the superposition of functional contours prosody model
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
Essien et al. An interactive intelligent web-based text-to-speech system for the visually impaired
Gahlawat et al. Phonetic transcription comparison for emotional database for speech synthesis
Sudhakar et al. Development of Concatenative Syllable-Based Text to Speech Synthesis System for Tamil
JP4575798B2 (ja) 音声合成装置及び音声合成プログラム
KR20100003574A (ko) 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant