CN103680491A - 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块 - Google Patents

语速相依韵律讯息产生装置及语速相依的阶层式韵律模块 Download PDF

Info

Publication number
CN103680491A
CN103680491A CN201310066969.4A CN201310066969A CN103680491A CN 103680491 A CN103680491 A CN 103680491A CN 201310066969 A CN201310066969 A CN 201310066969A CN 103680491 A CN103680491 A CN 103680491A
Authority
CN
China
Prior art keywords
rhythm
word speed
model
interdependent
pause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310066969.4A
Other languages
English (en)
Other versions
CN103680491B (zh
Inventor
陈信宏
王逸如
江振宇
谢乔华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spring Foundation of NCTU
Original Assignee
Spring Foundation of NCTU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spring Foundation of NCTU filed Critical Spring Foundation of NCTU
Publication of CN103680491A publication Critical patent/CN103680491A/zh
Application granted granted Critical
Publication of CN103680491B publication Critical patent/CN103680491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本案系提供一种可控制语速的韵律讯息产生装置,包含一第一输入端,用以接收一语速;一第二输入端,用以接收一语言参数;一语速相依的韵律生成模块,用以接收该语言参数及该语速,以产生该语速相依的一韵律声学特征参数;及一输出端,用以输出与该语速相依的一韵律声学特征参数。

Description

语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
技术领域
本发明系关于一种韵律讯息产生装置,尤指一种以语速相依的阶层式韵律模块为基础的韵律讯息产生装置。
背景技术
目前对于相异语速语音合成的讨论不少,但始终不能达成一流畅的自然合成语音。其中有以每个语音音框的时间轴进行伸张及压缩,藉以调整说话速度慢及快的研究,但并未考虑到语速对于韵律结构的影响;以线性预估的方式对输入语音进行语速修正,对输入的语音信号以线性插入或移除信号本身的研究,该方法虽简易有效率,但对于语速的考虑过于粗糙;以清化元音(devoiced vowel)的决定中考虑了语速影响,有效地改进清化元音在慢语速的退化程度的研究,但其韵律的产生方法并未考虑语速的影响;以对不同语速语料库建立韵律结构的转换关系,藉以达到语速转换的目的的研究,但该方法并不能掌握到连续语速的转换变化;虽有文献实现了可控制语速的TTS(Text-to-Speech),首先对三种速度(快、正常、慢)各自建立音长模型,对三个音长模型以内插方式来产生目标语速所需的音长,最后结合于HMM为基础的语音合成器,此方法仅考虑韵律之中的音长部份,并未对其它韵律参数进行语速影响调整,且由于不同语速需各自建立自己的音长模型,会使得模型参数量大增;再则它使用内插法去产生音长,无法获得准确的语速控制;另有文献对正常及快速语料分别建立HSMM模型,再以CMLLR对音长模型进行音长平均值的语速调适,该方法仅考虑韵律之中的音长部份,且由于不同语速需各自建立自己的音长模型,会使得模型参数量大增;及有进行大规模主观测试三种语速控制的方法研究,分别为:(1)针对目标语速选取相近语速的语料来训练HMM模型,(2)依比例去伸缩合成语句的发音长度,及(3)基于ML准则去决定状态长度(state duration),这些方法都是建立于HMM-based的语音合成系统,实验结果发现方法(2)最适合用于快语速合成语音,而方法(1)较适合慢速语音,不同的语速控制方法都只适于某种语速,并没有一种方法能掌握所有语速的控制。
因此,可知习知技术大多以等比例拉长或缩短各个合成单元(如音节、词)的长度来达到语速控制,而于韵律结构、音高轨迹、停顿时间长度及停顿出现频率方面较少着墨,并无考虑声学韵律讯息其背后的产生模型,因此并不能以系统化的方式掌握语速对于韵律多层面的影响,进而用以产生韵律讯息;这些韵律讯息可充分应用于语音合成的语速控制,使各种语速的合成语音应用在语音合成的领域听起来都很流利自然。
爰是之故,申请人有鉴于习知技术的缺失,乃经悉心试验与研究,并一本锲而不舍的精神,终发明出本案「语速相依的韵律讯息产生器及语速相依的阶层式韵律模块」,用以改善上述习用手段的缺失。
发明内容
本案的一面向系提供一韵律讯息产生装置,包含一第一输入端,用以接收一语速;一第二输入端,用以接收一语言参数;一语速相依的韵律生成模块,用以配合该语言参数及该语速,以产生该语速相依的一韵律声学特征参数;及一输出端,用以输出与该语速相依的韵律声学特征参数。
本案的另一面向系提供一种语速相依的阶层式韵律模块,包含至少二模型,其中各该模型系选自由一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型及其组合之一,俾与一语速相依。
本案的又一面向系提供一种语速相依的阶层式韵律模块,包含至少二参数,其中各该参数系选自由一停顿类型、一韵律状态一音节韵律声学特征参数、一音节间韵律声学特征参数及一音节差分韵律声学特征参数及其组合之一,俾该模块与一语速相依。
附图说明
图1:本案一较佳实施例的建构语速相依的阶层式韵律模块流程图。
图2:本案一较佳实施例的产生语速相依的韵律声学特征参数简易流程图。
图3:本案一较佳实施例的语料库语速统计图。
图4:本案一较佳实施例的汉语语音阶层式韵律结构示意图。
图5:本案一较佳实施例的七种停顿类别的停顿时长平均值对语速的关系图。
图6(a)~(b):本案一较佳实施例的不同声调的基频轨迹于不同语速的差异图。
图7:本案一较佳实施例的产生语速相依的韵律声学特征参数流程图。
【主要组件符号说明】
101:语音语料库
102:语速估计
103:语速正规化函式的建构
104:韵律声学特征参数的语速正规化
105:修正型阶层式韵律模型训练算法
106:语速相依的阶层式韵律模块
201:文字分析器
202:语速相依的韵律参数产生方法
203:语速正规化函式
204:语速相依的阶层式韵律模块
701:语速相依的阶层式韵律模块
702:停顿标记预估器
703:韵律状态预估器
704:语速正规化函式
705:韵律状态语法模型
706:语速相依的韵律讯息产生器
707:语速相依的韵律生成模块
具体实施方式
本发明将可由以下的实施例说明而得到充分了解,使得熟习本技艺的人士可以据以完成之,然本案的实施并非可由下列实施案例而被限制其实施型态。
本发明建立一个可应用于电子有声书、手机、PDA及计算机等装置上的考虑语速对于音长、音高轨迹、停顿时机、停顿出现频率、停顿时长所造成的影响的语速相依的阶层式韵律模块;以及基于语速相依的阶层式韵律模块,可以产生出各种语速的韵律声学特征参数,帮助语音合成达到良好的语速控制效果。其步骤包含两个阶段:模块建立及韵律合成。模块建立阶段请参阅图1,其中是以阶层式韵律模型为基础建立语速相依的阶层式韵律模块。请参阅图2,韵律合成阶段是语速相依的韵律声学特征参数产生方法阶段,其中是以语速相依的阶层式韵律模块为基础,产生语音合成所需要的各种韵律声学特征参数,且满足不同语速的要求。
如前所述的模块建立阶段的步骤包含对语音语料库101中的每一句话,先做音节切割,再由每一音节抽取韵律声学特征参数;接着由语速估计102求取音节平均长度做为语速SR;然后由语速正规化函式的建构103依据整个语音数据库各句话的韵律声学特征参数对语速的统计分布来求取正规化函式;接着由韵律声学特征参数的语速正规化104来将韵律声学特征参数做正规化而获得正规化韵律声学特征参数,再由修正型阶层式韵律模型训练算法105使用整个语音语料库每一句话的语速、语言参数、及正规化韵律声学特征参数来训练获得语速相依的阶层式韵律模块106,其中修正型阶层式韵律模型训练算法,考虑语速的进一步影响,修正原本的阶层式韵律模型训练算法,将其中两个子模型:停顿语法模型及韵律状态模型,加入语速考虑,藉此补偿语速对停顿时机(或出现频率)、以及韵律状态转移所造成的影响。
如前所述的韵律合成阶段的步骤包含:首先由文字分析器201将输入文字做断词及词类标记分析,获得语言参数,再由语速相依的韵律声学特征参数产生方法202使用语言参数、语速、语速相依的阶层式韵律模块204、以及语速正规化函式203来产生四种韵律声学特征参数。语速相依的阶层式韵律模块204主要是决定整个语句的韵律架构(依据语速)及基本韵律参数合成,而语速正规化函式203是将基本韵律参数的统计特性调到指定语速的统计特性。
请参阅表一及图3,其分别为本发明中使用语料库大小的统计信息及语料库语速的统计分布图。该语料库是以一女性专业播音员依四种语速所录制的平行语音数据库当作实施目标,由该图中可知四种语速所录制的平行语音数据语速分布在0.15-0.3second/syllable之间。
表一
语句数 音节数 小时数
快语速 368 50691 3.4
一般语速 376 51868 3.9
中等语速 362 49956 4.8
慢语速 372 51231 6.0
对于韵律声学特征参数的正规化函式建构方法,其中一般正规化方法是对每个语句各自的资料统计参数做正规化,该方法简易且具有效率,但可能造成过度正规化,导致除了语速之外的其它影响因素亦被调整而扭曲,进而使模块建造错误。本发明采用一较合理的正规化方法,即使用平滑曲线去仿真每个语句的正规化参数与语速的关系,藉由这些平滑曲线来形成语速正规化函式。
对于韵律声学特征参数中的音节长度,采取高斯正规化的方法,并使用二阶多项式曲线来仿真音节长度的标准差,如下列式子所示:
Figure BDA00002876794400041
其中
Figure BDA00002876794400042
为平滑化后的标准差,
Figure BDA00002876794400043
为语句k的音节平均长度(也就是语速),sdn和sdn′分别代表原始音节长度和语速正规化的音节长度;
Figure BDA00002876794400044
为语料库整体的音节长度平均值与标准差。
对于停顿长度,使用Gamma分布来表示其分布,同样使用二阶多项式曲线来仿真语句的停顿长度平均值与标准差对语速SR的关系,其数学式子如下:
Figure BDA00002876794400046
Figure BDA00002876794400051
接着利用平滑化的平均值
Figure BDA00002876794400052
和标准差
Figure BDA00002876794400053
去对停顿长度pdn做分布正规化,其使用的公式为:
Figure BDA00002876794400054
其中G(pd,α,β)为Gamma分布的累积分布函数(cumulative distribution function),G-1为G的反函数;
Figure BDA00002876794400055
Figure BDA00002876794400056
为Gamma函数的两个参数的平滑值,
Figure BDA00002876794400057
为由语料库整体的停顿长度平均值和标准差所计算的Gamma函数参数。
对于音节音高轨迹,先进行正交展开(orthogonal expansion),使用四个Legendre多项式为基底,用所得到的四维正交参数来表示基频轨迹,即 sp n = a n 0 a n 1 a n 2 a n 3 T , 接着依每一音节声调(lexical tone)的每一维度来正规化SR对spn的影响,公式如下:
Figure BDA000028767944000510
其中
Figure BDA000028767944000511
分别为sp第i维、第t声调的平滑化平均值与标准差,它们都以一阶函数来表示;
Figure BDA000028767944000513
为整个语料库的sp第i维、第t声调的平均值与标准差。
对于音节能量位阶,由于它与录音条件有很大的相关性,包含麦克风与语者距离、麦克风本身的录音质量、录音的环境等等因素的影响远远大于语速所造成的,因此本实施案例采取非语速相依的高斯正规化。
在完成参数正规化后,再对所有训练语句以实施方块105修正型阶层式韵律模型训练算法来自动产生一个语速相依的阶层式韵律模块,该模块包括四个子模型,用来描述观察到的韵律声学特征参数、语言参数及韵律阶层架构标记之间的关系。虽然我们在之前参数正规化时已把语速对韵律声学特征参数的影响做适当补偿消除,但停顿出现的频率及韵律状态的转移仍与语速有很大的相关性,因此我们以决策树描述七种停顿类型(请参阅图4)出现频率与语言参数之间的关系来修正停顿语法子模型;以及使用一阶马可夫模型来描述前一个韵律状态和目前韵律状态之间的转移关系来修正韵律状态子模型,使所述的二个子模型与语速相依。修正型韵律模型训练算法为一参数最佳化问题求解的方法,在已知正规化韵律声学特征参数{X,Y,Z}、语言参数{L}及语速SR的情况下找到最佳的韵律标记序列T={B,PS},即下列数学式子:
B * , PS * = arg max B , PS P ( B , PS | X , Y , Z , L , SR )
Figure BDA00002876794400062
其中B代表停顿标记序列,PS={p,q,r}分别为音节基频、长度及能量位阶的韵律状态标记序列,此两类韵律标记是用来描述图4所考虑的中文韵律阶层结构,此结构包含四种韵律成分:音节、韵律词、韵律词组、及呼吸或韵律词组群组;韵律停顿Bn是用来描述音节n和音节n+1之间的停顿状态,共使用七种韵律停顿状态来描述此四种韵律成分的边界;A={X,Y,Z}为韵律声学特征参数序列,其中X={sp,sd,se}、Y={pd,ed}和Z={pj,dl,df}分别代表与音节相关的韵律声学特征参数、音节间及差分的韵律声学特征参数序列;L={POS,PM,WL,t,s,f}为语言参数序列,其中{POS,PM,WL}为高阶语言参数序列,POS、PM及WL分别为词类序列、标点符号序列及词长序列,而{t,s,f}为低阶语言参数序列,t、s及f分别为声调、基本音节类别及韵母类别序列;SR为语句的语速。详细符号定义请参阅表二。
表二
Figure BDA00002876794400063
Figure BDA00002876794400071
语速相依的阶层式韵律模块可以下列方程式表示P(X|B,PS,L)P(Y,Z|B,L)P(PS|B,SR)P(B|L,SR)。该模块包含四个子模型:音节韵律声学模型P(X|B,PS,L)、停顿声学模型P(Y,Z|B,L)、韵律状态模型P(PS|B,SR)以及停顿语法模型P(B|L,SR):
(1)音节韵律声学模型P(X|B,PS,L):
如下式所示,它再以三个子模型来近似:
P ( X | B , PS , L ) ≈ P ( sp | B , p , t ) P ( sd | B , q , t , s ) P ( se | B , r , t , f )
≈ Π n = 1 N P ( sp n | B n - 1 n , p n , t n - 1 n + 1 ) P ( sd n | q n , s n , t n ) P ( se n | r n , f n , t n )
其中子模型、P(sdn|qn,sn,tn)以及P(sen|rn,fn,tn)分别代表第n个音节的音高轨迹、音节长度、能量位阶的模型,tn、sn及fn分别表示第n个音节的声调、基本音节、及韵母类型; B n - 1 n = ( B n - 1 , B n ) ; t n - 1 n + 1 = ( t n - 1 , t n , t n + 1 ) .
在本实施例中,这三个子模型各考虑了多个影响因子(Affecting Factors,AFs),这些影响因子以加成方式结合,以第n个音节的音高轨迹为例,我们可得:
sp n = sp n r + β t n + β p n + β B n - 1 , tp n - 1 f + β B n , tp n b + μ sp
其中spn=[α0,n1,n2,n3,n]为一四维正交化系数向量,用以表示第n个音节观察到的音高轨迹,为正规化后的残余值,
Figure BDA00002876794400079
分别为声调和韵律状态两影响因子的影响数值(AffectingPattern,AP),
Figure BDA000028767944000711
Figure BDA000028767944000712
为向前及向后连音两AF的影响数值;
Figure BDA000028767944000713
μsp为音高的全域平均值。基于假设
Figure BDA000028767944000714
为零平均值的高斯常态分布,我们可以高斯常态分布来表示spn如下所示
P ( sp n | B n - 1 n , p n , t n - 1 n + 1 ) = N ( sp n ; β t n + β p n + β B n - 1 , tp n - 1 f + β B n , tp n b + μ sp , R sp )
其中N(x;μ,R)表示向量x为mean vectorμ及covariance matrixR的常态分布。
音节长度P(sdn|qn,sn,tn)及能量位阶P(sen|rn,fn,tn)亦是以此方式去实现:
P ( sd n | q n , s n , t n ) = N ( sd n ; γ t n + γ s n + γ q n + μ sd , R sd )
P ( se n | r n , f n , t n ) = N ( se n ; ω t n + ω f n + ω r n + μ se , R se )
其中γx及ωx分别代表音节长度以及音节能量位阶受影响因素x的影响数值(AP)。
(2)停顿声学模型P(Y,Z|B,L):
音节间韵律声学模型则以五个子模型近似之,如下式所示:
P ( Y , Z | B , L ) ≈ P ( pd , ed , pj , dl , df | B , L ) ≈ Π n = 1 N - 1 P ( pd n , ed n , pj n , dl n , df n | B n , L n )
≈ Π n = 1 N - 1 { g ( pd n ; α B n , L n , β B n , L n ) N ( ed n ; μ ed , B n , L n , σ ed , B n , L n 2 ) · N ( pj n ; μ pj , B n , L n , σ pj , B n , L n 2 )
· N ( dl n ; μ dl , B n , L n , σ dl , B n , L n 2 ) N ( df n ; μ df , B n , L n , σ df , B n , L n 2 ) }
其中在第n个音节所跟随的接合点(juncturen,之后以第n个接合点表示)的停顿长度pdn以Gamma分布模拟,edn为第n个接合点的能量低点位阶;pjn为跨越第n个接合点的正规化音高差,其定义如下:
pj n = ( sp n + 1 ( 1 ) - χ t n + 1 ) - ( sp n ( 1 ) - χ t n )
其中spn(1)为spn的第一维度(即音节音高平均值),χt为声调t平均音高位阶;dln及sfn分别为跨越第n-1及第n个接合点的两个正规化的音节拉长因子,其定义如下:
dl n = ( sd n - π t n - π s n ) - ( sd n - 1 - π t n - 1 - π s n - 1 )
df n = ( sd n - π t n - π s n ) - ( sd n + 1 - π t n + 1 - π s n + 1 )
其中πx代表影响因素x的平均音长。除了pdn以Gamma分布仿真外,其它四种模型皆以常态分布仿真;因为对韵律停顿而言Ln的参数空间仍是太大,可以使用CART(Classification AndRegression Trees)决策树分类法将Ln分成几类,然后同时估计Gamma及常态分布的参数。
(3)韵律状态模型P(PS|B,SR)
韵律状态模型P(PS|B,SR)以三个子模型近似之,分别用来模拟音节音高、长度及能量三种韵律状态,并以语速等分成小段bin来区分不同语速所造成的影响,如下式所示:
P ( P | B , SR ) = P ( p | B , SR ) P ( q | B , SR ) P ( r | B , SR )
Figure BDA000028767944000810
Figure BDA000028767944000811
其中,pn,qn,rn表示音节n的音高、长度及能量韵律状态;bin(SR(k))为语句k的语速SR(k)所属的小段(bin)。
(4)停顿语法模型P(B|L,SR)
停顿语法模型
Figure BDA00002876794400091
由两个步骤建构成,第一步先由CART决策树分析算法来估计P(Bn|Ln),第二步再使用多项式曲线来仿真7种停顿类型在每个决策树子结点的出现频率和语速SR的关系,最后估计出P(Bn|Ln,SR),其公式如下所示:
P ( B n = m | L n , SR ( k ) ) = P ( B n = m | L n , SR ( k ) ) Σ x ∈ allbreaktypes P ( B n = x | L n , SR ( k ) ) ≈ c m , j SR ( k ) + d m , j Σ x ∈ allbreaktype c x , j SR ( k ) + d x , j
其中Bn为第k个语句第n个音节后的停顿类型,j为决策树子结点的索引值,Ln为对应的语言参数向量,cm,j和dm,j为停顿类型m、子结点j的线性回归系数。
此修正型阶层式韵律模式训练算法,在适当的韵律断点和韵律状态初始化后,是以依序最佳化程序(sequential optimization procedure)来训练韵律模型,同时对于训练语料以最大似然性法则(maximum likelihood criterion)来产生韵律标记及获得语速相依的阶层式韵律模式的参数。
下列为该模块训练的实验结果。请参阅表三,其列出在使用不同影响因子组合下,各韵律声学参数重建的总残余误差值(Total Residual Error,TRE),即扣除各种影响因子的AP组合后,韵律声学特征参数残余值变异数与原始韵律声学特征参数变异数的比值,其中,加入韵律状态的AP后,各韵律声学特征参数的TRE都变得非常小。
表三
停顿时长为音节间韵律声学子模型最重要的参数,请参阅图5,其显示出七种停顿类别的平均值对语速的关系,其中在B0、B1、B2-1及B2-3四种不明显停顿时长的类别,它们与语速相关性甚小,其余停顿类别的停顿时长皆随着SR呈非线性增加。而表四为对每种停顿类别计算重建停顿时长的均方根误差,发现只有B2-2、b3及B4的误差会比较大,这是因为这些停顿类别通常发生在MINOR BREAK或MAJOR BREAK位置,因其变异较大所以重建误差也自然较大,此结果是在合理的范围。
表四
停顿类型 B0 B1 B2-1 B2-2 B2-3 B3 B4
均方根误差 3毫秒 19毫秒 25毫秒 90毫秒 30毫秒 104毫秒 149毫秒
请参阅图6,其是用声调的AP来产生快、慢两种语速的音高轨迹,可观察到每一声调的基频轨迹受语速的影响程度皆不尽相同。
请参阅表五,其显示一个停顿类别的标记例子,此例子对四个不同语速(由上往下语速渐慢)的平行语料标记,在此只标示出B4()、B3(/)及B2-2(*)三种具明显停顿时长的类别,其显示出语速越慢时越容易出现明显类别的停顿,符合预期的结果。
表五
Figure BDA00002876794400101
上述各项实验数据显示该模块可有效地描述汉语语音韵律参数的各种变化。
对于可控制语速的韵律声学特征参数产生方法可经由参阅图7得到进一步了解,其为图2的较详细图示,其是基于训练出来的语速相依的阶层式韵律模块701的可控制语速的汉语韵律声学特征参数产生法流程图。方块702为停顿标记预估器,其使用该韵律模型中的停顿语法模型来做停顿标记预估的方法:
B n * = arg max B n P ( B n | L n , SR )
其中Ln为输入的语言参数,SR为指定的语速。
方块703为韵律状态标记预估器,其使用此韵律模型中的韵律状态模型搭配一组额外的韵律状态语法模型705,以维特比算法(Viterbi algorithm)来预估之,如以下数学式所示:
p * , q * , r * = arg max p , q , r P ( p 1 | bin ( SR ) ) P ( q 1 | bin ( SR ) ) P ( r 1 | bin ( SR ) ) · Π n = 2 N P ( p n | p n - 1 , B n - 1 * , bin ( SR ) P ( q n | q n - 1 , B n - 1 * , bin ( SR ) ) P ( r n | r n - 1 , B n - 1 * , bin ( SR ) )
· ( Π n = 1 N P ( p n | L n ) P ( q n | L n ) P ( r n | L n ) )
其中p(pn|Ln)、p(qn|Ln)、p(rn|Ln)为韵律状态语法模型,它们系使用做完韵律标记的训练语料以CART算法实现之,
Figure BDA00002876794400105
为停顿标记预估结果。
有了韵律标记预估结果后,可利用韵律模型中的的音节韵律声学模型P(X|B,PS,L)和停顿声学模型P(X,Y|B,L)来产生语速正规化的韵律声学特征参数,再藉由语速正规化函式704的反函式来还原产生指定语速的韵律声学特征参数,各韵律声学特征参数的产生说明如下:
语速控制的停顿时长产生方法为
Figure BDA00002876794400111
其中
pd n * ≡ μ n * = α n * β n *
为语速正规化的停顿时长,它使用停顿声学模型中由
Figure BDA00002876794400113
和前后文参数Ln所找到的节点的Gamma分布的参数
Figure BDA00002876794400114
Figure BDA00002876794400115
去计算的平均值
Figure BDA00002876794400116
来估计;语速控制的音节音高轨迹产生方法为
Figure BDA00002876794400117
其中语速正规化的基频轨迹
Figure BDA00002876794400118
的预估如下面数学式所示,它是以预估的韵律标记和声调语言参数来挑选对应的AP所迭加产生:
sp n * = β t n + β p n * + β B n - 1 * , t n - 1 n f + β B n * , t n n + 1 b + μ sp
语速控制的音节长度产生方法如下:
Figure BDA000028767944001110
其中语速正规化的音节长度
Figure BDA000028767944001111
是以对应的AP所迭加产生:
sd n * = γ t n + γ s n + γ q n * + μ sd
最后音节能量位阶的产生方法为
se n * = ω t n + ω f n + ω r n * + μ se
以下为语音合成范例。本发明所产生的韵律声学特征参数能结合于任何语音合成器,以达到语速控制的语音合成。在此以一隐藏式马可夫为基础的语音合成技术(HMM-based speechsynthesis)为例将语音合成出来,此技术为习知技术,在此简短说明其参数设定:中文的21个声母及39个韵母都各以一个HMM表示,每个HMM包含5个HMM状态,每一个状态内的观察向量包含两个类别串:一个为维度75的频谱参数,另一个为离散的事件来表示清音(unvoiced)或浊音(voiced)的状态,每一个状态皆以多变量单一高斯函数(multi-variate singleGaussian)表示其观察机率。训练HMM模型的方法是以习知方法(embedded-trained及决策树方法对HMM状态分群)训练其参数,上述的参数设定及训练方法可视实际情况而调整,其并非用以限制本发明的范围。
请参阅表六,其为MOS主观听觉评估结果,其系经由十五位测试者聆听三种语速各十句所做主观音质评定的MOS分数平均,由该表中可看出合成语音在不同语速皆有不错的声音质量。
表六
语速 快(SR=0.17) 中(SR=0.20) 慢(SR=0.25)
MOS 3.35 3.44 3.28
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明的范围,任何熟习此技艺者,在不脱离本发明的精神和范围内,当可作各种更动与润饰,因此本发明的保护范围当视后附的申请专利范围所界定者为准。
实施例:
1.一种可控制语速的韵律讯息产生装置,包含:
一第一输入端,用以接收一语速;
一第二输入端,用以接收一语言参数;
一语速相依的韵律生成模块,用以配合该语言参数及该语速,以产生该语速相依的一韵律声学特征参数;及
一输出端,用以输出与该语速相依的该韵律声学特征参数,
2.如实施例1所述的装置,其中根据所产生的语速相依的韵律声学特征参数,可使用习知的语音合成器来合成出相对应的任一指定语速的合成语音。
3.如实施例1-2所述的装置,其中该语言参数至少包含两参数,其中各该参数系选自由包含词类、标点符号、词长声调、基本音节类型及韵母类型及其组合之一。
4.如实施例1-3所述的装置,其中该语速相依的韵律生成模块包含一语速相依的阶层式韵律模块、一语速相依的韵律讯息产生器、以及至少一个预估器,其中各该预估器系选自由包含一停顿标记预估器及一韵律状态预估器。
5.如实施例1-4所述的装置,其中该语速相依的韵律讯息产生器,根据一语速正规化函式、该语速相依的阶层式韵律模块的音节韵律声学模型及停顿声学模型、该韵律状态预估结果、该停顿标记预估结果、该输入语速及该语言参数,以产生一对应语速的韵律声学特征参数。
6.如实施例1-5所述的装置,其中该语速正规化函式用以调整韵律声学特征参数的统计特性成任一语速的统计特性;其所使用的正规化参数系采用整体语料的统计分布经平滑化而得到。
7.如实施例1-6所述的装置,其中该语速相依的阶层式韵律模块包含一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型,俾与一语速相依。
8.如实施例1-7所述的装置,其中该停顿标记预估器,根据该语速、该语言参数和该语速相依的阶层式韵律模块的停顿语法模型而执行一停顿标记预估操作,以产生一停顿标记预估结果。
9.如实施例1-8所述的装置,其中该韵律状态预估器,根据该语速、该语速相依的阶层式韵律模块的韵律状态模型、一韵律状态语法模型和该停顿标记预估结果而执行一韵律状态预估操作,以产生一韵律状态预估结果。
10.一种语速相依的阶层式韵律模块,包含至少二子模型,其中各该子模型系选自由一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型及其组合之一,俾与一语速相依。
11.如实施例10所述的模块,其中该语速相依的阶层式韵律模块根据一汉语语音数据库的语言参数、一正规化韵律声学参数及各语句的语速,再以一修正型阶层式韵律模型训练算法来建构。
12.如实施例10-11所述的模块,其中该音节韵律声学模型、该停顿声学模型、该韵律状态模型及该停顿语法模型各包含至少两种的子模型来建构。
13.如实施例10-12所述的模块,其中该正规化韵律声学参数根据各语句的语速,使用语速正规化函式对韵律声学参数做一正规化操作所产生。
14.如实施例10-13所述的模块,其中该修正型阶层式韵律模型训练算法亦施用于至少一停顿语法子模型与一韵律状态子模型。
15.如实施例10-14所述的模块,该语速相依的阶层式韵律模块根据一输入语速、一输入语言参数于该模块中,以产生相对应的一停顿类型机率用以协助停顿标记的预估、一韵律状态机率用以协助韵律状态的预估、一音节韵律声学特征参数机率及一音节间停顿时长的机率用以协助产生一语速相依的韵律声学特征参数。
16.一种语速相依的阶层式韵律模块,包含至少二参数,其中各该参数系选自由一停顿类型、一韵律状态、一音节韵律声学特征参数、一音节间韵律声学特征参数及一音节差分韵律声学特征参数及其组合之一,俾该模块与一语速相依。
17.如实施例16所述的模块,其中该韵律状态包含基频韵律状态、时长韵律状态及能量位阶韵律状态。
18.如实施例16-17所述的模块,其中该音节韵律声学特征参数包含音节基频轨迹、音节时长及音节能量位阶;
该音节间韵律声学特征参数包含停顿时长及能量低点位阶;及该音节差分韵律声学特征参数包含基频跳跃、时长拉长因子1及时长拉长因子2。

Claims (18)

1.一种可控制语速的韵律讯息产生装置,包含:
一第一输入端,用以接收一语速;
一第二输入端,用以接收一语言参数;
一语速相依的韵律生成模块,用以配合该语言参数及该语速,以产生该语速相依的一韵律声学特征参数;及
一输出端,用以输出与该语速相依的该韵律声学特征参数。
2.如权利要求1所述的装置,其中根据所产生的语速相依的韵律声学特征参数,可使用习知的语音合成器来合成出相对应的任一指定语速的合成语音。
3.如权利要求1所述的装置,其中该语言参数至少包含两参数,其中各该参数系选自由包含词类、标点符号、词长、声调、基本音节类型及韵母类型及其组合之一。
4.如权利要求1所述的装置,其中该语速相依的韵律生成模块包含一语速相依的阶层式韵律模块、一语速相依的韵律讯息产生器、以及至少一个预估器,其中各该预估器系选自由包含一停顿标记预估器及一韵律状态预估器。
5.如权利要求4所述的装置,其中该语速相依的韵律讯息产生器,根据一语速正规化函式、该语速相依的阶层式韵律模块的音节韵律声学模型及停顿声学模型、该韵律状态预估结果、该停顿标记预估结果、该输入语速及该语言参数,以产生一对应语速的韵律声学特征参数。
6.如权利要求5所述的装置,其中该语速正规化函式用以调整韵律声学特征参数的统计特性成任一语速的统计特性;其所使用的正规化参数系采用整体语料的统计分布经平滑化而得到。
7.如权利要求4所述的装置,其中该语速相依的阶层式韵律模块包含一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型,俾与一语速相依。
8.如权利要求4所述的装置,其中该停顿标记预估器,根据该语速、该语言参数和该语速相依的阶层式韵律模块的停顿语法模型而执行一停顿标记预估操作,以产生一停顿标记预估结果。
9.如权利要求4所述的装置,其中该韵律状态预估器,根据该语速、该语速相依的阶层式韵律模块的韵律状态模型、一韵律状态语法模型和该停顿标记预估结果而执行一韵律状态预估操作,以产生一韵律状态预估结果。
10.一种语速相依的阶层式韵律模块,包含至少二子模型,其中各该子模型系选自由一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型及其组合之一,俾与一语速相依。
11.如权利要求10所述的模块,其中该语速相依的阶层式韵律模块根据一汉语语音数据库的语言参数、一正规化韵律声学参数及各语句的语速,再以一修正型阶层式韵律模型训练算法来建构。
12.如权利要求10所述的模块,其中该音节韵律声学模型、该停顿声学模型、该韵律状态模型及该停顿语法模型各包含至少两种的子模型来建构。
13.如权利要求10-11所述的模块,其中该正规化韵律声学参数根据各语句的语速,使用语速正规化函式对韵律声学参数做一正规化操作所产生。
14.如权利要求10-11所述的模块,其中该修正型阶层式韵律模型训练算法亦施用于至少一停顿语法子模型与一韵律状态子模型。
15.如权利要求10所述的模块,该语速相依的阶层式韵律模块根据一输入语速、一输入语言参数于该模块中,以产生相对应的一停顿类型机率用以协助停顿标记的预估、一韵律状态机率用以协助韵律状态的预估、一音节韵律声学特征参数机率及一音节间停顿时长的机率用以协助产生一语速相依的韵律声学特征参数。
16.一种语速相依的阶层式韵律模块,包含至少二参数,其中各该参数系选自由一停顿类型、一韵律状态一音节韵律声学特征参数、一音节间韵律声学特征参数及一音节差分韵律声学特征参数及其组合之一,俾该模块与一语速相依。
17.如权利要求16所述的模块,其中该韵律状态包含基频韵律状态时长韵律状态及能量位阶韵律状态。
18.如权利要求16所述的模块,其中该音节韵律声学特征参数包含音节基频轨迹、音节时长及音节能量位阶;
该音节间韵律声学特征参数包含停顿时长及能量低点位阶;及该音节差分韵律声学特征参数包含基频跳跃、时长拉长因子1及时长拉长因子2。
CN201310066969.4A 2012-09-10 2013-03-01 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块 Active CN103680491B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW101133059 2012-09-10
TW101133059A TWI503813B (zh) 2012-09-10 2012-09-10 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組

Publications (2)

Publication Number Publication Date
CN103680491A true CN103680491A (zh) 2014-03-26
CN103680491B CN103680491B (zh) 2016-09-21

Family

ID=50317846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310066969.4A Active CN103680491B (zh) 2012-09-10 2013-03-01 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块

Country Status (2)

Country Link
CN (1) CN103680491B (zh)
TW (1) TWI503813B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551481A (zh) * 2015-12-21 2016-05-04 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN105632484A (zh) * 2016-02-19 2016-06-01 上海语知义信息技术有限公司 语音合成数据库停顿信息自动标注方法及系统
CN107767869A (zh) * 2017-09-26 2018-03-06 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
CN109036375A (zh) * 2018-07-25 2018-12-18 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN112641535A (zh) * 2020-12-17 2021-04-13 北京城市系统工程研究中心 基频可变式发声方法及自适应可变基频式电子人工喉

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI595478B (zh) * 2016-04-21 2017-08-11 國立臺北大學 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0231885A (ja) * 1988-07-21 1990-02-01 Sony Corp 無菌超純水供給システム
JPH06214585A (ja) * 1993-01-18 1994-08-05 Toshiba Corp 音声合成装置
JPH0876782A (ja) * 1994-09-02 1996-03-22 Toshiba Corp 音声合成装置
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
CN1705016A (zh) * 2004-05-31 2005-12-07 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2081188A1 (en) * 1992-10-22 1994-04-23 Hanavi M. Hirsh Apparatus and method for continuous speech recognition
GB2388286A (en) * 2002-05-01 2003-11-05 Seiko Epson Corp Enhanced speech data for use in a text to speech system
WO2006104988A1 (en) * 2005-03-28 2006-10-05 Lessac Technologies, Inc. Hybrid speech synthesizer, method and use
US8401849B2 (en) * 2008-12-18 2013-03-19 Lessac Technologies, Inc. Methods employing phase state analysis for use in speech synthesis and recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0231885A (ja) * 1988-07-21 1990-02-01 Sony Corp 無菌超純水供給システム
JPH06214585A (ja) * 1993-01-18 1994-08-05 Toshiba Corp 音声合成装置
JPH0876782A (ja) * 1994-09-02 1996-03-22 Toshiba Corp 音声合成装置
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
CN1705016A (zh) * 2004-05-31 2005-12-07 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551481A (zh) * 2015-12-21 2016-05-04 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN105551481B (zh) * 2015-12-21 2019-05-31 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN105632484A (zh) * 2016-02-19 2016-06-01 上海语知义信息技术有限公司 语音合成数据库停顿信息自动标注方法及系统
CN105632484B (zh) * 2016-02-19 2019-04-09 云知声(上海)智能科技有限公司 语音合成数据库停顿信息自动标注方法及系统
CN107767869A (zh) * 2017-09-26 2018-03-06 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
CN109036375A (zh) * 2018-07-25 2018-12-18 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN109036375B (zh) * 2018-07-25 2023-03-24 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN112641535A (zh) * 2020-12-17 2021-04-13 北京城市系统工程研究中心 基频可变式发声方法及自适应可变基频式电子人工喉

Also Published As

Publication number Publication date
CN103680491B (zh) 2016-09-21
TWI503813B (zh) 2015-10-11
TW201411602A (zh) 2014-03-16

Similar Documents

Publication Publication Date Title
TWI595478B (zh) 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法
CN103680491B (zh) 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
CN1945693B (zh) 训练韵律统计模型、韵律切分和语音合成的方法及装置
CN101064104B (zh) 基于语音转换的情感语音生成方法
CN107103900A (zh) 一种跨语言情感语音合成方法及系统
CN101650942B (zh) 基于韵律短语的韵律结构生成方法
CN106531150A (zh) 一种基于深度神经网络模型的情感合成方法
CN107247750A (zh) 人工智能交互方法及系统
JPH09114495A (ja) ピッチ輪郭を決定するためのシステムおよび方法
CN105551071A (zh) 一种文本语音驱动的人脸动画生成方法及系统
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
CN106057192A (zh) 一种实时语音转换方法和装置
CN105023570A (zh) 一种实现声音转换的方法及系统
CN110415725A (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
CN109036376A (zh) 一种闽南语语音合成方法
Toda et al. Trajectory training considering global variance for HMM-based speech synthesis
Chen et al. An investigation of implementation and performance analysis of DNN based speech synthesis system
Ling et al. Articulatory control of HMM-based parametric speech synthesis driven by phonetic knowledge
TWI721516B (zh) 用以產生局部倒語速之估計値之方法與據以產生局部倒語速之預測値之裝置與方法
Coto-Jiménez et al. LSTM deep neural networks postfiltering for improving the quality of synthetic voices
Chunwijitra et al. A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis
CN103310272A (zh) 基于声道动作知识库改进的diva神经网络模型发音方法
Chinathimatmongkhon et al. Implementing Thai text-to-speech synthesis for hand-held devices
CN106157948A (zh) 一种基频建模方法及系统
Oxman et al. Detection of lexical stress using an iterative feature normalization method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant