CN101051459A - 基频和停顿预测及语音合成的方法和装置 - Google Patents

基频和停顿预测及语音合成的方法和装置 Download PDF

Info

Publication number
CN101051459A
CN101051459A CNA200610073145XA CN200610073145A CN101051459A CN 101051459 A CN101051459 A CN 101051459A CN A200610073145X A CNA200610073145X A CN A200610073145XA CN 200610073145 A CN200610073145 A CN 200610073145A CN 101051459 A CN101051459 A CN 101051459A
Authority
CN
China
Prior art keywords
mentioned
pause
model
fundamental frequency
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200610073145XA
Other languages
English (en)
Inventor
易立夫
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CNA200610073145XA priority Critical patent/CN101051459A/zh
Priority to US11/692,392 priority patent/US20070239439A1/en
Priority to JP2007099948A priority patent/JP2007279744A/ja
Publication of CN101051459A publication Critical patent/CN101051459A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Abstract

本发明提供了数据驱动训练基频和停顿预测模型、基频和停顿预测以及语音合成方法和装置。本发明的数据驱动训练基频预测模型的方法包括:用正交多项式表示基频;对于上述正交多项式的每一个参数,利用与基频预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型,其中每个上述属性或上述属性的组合被作为一项;计算上述参数预测模型的每一上述项的重要性;删除上述计算出的重要性最低的项;利用剩余的项重新生成参数预测模型;判断上述重新生成的参数预测模型是否最优;以及如果上述参数预测模型被判断为不是最优,则重复上述计算每一项的重要性的步骤及其之后的步骤;其中,上述正交多项式及其全部参数预测模型构成基频预测模型。

Description

基频和停顿预测及语音合成的方法和装置
技术领域
本发明涉及信息处理技术,具体地,涉及利用计算机进行数据驱动的基频和停顿预测模型的训练和基频和停顿预测的技术,以及语音合成技术。
背景技术
对于基频预测,通常分为两步,第一步用特定的语调模型的参数表示真实的基频包络;第二步则用数据驱动方法,通过语言学相关属性,预测这些参数。目前,多数的基频表示模型都比较复杂,且不够稳定,不利于参数估计和预测。
对于基频预测,已提出了多种模型,如Fujisaki和PENTA是两种典型的基频参数表示模型。Fujisaki模型将F0包络表示成“长”期和“短”期两种成分的线性组合,也就是短语和重音(声调)成分。PENTA模型是一个典型的线性序列模型,比Fujisaki模型更重视局部事件对大的韵律结构的影响。二者均包含指数部分,存在较复杂的特性,模型的参数求解都不够稳定。
关于Fujisaki模型,例如,在Pablo Daniel Agiiero,Klaus Wimmer和Antonio Bonafonte著的文章“Joint Extraction and Prediction ofFujisaki′s Intonation Model Parameters”(发表于In ICSLP 2004,JejuIsland,Korea.2004)中进行了详细的描述。
关于PENTA模型例如,在Y.Xu著的文章“The PENTA model ofspeech melody:Transmitting multiple communicative functions inparallel”(发表于In Proceedings of From Sound to Sense:50+years ofdiscoverries in speech communication,Cambridge,MA,C-91-96,2004)以及X.Sun著的文章“F0 generation for speech synthesis using a multi-tierapproach”(发表于In Proc.ICSLP′02,pp.2077-2080)中进行了详细的描述。
对于停顿预测,现有技术一般仅限于高斯分布,其它分布还没有什么研究。已提出了多种统计模型,如分类与回归树(Classify and RegressionTree,CART),基于记忆的学习(Memory Based Learning,MBL)以及最大熵模型(Maximum Entropy Model,ME)。其中,CART,MBL和ME是中文文本转语音系统(Text-to-Speech system,TTS)比较流行的方法。这些方法一般假定高斯分布,或不作特殊假定。在建模的分布假定上,没有考虑到停顿本身的特点。
关于分类与回归树(CART),例如,在X.Sun和T.H.Applebaum著的文章“Intonational Phrase Break Prediction Using Decision Tree andN-Gram Model”(发表于In Proceedings Euro speech 2001,Denmark,Vol1,pp.537-540)中进行了详细的描述。
关于基于记忆的学习(MBL),例如,在Bertjan Busser,W.Daelemans和Van den Bosch著的文章“Predicting.phrase breaks with Memory-BasedLearning”(发表于Proceedings 4th.ISCA Tutorial and researchWorkshop on Speech Synthesis,Perthshire Scotland,2001)中进行了详细的描述。
关于最大熵模型(ME)例如,在Jian-feng Li,Guo-ping Hu,Wan-pingZhang和Ren-hua Wang著的文章“Chinese Prosody Phrase BreakPrediction Based on Maximum Entropy Model”(发表于ProceedingsICSLP 2004,Oct 4-8,Korea,pp.729-732)以及Jian-Feng Li,Guo-Ping Hu,Ren-Hua Wang和Li-Rong Dai著的文章“Sliding Window Smoothing ForMaximum Entropy Based Intonational Phrase Prediction In Chinese”(发表于Proceeding of ICASSP2005,Philadelphia,PA,USA,pp.285-288)中进行了详细的描述。以上文献的全部内容以引用方式包含于此,以供参考。
此外,无论基频还是停顿预测方法,一般通过语言学知识,设定模型的属性和属性组合,而不是通过完全数据驱动的方法确定。此外,它们也没有考虑语速对预测的影响。
从而,传统的方法存在以下缺点:
1)传统模型的系数能通过数据驱动方法计算得到,但是模型的属性和属性组合却是用手工的方法设置的。那么,这种“部分的”数据驱动的方法一定程度上就依赖于人的经验。
2)语速没有被当作属性参与基频和停顿建模,但是韵律研究表明,基频和停顿明显地受语速的影响。这样,当用户需要调节语速时,只能别无选择地对整段语音的进行线性的缩放。而实际上,语速和其它属性之间对基频和停顿影响的关系大不相同,线性的缩放的方法并不够合理。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了数据驱动训练基频预测模型的方法和装置、基频预测方法和装置及语音合成的方法和装置,以及数据驱动训练停顿预测模型的方法和装置、停顿预测方法和装置及语音合成的方法和装置。
根据本发明的一个方面,提供了一种数据驱动训练基频预测模型的方法,包括:用正交多项式表示基频;对于上述正交多项式的每一个参数,利用与基频预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型,其中每个上述属性或上述属性的组合被作为一项;计算上述参数预测模型的每一上述项的重要性;删除上述计算出的重要性最低的项;利用剩余的项重新生成参数预测模型;判断上述重新生成的参数预测模型是否最优;以及如果上述参数预测模型被判断为不是最优,则重复上述计算每一项的重要性的步骤及其之后的步骤;其中,上述正交多项式及其全部参数预测模型构成基频预测模型。
根据本发明的另一个方面,提供了一种基频预测方法,包括:利用上述的数据驱动训练基频预测模型的方法,训练基频预测模型;获得相应的上述与基频预测相关的多个属性的值;以及根据上述训练的基频预测模型和相应的上述与基频预测相关的多个属性的值,计算得到基频。
根据本发明的另一个方面,提供了一种语音合成方法,包括:利用上述的基频预测方法,预测基频;以及根据上述预测的基频,进行语音合成。
根据本发明的另一个方面,提供了一种数据驱动训练基频预测模型的装置,包括:初始模型生成单元(initial model generator),其用正交多项式表示基频,对于上述正交多项式的每一个参数,利用与基频预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型,其中每个上述属性或上述属性的组合被作为一项;重要性计算单元(importance calculator),其计算上述参数预测模型的每一上述项的重要性;项删除单元(item deleting unit),用于删除上述计算出的重要性最低的项;模型再生成单元(model re-generator),其利用由上述项删除单元删除后剩余的项重新生成参数预测模型;以及优化判断单元(optimizationdetermining unit),其判断由上述模型再生成单元重新生成的参数预测模型是否最优;其中,上述正交多项式及其全部参数预测模型构成基频预测模型。
根据本发明的另一个方面,提供了一种基频预测装置,包括:利用上述的数据驱动训练基频预测模型的方法训练得到的基频预测模型;属性获得单元(attribute obtaining unit),用于获得相应的上述与基频预测相关的多个属性的值;以及基频计算单元(F0 calculator),其根据上述基频预测模型和相应的上述与基频预测相关的多个属性的值,计算得到基频。
根据本发明的另一个方面,提供了语音合成装置,包括:上述的基频预测装置;并且根据由上述基频预测装置预测的基频,进行语音合成。
根据本发明的另一个方面,提供了一种数据驱动训练停顿概率预测模型的方法,包括:利用与停顿预测相关的多个属性和至少一部分上述属性的组合生成一个初始停顿概率预测模型,其中每个上述属性或上述属性的组合被作为一项;计算上述停顿概率预测模型中每一上述项的重要性;删除上述计算出的重要性最低的项;利用剩余的项重新生成停顿概率预测模型;判断上述重新生成的停顿概率预测模型是否最优;以及如果上述停顿概率预测模型被判断为不是最优,则重复上述计算每一项的重要性的步骤及其之后的步骤。
根据本发明的另一个方面,提供了一种停顿预测方法,包括:利用上述的数据驱动训练停顿概率预测模型的方法,训练停顿概率预测模型;获得相应的上述与停顿预测相关的多个属性的值;根据上述训练的停顿概率预测模型和相应的上述与停顿预测相关的多个属性的值,计算停顿概率;以及将上述计算出的停顿概率与阈值进行比较,以得到停顿。
根据本发明的另一个方面,提供了一种语音合成方法,包括:利用上述的停顿预测方法,预测停顿;以及根据上述预测的停顿,进行语音合成。
根据本发明的另一个方面,提供了一种数据驱动训练停顿概率预测模型的装置,包括:初始模型生成单元(initial model generator),其利用与停顿预测相关的多个属性和至少一部分上述属性的组合生成一个初始停顿概率预测模型,其中每个上述属性或上述属性的组合被作为一项;重要性计算单元(importance calculator),其计算上述停顿概率预测模型中每一上述项的重要性;项删除单元(item deleting unit),用于删除上述计算出的重要性最低的项;模型再生成单元(model re-generator),其利用由上述项删除单元删除后剩余的项重新生成停顿概率预测模型;以及优化判断单元(optimization determining unit),其判断由上述模型再生成单元重新生成的停顿概率预测模型是否最优。
根据本发明的另一个方面,提供了一种停顿预测装置,包括:利用上述的数据驱动训练停顿概率预测模型的方法训练得到的停顿概率预测模型;属性获得单元(attribute obtaining unit),用于获得相应的上述与停顿预测相关的多个属性的值;停顿概率计算单元(pause probabilitycalculator),其根据上述停顿概率预测模型和相应的上述与停顿预测相关的多个属性的值,计算停顿概率;以及比较单元(comparator),将上述计算出的停顿概率与阈值进行比较,以得到停顿。
根据本发明的另一个方面,提供了一种语音合成装置,包括:上述的停顿预测装置;并且根据由上述停顿预测装置预测的停顿,进行语音合成。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明一个实施例的数据驱动训练基频预测模型的方法的流程图;
图2是根据本发明一个实施例的基频预测方法的流程图;
图3是根据本发明一个实施例的语音合成方法的流程图;
图4是根据本发明一个实施例的数据驱动训练基频预测模型的装置的方框图;
图5是根据本发明一个实施例的基频预测装置的方框图;
图6是根据本发明一个实施例的语音合成装置的方框图。
图7是根据本发明一个实施例的数据驱动训练停顿概率预测模型的方法的流程图;
图8是根据本发明一个实施例的停顿预测方法的流程图;
图9是根据本发明一个实施例的语音合成方法的流程图;
图10是根据本发明一个实施例的数据驱动训练停顿概率预测模型的装置的方框图;
图11是根据本发明一个实施例的停顿预测装置的方框图;以及
图12是根据本发明一个实施例的语音合成装置的方框图。
具体实施方式
为了便于后面实施例的理解,首先简要介绍一下GLM(GeneralizedLinear Model,广义线性模型)和BIC(Bayes Information Criterion,贝叶斯信息准则)的原理。
GLM是对多元线性回归模型的一种扩展,SOP(Sum of Products,积和模型)则是GLM的一个特例。GLM参数预测模型通过语音单元s的属性A,预测出参数
Figure A20061007314500171
相应的定义如公式(1)。
Figure A20061007314500172
其中,h表示链接函数。一般地,可以假定d满足指数族分布。为了使d满足不同的指数族分布,只需要设定相应的链接函数。GLM既能作线性建模,也能作非线性建模。
比较模型的性能需要有判别标准。越简单的模型对集外数据预测的稳定性越高,而越复杂的模型对集内数据的拟合程度越高。BIC是一种常见的评价标准,它综合了以上对拟合精度和模型可靠性的度量,定义如式(2)。
               BIC=Nlog(SSE/N)+plogN        (2)
其中,SSE表示预测误差e的平方和。公式(2)的第一项表示模型的拟合精度,第二项表示对模型复杂度的惩罚。当训练样本数N一定时,越复杂的模型的参数个数p越大,对训练数据就拟合得越好,相应的SSE就越小,第一项就越小,而第二项就增大。反之亦然。公式中一项的减小总是导致另一项的增大,当两项和最小时,表示模型“最优”。BIC能在模型复杂度和数据规模之间取得一个不错的平衡,这有助于解决属性稀疏和属性协同作用的问题。
下面就结合附图对本发明的各个优选实施例进行详细的说明。
图1是根据本发明一个实施例的数据驱动训练基频预测模型的方法的流程图。利用本实施例的方法训练的基频预测模型将被用于后面结合其它实施例描述的基频预测方法及装置和语音合成方法及装置。
如图1所示,首先在步骤101,用正交多项式表示基频。具体地,在本实施例中,选用二阶(或更高阶的)勒让德正交多项式表示基频。此多项式可看做文献(X.Sun著的“F0 generation for speech synthesis using amulti-tier approach”,发表于In Proc.ICSLP′02,pp.2077-2080)的低阶泰勒展开。此外,正交多项式在数学和物理问题中具有优良的性质。这里提出的表示方法和文献的有两点重要的区别,其一是用抛物线逼近代替勒指数逼近,其二是将段长归一到[-1,1]的区间。这些变化能帮助提高参数化时的拟合性能。
勒让德多项式表示如下。正交多项式族的区间t属于[-1,1],它们之间满足公式(3)表示的正交关系。
∫ - 1 1 P m ( t ) P n ( t ) dt = δ mn c n - - - ( 3 )
δ mn = 1 , when m = n 0 , when m ≠ n - - - ( 4 )
这里,δmn是克罗内克尔符号,cn=2/(2n+1),前三阶的多项式如式(5)-(7)所示。
p0(t)=1                                  (5)
p1(t)=t                                  (6)
p 2 ( t ) = 1 2 ( 3 t 2 - 1 ) - - - ( 7 )
接下来,对每一个音节定义:
T(t)=a0p0(t)+a1p1(t)                     (8)
F(t)=a0p0(t)+a1p1(t)+a2p2(t)             (9)
这里,T(t)表示潜在的基频目标,F(t)表示基频的包络。勒让德多项式的系数a0和a1表示目标基频的截距和斜率,另一系数a2表示二次逼近的系数。
接着,在步骤105,对于上述正交多项式的每一个参数a0、a1和a2,分别生成一个初始参数预测模型。在本实施例中,利用GLM表示每个初始参数预测模型。参数a0、a1和a2对应的GLM模型分别为:
a 0 i = a ^ 0 i + e i = h - 1 ( β 0 + Σ j = 1 p β j f j ( A ) ) + e i - - - ( 10 )
a 1 i = a ^ 1 i + e i = h - 1 ( β 0 + Σ j = 1 p β j f i ( A ) ) + e i - - - ( 11 )
a 2 i = a ^ 2 i + e i = h - 1 ( β 0 + Σ j = 1 p β j f j ( A ) ) + e i - - - ( 12 )
这里,首先针对参数a0的GLM模型(10)进行描述。
具体地,利用与基频预测相关的多个属性和这些属性的组合生成参数a0的初始参数预测模型。如前面所述,与基频预测相关的属性可以包括许多,大致可分为语言类型的属性和语音类型的属性,下面的表1示例性地列举了一些可以作为基频预测相关属性的属性。
            表1:与基频预测相关的属性
  属性  描述
  PhoClosePhoPrePhoNextPhoTonePreToneNextTonePOSDisNPDisPPPosWordConWordLSNumWSPosSenWNumSenSpRate  当前音素(current phoneme)音节中另一个音素(another phoneme in the samesyllable)前一个音节相邻的音素(the neighboring phonemein the previous syllable)后一个音节相邻的音素(the neighboring phonemein the next syllable)声调(Tone of the current syllable)前音节的声调(Tone of the previous syllable)后音节的声调(Tone of the next syllable)词性(Part of speech)到下一个停顿的距离(Distance to the next pause)到前一个停顿的距离(Distance to the previouspause)音节在语法词中的位置(Phoneme position in thelexical word)前后及当前语法词的长度(Length of the current,previous and next lexical word)语法词中音节的个数(Number of syllables in thelexical word)音节在句子中的位置(Syllable position in thesentence)句中语法词的个数(Number of lexical words in thesentence)语速(Speaking rate)
在本实施例中,采用GLM模型来表示这些属性和属性组合。为了便于说明,假定与基频预测相关的属性只有phone(音子)和tone(声调)。参数a0的初始参数预测模型的形式如下:parameter~phone+tone+tone*phone,其中,tone*phone表示tone和phone的组合,是一个2阶项。
可以理解,当属性的数量增加时,作为属性组合可以出现多个2阶项、3阶项等等。
另外,在本实施例中,在生成初始参数预测模型时,可以只取其中一部分的属性组合,例如只取到全部的2阶项;当然,也可以取到3阶项或将全部的属性组合加入到初始参数预测模型中。
总之,在初始参数预测模型中包括全部的单独属性(1阶项)和至少一部分的属性组合(2阶项或多阶项),其中每个上述属性或上述属性的组合被作为一项。这样,初始参数预测模型可以利用很简单的规则来自动生成,而不是如现有技术那样,根据经验手工设定。
接着,在步骤110,利用F检验(F-test)计算每一项的重要性。关于F检验,作为一种已知的标准统计方法,在盛骤,谢式千,潘乘毅编的《概率论与数理统计》(2000第二版,高等教育出版社)中已经有详细的说明,在此不再重复。
应当指出,虽然在本实施中使用的是F检验,但是,其它的统计方法也可以使用,例如,Chisq-test等等。
接着,在步骤115,从初始参数预测模型中删除F检验得分最低的项。
然后,在步骤120,利用剩余的项,重新生成参数预测模型。
接着,在步骤125,计算重新生成的参数预测模型的BIC值,利用前面所述的方法判断该模型是否为最优。具体地,将基频的训练样本根据正交多项式(9)展开,从而提取每个参数的训练样本。在该步骤,根据参数a0的训练样本,计算参数a0的参数预测模型的BIC值。
如果步骤125的判断为“是”,则将该新生成的参数预测模型作为最佳模型,并在步骤130结束。
如果步骤125的判断为“否”,则返回到步骤110,再次计算该重新生成的模型的每一项的重要性,删除不重要的项(步骤115),重新生成模型(步骤120),直到获得参数a0的最佳参数预测模型。
对于参数a1和a2的参数预测模型,根据与参数a0相同的上述步骤进行训练。
最终,得到参数a0、a1和a2的三个GLM参数预测模型,它们和该正交多项式共同构成基频预测模型。
通过以上的说明可知,在较小语料库条件下,本实施例构建了简单又可靠的基频预测模型框架。基于目标逼近假设,提出一种新颖的基频参数预测模型,用于表示基频包络。
本实施例利用了广义线性模型(GLM)的基频建模方法和基于F检验(F-test)和贝叶斯信息准则(BIC)的逐步回归(stepwise regression)的方法进行属性选择。由于本实施例的GLM模型结构灵活,容易实现对训练数据的自适应,从而解决了数据稀疏问题。进而,通过逐步回归的方法能够自动地选出重要属性协同作用项。
另外,根据本发明的一个优选实施例训练基频预测模型的方法,语速(speaking rate)也被作为与基频预测相关的多个属性之一。由于将语速引入到基频预测的建模中,这给语音合成的语速调整提供了一种新的途径。在语音合成系统输出语音之前,用户或应用可以设定语速;数据库中的语速也是确定的。因此,对基频预测模型的训练和测试,语速都是已知的。基频预测模型的属性集合不仅可以引入语速本身,还能够引入与语速相互作用的协同项,提高基频预测的精度。在语音合成过程中,基于语速的基频预测还可以改善简单的均匀缩放的语速调整方法。已有研究表明,语速的变化引起的不同音素的基频变化并不均匀,这也说明语速与其它属性的确存在相对基频的协同作用引入。
在同一发明构思下,图2是根据本发明一个实施例的基频预测方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图2所示,首先在步骤201,利用前面实施例描述的数据驱动训练基频预测模型的方法,训练基频预测模型。
接着,在步骤205,获得相应的上述与基频预测相关的多个属性。具体地,例如,从输入的文本中可以直接获得,或者经过语法分析、句法分析等获得。需要指出,本实施例可以采用任何已知的和未来的方法来获得这些相应的属性,而并不限于某种特定的方式,并且获得方式还与属性的选择相对应。
最后,在步骤210,根据上述训练的基频预测模型和获得的上述属性,计算基频。
通过以上的说明可知,由于本实施的基频预测方法采用了前面实施例的训练基频预测模型的方法训练的模型来进行基频预测,所以,容易实现对训练数据的自适应,解决了数据稀疏问题,并且能够自动地选出重要属性协同作用项。因此,本实施例的基频预测方法可以更准确并且自动地预测基频。
另外,根据本发明的一个优选实施例的基频预测方法,语速(speakingrate)也被作为与基频预测相关的多个属性之一。这样,通过将语速引入到基频预测的建模中,基频预测模型的属性集合不仅可以引入语速本身,还能够引入与语速相互作用的协同项,从而进一步提高了基频预测的精度。
在同一发明构思下,图3是根据本发明一个实施例的语音合成方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,首先在步骤301,利用前面实施例描述的基频预测方法,预测基频。
接着,在步骤305,根据上述预测的基频,进行语音合成。
通过以上的说明可知,由于本实施的语音合成方法采用了前面实施例的基频预测方法来预测基频,进而根据预测的结构进行语音合成,所以,容易实现对训练数据的自适应,解决了数据稀疏问题,并且能够自动地选出重要属性协同作用项。因此,本实施例的语音合成方法可以更准确并且自动地进行语音合成,生成的语音更合理、易懂。
另外,根据本发明的一个优选实施例的语音合成方法,语速(speakingrate)也被作为与基频预测相关的多个属性之一。由于将语速引入到基频预测的建模中,这给语音合成的语速调整提供了一种新的途径。在语音合成系统输出语音之前,用户或应用可以设定语速;数据库中的语速也是确定的。因此,对基频预测模型的训练和测试,语速都是已知的。基频预测模型的属性集合不仅可以引入语速本身,还能够引入与语速相互作用的协同项,提高基频预测的精度。在语音合成过程中,基于语速的基频预测还可以改善简单的均匀缩放的语速调整方法。已有研究表明,语速的变化引起的不同音素的基频变化并不均匀,这也说明语速与其它属性的确存在相对基频的协同作用引入。
在同一发明构思下,图4是根据本发明一个实施例的数据驱动训练基频预测模型的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图4所示,本实施例的数据驱动训练基频预测模型的装置400包括:初始模型生成单元(initial model generator)401,其用正交多项式表示基频,对于上述正交多项式的每一个参数,利用与基频预测相关的多个属性和至少一部分上述属性的组合生成初始参数预测模型,其中每个上述属性或上述属性的组合被作为一项;重要性计算单元(importance calculator)402,其计算上述参数预测模型的每一上述项的重要性;项删除单元(itemdeleting unit)403,用于删除上述计算出的重要性最低的项;模型再生成单元(model re-generator)404,其利用由项删除单元403删除后剩余的项重新生成参数预测模型;以及优化判断单元(optimization determiningunit)405,其判断由模型再生成单元404重新生成的参数预测模型是否最优;其中,上述正交多项式及其全部参数预测模型构成基频预测模型。
与前面描述的实施例相同,本实施例中利用正交多项式(9)表示基频,并分别为每个参数a0、a1和a2建立一个GLM参数预测模型。分别对每个参数预测模型进行训练,得到每个参数a0、a1和a2的最优参数预测模型,它们和该正交多项式共同构成基频预测模型。
其中,与基频预测相关多个属性包括:语言类型和语音类型的属性,例如,包括:从前面表1中选择的任意多个属性。
另外,重要性计算单元402利用F检验(F-test)计算每一项的重要性。
另外,优化判断单元405利用贝叶斯信息准则(BIC)判断上述重新生成的参数预测模型是否最优。其中,将基频的训练样本根据正交多项式(9)展开,从而提取每个参数的训练样本。例如,对于参数a0,根据参数a0的训练样本,计算参数a0的参数预测模型的BIC值。
另外,根据本发明的一个优选实施例,上述至少一部分上述属性的组合包括上述多个与基频预测相关的属性的全部2阶的属性组合。
另外,根据本发明的另一个优选实施例,上述与基频预测相关多个属性包括语速(speaking rate)。
在此,应当指出,本实施例中的数据驱动训练基频预测模型的装置400及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的数据驱动训练基频预测模型的装置400,操作上可以实现前面实施例的数据驱动训练基频预测模型的方法。
在同一发明构思下,图5是根据本发明一个实施例的基频预测装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图5所示,本实施例的基频预测装置500包括:利用前面实施例描述的数据驱动训练基频预测模型的方法训练得到的基频预测模型501;属性获得单元(attribute obtaining unit)502,用于获得相应的与基频预测相关的多个属性;以及基频计算单元(F0 calculator)503,其根据上述基频预测模型501和由属性获得单元502获得的与基频预测相关的属性,计算基频。
在此,关于获得属性的方式,如前面实施例中所述,可以采用任何已知的和未来的方法来获得这些相应的属性,而并不限于某种特定的方式,并且获得方式还与属性的选择有关。例如,用于获得音子(phone)和声调(tone)属性,可以从文本分析(分词)之后的拼音获得;用户获得语法类型的属性,可以采用语法分析器或句法分析器等。
在同一发明构思下,图6是根据本发明一个实施例的语音合成装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图6所示,本实施例的语音合成装置600包括:基频预测装置500,其可以使前面实施例中描述的基频预测装置;以及语音合成器601,其可以使现有技术的语音合成器,并根据由上述基频预测装置预测的基频,进行语音合成。
在此,应当指出,本实施例中的语音合成装置600及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的语音合成装置600,操作上可以实现前面实施例的语音合成方法。
在同一发明构思下,图7是根据本发明一个实施例的数据驱动训练停顿概率预测模型的方法的流程图。利用本实施例的方法训练的停顿概率预测模型将被用于后面结合其它实施例描述的停顿预测方法及装置和语音合成方法及装置。
如图7所示,首先在步骤701,生成初始停顿概率预测模型。具体地,在本实施例中,停顿可视为二值变量,但将停顿作为概率考虑更合理,因停顿随说话人的变化而改变。每次停顿发生互相独立,并以一定的概率出现,停顿出现概率满足伯努利分布。
GLM用属性预测停顿概率的公式如下:
Pr i = P ^ r i + e i = h - 1 ( &beta; 0 + &Sigma; j = 1 p &beta; j C ij ) + e i , 0 < i &le; N - - - ( 13 )
这里,Pr表示的是停顿的概率,h是链接函数,N是训练样本数,i是样本的索引,C表示属性,(β0,β1,...,βp)表示的是回归系数的向量,ei是预测误差而p是回归系数的维度。
使用不同的链接函数,我们就能得到Pr的不同的指数族分布。当h是单位函数,GLM就是线性模型;当h是logit函数,GLM就是逻辑斯蒂GLM模型,如公式(14)和(15)所示。
h-1(z)=ez/(1+ez)                           (14)
h ( P ^ r i ) = log it ( P ^ r i ) = log [ P ^ r i / ( 1 - P ^ r i ) ] = &beta; 0 + &Sigma; j = 1 p &beta; j C ij - - - ( 15 )
普通线性模型和逻辑斯蒂模型都能预测后验概率Pr(P|C),同样是线性的划分边界。但在逻辑斯蒂GLM中,后验概率Pr(P|C)是上下文C的一个非线性函数,它保证了后验概率属于0到1的区间,且累加和为1;线性模型则不具备这样的性质。公式(15)中的后验概率的log值, log [ P ^ r i / ( 1 - P ^ r i ) ] 叫做log赔率。逻辑斯蒂模型满足了停顿服从伯努利分布的假定的要求。
逻辑斯蒂模型已被广泛用于各种分类和回归的统计领域。它的参数通过最大似然估计法获得,更多细节请参考文献(McCullagh P.和Nelder JA著的“Generalized Linear Models”,Chapman & Hal,London,1989)。
具体地,利用与停顿预测相关的多个属性和这些属性的组合生成初始停顿概率预测模型。如前面所述,与停顿预测相关的属性可以包括许多,大致可分为语言类型的属性和语音类型的属性,下面的表2示例性地列举了一些可以作为停顿预测相关属性的属性。
            表2:与停顿预测相关的属性
  属性  描述
  PhoClosePhoPrePhoNextPhoTonePreToneNextTonePOSDisNPDisPPPosWordConWordLSNumWSPosSenWNumSenSpRate  当前音素(current phoneme)音节中另一个音素(another phoneme in the samesyllable)前一个音节相邻的音素(the neighboring phonemein the previous syllable)后一个音节相邻的音素(the neighboring phonemein the next syllable)声调(Tone of the current syllable)前音节的声调(Tone of the previous syllable)后音节的声调(Tone of the next syllable)词性(Part of speech)到下一个停顿的距离(Distance to the next pause)到前一个停顿的距离(Distance to the previouspause)音节在语法词中的位置(Phoneme position in theiexical word)前后及当前语法词的长度(Length of the current,previous and next lexical word)语法词中音节的个数(Number of syllables in thelexical word)音节在句子中的位置(Syllable position in thesentence)句中语法词的个数(Number of lexical words in thesentence)语速(Speaking rate)
在本实施例中,采用GLM模型来表示这些属性和属性组合。为了便于说明,假定与停顿预测相关的属性只有phone(音子)和tone(声调)。初始停顿概率预测模型的形式如下:pause probability~phone+tone+tone*phone,其中,tone*phone表示tone和phone的组合,是一个2阶项。
可以理解,当属性的数量增加时,作为属性组合可以出现多个2阶项、3阶项等等。
另外,在本实施例中,在生成初始停顿概率预测模型时,可以只取其中一部分的属性组合,例如只取到全部的2阶项;当然,也可以取到3阶项或将全部的属性组合加入到初始停顿概率预测模型中。
总之,在初始停顿概率预测模型中包括全部的单独属性(1阶项)和至少一部分的属性组合(2阶项或多阶项),其中每个上述属性或上述属性的组合被作为一项。这样,初始停顿概率预测模型可以利用很简单的规则来自动生成,而不是如现有技术那样,根据经验手工设定。
接着,在步骤705,利用F检验(F-test)计算每一项的重要性。关于F检验,作为一种已知的标准统计方法,在盛骤,谢式千,潘乘毅编的《概率论与数理统计》(2000第二版,高等教育出版社)中已经有详细的说明,在此不再重复。
应当指出,虽然在本实施中使用的是F检验,但是,其它的统计方法也可以使用,例如,Chisq-test等等。
接着,在步骤710,从初始停顿概率预测模型中删除F检验得分最低的项。
然后,在步骤715,利用剩余的项,重新生成停顿概率预测模型。
接着,在步骤720,计算重新生成的停顿概率预测模型的BIC值,利用前面所述的方法判断该模型是否为最优。
如果步骤720的判断为“是”,则将该新生成的停顿概率预测模型作为最佳模型,并在步骤725结束。
如果步骤720的判断为“否”,则返回到步骤705,再次计算该重新生成的模型的每一项的重要性,删除不重要的项(步骤710),重新生成模型(步骤715),直到获得最佳停顿概率预测模型。
通过以上的说明可知,在较小语料库条件下,本实施例构建了简单又可靠的停顿预测模型框架。基于停顿的伯努利分布假设,提出了一种新颖的逻辑斯蒂GLM停顿预测模型。
本实施例利用了广义线性模型(GLM)的停顿建模方法和基于F检验(F-test)和贝叶斯信息准则(BIC)的逐步回归(stepwise regression)的方法进行属性选择。由于本实施例的GLM模型结构灵活,容易实现对训练数据的自适应,从而解决了数据稀疏问题。进而,通过逐步回归的方法能够自动地选出重要属性协同作用项。
另外,根据本发明的一个优选实施例训练停顿概率预测模型的方法,语速(speaking rate)也被作为与停顿预测相关的多个属性之一。由于将语速引入到停顿预测的建模中,这给语音合成的语速调整提供了一种新的途径。在语音合成系统输出语音之前,用户或应用可以设定语速;数据库中的语速也是确定的。因此,对停顿概率预测模型的训练和测试,语速都是已知的。停顿概率预测模型的属性集合不仅可以引入语速本身,还能够引入与语速相互作用的协同项,提高停顿预测的精度。在语音合成过程中,基于语速的停顿预测还可以改善简单的均匀缩放的语速调整方法。已有研究表明,语速的变化引起的不同音素的停顿变化并不均匀,这也说明语速与其它属性的确存在相对停顿的协同作用引入。
在同一发明构思下,图8是根据本发明一个实施例的停顿预测方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图8所示,首先在步骤801,利用前面实施例描述的数据驱动训练停顿概率预测模型的方法,训练停顿概率预测模型。
接着,在步骤805,获得相应的上述与停顿预测相关的多个属性。具体地,例如,从输入的文本中可以直接获得,或者经过语法分析、句法分析等获得。需要指出,本实施例可以采用任何已知的和未来的方法来获得这些相应的属性,而并不限于某种特定的方式,并且获得方式还与属性的选择相对应。
接着,在步骤810,根据上述训练的停顿概率预测模型和获得的上述属性,计算停顿概率。
最后,在步骤815,将上述计算出的停顿概率与阈值进行比较,以得到停顿。其中,上述阈值是间于0和1之间的一个数,例如0.5,如果上述计算出的概率大于上述阈值,则停顿为1,相反,停顿为0。
通过以上的说明可知,由于本实施的停顿预测方法采用了前面实施例的训练停顿概率预测模型的方法训练的模型来进行停顿预测,所以,容易实现对训练数据的自适应,解决了数据稀疏问题,并且能够自动地选出重要属性协同作用项。因此,本实施例的停顿预测方法可以更准确并且自动地预测停顿。
另外,根据本发明的一个优选实施例的停顿预测方法,语速(speakingrate)也被作为与停顿预测相关的多个属性之一。这样,通过将语速引入到停顿预测的建模中,停顿概率预测模型的属性集合不仅可以引入语速本身,还能够引入与语速相互作用的协同项,从而进一步提高了停顿预测的精度。
在同一发明构思下,图9是根据本发明一个实施例的语音合成方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图9所示,首先在步骤901,利用前面实施例描述的停顿预测方法,预测停顿。
接着,在步骤905,根据上述预测的停顿,进行语音合成。
通过以上的说明可知,由于本实施的语音合成方法采用了前面实施例的停顿预测方法来预测停顿,进而根据预测的结构进行语音合成,所以,容易实现对训练数据的自适应,解决了数据稀疏问题,并且能够自动地选出重要属性协同作用项。因此,本实施例的语音合成方法可以更准确并且自动地进行语音合成,生成的语音更合理、易懂。
另外,根据本发明的一个优选实施例的语音合成方法,语速(speakingrate)也被作为与停顿预测相关的多个属性之一。由于将语速引入到停顿预测的建模中,这给语音合成的语速调整提供了一种新的途径。在语音合成系统输出语音之前,用户或应用可以设定语速;数据库中的语速也是确定的。因此,对停顿概率预测模型的训练和测试,语速都是已知的。停顿概率预测模型的属性集合不仅可以引入语速本身,还能够引入与语速相互作用的协同项,提高停顿预测的精度。在语音合成过程中,基于语速的停顿预测还可以改善简单的均匀缩放的语速调整方法。已有研究表明,语速的变化引起的不同音素的停顿变化并不均匀,这也说明语速与其它属性的确存在相对停顿的协同作用引入。
在同一发明构思下,图10是根据本发明一个实施例的数据驱动训练停顿概率预测模型的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图10所示,本实施例的数据驱动训练停顿概率预测模型的装置1000包括:初始模型生成单元(initial model generator)1001,其利用与停顿预测相关的多个属性和至少一部分上述属性的组合生成初始停顿概率预测模型,其中每个上述属性或上述属性的组合被作为一项;重要性计算单元(importance calculator)1002,其计算上述停顿概率预测模型的每一上述项的重要性;项删除单元(item deleting unit)1003,用于删除上述计算出的重要性最低的项;模型再生成单元(model re-generator)1004,其利用由项删除单元1003删除后剩余的项重新生成停顿概率预测模型;以及优化判断单元(optimization determining unit)1005,其判断由模型再生成单元1004重新生成的停顿概率预测模型是否最优。
与前面描述的实施例相同,与停顿预测相关多个属性包括:语言类型和语音类型的属性,例如,包括:从前面表2中选择的任意多个属性。
另外,重要性计算单元1002利用F检验(F-test)计算每一项的重要性。
另外,优化判断单元1005利用贝叶斯信息准则(BIC)判断上述重新生成的停顿概率预测模型是否最优。
另外,根据本发明的一个优选实施例,上述至少一部分上述属性的组合包括上述多个与停顿预测相关的属性的全部2阶的属性组合。
另外,根据本发明的另一个优选实施例,上述与停顿预测相关多个属性包括语速(speaking rate)。
在此,应当指出,本实施例中的数据驱动训练停顿概率预测模型的装置1000及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的数据驱动训练停顿概率预测模型的装置1000,操作上可以实现前面实施例的数据驱动训练停顿概率预测模型的方法。
在同一发明构思下,图11是根据本发明一个实施例的停顿预测装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图11所示,本实施例的停顿预测装置1100包括:利用前面实施例描述的数据驱动训练停顿概率预测模型的方法训练得到的停顿概率预测模型1101;属性获得单元(attribute obtaining unit)1102,用于获得相应的与停顿预测相关的多个属性;停顿概率计算单元(pause probabilitycalculator)1103,其根据上述停顿概率预测模型和由属性获得单元1101获得的与停顿预测相关的属性,计算停顿概率;以及比较单元(comparator)1104,将上述计算出的停顿概率与阈值进行比较,以得到停顿。
在此,关于获得属性的方式,如前面实施例中所述,可以采用任何已知的和未来的方法来获得这些相应的属性,而并不限于某种特定的方式,并且获得方式还与属性的选择有关。例如,用于获得音子(phone)和声调(tone)属性,可以从文本分析(分词)之后的拼音获得;用户获得语法类型的属性,可以采用语法分析器或句法分析器等。
在同一发明构思下,图12是根据本发明一个实施例的语音合成装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图12所示,本实施例的语音合成装置1200包括:停顿预测装置1100,其可以使前面实施例中描述的停顿预测装置;以及语音合成器1201,其可以使现有技术的语音合成器,并根据由上述停顿预测装置预测的停顿,进行语音合成。
在此,应当指出,本实施例中的语音合成装置1200及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的语音合成装置1200,操作上可以实现前面实施例的语音合成方法。
以上虽然通过一些示例性的实施例详细地描述了本发明的数据驱动训练基频预测模型的方法和装置、基频预测方法和装置及语音合成的方法和装置,以及数据驱动训练停顿预测模型的方法和装置、停顿预测方法和装置及语音合成的方法和装置,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

Claims (56)

1.一种数据驱动训练基频预测模型的方法,包括:
用正交多项式表示基频;
对于上述正交多项式的每一个参数,
利用与基频预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型,其中每个上述属性或上述属性的组合被作为一项;
计算上述参数预测模型的每一上述项的重要性;
删除上述计算出的重要性最低的项;
利用剩余的项重新生成参数预测模型;
判断上述重新生成的参数预测模型是否最优;以及
如果上述参数预测模型被判断为不是最优,则重复上述计算每一项的重要性的步骤及其之后的步骤;
其中,上述正交多项式及其全部参数预测模型构成基频预测模型。
2.根据权利要求1所述的数据驱动训练基频预测模型的方法,其中,上述与基频预测相关的多个属性包括:语言类型和语音类型的属性。
3.根据权利要求1所述的数据驱动训练基频预测模型的方法,其中,上述与基频预测相关的多个属性包括:从当前音素、音节中另一个音素、前一个音节相邻的音素、后一个音节相邻的音素、声调、前音节的声调、后音节的声调、词性、到下一个停顿的距离、到前一个停顿的距离、音节在语法词中的位置、前后及当前语法词的长度、语法词中音节的个数、音节在句子中的位置和句中语法词的个数中选择的任意多个属性。
4.根据权利要求1-3的任意一项所述的数据驱动训练基频预测模型的方法,其中,上述参数预测模型是广义线性模型(GLM)。
5.根据权利要求1所述的数据驱动训练基频预测模型的方法,其中,上述至少一部分上述属性的组合包括上述多个与基频预测相关的属性的全部2阶的属性组合。
6.根据权利要求1-5的任意一项所述的数据驱动训练基频预测模型的方法,其中,上述计算上述参数预测模型中每一上述项的重要性的步骤包括:利用F检验(F-test)计算每一项的重要性。
7.根据权利要求1-6的任意一项所述的数据驱动训练基频预测模型的方法,其中,上述判断上述重新生成的参数预测模型是否最优的步骤包括:利用贝叶斯信息准则(BIC)判断上述重新生成的参数预测模型是否最优。
8.根据权利要求7所述的数据驱动训练基频预测模型的方法,其中,上述判断上述重新生成的参数预测模型是否最优的步骤包括:
计算下式
                BIC=Nlog(SSE/N)+plogN
其中,SSE表示预测误差e的平方和,N表示训练样本数;
当上式中的BIC最小时,判断参数预测模型为最优。
9.根据权利要求1-8的任意一项所述的数据驱动训练基频预测模型的方法,其中,上述正交多项式是二阶或更高阶的勒让德正交多项式。
10.根据权利要求9所述的数据驱动训练基频预测模型的方法,其中,上述勒让德正交多项式表示为:
              F(t)=a0p0(t)+a1p1(t)+a2p2(t)
其中,F(t)表示基频的包络,系数a0、a1和a2表示所述参数,t属于[-1,1]。
11.根据前面任意一项权利要求所述的数据驱动训练基频预测模型的方法,其中,上述与基频预测相关多个属性还包括语速(speaking rate)。
12.一种基频预测方法,包括:
利用上述权利要求1-11的任意一项所述的数据驱动训练基频预测模型的方法,训练基频预测模型;
获得相应的上述与基频预测相关的多个属性的值;以及
根据上述训练的基频预测模型和相应的上述与基频预测相关的多个属性的值,计算得到基频。
13.根据权利要求12所述的基频预测方法,其中,上述与基频预测相关的多个属性包括语速。
14.一种语音合成方法,包括:
利用上述权利要求12-13的任意一项所述的基频预测方法,预测基频;以及
根据上述预测的基频,进行语音合成。
15.一种数据驱动训练基频预测模型的装置,包括:
初始模型生成单元(initial model generator),其用正交多项式表示基频,对于上述正交多项式的每一个参数,利用与基频预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型,其中每个上述属性或上述属性的组合被作为一项;
重要性计算单元(importance calculator),其计算上述参数预测模型的每一上述项的重要性;
项删除单元(item deleting unit),用于删除上述计算出的重要性最低的项;
模型再生成单元(model re-generator),其利用由上述项删除单元删除后剩余的项重新生成参数预测模型;以及
优化判断单元(optimization determining unit),其判断由上述模型再生成单元重新生成的参数预测模型是否最优;
其中,上述正交多项式及其全部参数预测模型构成基频预测模型。
16.根据权利要求15所述的数据驱动训练基频预测模型的装置,其中,上述与基频预测相关的多个属性包括:语言类型和语音类型的属性。
17.根据权利要求15所述的数据驱动训练基频预测模型的装置,其中,上述与基频预测相关的多个属性包括:从当前音素、音节中另一个音素、前一个音节相邻的音素、后一个音节相邻的音素、声调、前音节的声调、后音节的声调、词性、到下一个停顿的距离、到前一个停顿的距离、音节在语法词中的位置、前后及当前语法词的长度、语法词中音节的个数、音节在句子中的位置和句中语法词的个数中选择的任意多个属性。
18.根据权利要求15-17的任意一项所述的数据驱动训练基频预测模型的装置,其中,上述参数预测模型是广义线性模型(GLM)。
19.根据权利要求15所述的数据驱动训练基频预测模型的装置,其中,上述至少一部分上述属性的组合包括上述多个与基频预测相关的属性的全部2阶的属性组合。
20.根据权利要求15-19的任意一项所述的数据驱动训练基频预测模型的装置,其中,重要性计算单元(importance calculator)利用F检验(F-test)计算每一项的重要性。
21.根据权利要求15-20的任意一项所述的数据驱动训练基频预测模型的装置,其中,优化判断单元(optimization determining unit)利用贝叶斯信息准则(BIC)判断上述重新生成的参数预测模型是否最优。
22.根据权利要求15-21的任意一项所述的数据驱动训练基频预测模型的装置,其中,上述正交多项式是二阶或更高阶的勒让德正交多项式。
23.根据权利要求22所述的数据驱动训练基频预测模型的装置,其中,上述勒让德正交多项式表示为:
           F(t)=a0p0(t)+a1p1(t)+a2p2(t)
其中,F(t)表示基频的包络,系数a0、a1和a2表示所述参数,t属于[-1,1]。
24.根据权利要求15-23的任意一项所述的数据驱动训练基频预测模型的装置,其中,上述与基频预测相关多个属性包括语速(speakingrate)。
25.一种基频预测装置,包括:
利用上述权利要求1-11的任意一项所述的数据驱动训练基频预测模型的方法训练得到的基频预测模型;
属性获得单元(attribute obtaining unit),用于获得相应的上述与基频预测相关的多个属性的值;以及
基频计算单元(F0 calculator),其根据上述基频预测模型和相应的上述与基频预测相关的多个属性的值,计算得到基频。
26.根据权利要求25所述的基频预测装置,其中,上述与基频预测相关的多个属性包括语速。
27.一种语音合成装置,包括:
上述权利要求25-26的任意一项所述的基频预测装置;并且
根据由上述基频预测装置预测的基频,进行语音合成。
28.一种数据驱动训练停顿概率预测模型的方法,包括:
利用与停顿预测相关的多个属性和至少一部分上述属性的组合生成一个初始停顿概率预测模型,其中每个上述属性或上述属性的组合被作为一项;
计算上述停顿概率预测模型中每一上述项的重要性;
删除上述计算出的重要性最低的项;
利用剩余的项重新生成停顿概率预测模型;
判断上述重新生成的停顿概率预测模型是否最优;以及
如果上述停顿概率预测模型被判断为不是最优,则重复上述计算每一项的重要性的步骤及其之后的步骤。
29.根据权利要求28所述的数据驱动训练停顿概率预测模型的方法,其中,上述与停顿预测相关的多个属性包括:语言类型和语音类型的属性。
30.根据权利要求28所述的数据驱动训练停顿概率预测模型的方法,其中,上述与停顿预测相关的多个属性包括:从当前音素、音节中另一个音素、前一个音节相邻的音素、后一个音节相邻的音素、声调、前音节的声调、后音节的声调、词性、到下一个停顿的距离、到前一个停顿的距离、音节在语法词中的位置、前后及当前语法词的长度、语法词中音节的个数、音节在句子中的位置和句中语法词的个数中选择的任意多个属性。
31.根据权利要求28-30的任意一项所述的数据驱动训练停顿概率预测模型的方法,其中,上述停顿概率预测模型是广义线性模型(GLM)。
32.根据权利要求28所述的数据驱动训练停顿概率预测模型的方法,其中,上述至少一部分上述属性的组合包括上述多个与停顿预测相关的属性的全部2阶的属性组合。
33.根据权利要求28-32的任意一项所述的数据驱动训练停顿概率预测模型的方法,其中,上述计算上述停顿概率预测模型中每一上述项的重要性的步骤包括:利用F检验(F-test)计算每一项的重要性。
34.根据权利要求28-33的任意一项所述的数据驱动训练停顿概率预测模型的方法,其中,上述判断上述重新生成的停顿概率预测模型是否最优的步骤包括:利用贝叶斯信息准则(BIC)判断上述重新生成的停顿概率预测模型是否最优。
35.根据权利要求34所述的数据驱动训练停顿概率预测模型的方法,其中,上述判断上述重新生成的停顿概率预测模型是否最优的步骤包括:
计算下式
             BIC=Nlog(SSE/N)+plogN
其中,SSE表示预测误差e的平方和,N表示训练样本数;
当上式中的BIC最小时,判断停顿概率预测模型为最优。
36.根据权利要求28-35的任意一项所述的数据驱动训练停顿概率预测模型的方法,其中,上述停顿概率满足伯努利分布。
37.根据前面任意一项权利要求所述的数据驱动训练停顿概率预测模型的方法,其中,上述与停顿预测相关多个属性还包括语速(speakingrate)。
38.一种停顿预测方法,包括:
利用上述权利要求28-37的任意一项所述的数据驱动训练停顿概率预测模型的方法,训练停顿概率预测模型;
获得相应的上述与停顿预测相关的多个属性的值;
根据上述训练的停顿概率预测模型和相应的上述与停顿预测相关的多个属性的值,计算停顿概率;以及
将上述计算出的停顿概率与阈值进行比较,以得到停顿。
39.根据权利要求38所述的停顿预测方法,其中,上述阈值是间于0和1之间的一个数。
40.根据权利要求39所述的停顿预测方法,其中,如果上述计算出的概率大于上述阈值,则停顿为1,相反,停顿为0。
41.根据权利要求38-40的任意一项所述的停顿预测方法,其中,上述与停顿预测相关的多个属性包括语速。
42.一种语音合成方法,包括:
利用上述权利要求38-41的任意一项所述的停顿预测方法,预测停顿;以及
根据上述预测的停顿,进行语音合成。
43.一种数据驱动训练停顿概率预测模型的装置,包括:
初始模型生成单元(initial model generator),其利用与停顿预测相关的多个属性和至少一部分上述属性的组合生成一个初始停顿概率预测模型,其中每个上述属性或上述属性的组合被作为一项;
重要性计算单元(importance calculator),其计算上述停顿概率预测模型中每一上述项的重要性;
项删除单元(item deleting unit),用于删除上述计算出的重要性最低的项;
模型再生成单元(model re-generator),其利用由上述项删除单元删除后剩余的项重新生成停顿概率预测模型;以及
优化判断单元(optimization determining unit),其判断由上述模型再生成单元重新生成的停顿概率预测模型是否最优。
44.根据权利要求43所述的数据驱动训练停顿概率预测模型的装置,其中,上述与停顿预测相关的多个属性包括:语言类型和语音类型的属性。
45.根据权利要求43所述的数据驱动训练停顿概率预测模型的装置,其中,上述与停顿预测相关的多个属性包括:从当前音素、音节中另一个音素、前一个音节相邻的音素、后一个音节相邻的音素、声调、前音节的声调、后音节的声调、词性、到下一个停顿的距离、到前一个停顿的距离、音节在语法词中的位置、前后及当前语法词的长度、语法词中音节的个数、音节在句子中的位置和句中语法词的个数中选择的任意多个属性。
46.根据权利要求43-45的任意一项所述的数据驱动训练停顿概率预测模型的装置,其中,上述停顿概率预测模型是广义线性模型(GLM)。
47.根据权利要求43所述的数据驱动训练停顿概率预测模型的装置,其中,上述至少一部分上述属性的组合包括上述多个与停顿预测相关的属性的全部2阶的属性组合。
48.根据权利要求43-47的任意一项所述的数据驱动训练停顿概率预测模型的装置,其中,重要性计算单元(importance calculator)利用F检验(F-test)计算每一项的重要性。
49.根据权利要求43-48的任意一项所述的数据驱动训练停顿概率预测模型的装置,其中,优化判断单元(optimization determining unit)利用贝叶斯信息准则(BIC)判断上述重新生成的停顿概率预测模型是否最优。
50.根据权利要求43-49的任意一项所述的数据驱动训练停顿概率预测模型的装置,其中,上述停顿概率满足伯努利分布。
51.根据权利要求43-50的任意一项所述的数据驱动训练停顿概率预测模型的装置,其中,上述与停顿预测相关多个属性包括语速(speakingrate)。
52.一种停顿预测装置,包括:
利用上述权利要求28-37的任意一项所述的数据驱动训练停顿概率预测模型的方法训练得到的停顿概率预测模型;
属性获得单元(attribute obtaining unit),用于获得相应的上述与停顿预测相关的多个属性的值;
停顿概率计算单元(pause probability calculator),其根据上述停顿概率预测模型和相应的上述与停顿预测相关的多个属性的值,计算停顿概率;以及
比较单元(comparator),将上述计算出的停顿概率与阈值进行比较,以得到停顿。
53.根据权利要求52所述的停顿预测装置,其中,上述阈值是间于0和1之间的一个数。
54.根据权利要求53所述的停顿预测装置,其中,如果上述计算出的停顿概率大于上述阈值,则停顿为1,相反,停顿为0。
55.根据权利要求52-54的任意一项所述的停顿预测装置,其中,上述与停顿预测相关的多个属性包括语速。
56.一种语音合成装置,包括:
上述权利要求52-55的任意一项所述的停顿预测装置;并且
根据由上述停顿预测装置预测的停顿,进行语音合成。
CNA200610073145XA 2006-04-06 2006-04-06 基频和停顿预测及语音合成的方法和装置 Pending CN101051459A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNA200610073145XA CN101051459A (zh) 2006-04-06 2006-04-06 基频和停顿预测及语音合成的方法和装置
US11/692,392 US20070239439A1 (en) 2006-04-06 2007-03-28 Method and apparatus for training f0 and pause prediction model, method and apparatus for f0 and pause prediction, method and apparatus for speech synthesis
JP2007099948A JP2007279744A (ja) 2006-04-06 2007-04-06 F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200610073145XA CN101051459A (zh) 2006-04-06 2006-04-06 基频和停顿预测及语音合成的方法和装置

Publications (1)

Publication Number Publication Date
CN101051459A true CN101051459A (zh) 2007-10-10

Family

ID=38576533

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200610073145XA Pending CN101051459A (zh) 2006-04-06 2006-04-06 基频和停顿预测及语音合成的方法和装置

Country Status (3)

Country Link
US (1) US20070239439A1 (zh)
JP (1) JP2007279744A (zh)
CN (1) CN101051459A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231276A (zh) * 2011-06-21 2011-11-02 北京捷通华声语音技术有限公司 一种语音合成单元时长的预测方法及装置
CN103680491A (zh) * 2012-09-10 2014-03-26 财团法人交大思源基金会 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
CN104538026A (zh) * 2015-01-12 2015-04-22 北京理工大学 一种用于参数化语音合成的基频建模方法
CN105679306A (zh) * 2016-02-19 2016-06-15 上海语知义信息技术有限公司 语音合成中预测基频帧的方法及系统
CN107039034A (zh) * 2016-02-04 2017-08-11 科大讯飞股份有限公司 一种韵律预测方法及系统
CN109036376A (zh) * 2018-10-17 2018-12-18 南京理工大学 一种闽南语语音合成方法
CN113453072A (zh) * 2021-06-29 2021-09-28 王瑶 按级别拼合和播放多语言影音文件的方法、系统和介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
CN101452699A (zh) * 2007-12-04 2009-06-10 株式会社东芝 韵律自适应及语音合成的方法和装置
CN104021784B (zh) * 2014-06-19 2017-06-06 百度在线网络技术(北京)有限公司 基于大语料库的语音合成方法和装置
TWI595478B (zh) * 2016-04-21 2017-08-11 國立臺北大學 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法
JP2022523564A (ja) 2019-03-04 2022-04-25 アイオーカレンツ, インコーポレイテッド 機械学習を使用するデータ圧縮および通信
CN111667816B (zh) * 2020-06-15 2024-01-23 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质
CN117454186A (zh) * 2023-12-22 2024-01-26 宁德时代新能源科技股份有限公司 模型训练、电池性能预测方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0237402A (ja) * 1988-07-27 1990-02-07 Yamatake Honeywell Co Ltd パラメータ推定方式
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US7412377B2 (en) * 2003-12-19 2008-08-12 International Business Machines Corporation Voice model for speech processing based on ordered average ranks of spectral features
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231276A (zh) * 2011-06-21 2011-11-02 北京捷通华声语音技术有限公司 一种语音合成单元时长的预测方法及装置
CN103680491A (zh) * 2012-09-10 2014-03-26 财团法人交大思源基金会 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
CN103680491B (zh) * 2012-09-10 2016-09-21 财团法人交大思源基金会 语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
CN104538026A (zh) * 2015-01-12 2015-04-22 北京理工大学 一种用于参数化语音合成的基频建模方法
CN104538026B (zh) * 2015-01-12 2018-10-23 北京理工大学 一种用于参数化语音合成的基频建模方法
CN107039034A (zh) * 2016-02-04 2017-08-11 科大讯飞股份有限公司 一种韵律预测方法及系统
CN105679306A (zh) * 2016-02-19 2016-06-15 上海语知义信息技术有限公司 语音合成中预测基频帧的方法及系统
CN105679306B (zh) * 2016-02-19 2019-07-09 云知声(上海)智能科技有限公司 语音合成中预测基频帧的方法及系统
CN109036376A (zh) * 2018-10-17 2018-12-18 南京理工大学 一种闽南语语音合成方法
CN113453072A (zh) * 2021-06-29 2021-09-28 王瑶 按级别拼合和播放多语言影音文件的方法、系统和介质

Also Published As

Publication number Publication date
US20070239439A1 (en) 2007-10-11
JP2007279744A (ja) 2007-10-25

Similar Documents

Publication Publication Date Title
CN101051459A (zh) 基频和停顿预测及语音合成的方法和装置
CN1152365C (zh) 音调跟踪装置和方法
CN100347741C (zh) 移动语音合成方法
CN1057625C (zh) 使用神经网络变换文本为声频信号的方法
US7386451B2 (en) Optimization of an objective measure for estimating mean opinion score of synthesized speech
TWI471854B (zh) 引導式語者調適語音合成的系統與方法及電腦程式產品
US7124083B2 (en) Method and system for preselection of suitable units for concatenative speech
CN1135526C (zh) 根据词汇发音生成后词汇发音的方法、设备和产品
US20040148171A1 (en) Method and apparatus for speech synthesis without prosody modification
JP4602307B2 (ja) 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置
CN1841497A (zh) 语音合成系统和方法
CN1622195A (zh) 语音合成方法和语音合成系统
Halabi Modern standard Arabic phonetics for speech synthesis
CN101075432A (zh) 语音合成装置和方法
Jouvet et al. Evaluating grapheme-to-phoneme converters in automatic speech recognition context
CN1835075A (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN1692405A (zh) 语音处理设备、语言处理方法、存储介质及程序
WO2014183411A1 (en) Method, apparatus and speech synthesis system for classifying unvoiced and voiced sound
TW201411602A (zh) 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
CN1956057A (zh) 一种基于决策树的语音时长预测装置及方法
CN1315722A (zh) 用于汉语语音识别系统的连续语音处理方法和装置
Hansakunbuntheung et al. Space reduction of speech corpus based on quality perception for unit selection speech synthesis
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
Savargiv et al. Study on unit-selection and statistical parametric speech synthesis techniques
KR101227716B1 (ko) 음성 합성 장치, 음성 합성 방법 및 음성 합성 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20071010

C20 Patent right or utility model deemed to be abandoned or is abandoned