CN101452699A - 韵律自适应及语音合成的方法和装置 - Google Patents

韵律自适应及语音合成的方法和装置 Download PDF

Info

Publication number
CN101452699A
CN101452699A CNA2007101971046A CN200710197104A CN101452699A CN 101452699 A CN101452699 A CN 101452699A CN A2007101971046 A CNA2007101971046 A CN A2007101971046A CN 200710197104 A CN200710197104 A CN 200710197104A CN 101452699 A CN101452699 A CN 101452699A
Authority
CN
China
Prior art keywords
rhythm
mentioned
model
difference
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101971046A
Other languages
English (en)
Inventor
易立夫
李健
楼晓雁
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CNA2007101971046A priority Critical patent/CN101452699A/zh
Priority to JP2008307730A priority patent/JP2009139949A/ja
Priority to US12/328,514 priority patent/US20090157409A1/en
Publication of CN101452699A publication Critical patent/CN101452699A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供数据驱动训练差分韵律自适应模型、生成差分韵律自适应模型、韵律预测和语音合成的方法及装置。该数据驱动训练差分韵律自适应模型的方法包括:用时长和基频的正交多项式的系数表示差分韵律向量;对于差分韵律向量中的每一个参数,利用与差分韵律预测相关的多个属性和这些属性的组合生成初始参数预测模型,其中每个属性或上述属性的组合被作为一项;计算参数预测模型的每一项的重要性;删除所计算的重要性最低的项;利用剩余的项重新生成参数预测模型;判断重新生成的参数预测模型是否最优;如果参数预测模型不是最优,则重复上述计算每一项的重要性的步骤及其之后的步骤;其中差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。

Description

韵律自适应及语音合成的方法和装置
技术领域
本发明涉及信息处理技术,具体地,涉及利用计算机进行数据驱动的差分韵律自适应模型的训练、差分韵律自适应模型的生成和韵律预测的技术,以及语音合成技术。
背景技术
一般地,语音合成技术包括文本分析、韵律预测和语音生成三个主要技术,其中韵律预测技术是指利用韵律自适应模型预测合成语音的语调、节奏和时长信息等韵律特征参数的技术。韵律自适应模型是建立从与韵律预测相关的属性到韵律向量的映射关系,其中与韵律预测相关的属性包括语言、语音、情感/表情类型的属性,并且韵律向量包括时长和基频等参数。
现有的韵律预测方法包括分类与回归树(Classify and RegressionTree,简称CART)、高斯混合模型(Gaussian Mixture Model,简称GMM)和基于规则的方法。
关于高斯混合模型(GMM),在Dan-ning Jiang,Wei Zhang,Li-qinShen和Lian-hong Cai所著的文章"Prosody Analysis and Modeling ForEmotional Speech Synthesis"(发表于ICASSP′05,Vol.I,pp.281-284,Philadelphia,PA,USA)中进行了详细的描述。
关于分类与回归树(CART)和高斯混合模型,还在Jianhua Tao,Yongguo Kang和Aijun Li所著的文章"Prosody Conversion From NeutralSpeech to Emotional Speech"(发表于IEEE TRANSACTIONS ONAUDIO,SPEECH AND LANGUAGE PROCESSING,VOL.14,NO.4,pp.1145-1154,JULY 2006)中进行了详细的描述。
然而,这些方法存在以下的缺点:
1)现有的方法不能准确而稳定地表示韵律向量,从而使得韵律自适应模型不灵活。
2)现有的方法受到模型复杂度和训练数据规模之间的不平衡的限制。实际上,情感/表情语料库中的训练数据十分有限。传统模型的系数能通过数据驱动方法计算得到,但是模型的属性和属性组合却是用手工的方法设置的。那么,这种“部分的”数据驱动的方法在一定程度上依赖于人的经验。
发明内容
本发明正是基于上述技术问题而提出的,其提供了一种数据驱动训练差分韵律自适应模型的方法和装置、生成差分韵律自适应模型的方法和装置、韵律预测方法和装置、以及语音合成方法和装置。
根据本发明的一个方面,提供一种数据驱动训练差分韵律自适应模型的方法,包括:用时长和基频的正交多项式的系数表示差分韵律向量;对于上述差分韵律向量中的每一个参数,利用与差分韵律预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型,其中每个上述属性或上述属性的组合被作为一项;计算上述参数预测模型的每一上述项的重要性;删除上述计算出的重要性最低的项;利用剩余的项重新生成参数预测模型;判断上述重新生成的参数预测模型是否最优;以及如果上述参数预测模型被判断为不是最优,则重复上述计算每一项的重要性的步骤、上述删除重要性最低的项的步骤、上述重新生成参数预测模型的步骤和上述判断上述重新生成的参数预测模型是否最优的步骤;其中,上述差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。
根据本发明的另一个方面,提供一种生成差分韵律自适应模型的方法,包括:形成差分韵律向量的训练样本集合;以及根据上述差分韵律向量的训练样本集合,利用上述的数据驱动训练差分韵律自适应模型的方法,生成差分韵律自适应模型。
根据本发明的另一个方面,提供一种韵律预测方法,包括:根据输入的文本,获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值;根据中性韵律预测模型,利用上述与中性韵律预测相关的多个属性的值,计算中性韵律向量;根据差分韵律自适应模型,利用上述至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值,计算差分韵律向量;以及计算上述中性韵律向量与上述差分韵律向量的和,以获得相应的韵律;其中,上述差分韵律自适应模型是利用上述的生成差分韵律自适应模型的方法生成的。
根据本发明的另一个方面,提供一种语音合成方法,包括:对输入的文本利用上述的韵律预测方法,预测韵律;以及根据上述所预测的韵律,进行语音合成。
根据本发明的另一个方面,提供一种数据驱动训练差分韵律自适应模型的装置,包括:初始模型生成单元,其用时长和基频的正交多项式的系数表示差分韵律向量,并对于上述差分韵律向量中的每一个参数,利用与差分韵律预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型,其中每个上述属性或上述属性的组合被作为一项;重要性计算单元,用于计算上述参数预测模型的每一上述项的重要性;项删除单元,用于删除上述计算出的重要性最低的项;模型再生成单元,用于利用由上述项删除单元删除后剩余的项重新生成参数预测模型;以及优化判断单元,用于判断由上述模型再生成单元重新生成的参数预测模型是否最优;其中,上述差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。
根据本发明的另一个方面,提供一种生成差分韵律自适应模型的装置,包括:差分韵律向量的训练样本集合;以及上述的数据驱动训练差分韵律自适应模型的装置,其根据上述差分韵律向量的训练样本集合训练差分韵律自适应模型。
根据本发明的另一个方面,提供一种韵律预测装置,包括:中性韵律预测模型;利用上述的生成差分韵律自适应模型的装置生成的差分韵律自适应模型;属性获得单元,用于根据输入的文本获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值;中性韵律向量预测单元,用于根据上述中性韵律预测模型,利用上述与中性韵律预测相关的多个属性的值,计算中性韵律向量;差分韵律向量预测单元,用于根据上述差分韵律自适应模型,利用上述至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值,计算差分韵律向量;以及韵律预测单元,用于计算上述中性韵律向量与上述差分韵律向量的和,以获得相应的韵律。
根据本发明的另一个方面,提供一种语音合成装置,包括:上述的韵律预测装置;并且根据由上述韵律预测装置预测的韵律,进行语音合成。
附图说明
图1是根据本发明的一个实施例的数据驱动训练差分韵律自适应模型的方法的流程图;
图2是根据本发明的一个实施例的生成差分韵律自适应模型的方法的流程图;
图3是根据本发明的一个实施例的韵律预测方法的流程图;
图4是根据本发明的一个实施例的语音合成方法的流程图;
图5是根据本发明的一个实施例的数据驱动训练差分韵律自适应模型的装置的示意性方框图;
图6是根据本发明的一个实施例的生成差分韵律自适应模型的装置的示意性方框图;
图7是根据本发明的一个实施例的韵律预测装置的示意性方框图;
图8是根据本发明的一个实施例的语音合成装置的示意性方框图。
具体实施方式
相信通过以下结合附图对本发明的具体实施例的详细描述,本发明的上述和其它目的、特征和优点将变得更加明显。
为了便于后面实施例的理解,首先简要介绍一下广义线性模型(Generalized Linear Model,简称GLM)和贝叶斯信息准则(BayesInformation Criterion,简称BIC)的原理。
GLM是对多元线性回归模型的一种扩展。GLM参数预测模型通过语音单元s的属性A,预测出参数
Figure A200710197104D0012144148QIETU
,相应的定义如公式(1)。
d i = d ^ i + e i = h - 1 ( β 0 + Σ j = 1 p β j f j ( A ) ) + e i - - - ( 1 )
其中,h表示链接函数。一般地,可以假定d满足指数族分布。为了使d满足不同的指数族分布,只需要设定相应的链接函数。GLM既能进行线性建模,也能进行非线性建模。
比较模型的性能需要有判别标准。越简单的模型对集外数据预测的稳定性越高,而越复杂的模型对集内数据的拟合程度越高。BIC是一种常见的评价标准,它综合了以上对拟合精度和模型可靠性的度量,定义如公式(2)。
BIC=Nlog(SSE/N)+plogN          (2)
其中,SSE表示预测误差e的平方和。公式(2)的第一项表示模型的拟合精度,第二项表示对模型复杂度的惩罚。当训练样本数N一定时,越复杂的模型的参数个数p越大,对训练数据就拟合得越好,相应的SSE就越小,第一项就越小,而第二项就增大。反之亦然。公式中一项的减小总是导致另一项的增大,当两项和最小时,表示模型“最优”。BIC能在模型复杂度和数据规模之间取得一个不错的平衡,这有助于解决数据稀疏和属性协同作用的问题。
下面就结合附图对本发明的各个优选实施例进行详细的说明。
图1是根据本发明的一个实施例的数据驱动训练差分韵律自适应模型的方法的流程图。
如图1所示,首先在步骤101,用时长和基频的正交多项式的系数表示差分韵律向量。在本实施例中,差分韵律向量用于表示情感/表情韵律数据与中性韵律数据之间的差。
具体地,在本实施例中,差分韵律向量中的基频的正交多项式可以选用二阶(或更高阶的)勒让德正交多项式。此多项式可以看作是文献(X.Sun著的“F0generation for speech synthesis using a multi-tier approach”,发表于In Proc.ICSLP′02,pp.2077-2080)中描述的高阶多项式的低阶泰勒展开。此外,正交多项式在数学和物理问题中具有优良的性质。在此提出的基频的正交多项式表示与上面的文献中的高阶多项式有两点重要的区别,其一是用抛物线逼近代替泰勒指数逼近,其二是将段长归一到[-1,1]的区间。这些变化能帮助提高参数化时的拟合性能。
勒让德多项式表示如下。正交多项式族的区间t属于[-1,1],它们之间满足公式(3)表示的正交关系。
∫ - 1 1 P m ( t ) P n ( t ) dt = δ mn c n - - - ( 3 )
δ mn = 1 , when m = n 0 , when m ≠ n - - - ( 4 )
这里,δmn是克罗内克尔符号,cn=2/(2n+1),前三阶的多项式如式(5)-(7)所示。
p0(t)=1                        (5)
p1(t)=t                        (6)
p 2 ( t ) = 1 2 ( 3 t 2 - 1 ) - - - ( 7 )
接下来,对于每一个音节定义:
T(t)=a0p0(t)+a1p1(t)            (8)
F(t)=a0p0(t)+a1p1(t)+a2p2(t)    (9)
这里,T(t)表示潜在的基频目标,F(t)表示基频的包络。勒让德多项式的系数a0和a1表示目标基频的截距和斜率,另一系数a2表示二次逼近的系数。
接着,在步骤105,对于差分韵律向量中的每一个参数,即时长t、基频的正交多项式系数a0、a1和a2,分别生成一个初始参数预测模型。在本实施例中,利用广义线性模型GLM表示每个初始参数预测模型。参数t、a0、a1和a2对应的GLM模型分别为:
t i = t ^ i + e i = h - 1 ( β 0 + Σ i = 1 p β j f j ( A ) ) + e i - - - ( 10 )
a 0 i = a ^ 0 i + e i = h - 1 ( β 0 + Σ i = 1 p β j f j ( A ) ) + e i - - - ( 11 )
a 1 i = a ^ 1 i + e i = h - 1 ( β 0 + Σ i = 1 p β j f j ( A ) ) + e i - - - ( 12 )
a 2 i = a ^ 2 i + e i = h - 1 ( β 0 + Σ i = 1 p β j f j ( A ) ) + e i - - - ( 13 )
下面首先针对参数t的GLM模型(10)进行说明。
具体地,利用与差分韵律预测相关的多个属性和这些属性的组合,生成参数t的初始参数预测模型。与差分韵律预测相关的属性可以包括许多,大致可分为语言类型的属性、语音类型的属性和情感/表情类型的属性,具体可包括:情感/表情状态(例如高兴、悲伤、愤怒等)、中文字在句子中的位置(例如句首、句尾等)、声调和句子类型(例如陈述句、感叹句、疑问句、祈使句等)。
在本实施例中,采用GLM模型来表示这些属性和属性组合。为了便于说明,假定与差分韵律预测相关的属性只有情感/表情状态(Emotion/Expression Status)和声调(Tone)。那么,初始参数预测模型的形式如下:parameter~Emotion/Expression Status+Tone+Emotion/Expression Status  Tone,其中Emotion/Expression Status Tone表示Emotion/Expression Status和Tone的组合,是一个2阶项。
可以理解,当属性的数量增加时,作为属性组合可以出现多个2阶项、3阶项等等。
另外,在本实施例中,在生成初始参数预测模型时,可以只取其中一部分的属性组合,例如只取到全部的2阶项;当然,也可以取到3阶项或将全部的属性组合加入到初始参数预测模型中。
总之,在初始参数预测模型中包括全部的单独属性(1阶项)和至少一部分的属性组合(2阶项或多阶项)。这样,初始参数预测模型可以利用很简单的规则来自动生成,而不是如现有技术那样,根据经验手工设定。
然后,在步骤110,利用F检验(F-test)计算初始参数预测模型中每一项的重要性。关于F检验,作为一种已知的标准统计方法,在盛骤,谢式千,潘乘毅编的《概率论与数理统计》(2000第二版,高等教育出版社)中已经有详细的说明,在此不再重复。
应当指出,虽然在本实施中使用的是F检验,但是,其它的统计方法也可以使用,例如,Chisq-test等等。
接着,在步骤115,从初始参数预测模型中删除F检验得分最低的项。然后,在步骤120,利用剩余的项,重新生成参数预测模型。
接着,在步骤125,计算重新生成的参数预测模型的BIC值,利用前面所述的方法判断该模型是否为最优。如果步骤125的判断结果为“是”,则将该新生成的参数预测模型作为最佳模型,并在步骤130结束。如果步骤125的判断结果为“否”,则返回到步骤110,再次计算该重新生成的参数预测模型的每一项的重要性,删除重要性最低的项(步骤115),并利用剩余的项重新生成模型(步骤120),直到获得最佳参数预测模型。
对于其它参数a0、a1和a2的参数预测模型,根据与参数t相同的上述步骤进行训练。
最终,得到参数t、a0、a1和a2的四个GLM参数预测模型,它们和差分韵律向量共同构成差分韵律自适应模型。
通过以上说明可以看出,在较小语料库的条件下,本实施例能够构建准确而可靠的基于GLM的差分韵律自适应模型,并且使用时长和基频的正交多项式的系数以准确而稳定地表示差分韵律向量。本实施例利用了基于广义线性模型(GLM)的建模方法和基于F检验(F-test)和贝叶斯信息准则(BIC)的逐步回归(stepwise regression)的属性选择方法训练差分韵律自适应模型。由于本实施例的GLM模型结构灵活,容易实现对训练数据的自适应,从而解决了数据稀疏问题。进而,通过逐步回归的方法能够自动地选出重要属性协同作用项。
在同一发明构思下,图2是根据本发明一个实施例的生成差分韵律自适应模型的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。利用本实施例的方法生成的差分韵律自适应模型将被用于后面结合其它实施例描述的韵律预测方法及装置和语音合成方法及装置。
如图2所示,首先在步骤201,形成差分韵律向量的训练样本集合。差分韵律向量的训练样本集合是用于训练差分韵律自适应模型的训练数据。如前所述,差分韵律向量是情感/表情语料库中的情感/表情数据与中性韵律数据的差,因此,差分韵律向量的训练样本集合是基于情感/表情语料库和中性语料库而形成的。
具体地,在步骤2011,根据中性语料库,获取用时长和基频的正交多项式的系数表示的中性韵律向量。接着,在步骤2015,根据情感/表情语料库,获取用时长和基频的正交多项式的系数表示的情感/表情韵律向量。然后,在步骤2018,计算在步骤2015中获得的情感/表情韵律向量与在步骤2011中获得的中性韵律向量之间的差,以形成差分韵律向量的训练样本集合。
接着,在步骤205,根据所形成的差分韵律向量的训练样本集合,利用图1所示的实施例的数据驱动训练差分韵律自适应模型的方法,生成差分韵律自适应模型。具体地,从差分韵律向量的训练样本集合中提取每个参数的训练样本,对每个参数的参数预测模型进行训练,以获得每个参数的最优参数预测模型。这样,每个参数的最优参数预测模型和差分韵律向量共同构成差分韵律自适应模型
通过以上描述可以看出,本实施例的生成差分韵律自适应模型的方法根据通过情感/表情语料库与中性语料库构成的训练样本集合,利用前面实施例的训练差分韵律自适应模型的方法,生成差分韵律自适应模型。利用本实施例所生成的差分韵律自适应模型,容易实现对训练数据的自适应,解决数据稀疏的问题,并能够自动的选出重要属性协同作用项。
在同一发明构思下,图3根据本发明的一个实施例的韵律预测方法的流程图。下面结合该图对本实施例进行描述,对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,首先在步骤301,根据输入的文本,获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值。具体地,这些属性的值可以从输入的文本中直接获得,或者经过语法分析、句法分析等获得。需要指出,本实施例可以采用任何已知的和未来的方法来获得这些相应的属性,而并不限于某种特定的方式,并且获得方式还与属性的选择相对应。
在本实施例中,与中性韵律预测相关的多个属性包括语言类型和语音类型的属性。下面的表1示例性地列举了一些可以作为与中性韵律预测相关的属性的属性。
表1:与中性韵律预测相关的属性
 
属性 描述
PhoClosePhoPrePhoNextPhoTonePreToneNextTonePOSDisNPDisPPPosWordConWordLSNumWSPosSenWNumSen 当前音素(current phoneme)音节中另一个音素(another phoneme in the samesyllable)前一个音节相邻的音素(the neighboring phonemein the previous syllable)后一个音节相邻的音素(the neighboring phonemein the next syllable)声调(Tone of the current syllable)前音节的声调(Tone of the previous syllable)后音节的声调(Tone of the next syllable)词性(Part of speech)到下一个停顿的距离(Distance to the next pause)到前一个停顿的距离(Distance to the previouspause)音节在语法词中的位置(Phoneme position in thelexical word)前后及当前语法词的长度(Length of the current,previous and next lexical word)语法词中音节的个数(Number of syllables in thelexical word)音节在句子中的位置(Syllable position in thesentence)句中语法词的个数(Number of lexical words in thesentence)
 
SpRate 语速(Speaking rate)
如前所述,与差分韵律预测相关的属性可包括:情感/表情状态、中文字在句子中的位置、声调和句子类型。然而,“情感/表情状态”属性的值不能从输入的文本中获得,而是由用户预先根据需要确定。即,根据输入的文本,可以获得“中文字在句子中的位置”、“声调”和“句子类型”这三个属性的值。
然后,在步骤305,根据中性韵律预测模型,利用在步骤301中获得得与中性韵律预测相关的多个属性的值,计算中性韵律向量。在本实施例中,中性韵律预测模型是预先根据中性语料库训练好的。
接着,在步骤310,根据差分韵律自适应模型,利用在步骤301中获得的至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值,计算差分韵律向量。其中,差分韵律自适应模型是利用图2所示的实施例的生成差分韵律自适应模型的方法生成的。
最后,在步骤315,计算在步骤305中得到的中性韵律向量与在步骤310中得到的差分韵律向量的和,从而获得相应的韵律。
通过以上描述可以看出,本实施例的韵律预测方法利用中性韵律预测模型和由前面实施例的生成差分韵律自适应模型的方法生成的差分韵律自适应模型,通过用差分韵律补偿中性韵律来预测韵律,能够灵活、准确地预测韵律,并且容易实现对训练数据的自适应,解决了数据稀疏问题。
在同一发明构思下,图4是根据本发明的一个实施例的语音合成方法的流程图。下面结合该图,对本发明的实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图4所示,首先在步骤401,利用前面实施例描述的韵律预测方法,对输入的文本预测韵律。接着,在步骤405,根据上述所预测的韵律,进行语音合成。
通过以上的说明可知,由于本实施的语音合成方法采用了前面实施例的韵律预测方法来预测韵律,进而根据所预测的韵律进行语音合成,所以,容易实现对训练数据的自适应,解决了数据稀疏问题。因此,本实施例的语音合成方法可以更准确并且自动地进行语音合成,生成的语音更合理、易懂。
在同一发明构思下,图5是根据本发明的一个实施例的数据驱动训练差分韵律自适应模型的装置的示意性方框图。下面结合该图对本实施例进行详细描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图5所示,本实施例的数据驱动训练差分韵律自适应模型的装置500包括:初始模型生成单元501,其用时长和基频的正交多项式的系数表示差分韵律向量,并对于差分韵律向量中的每一个参数,利用与差分韵律预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型,其中每个上述属性或上述属性的组合被作为一项;重要性计算单元502,其计算上述参数预测模型的每一上述项的重要性;项删除单元503,用于删除上述计算出的重要性最低的项;模型再生成单元504,用于利用由项删除单元503删除后剩余的项重新生成参数预测模型;以及优化判断单元505,用于判断由模型再生成单元504重新生成的参数预测模型是否最优;其中,上述差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。
与前面实施例的描述相同,在本实施例中,用时长和基频的正交多项式的系数表示差分韵律向量,并分别为差分韵律向量的每个参数t、a0、a1和a2建立一个GLM参数预测模型。分别对每个参数预测模型进行训练,以得到每个参数t、a0、a1和a2的最优参数预测模型,它们和该差分韵律向量共同构成差分韵律自适应模型。
如前所述,与差分韵律预测相关的多个属性包括:语言类型、语音类型和情感类型的属性,例如,包括:从情感状态、中文字在句子中的位置、声调和句子类型中选择的任意多个属性。
进一步地,重要性计算单元502利用F检验(F-test)计算每一项的重要性。
进一步地,优化判断单元505利用贝叶斯信息准则(BIC)判断上述重新生成的参数预测模型是否最优。
另外,根据本发明的一个优选实施例,至少一部分上述属性的组合包括多个与韵律预测相关的属性的全部2阶的属性组合。
在此,应当指出,本实施例的数据驱动训练差分韵律自适应模型的装置500及其各个组成部分可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的数据驱动训练差分韵律自适应模型的装置500在操作上实现图1所示的实施例的数据驱动训练差分韵律自适应模型的方法。
在同一发明构思下,图6是根据本发明的一个实施例的生成差分韵律自适应模型的装置的示意性方框图。下面结合该图对本实施例进行详细描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图6所示,本实施例的生成差分韵律自适应模型的装置600包括:差分韵律向量的训练样本集合601;以及数据驱动训练差分韵律自适应模型的装置,其可以是图5所示的实施例描述的数据驱动训练差分韵律自适应模型的装置500,该装置500根据差分韵律向量的训练样本集合601训练差分韵律自适应模型。
进一步地,本实施例的生成差分韵律自适应模型的装置600还包括:中性语料库602,其包含中性语料;中性韵律向量获取单元603,其根据中性语料库602,获得用时长和基频的正交多项式的系数表示的中性韵律向量;情感/表情语料库604,其包含情感/表情语料;情感/表情韵律向量获取单元605,其根据情感/表情语料库604,获得用时长和基频的正交多项式的系数表示的情感/表情韵律向量;以及差分韵律向量计算单元606,其计算由情感/表情韵律向量获取单元605获得的情感/表情韵律向量与由中性韵律向量获取单元603获得的中性韵律向量之间的差,并提供给差分韵律向量的训练样本集合601。
应当指出,本实施例中的生成差分韵律自适应模型的装置600及其各个组成部分可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的生成差分韵律自适应模型的装置600在操作上可以实现图2所示的实施例的生成差分韵律自适应模型的方法。
在同一发明构思下,图7是根据本发明的一个实施例的韵律预测装置700的示意性方框图。下面结合该图对本实施例进行详细描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图7所示,本实施例的韵律预测装置,包括:中性韵律预测模型701,其是利用中性语料预先训练好的;差分韵律自适应模型702,其由前面实施例描述的生成差分韵律自适应模型的装置600生成;属性获得单元703,其根据输入的文本获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值;中性韵律向量预测单元704,其根据中性韵律预测模型701,利用由属性获得单元703获得的与中性韵律预测相关的多个属性的值,计算中性韵律向量;差分韵律向量预测单元705,其根据差分韵律自适应模型702,利用由属性获得单元703获得的至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值,计算差分韵律向量;以及韵律预测单元706,其计算由中性韵律向量预测单元704计算出的中性韵律向量与由差分韵律向量预测单元705计算出的差分韵律向量的和,以获得相应的韵律。
在本实施例中,与中性韵律预测相关的多个属性包括:语言类型和语音类型的属性,例如,包括:从前面表1中选择的任意多个属性。
如前所述,与差分韵律预测相关的多个属性包括:情感/表情状态、中文字在句子中的位置、声调和句子类型。然而,“情感/表情状态”属性的值不能从输入的文本中获得,而是由用户预先根据需要确定。即,属性获得单元703根据输入的文本可以获得“中文字在句子中的位置”、“声调”和“句子类型”这三个与差分韵律预测相关的属性的值。
应当指出,本实施例中的韵律预测装置700及其各个组成部分可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的韵律预测装置700在操作上可以实现图3所示的实施例的韵律预测方法。
在同一发明构思下,图8是根据本发明一个实施例的语音合成装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图8所示,本实施例的语音合成装置800包括:韵律预测装置700,其可以是前面实施例中描述的韵律预测装置;以及语音合成器801,其可以是现有技术的语音合成器,并根据由韵律预测装置700预测的韵律,进行语音合成。
在此,应当指出,本实施例中的语音合成装置800及其各个组成部分可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的语音合成装置800在操作上可以实现图4所示实施例的语音合成方法。
以上虽然通过一些示例性的实施例详细描述了本发明的数据驱动训练差分韵律自适应模型的方法和装置、生成差分韵律自适应模型的方法和装置、韵律预测的方法和装置以及语音合成的方法和装置,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附的权利要求限定。

Claims (33)

1.一种数据驱动训练差分韵律自适应模型的方法,包括:
用时长和基频的正交多项式的系数表示差分韵律向量;
对于上述差分韵律向量中的每一个参数,
利用与差分韵律预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型,其中每个上述属性或上述属性的组合被作为一项;
计算上述参数预测模型的每一上述项的重要性;
删除上述计算出的重要性最低的项;
利用剩余的项重新生成参数预测模型;
判断上述重新生成的参数预测模型是否最优;以及
如果上述参数预测模型被判断为不是最优,则重复上述计算每一项的重要性的步骤、上述删除重要性最低的项的步骤、上述重新生成参数预测模型的步骤和上述判断上述重新生成的参数预测模型是否最优的步骤;
其中,上述差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。
2.根据权利要求1所述的数据驱动训练差分韵律自适应模型的方法,其中,上述与差分韵律预测相关的多个属性包括:语言类型、语音类型和情感/表情类型的属性。
3.根据权利要求1所述的数据驱动训练差分韵律自适应模型的方法,其中,上述与差分韵律预测相关的多个属性包括:从情感/表情状态、中文字在句子中的位置、声调和句子类型中选择的任意多个属性。
4.根据权利要求1至3任意一项所述的数据驱动训练差分韵律自适应模型的方法,其中,上述参数预测模型是广义线性模型。
5.根据权利要求1所述的数据驱动训练差分韵律自适应模型的方法,其中,上述至少一部分上述属性的组合包括上述多个与差分韵律预测相关的属性的全部2阶的属性组合。
6.根据权利要求1至5任意一项所述的数据驱动训练差分韵律自适应模型的方法,其中,上述计算上述参数预测模型中每一上述项的重要性的步骤包括:利用F检验计算每一项的重要性。
7.根据权利要求1至6任意一项所述的数据驱动训练差分韵律自适应模型的方法,其中,上述判断上述重新生成的参数预测模型是否最优的步骤包括:利用贝叶斯信息准则判断上述重新生成的参数预测模型是否最优。
8.根据权利要求7所述的数据驱动训练差分韵律自适应模型的方法,其中,上述判断上述重新生成的参数预测模型是否最优的步骤包括:
计算下式
BIC=Nlog(SSE/N)+plogN
其中,SSE表示预测误差e的平方和,N表示训练样本数;以及
当上式中的BIC最小时,判断参数预测模型为最优。
9.根据权利要求1至8任意一项所述的数据驱动训练差分韵律自适应模型的方法,其中,上述基频的正交多项式是二阶或更高阶的勒让德正交多项式。
10.根据权利要求9所述的数据驱动训练差分韵律自适应模型的方法,其中,上述勒让德正交多项式表示为:
F(t)=a0p0(t)+a1p1(t)+a2p2(t)
其中,F(t)表示基频的包络,a0、a1和a2表示所述系数,t属于[-1,1]。
11.一种生成差分韵律自适应模型的方法,包括:
形成差分韵律向量的训练样本集合;以及
根据上述差分韵律向量的训练样本集合,利用权利要求1至10任意一项所述的数据驱动训练差分韵律自适应模型的方法,生成差分韵律自适应模型。
12.根据权利要求11所述的生成差分韵律自适应模型的方法,其中,上述形成差分韵律向量的训练样本集合的步骤包括:
根据中性语料库,获取用时长和基频的正交多项式的系数表示的中性韵律向量;
根据情感/表情语料库,获取用时长和基频的正交多项式的系数表示的情感/表情韵律向量;以及
计算上述情感/表情韵律向量与上述中性韵律向量之间的差,以形成差分韵律向量的训练样本集合。
13.一种韵律预测方法,包括:
根据输入的文本,获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值;
根据中性韵律预测模型,利用上述与中性韵律预测相关的多个属性的值,计算中性韵律向量;
根据差分韵律自适应模型,利用上述至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值,计算差分韵律向量;以及
计算上述中性韵律向量与上述差分韵律向量的和,以获得相应的韵律;
其中,上述差分韵律自适应模型是利用权利要求11或12所述的生成差分韵律自适应模型的方法生成的。
14.根据权利要求13所述的韵律预测方法,其中,上述与中性韵律预测相关的多个属性包括:语言类型的属性和语音类型的属性。
15.根据权利要求13所述的韵律预测方法,其中,上述与中性韵律预测相关的多个属性包括:从当前音素、音节中另一个音素、前一个音节相邻的音素、后一个音节相邻的音素、声调、前音节的声调、后音节的声调、词性、到下一个停顿的距离、到前一个停顿的距离、音节在语法词中的位置、前后及当前语法词的长度、语法词中音节的个数、音节在句子中的位置和句中语法词的个数中选择的任意多个属性。
16.根据权利要求13至15任意一项所述的韵律预测方法,其中,上述预先确定的至少另一部分与差分韵律预测相关的多个属性包括:情感/表情类型的属性。
17.一种语音合成方法,包括:
对输入的文本利用上述权利要求13至16任意一项所述的韵律预测方法,预测韵律;以及
根据上述所预测的韵律,进行语音合成。
18.一种数据驱动训练差分韵律自适应模型的装置,包括:
初始模型生成单元,其用时长和基频的正交多项式的系数表示差分韵律向量,并对于上述差分韵律向量中的每一个参数,利用与差分韵律预测相关的多个属性和至少一部分上述属性的组合生成一个初始参数预测模型,其中每个上述属性或上述属性的组合被作为一项;
重要性计算单元,用于计算上述参数预测模型的每一上述项的重要性;
项删除单元,用于删除上述计算出的重要性最低的项;
模型再生成单元,用于利用由上述项删除单元删除后剩余的项重新生成参数预测模型;以及
优化判断单元,用于判断由上述模型再生成单元重新生成的参数预测模型是否最优;
其中,上述差分韵律向量及其全部参数预测模型构成差分韵律自适应模型。
19.根据权利要求18所述的数据驱动训练差分韵律自适应模型的装置,其中,上述与差分韵律预测相关的多个属性包括:语言类型、语音类型和情感类型的属性。
20.根据权利要求18所述的数据驱动训练差分韵律自适应模型的装置,其中,上述与差分韵律预测相关的多个属性包括:从情感状态、中文字在句子中的位置、声调和句子类型中选择的任意多个属性。
21.根据权利要求18至20任意一项所述的数据驱动训练差分韵律自适应模型的装置,其中,上述参数预测模型是广义线性模型。
22.根据权利要求18所述的数据驱动训练差分韵律自适应模型的装置,其中,上述至少一部分上述属性的组合包括上述多个与差分韵律预测相关的属性的全部2阶的属性组合。
23.根据权利要求18至22任意一项所述的数据驱动训练差分韵律自适应模型的装置,其中,上述重要性计算单元利用F检验计算每一项的重要性。
24.根据权利要求18至23任意一项所述的数据驱动训练差分韵律自适应模型的装置,其中,上述优化判断单元利用贝叶斯信息准则判断上述重新生成的参数预测模型是否最优。
25.根据权利要求18至24任意一项所述的数据驱动训练差分韵律自适应模型的装置,其中,上述基频的正交多项式是二阶或更高阶的勒让德正交多项式。
26.根据权利要求25所述的数据驱动训练差分韵律自适应模型的装置,其中,上述勒让德正交多项式表示为:
F(t)=a0p0(t)+a1p1(t)+a2p2(t)
其中,F(t)表示基频的包络,a0、a1和a2表示所述系数,t属于[-1,1]。
27.一种生成差分韵律自适应模型的装置,包括:
差分韵律向量的训练样本集合;以及
权利要求18至26任意一项所述的数据驱动训练差分韵律自适应模型的装置,其根据上述差分韵律向量的训练样本集合训练差分韵律自适应模型。
28.根据权利要求27所述的生成差分韵律自适应模型的装置,还包括:
中性语料库;
中性韵律向量获取单元,其根据上述中性语料库,获得用时长和基频的正交多项式的系数表示的中性韵律向量;
情感/表情语料库;
情感/表情韵律向量获取单元,其根据上述情感/表情语料库,获得用时长和基频的正交多项式的系数表示的情感/表情韵律向量;以及
差分韵律向量计算单元,其计算上述情感/表情韵律向量与上述中性韵律向量之间的差,并提供给上述差分韵律向量的训练样本集合。
29.一种韵律预测装置,包括:
中性韵律预测模型;
利用权利要求27或28所述的生成差分韵律自适应模型的装置生成的差分韵律自适应模型;
属性获得单元,用于根据输入的文本获得与中性韵律预测相关的多个属性的值以及至少一部分与差分韵律预测相关的多个属性的值;
中性韵律向量预测单元,用于根据上述中性韵律预测模型,利用上述与中性韵律预测相关的多个属性的值,计算中性韵律向量;
差分韵律向量预测单元,用于根据上述差分韵律自适应模型,利用上述至少一部分与差分韵律预测相关的多个属性的值以及预先确定的至少另一部分与差分韵律预测相关的多个属性的值,计算差分韵律向量;以及
韵律预测单元,用于计算上述中性韵律向量与上述差分韵律向量的和,以获得相应的韵律。
30.根据权利要求29所述的韵律预测装置,其中,上述与中性韵律预测相关的多个属性包括:语言类型的属性和语音类型的属性。
31.根据权利要求29所述的韵律预测装置,其中,上述与中性韵律预测相关的多个属性包括:从当前音素、音节中另一个音素、前一个音节相邻的音素、后一个音节相邻的音素、声调、前音节的声调、后音节的声调、词性、到下一个停顿的距离、到前一个停顿的距离、音节在语法词中的位置、前后及当前语法词的长度、语法词中音节的个数、音节在句子中的位置和句中语法词的个数中选择的任意多个属性。
32.根据权利要求29至31任意一项所述的韵律预测装置,其中,上述预先确定的至少另一部分与差分韵律预测相关的多个属性包括:情感/表情类型的属性。
33.一种语音合成装置,包括:
权利要求29至32任意一项所述的韵律预测装置;并且
根据由上述韵律预测装置预测的韵律,进行语音合成。
CNA2007101971046A 2007-12-04 2007-12-04 韵律自适应及语音合成的方法和装置 Pending CN101452699A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNA2007101971046A CN101452699A (zh) 2007-12-04 2007-12-04 韵律自适应及语音合成的方法和装置
JP2008307730A JP2009139949A (ja) 2007-12-04 2008-12-02 差分韻律適応モデルのトレーニング方法及び装置、差分韻律適応モデルの生成方法及び装置、韻律推定方法及び装置、音声合成方法及び装置
US12/328,514 US20090157409A1 (en) 2007-12-04 2008-12-04 Method and apparatus for training difference prosody adaptation model, method and apparatus for generating difference prosody adaptation model, method and apparatus for prosody prediction, method and apparatus for speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101971046A CN101452699A (zh) 2007-12-04 2007-12-04 韵律自适应及语音合成的方法和装置

Publications (1)

Publication Number Publication Date
CN101452699A true CN101452699A (zh) 2009-06-10

Family

ID=40734899

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101971046A Pending CN101452699A (zh) 2007-12-04 2007-12-04 韵律自适应及语音合成的方法和装置

Country Status (3)

Country Link
US (1) US20090157409A1 (zh)
JP (1) JP2009139949A (zh)
CN (1) CN101452699A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
CN102496363A (zh) * 2011-11-11 2012-06-13 北京宇音天下科技有限公司 一种用于汉语语音合成的音调修正方法
US8706493B2 (en) 2010-12-22 2014-04-22 Industrial Technology Research Institute Controllable prosody re-estimation system and method and computer program product thereof
CN105719640A (zh) * 2014-12-22 2016-06-29 卡西欧计算机株式会社 声音合成装置及声音合成方法
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106601228A (zh) * 2016-12-09 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置
CN108766413A (zh) * 2018-05-25 2018-11-06 北京云知声信息技术有限公司 语音合成方法及系统
CN108831435A (zh) * 2018-06-06 2018-11-16 安徽继远软件有限公司 一种基于多情感说话人自适应的情感语音合成方法
CN109801618A (zh) * 2017-11-16 2019-05-24 深圳市腾讯计算机系统有限公司 一种音频信息的生成方法和装置
CN110010136A (zh) * 2019-04-04 2019-07-12 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备
WO2019218481A1 (zh) * 2018-05-14 2019-11-21 平安科技(深圳)有限公司 一种语音合成方法、系统及终端设备

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8156119B2 (en) * 2009-01-19 2012-04-10 Microsoft Corporation Smart attribute classification (SAC) for online reviews
WO2010119534A1 (ja) * 2009-04-15 2010-10-21 株式会社東芝 音声合成装置、方法およびプログラム
JP5422754B2 (ja) * 2010-01-04 2014-02-19 株式会社東芝 音声合成装置及び方法
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
CN102385858B (zh) * 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
WO2012131694A1 (en) * 2011-03-31 2012-10-04 Tejas Networks Limited A method and a system for controlling traffic congestion in a network
KR102222122B1 (ko) * 2014-01-21 2021-03-03 엘지전자 주식회사 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기
CN105185373B (zh) * 2015-08-06 2017-04-05 百度在线网络技术(北京)有限公司 韵律层级预测模型的生成及韵律层级预测方法和装置
CN105355193B (zh) * 2015-10-30 2020-09-25 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN108305612B (zh) * 2017-11-21 2020-07-31 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
US10418025B2 (en) * 2017-12-06 2019-09-17 International Business Machines Corporation System and method for generating expressive prosody for speech synthesis
CN110556092A (zh) * 2018-05-15 2019-12-10 中兴通讯股份有限公司 语音的合成方法及装置、存储介质、电子装置
CN109461435B (zh) * 2018-11-19 2022-07-01 北京光年无限科技有限公司 一种面向智能机器人的语音合成方法及装置
JP2022523564A (ja) 2019-03-04 2022-04-25 アイオーカレンツ, インコーポレイテッド 機械学習を使用するデータ圧縮および通信
CN112528014B (zh) * 2019-08-30 2023-04-18 成都启英泰伦科技有限公司 一种语言文本的分词、词性和韵律预测方法及装置
CN111369971B (zh) * 2020-03-11 2023-08-04 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN114420086B (zh) * 2022-03-30 2022-06-17 北京沃丰时代数据科技有限公司 语音合成方法和装置
CN117390405B (zh) * 2023-12-12 2024-02-20 中交隧道工程局有限公司 掘进机扁齿滚刀阵列磨损状态预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003337592A (ja) * 2002-05-21 2003-11-28 Toshiba Corp 音声合成方法及び音声合成装置及び音声合成プログラム
JP2005345699A (ja) * 2004-06-02 2005-12-15 Toshiba Corp 音声編集装置、音声編集方法および音声編集プログラム
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
US8706493B2 (en) 2010-12-22 2014-04-22 Industrial Technology Research Institute Controllable prosody re-estimation system and method and computer program product thereof
CN102496363A (zh) * 2011-11-11 2012-06-13 北京宇音天下科技有限公司 一种用于汉语语音合成的音调修正方法
CN102496363B (zh) * 2011-11-11 2013-07-17 北京宇音天下科技有限公司 一种用于汉语语音合成的音调修正方法
CN105719640B (zh) * 2014-12-22 2019-11-05 卡西欧计算机株式会社 声音合成装置及声音合成方法
CN105719640A (zh) * 2014-12-22 2016-06-29 卡西欧计算机株式会社 声音合成装置及声音合成方法
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106227721B (zh) * 2016-08-08 2019-02-01 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106601228A (zh) * 2016-12-09 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置
CN106601228B (zh) * 2016-12-09 2020-02-04 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置
CN109801618A (zh) * 2017-11-16 2019-05-24 深圳市腾讯计算机系统有限公司 一种音频信息的生成方法和装置
WO2019218481A1 (zh) * 2018-05-14 2019-11-21 平安科技(深圳)有限公司 一种语音合成方法、系统及终端设备
CN108766413A (zh) * 2018-05-25 2018-11-06 北京云知声信息技术有限公司 语音合成方法及系统
CN108831435A (zh) * 2018-06-06 2018-11-16 安徽继远软件有限公司 一种基于多情感说话人自适应的情感语音合成方法
CN108831435B (zh) * 2018-06-06 2020-10-16 安徽继远软件有限公司 一种基于多情感说话人自适应的情感语音合成方法
CN110010136A (zh) * 2019-04-04 2019-07-12 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备

Also Published As

Publication number Publication date
US20090157409A1 (en) 2009-06-18
JP2009139949A (ja) 2009-06-25

Similar Documents

Publication Publication Date Title
CN101452699A (zh) 韵律自适应及语音合成的方法和装置
CN1953052B (zh) 训练时长预测模型、时长预测和语音合成的方法及装置
CN101271687B (zh) 字音转换预测以及语音合成的方法和装置
CN102385859B (zh) 参数语音合成方法和系统
CN103578462A (zh) 语音处理系统
Fernandez et al. F0 contour prediction with a deep belief network-Gaussian process hybrid model
CN107229610A (zh) 一种情感数据的分析方法及装置
US20070239439A1 (en) Method and apparatus for training f0 and pause prediction model, method and apparatus for f0 and pause prediction, method and apparatus for speech synthesis
CN103310784A (zh) 文本到语音的方法和系统
CN103425727B (zh) 上下文语音查询扩大方法和系统
CN106910497A (zh) 一种中文词语发音预测方法及装置
CN103854643A (zh) 用于合成语音的方法和装置
CN101454826A (zh) 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统
JP7061594B2 (ja) 文章変換システム、文章変換方法、及びプログラム
CN104538036A (zh) 一种基于语义细胞混合模型的说话人识别方法
EP3432155A1 (en) Method and system for automatic discovery of topics and trends over time
CN113611293A (zh) 一种蒙古语数据集扩充方法
CN102231276B (zh) 一种语音合成单元时长的预测方法及装置
CN108021544B (zh) 对实体词的语义关系进行分类的方法、装置和电子设备
Prabhavalkar et al. A factored conditional random field model for articulatory feature forced transcription
CN103531208B (zh) 一种基于短时记忆权重融合的航天应激情感识别方法
CN108255808A (zh) 文本划分的方法、装置和存储介质以及电子设备
JP4417892B2 (ja) 音声情報処理装置、音声情報処理方法および音声情報処理プログラム
Rafferty et al. Convergence bounds for language evolution by iterated learning
US20240221775A1 (en) Conversion model learning apparatus, conversion model generation apparatus, conversion apparatus, conversion method and program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20090610