CN102222501B - 语音合成中时长参数的生成方法 - Google Patents
语音合成中时长参数的生成方法 Download PDFInfo
- Publication number
- CN102222501B CN102222501B CN201110160419XA CN201110160419A CN102222501B CN 102222501 B CN102222501 B CN 102222501B CN 201110160419X A CN201110160419X A CN 201110160419XA CN 201110160419 A CN201110160419 A CN 201110160419A CN 102222501 B CN102222501 B CN 102222501B
- Authority
- CN
- China
- Prior art keywords
- duration
- whole
- model
- variance
- tobin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 30
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000009826 distribution Methods 0.000 abstract description 18
- 230000006870 function Effects 0.000 description 17
- 230000033764 rhythmic process Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000001771 mentha piperita Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Abstract
本发明涉及一种语音合成中时长参数的生成方法,用于基于隐马尔可夫模型的语音合成中进行状态时长参数的生成,对于输入的上下文相关隐马尔可夫模型序列生成各模型的各个状态的时长,即各状态的驻留时间,在生成状态时长参数时结合了隐马尔可夫模型中的状态时长模型和时长整体方差模型。创建时长整体方差模型训练语料库,利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本,利用整体方差训练样本训练时长整体方差模型。本发明较好的克服了基于隐马尔可夫模型的语音合成中生成的状态时长参数过于平均的问题,合成结果在时长分布上更加自然、具有表现力。
Description
技术领域
本发明涉及一种基于隐马尔可夫模型(Hidden Markov Model,HMM)语音合成中的状态时长参数生成方法,尤指一种结合时长整体方差的状态时长参数生成方法。
背景技术
和谐人机交互技术一直都是人们关注的对象,而语音合成技术则是其重要组成部分,其目标是使得计算机能够像人一样产生自然的语音。由于语音是人类交流的重要手段,是互相传递信息最直接、最有效的手段,因此,其研究成果对自然和谐的人机交互等方向的发展具有重要的意义
作为语音合成中的一个主流方法,基于HMM的语音合成因为具有输出语音平滑、稳定,适合实现多种发音风格的控制,合成系统构建的自动化程度很高,计算和存储资源需求小等优点而获得了极为广泛的应用。然而,目前基于HMM的语音合成方法生成的语音在韵律表现上较为平淡,一个重要的原因就是各个音节的时长分布过于平均,显得较为机械化,而相比而言自然语流中音节时长的分布则明显长短错落有致。这是由于统计参数语音合成中对语音参数进行统计建模时,是基于短时结构的,它能对短时的语音特征参数进行较好的统计建模,但缺乏对更高韵律层级上特征信息的有效获取和建模,从而在生成时长参数时无法给予各个语音单元来自高韵律级别上的指导和约束,导致时长分布的过于平均。
为了克服基于HMM的语音合成中生成的状态时长参数过平均的问题,有学者提出了将HMM状态时长模型与声韵母时长模型相结合的方法进行状态时长的生成(吴义坚,王仁华.基于HMM的可训练中文语音合成.中文信息学报.2006年04期)。该方法通过加入声韵母时长模型似然值的约束来抑制生成的状态时长参数过平均的问题。尽管该方法能够在一定程度上抑制生成的状态时长参数过平均的问题,不过由于所建立的声韵母时长模型也存在较强的统计平均,且声韵母单元也是一种较短的语音单元,而对普通话感知而言音节才是更加重要的语音单元,因此该方法对状态时长参数过平均问题的抑制能力有限。
发明内容
为了解决当前基于HMM的语音合成中生成的时长参数过于平均从而导致合成语音自然度质量下降的技术问题,本发明目的是要提出一种方法,可以在高层韵律级别上(如短语级别、句子级别等,而非HMM建模中常用的音素单元)对语音单元时长的分布进行统计建模;在状态时长参数生成阶段,在传统HMM状态时长模型基础之上结合该模型进行时长参数的生成,后者将惩罚单纯由HMM时长模型生成的时长参数在高韵律层级上与自然语音时长分布特点的不匹配从而抑制生成的时长参数过于平均的问题。
为实现上述目的,本发明采用整体方差来对训练语句在句子级别上统计语音单元时长的分布性,构建一个上下文相关的时长整体方差模型;在状态时长参数生成阶段中最大化由HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数。
本发明提供的语音合成中状态时长参数的生成方法,所述生成状态时长参数的步骤包括:
步骤Sa:对待合成的文本进行文本分析,提取与HMM模型相关的上下文特征信息以及与时长整体方差模型相关的上下文特征信息,根据整体方差建模规范中确定的上下文特征信息项对待合成文本进行与时长整体方差模型相关的上下文特征信息提取,将与HMM模型相关的上下文特征信息依序组合成为上下文相关的HMM模型序列;
步骤Sb:利用HMM状态时长模型集对上下文相关的HMM模型序列进行决策,得到HMM状态时长模型序列;
步骤Sc:利用时长整体方差模型集对提取出的时长整体方差模型相关的上下文特征信息进行决策,得到一个时长整体方差模型;
步骤Sd:通过最大化由决策出的HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数;其中在计算时长整体方差模型似然值时,时长整体方差值的计算需根据整体方差建模规范中确定的语音单元级别来生成该语音单元级别上的时长整体方差值。
优选地,构建时长整体方差模型的步骤包括:
创建时长整体方差模型训练语料库,选择合适的时长整体方差建模规范,利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本;
训练生成时长整体方差模型是利用全部时长整体方差训练样本进行时长整体方差模型的估计;
基于HMM状态时长模型和训练得到的时长整体方差模型执行生成状态时长参数。
优选地,所述选择合适的时长整体方差建模规范是确定时长整体方差建模的语音单元级别;确定与时长整体方差相关的上下文特征信息项。
优选地,所述时长整体方差训练样本是对每个训练语句根据整体方差建模规范中确定的语音单元级别生成该语音单元级别上的时长整体方差值;根据整体方差建模规范中确定的上下文特征信息项生成每个训练语句的上下文特征信息。
优选地,所述时长整体方差模型训练是生成一组上下文相关的时长整体方差模型集。
本发明的有益效果:本发明采用整体方差来度量高层韵律层级级别中各个语音单元时长的分布性。因为自然语音中各语音单元(如音节)的时长长短分布错落有致,听感自然流畅;HMM语音合成中生成的语音,虽然每个语音单元的时长都很平稳,但从总体上来看其分布则较为平均,表现力不足。而整体方差则可以较好的区分出这两种语音在整体上的差异。实验统计数据表明前者的总体方差明显大于后者。因此在模型训练阶段,除了进行HMM模型训练,还对训练数据中的时长总体方差也进行建模,该模型与HMM模型中时长模型一并在高韵律层级和短时结构上对时长信息进行联合建模。
本发明的在语音合成阶段中的时长参数生成阶段,建立一个由HMM时长模型的似然值和时长整体方差模型的似然值组成的似然函数,后者可以惩罚生成的时长参数在整体方差上的降低;通过最大化这样一个似然函数来生成的时长参数可以使得时长过平均的问题得到改善,从而合成语音的提高表现力。
附图说明
通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中:
图1是本发明基于隐马尔可夫模型的语音合成中结合时长整体方差的时长参数生成方法的执行过程示意图。
图2是本发明基于隐马尔可夫模型的语音合成中结合时长整体方差的时长参数生成方法的模型训练示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1示出本发明基于隐马尔可夫模型的语音合成中结合时长整体方差的时长参数生成方法的模型训练示意图,具体的训练步骤包括:创建时长整体方差模型训练语料库、提取时长整体方差训练样本、训练生成时长整体方差模型。
如图2示出本发明基于隐马尔可夫模型的语音合成中结合时长整体方差的时长参数生成方法的执行过程示意图,具体的执行过程步骤包括:文本、文本分析、时长整体方差模型、隐马尔可夫模型中的状态时长模型、状态时长参数生成算法、状态时长参数。
下面结合附图来说明本发明的优选实施例。
续请参考图1所示:训练步骤:创建整体方差模型训练语料库,利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本,利用整体方差训练样本训练时长整体方差模型;
续请参考图2所示:执行过程步骤:对于待合成的文本,进行文本分析提取与HMM模型相关的上下文特征信息以及与时长整体方差模型相关的上下文特征信息,将与HMM模型相关的上下文特征信息依序组合成为上下文相关的HMM模型序列;根据提取出的带上下文特征信息的HMM模型序列,通过HMM时长模型集决策出与其相对应的HMM状态时长模型序列;根据提取出的时长整体方差模型相关的上下文特征信息,通过时长整体方差模型集决策出与其相对应的时长整体方差模型;通过最大化由决策出的HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数。
下面根据本发明从五个方面叙述优选实施例:1.创建时长整体方差训练语料库,2.时长整体方差训练样本提取,3.训练生成时长整体方差模型,4.系统实现。
1.创建时长整体方差训练语料库
根据本发明,所述训练语料库:选用一个标注有韵律短语边界信息的文本语料库及按此语料库进行录音的语音库。要求,标注韵律短语边界一定是要从感知上能感觉到明显的停顿的,且语音库中每句录音需要有音节边界位置标注信息。
例如文本标注实例:
|他又走过去|在茶壶里|放了|薄荷叶和糖|.
其中,‘|’表示韵律短语的位置。
语音音节边界标注实例:
250ms他
150ms又
其中前面一项为音节的时长,后一项为音节对应的汉字。
2.时长整体方差训练样本提取
包括:选择合适的时长整体方差建模规范,利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本。
所述选择合适的时长整体方差建模规范,是确定以何种尺寸的语音单元以基本单元进行时长整体方差的统计,可选的单元包括音素、声韵母、音节;以及确定与时长整体方差相关的上下文特征信息项,可选的上下文特征信息项包括整个语句中音节个数,整个语句中韵律短语的个数,最短韵律短语中的音节个数、最长韵律短语中的音节个数。
具体地,在本实施例中,选择以音节为基本单元进行时长整体方差的统计;与时长整体方差相关的上下文特征信息项选择整个语句中音节个数以及整个语句中韵律短语的个数。
所述生成时长整体方差训练样本,是按照确定的时长整体方差建模规范利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本,包括时长整体方差值及其对应语句的上下文特征信息。
具体地,所述整体方差计算方法为:
公式(1)中,d=[d1,d2,...dr,dR]T为一个语句中全部R个音节的时长组成的向量,dr为第r个音节的时长,v(d)为对时长向量d计算得到的时长整体方差,为R个音节的时长均值,可根据公式(2)计算得到。
3.训练生成时长整体方差模型
所述训练生成时长整体方差模型,是训练生成一组上下文相关的整体方差模型集;
4.系统实现
如图2所示:基于HMM状态时长模型和训练得到的时长整体方差模型执行生成状态时长参数。
具体地,对于待合成的文本,进行文本分析提取与HMM模型相关的上下文特征信息以及与时长整体方差模型相关的上下文特征信息,将与HMM模型相关的上下文特征信息依序组合成为上下文相关的HMM模型序列;
具体地,根据提取出的带上下文特征信息的HMM模型序列,通过HMM时长模型集决策出与其相对应的HMM状态时长模型序列;
具体地,根据提取出的时长整体方差模型相关的上下文特征信息,通过时长整体方差模型集决策出与其相对应的时长整体方差模型;
具体地,通过最大化由决策出的HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数;
该似然函数如下所示:这个似然函数在权利要求的步骤Sd中有一句话描述,即“通过最大化由决策出的HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数”,
L=log(P(d|λd)P(v(d)|λv)ω) (3)
其中,L为似然函数值,λd为HMM状态时长模型,λv为时长整体方差模型,ω为时长整体方差似然值在整个似然函数中占的权重;d=[d1,d2,...dr,dR]T为待合成语句中全部R个音节的时长组成的向量,v(d)为对d计算得到的整体方差,d为全部R个音节中各个HMM模型的各个状态时长dikj组成的向量,P(d|λd)为d相对于HMM状态时长模型λd的似然值,P(v(d)|λv)为v(d)相对于时长整体方差模型λv的似然值,log(·)为取对数函数,音节时长(即d中的元素)和状态时长(即d中的元素)的关系为:
公式(4)中di为第i个音节的时长,Ki为第i个音节中含有的HMM模型的数量,N为HMM拓扑状态数,dikj为第i个音节中第k个HMM的第j个状态的时长。
最优时长参数d*是使得以上似然函数L最大化时的时长参数,即
由于公式(5)无法解析求解,可以通过梯度下降方法来迭代求解,即
其中为似然函数L相对于状态时长dikj的梯度值,μikj和分别为第i个音节中第k个HMM的第j个状态的时长分布均值和方差,μv和为时长整体方差分布的均值和方差,R为该合成语句中音节的个数,v(d)、di和分别为时长整体方差,第i个音节的时长和全部音节时长的均值,其表达式如公式(1)、(4)和(2)所示。
当迭代收敛时,即可得到最优的状态时长参数。
基于HMM的可训练中文语音合成的技术方案叙述如下:
似然函数定义为:
其中L为似然函数值,N为待合成语句中声韵母单元的个数,Kn为第n个声韵母单元中包含的HMM状态个数,dn,k为第n个声韵母单元中第k个HMM状态的时长,pn,k(dn,k)为dn,k相对于第n个声韵母单元中第k个HMM状态时长模型的似然值,dn为第n个声韵母单元的时长,pn(dn)为dn相对于第n个声韵母单元时长模型的似然值,ω为权重,log()为取对数函数,dn和dn,k之间的关系为:
其中Kn为第n个声韵母单元中包含的HMM状态个数。
最大化公式(8)所定义的似然函数即可获得最优状态时长参数。当HMM状态时长模型和声韵母单元时长模型均采用高斯分布,即第n个声韵母单元的第k个状态的时长模型采用均值为mn,k方差为的高斯分布声韵母单元时长模型采用均值为mn方差为的高斯分布该最优解可以表示为:
其中dn,k为第n个声韵母单元中第k个HMM状态的时长,mn,k和分别为第n个声韵母单元的第k个HMM状态的时长模型的均值和方差,mn和声韵母单元时长模型的均值和方差,Kn为第n个声韵母单元中包含的HMM状态个数,ω为权重。
本发明提出了基于隐马尔可夫模型的语音合成中一种新的状态时长参数生成方法,结合时长整体方差的时长参数生成方法。基于隐马尔可夫模型的语音合成中传统的状态时长参数生成方法是根据HMM状态时长模型来确定的,由于HMM的状态时长模型的建立是基于短时结构,缺乏对更高韵律层级上时长分布特征信息的有效获取和建模,从而导致时长分布的过于平均。而时长整体方差模型则是在句子级别上对全部音节时长的分布特征进行了统计建模,因此较好的描述了整句语句中各音节时长的分布特点。将时长整体方差模型与HMM状态时长模型结合起来进行状态时长参数的生成,使得生成的状态时长在具有较好稳定性的基础(由HMM状态时长模型贡献)上具有更好的长短分布特性(由时长整体方差模型贡献),合成语音在时长方面更加自然,具有表现力。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内。
Claims (5)
1.语音合成中时长参数的生成方法,其特征在于,所述语音合成中时长参数的生成步骤包括:
步骤Sa:对待合成的文本进行文本分析,提取与HMM模型相关的上下文特征信息以及与时长整体方差模型相关的上下文特征信息,根据整体方差建模规范中确定的上下文特征信息项对待合成文本进行与时长整体方差模型相关的上下文特征信息提取,将与HMM模型相关的上下文特征信息依序组合成为上下文相关的HMM模型序列;
步骤Sb:利用HMM状态时长模型集对上下文相关的HMM模型序列进行决策,得到HMM状态时长模型序列;
步骤Sc:利用时长整体方差模型集对提取出的时长整体方差模型相关的上下文特征信息进行决策,得到一个时长整体方差模型;
步骤Sd:通过最大化由决策出的HMM状态时长模型似然值和时长整体方差模型似然值组成的似然函数来生成最终的时长参数;其中在计算时长整体方差模型似然值时,时长整体方差值的计算需根据整体方差建模规范中确定的语音单元级别来生成该语音单元级别上的时长整体方差值。
2.如权利要求1所述的语音合成中时长参数的生成方法,其特征在于:所述得到一个时长整体方差模型的步骤包括:
创建时长整体方差模型训练语料库,选择合适的时长整体方差建模规范,利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本;
训练生成时长整体方差模型是利用全部时长整体方差训练样本进行时长整体方差模型的估计;
基于HMM状态时长模型和训练得到的时长整体方差模型执行生成状态时长参数。
3.根据权利要求2所述的语音合成中时长参数的生成方法,其特征在于,所述选择合适的时长整体方差建模规范是确定时长整体方差建模的语音单元级别;确定与时长整体方差相关的上下文特征信息项。
4.根据权利要求2所述的语音合成中时长参数的生成方法,其特征在于,所述时长整体方差训练样本是对每个训练语句根据整体方差建模规范中确定的语音单元级别生成该语音单元级别上的时长整体方差值;根据整体方差建模规范中确定的上下文特征信息项生成每个训练语句的上下文特征信息。
5.根据权利要求1所述的语音合成中时长参数的生成方法,其特征在于,所述时长整体方差模型是生成一组上下文相关的时长整体方差模型集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110160419XA CN102222501B (zh) | 2011-06-15 | 2011-06-15 | 语音合成中时长参数的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110160419XA CN102222501B (zh) | 2011-06-15 | 2011-06-15 | 语音合成中时长参数的生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102222501A CN102222501A (zh) | 2011-10-19 |
CN102222501B true CN102222501B (zh) | 2012-11-07 |
Family
ID=44779035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110160419XA Active CN102222501B (zh) | 2011-06-15 | 2011-06-15 | 语音合成中时长参数的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102222501B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012032748A1 (ja) * | 2010-09-06 | 2012-03-15 | 日本電気株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
CN102789594B (zh) * | 2012-06-28 | 2014-08-13 | 南京邮电大学 | 一种基于diva神经网络模型的语音生成方法 |
CN113129863A (zh) * | 2019-12-31 | 2021-07-16 | 科大讯飞股份有限公司 | 语音时长预测方法、装置、设备及可读存储介质 |
CN111768755A (zh) * | 2020-06-24 | 2020-10-13 | 华人运通(上海)云计算科技有限公司 | 信息处理方法、装置、车辆和计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101064103A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于音节韵律约束关系的汉语语音合成方法及系统 |
CN101471071A (zh) * | 2007-12-26 | 2009-07-01 | 中国科学院自动化研究所 | 一种基于混合隐马尔可夫模型的语音合成系统 |
-
2011
- 2011-06-15 CN CN201110160419XA patent/CN102222501B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101064103A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于音节韵律约束关系的汉语语音合成方法及系统 |
CN101471071A (zh) * | 2007-12-26 | 2009-07-01 | 中国科学院自动化研究所 | 一种基于混合隐马尔可夫模型的语音合成系统 |
Non-Patent Citations (3)
Title |
---|
Shifeng Pan et al.GLOBAL VARIANCE MODELING ON FREQUENCY DOMAIN DELTA LSP FOR HMM-BASED SPEECH SYNTHESIS.《Acoustic, Speech and Signal Processing, 2011 IEEE International Conference on》.2011, * |
Tomoki TODA and Keiichi TOKUDA.A Speech Parameter Generation Alogrithm Considering Global Variance for HMM-Based Speech Synthesis.《IEICE TRANS.INF.&SYST.》.2007,第E90-D卷(第5期), * |
吴义坚,王仁华.基于HMM的可训练中文语音合成.《中文信息学报》.2006,第20卷(第4期), * |
Also Published As
Publication number | Publication date |
---|---|
CN102222501A (zh) | 2011-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101064104B (zh) | 基于语音转换的情感语音生成方法 | |
Jassem | Polish | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
CN100524457C (zh) | 文本至语音转换以及调整语料库的装置和方法 | |
EP2846327A1 (en) | A speech processing system and method | |
CN103928023A (zh) | 一种语音评分方法及系统 | |
CN108831435B (zh) | 一种基于多情感说话人自适应的情感语音合成方法 | |
CN1835075B (zh) | 一种结合自然样本挑选与声学参数建模的语音合成方法 | |
CN102184731A (zh) | 一种韵律类和音质类参数相结合的情感语音转换方法 | |
CN103778912A (zh) | 引导式说话人自适应语音合成的系统与方法及程序产品 | |
CN101710488A (zh) | 语音合成方法及装置 | |
CN102222501B (zh) | 语音合成中时长参数的生成方法 | |
Hashimoto et al. | Trajectory training considering global variance for speech synthesis based on neural networks | |
CN102982799A (zh) | 一种融合引导概率的语音识别优化解码方法 | |
CN105654942A (zh) | 一种基于统计参数的疑问句、感叹句的语音合成方法 | |
Thai et al. | Synthetic data augmentation for improving low-resource ASR | |
Sinha et al. | Empirical analysis of linguistic and paralinguistic information for automatic dialect classification | |
Yamagishi et al. | Phone duration modeling using gradient tree boosting | |
CN104485099A (zh) | 一种合成语音自然度的提升方法 | |
Lee et al. | Modeling Japanese F0 contours using the PENTAtrainers and AMtrainer | |
Lee et al. | Speech emotion recognition using spectral entropy | |
Castelli | Generation of F0 contours for Vietnamese speech synthesis | |
Arora et al. | Automatic extraction of phonetically rich sentences from large text corpus of indian languages. | |
Wang et al. | Speaker adaptation of speaking rate-dependent hierarchical prosodic model for Mandarin TTS | |
Zhang et al. | Cross-validation based decision tree clustering for HMM-based TTS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |