CN101178896B - 基于声学统计模型的单元挑选语音合成方法 - Google Patents

基于声学统计模型的单元挑选语音合成方法 Download PDF

Info

Publication number
CN101178896B
CN101178896B CN2007101910786A CN200710191078A CN101178896B CN 101178896 B CN101178896 B CN 101178896B CN 2007101910786 A CN2007101910786 A CN 2007101910786A CN 200710191078 A CN200710191078 A CN 200710191078A CN 101178896 B CN101178896 B CN 101178896B
Authority
CN
China
Prior art keywords
statistical model
phoneme
unit
synthetic method
unit selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007101910786A
Other languages
English (en)
Other versions
CN101178896A (zh
Inventor
凌震华
胡郁
胡国平
吴晓如
刘庆峰
王仁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN2007101910786A priority Critical patent/CN101178896B/zh
Publication of CN101178896A publication Critical patent/CN101178896A/zh
Application granted granted Critical
Publication of CN101178896B publication Critical patent/CN101178896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及基于声学统计模型的单元挑选语音合成方法,其方法包括提取训练语料库各声学特征;结合训练语料库中各句话的音段、韵律等标注信息,训练各种声学特征所对应的统计模型,在合成时通过对输入文本进行文本分析,得到待合成句子中各音素对应的各种声学特征的统计模型。以备选单元序列包含的声学参数相对于待合成句的声学统计模型具有最大的似然值为准则,搜索最优的备选单元;使用声学统计模型间的KLD来实现合成单元的快速预挑选;最终通过对各个音素的最优备选单元的波形进行平滑和拼接,得到该句话的合成语音。本发明提高合成语音音质;同时提高传统拼接合成方法的合成效果,并且可以实现系统的自动构建和语种的无关性。

Description

基于声学统计模型的单元挑选语音合成方法
技术领域
本发明涉及波形拼接语音合成中的单元挑选方法,具体是通过设计、训练一组声学统计模型来指导语音片断单元的挑选方法。
背景技术
语音合成是实现自然高效的人机交互的一项重要技术。现今最为常见的语音合成方法有两种,一种是基于单元挑选与波形拼接的合成方法,另外一种是基于声学统计模型的参数合成方法。
在传统的单元挑选算法中,目标代价与连接代价往往是通过计算单元间的上下文属性的差异或者备选单元声学参数与预测目标之间的距离来实现的。这样造成的结果是,代价函数的设计往往需要语种相关的语音学专家的参与,进行大量的手工调试,使得系统构建的自动化程度收到限制;并且设计的代价函数难以保证普适性,往往会产生合成效果不稳定的问题。
近十年来,一种基于统计声学模型(主要是隐马尔柯夫模型,Hidden MarkovModel,HMM)的参数语音合成方法,得到了迅速的发展。这种方法分为训练和合成两个阶段。在模型训练阶段,得到各音素在不同上下文环境下所对应的频谱和基频参数的声学统计模型;在合成阶段,通过基于最大似然准则的参数生成方法,来预测合成语音所需的频谱和韵律参数,最终经过参数合成器生成语音。整个系统可以实现训练的自动化和语种的无关性,并且合成语音的连续性、稳定性和韵律的自然度都相当高。但是由于参数合成器的限制,使得这种合成方法最终恢复语音的音质往往不很理想。
发明的内容
本发明的目的就是将对声学参数统计建模的思想引入到单元挑选与波形拼接合成的过程中;摆脱基于统计建模的参数合成对于合成器的依赖,提高合成语音音质;同时提高传统拼接合成方法的合成效果,并且可以实现系统的自动构建和语种的无关性。
本发明是通过以下技术方案实现的:
基于声学统计模型的单元挑选语音合成方法,该方法包括以下步骤实现:
(1)对于训练语料库,提取其频谱、基频、时长的声学特征;
(2)结合训练语料库中各句话的音段、韵律标注信息,训练各个音素在不同上下文环境中,各种声学特征所对应的统计模型;
(3)在合成时通过对输入文本进行文本分析,得到待合成句子中各音素对应的各种声学特征的统计模型;
(4)在单元挑选的过程中,以备选单元序列包含的声学参数相对于待合成句的声学统计模型具有最大的似然值为准则,搜索最优的备选单元;
(5)通过计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离,来度量备选单元和目标单元上下文环境之间的差异程度,以此来进行合成单元的预挑选;
(6)最终通过对各个音素的最优备选单元的波形进行拼接,得到该句话的合成语音。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1)中在静态参数的基础上加入了表征前后帧参数变化的动态参数。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1)中使用的频谱参数为美尔倒谱参数。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1)中基频参数为对数F0数值。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(1)中对于其中的频谱参数部分采用连续概率分布HMM进行建模,而对于基频部分采用多空间概率分布HMM进行建模。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(2)中所使用的模型形式为隐马尔柯夫模型。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(3)中各种声学特征的统计模型是经过文本分析后得到每个目标音素的上下文环境描述信息,然后将这些信息输入模型聚类决策树而得到的。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(4)中满足的似然值最大准则采用如下算法得到最优备选单元:
u * = arg max u Σ n = 1 N [ W s · log P ( s ( u n ) | λ n s ) + W p · log P ( p ( u n ) | λ n p )
+ W d · log P ( T n | λ n d ) ] (1)
其中,u*为最优备选单元序列,其中Ws,Wp和Wd分别为频谱、基频和时长模型似然值的权值,输入的一句待合成语句中音素的个数为N;第n个目标音素(n=1,...,N)在其所在的上下文环境下对应的频谱、基频、时长模型分别为为λn s,λn p和λn d;对于音素n的某一个备选un,其对应的频谱和基频特征向量序列参数记为 s ( u n ) = [ s n , 1 T , . . . , s n , T n T ] T p ( u n ) = [ p n , 1 T , . . . , p n , T n T ] T 其中Tn表示单元un的帧数,sn,i和pn,i分别表示单元un中第i帧对应的频谱和基频特征向量。
基于声学统计模型的单元挑选语音合成方法,所述式(1)可以改写成各个备选音素的目标代价和相邻备选音素连接代价之和的形式,再使用维特比算法实现最优单元序列的搜索。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(5)中计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离是通过以下算式计算得出的:
KLD ( u n ) = W s · KLD ( λ n 5 , λ ~ n s ) + W p · KLD ( λ n p , λ ~ n p ) + W d · KLD ( λ n d , λ ~ n d )
其中
Figure S2007101910786D00036
为备选单元在其上下文环境下所对应的频谱、基频和时长模型。
基于声学统计模型的单元挑选语音合成方法,所述的上述步骤(6)中对各个音素的最优备选单元采用了平移加窗叠加的方法进行波形拼接。
基于声学统计模型的单元挑选语音合成方法,所述的平移加窗叠加的方法为:首先通过对拼接处前后两帧进行平移以搜索波形相关系数最大时对应的平移位置,然后对平移后的波形进行时域的加窗叠加以实现拼接处的平滑过渡。
本发明通过将对声学参数统计建模的思想引入到单元挑选与波形拼接合成的过程中;摆脱基于统计建模的参数合成对于合成器的依赖,提高合成语音音质;同时提高传统拼接合成方法的合成效果,并且可以实现系统的自动构建和语种的无关性。在传统的基于统计建模的参数合成器系统中,因为统计建模的平滑作用和合成器生成语音的质量,导致了合成语音质量较差。而传统波形拼接系统因为不能充分利用统计建模思想和方法的能力,在合成语音的自然度上经常出现不自然的跳动,但是因为采用真实的波形构成语音,合成语音音质较好。该发明利用声学统计建模对数据建立了高度综合的统计模型,可以非常好的学习到自然语音中的语音规律,同时结合基于概率模型的单元选择,使在语音合成单元搜索过程中的很多权值可以自动化的进行设置,解决了系统自动构建以及不依赖语种进行系统调试的问题。同时,采用自然的波形单元进行拼接,直接利用自然语音中的细节语谱特征,不使用语音合成器,最后获得高质量的输出语音。
我们在一个28000句的中文女声音库上进行了系统建立的实验,对比了本发明中提到的方法和传统的单元挑选与波形拼接合成方法。使用两种方法分别合成11个语音合成典型应用领域内的各20句文本,由5名测听人员进行MOS分的评分,最终的评测结果可以看出,在使用了基于统计声学模型的单元挑选方法后,合成效果在所有领域内均有一致性的提升,平均的MOS分增加在0.5分左右。
术语解释:
语音合成(Text-To-Speech):又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科,是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是:如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,目的是让计算机能够产生高清晰度、高自然度的连续语音。
最大似然估计(Maximum Likelihood Estimation):假设随机变量X的分布函数为F(X,θ),密度函数为p(X,θ),θ为参数,θ=(θ1,...θm)∈Θ,X1,...,Xn来源于分布族{F(X,θ):θ∈Θ},定义似然函数 L ( θ ) = Π i = 1 n p ( x i , θ ) 是θ=(θ1,...θm)的函数,若
Figure S2007101910786D00042
是L(θ)的唯一最大值点,则称为θ的最大似然估计。
Kullback-Leibler距离(Kullback-Leibler Divergence,KLD):是用来表征两个分布模型之间的差异性,假设
Figure S2007101910786D00044
Figure S2007101910786D00045
分别表示两个N维特征的统计模型,它们之间的KLD可以使用
Figure S2007101910786D00051
进行计算,也可以定义对称形式的KLD为
Figure S2007101910786D00052
附图说明
附图为基于统计声学模型的单元挑选合成方法流程图。
具体实施方式
参见附图所示。基于声学统计模型的单元挑选语音合成方法,其实现方法包括以下步骤:
(1).提取训练语料库的声学特征
我们这里提取的声学特征包括各帧对应的频谱、基频特征参数,这里我们使用的频谱参数为mel-cepstrum参数,基频参数为对数F0数值,并且在静态参数的基础上加入了表征前后帧参数变化的动态参数。以音素n第i帧的频谱特征sn,i为例,
s n , i = [ c n , i T , Δ c n , i T , Δ 2 c n , i T ] T
Δcn,i=-0.5cn,i-1+0.5cn,i+1               (2)
Δ2cn,i=0.25cn,i-1-0.5cn,i+0.25cn,i+1    (3)
其中cn,i为音素n第i帧频谱的静态特征。
(2).进行声学统计模型的训练
我们对于其中的频谱参数部分采用连续概率分布HMM进行建模,而对于基频部分采用多空间概率分布HMM(MSD-HMM)进行建模。HMM中各状态的观测概率密度函数均为单高斯正态分布,并且我们对所有HMM模型中的状态转移概率矩阵进行了依赖单音素的绑定。此外,在上下文相关模型训练过程中,我们还使用决策树来对频谱和基频HMM模型各状态的观测概率密度函数分别进行聚类,以保证最终模型参数估计的鲁棒性,聚类决策树使用的问题集主要依据语料库中包含的音段和韵律属性标注来进行设计。在频谱和基频参数的HMM模型训练完成以后,使用用此模型对语料库中语音数据进行帧/状态的强制对齐,并且以对齐后得到的音素切分结果为训练数据来训练音素时长的HMM模型,这里同样会使用基于决策树的模型聚类策略。
(3).待合成句音素声学统计模型的决策
在合成时,对于输入文本首先经过文本分析,得到每个目标音素的上下文环境描述信息,然后将这些信息输入模型聚类决策树,得到每个目标音素对应的频谱、基频和时长模型λn sλn p和λn d
(4).基于声学统计模型似然值准则的单元挑选
假设输入的一句待合成语句中音素的个数为N;第n个目标音素(n=1,...,N)在其所在的上下文环境下对应的频谱、基频、时长模型分别为为λn s,λn p和λn d;对于音素n的某一个备选un,其对应的频谱和基频特征向量序列参数记为 s ( u n ) = [ s n , 1 T , . . . , s n , T n T ] T p ( u n ) = [ p n , 1 T , . . . , p n , T n T ] T 其中Tn表示单元un的帧数,sn,i和pn,i分别表示单元un中第i帧对应的频谱和基频特征向量;这里的特征向量除了各帧声学参数对应的静态参数外,还包含依据相邻帧计算得到的动态特征;对于整句话,我们记挑选得到的备选单元序列为u=[u1,...,uN]。最终,我们希望搜索得到的最优备选单元序列u*,满足以下的似然值最大准则
u * = arg max u Σ n = 1 N [ W s · log P ( s ( u n ) | λ n s ) + W p · log P ( p ( u n ) | λ n p )
+ W d · log P ( T n | λ n d ) ] (4)
其中Ws,Wp和Wd分别为频谱、基频和时长模型似然值的权值。为了计算s(un)和p(un)相对λn s和λn p似然值,我们需要考虑un对于目标模型的所有可能的帧/状态分配结果;出于简化计算的目的,这里我们使用音库中un的状态切分结果来作为唯一的帧/状态对齐路径。在状态分配确定以后,我们可以得到备选单元un的第i帧对应的正态观测概率密度函数分别为
Figure S2007101910786D00066
则式(4)可以改写为
u * = arg max u Σ n = 1 N [ W s · m n d T n · Σ i = 1 T n LL ( s n , i , m n , i s , Σ n , i s )
+ W p · m n d T n · Σ i = 1 T n LL ( p n , i , m n , i p , Σ n , i p ) + W d · LL ( T n , m n d , σ n d 2 ) ] (5)
其中
Figure S2007101910786D00073
= - D 2 log 2 π - 1 2 log | Σ | - 1 2 ( o - m ) T Σ - 1 ( o - m ) (6)
式(5)中对于频谱和基频参数似然值的计算,依据备选音素时长和预测的目标时长进行了规整;式(6)中D表示特征o的维数。考虑到各帧的声学特征sn,i和pn,i包含有依赖于前后帧的动态参数,因此音素边界帧对应声学参数的似然值计算依赖相邻的其他音素,我们也可以据此将式(5)改写成单元挑选算法中常用的连接代价和目标代价和的形式:
u * = arg min u { Σ n = 1 N TC ( u n ) + Σ n = 2 N CC ( u n - 1 , u n ) } (7)
其中TC(un)和CC(un-1,un)分别代表单元un的目标代价和单元un-1与un之间的连接代价,各自的计算如下:
TC ( u n ) = - W s · m n d T n · Σ i = 2 T n - 1 LL ( s n , i , m n , i s , Σ n , i s )
- W p · m n d T n · Σ i = 2 T n - 1 LL ( p n , i , m n , i p , Σ n , i p ) - W d · LL ( T n , m n , d , σ n d 2 ) (8)
CC ( u n - 1 , u n ) = - W s · m n d T n · LL ( s n , 1 , m n , 1 s , Σ n , 1 s )
- W s · m n - 1 d T n - 1 · LL ( s n - 1 , T n - 1 , m n - 1 , T n - 1 s , Σ n - 1 , T n - 1 s )
- W p · m n d T n · LL ( p n , 1 , m n , 1 p , Σ n , 1 p )
- W p · m n - 1 d T n - 1 · LL ( p n - 1 , T n - 1 , m n - 1 , T n - 1 p , Σ n - 1 , T n - 1 p ) (9)
依据式(7)~(9)对于目标代价和连接代价的定义,我们可以使用常用的Viterbi搜索方法来进行最优单元序列的搜索。区别于传统的代价函数计算方法,这里的连接代价和目标代价的计算均由声学统计模型基于最大似然准则导出。
(5).基于Kullback-Leibler距离的单元预选
我们通过计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离,来度量备选单元和目标单元上下文环境之间的差异程度,从而达到单元预选和提高运算效率的目的。对每个备选单元un计算
KLD ( u n ) = W s · KLD ( λ n 5 , λ ~ n s ) + W p · KLD ( λ n p , λ ~ n p ) + W d · KLD ( λ n d , λ ~ n d ) (10)
其中
Figure S2007101910786D00087
为备选单元在其上下文环境下所对应的频谱、基频和时长模型。通过对每个目标音素的所有备选样本计算式(10),可以得到使KLD(un)最小的K个备选,再进入代价计算和Viterbi搜索。对于两个HMM模型之间的KLD里我们使用两个其上限来估计,如式(11)所示:
Figure S2007101910786D00088
Figure S2007101910786D00089
(11)
其中s是HMM中的状态数;
Figure S2007101910786D000810
Figure S2007101910786D000811
分别表示模型λ和中第i状态的观测概率密度函数;aij
Figure S2007101910786D000813
表示λ和
Figure S2007101910786D000814
的状态转移概率。因为在单元挑选过程中目标单元和备选样本对应同一个单音素,并且我们在训练过程中的状态转移概率矩阵是按照单音素绑定的,所以这里
Figure S2007101910786D00091
式(11)也可以随之简化为
Figure S2007101910786D00092
Figure S2007101910786D00093
(12)
对每个状态,两个单高斯的正态分布之间的KLD可以使用通过式(13)进行计算:
Figure S2007101910786D00094
+ 1 2 ( m ~ i - m i ) T Σ ~ i - 1 ( m ~ i - m i ) (13)
由于我们在模型训练过程中对于频谱、基频和时长模型各状态的输出概率密度函数进行了基于决策树的聚类,因此所有的
Figure S2007101910786D00096
Figure S2007101910786D00097
均为已知的,式(13)可以在模型训练完成之后独立于单元挑选过程离线计算,从而使得整个基于KLD的单元预选过程可以较快的实现。
(6).各音素最优备选波形的拼接。在单元挑选完成之后,我们会对挑选得到的合成单元通过波形拼接的方法合成最终的语音。这里对于相邻音素边界处的波形拼接,采用了平移加窗叠加的方法。首先通过对拼接处前后两帧进行平移以搜索波形相关系数最大时对应的平移位置,然后对平移后的波形进行时域的加窗叠加以实现拼接处的平滑过渡。

Claims (12)

1.基于声学统计模型的单元挑选语音合成方法,其特征在于包括以下步骤实现:
(1)对于训练语料库,提取其频谱、基频、时长的声学特征;
(2)结合训练语料库中各句话的音段、韵律标注信息,训练各个音素在不同上下文环境中,各种声学特征所对应的统计模型;
(3)在合成时通过对输入文本进行文本分析,得到待合成句子中各音素对应的各种声学特征的统计模型;
(4)在单元挑选的过程中,以备选单元序列包含的声学参数相对于待合成句子的声学统计模型具有最大的似然值为准则,搜索最优的备选单元;
(5)通过计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离,来度量备选单元和目标单元上下文环境之间的差异程度,以此来进行合成单元的预挑选;
(6)最终通过对各个音素的最优备选单元的波形进行拼接,得到待合成句子的合成语音。
2.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(1)中在静态参数的基础上加入了表征前后帧参数变化的动态参数。
3.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(1)中使用的频谱为美尔倒谱参数。
4.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(1)中基频为对数F0数值。
5.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(1)中对于其中的频谱部分采用连续概率分布HMM进行建模,而对于基频部分采用多空间概率分布HMM进行建模。
6.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(2)中所使用的模型形式为隐马尔柯夫模型。
7.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(3)中各种声学特征的统计模型是经过文本分析后得到每个目标音素的上下文环境描述信息,然后将这些信息输入模型聚类决策树而得到的。
8.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(4)中满足的似然值最大准则采用如下算法得到最优备选单元:
u * = arg max u Σ n = 1 N [ W s · log P ( s ( u n ) | λ n s ) + W p · log P ( p ( u n ) | λ n p )
+ W d · log P ( T n | λ n d ) ] - - - ( 1 )
其中,u*为最优备选单元序列,其中Ws,Wp和Wd分别为频谱、基频和时长模型似然值的权值,输入的一句待合成句子中音素的个数为N;第n个目标音素(n=1,...,N)在其所在的上下文环境下对应的频谱、基频、时长模型分别为为
Figure FSB00000664688200023
Figure FSB00000664688200024
对于音素n的某一个备选un,其对应的频谱和基频特征向量序列参数记为
Figure FSB00000664688200025
Figure FSB00000664688200026
其中Tn表示单元un的帧数,sn,i和pn,i分别表示单元un中第i帧对应的频谱和基频特征向量。
9.根据权利要求8所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述式(1)可以改写成各个备选音素的目标代价和相邻备选音素连接代价之和的形式,再使用维特比算法实现最优单元序列的搜索。
10.根据权利要求8所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(5)中计算同一音素在两个不同上下文环境下对应的HMM模型之间的KLD距离是通过以下算式计算得出的:
KLD ( u n ) = W s · KLD ( λ n s , λ ~ n s ) + W p · KLD ( λ n p , λ ~ n p ) + W d · KLD ( λ n d , λ ~ n d )
其中
Figure FSB00000664688200028
Figure FSB00000664688200029
为备选单元在其上下文环境下所对应的频谱、基频和时长模型。
11.根据权利要求1所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的步骤(6)中对各个音素的最优备选单元采用了平移加窗叠加的方法进行波形拼接。
12.根据权利要求11所述的基于声学统计模型的单元挑选语音合成方法,其特征在于所述的平移加窗叠加的方法为:首先通过对拼接处前后两帧进行平移以搜索波形相关系数最大时对应的平移位置,然后对平移后的波形进行时域的加窗叠加以实现拼接处的平滑过渡。
CN2007101910786A 2007-12-06 2007-12-06 基于声学统计模型的单元挑选语音合成方法 Active CN101178896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101910786A CN101178896B (zh) 2007-12-06 2007-12-06 基于声学统计模型的单元挑选语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101910786A CN101178896B (zh) 2007-12-06 2007-12-06 基于声学统计模型的单元挑选语音合成方法

Publications (2)

Publication Number Publication Date
CN101178896A CN101178896A (zh) 2008-05-14
CN101178896B true CN101178896B (zh) 2012-03-28

Family

ID=39405119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101910786A Active CN101178896B (zh) 2007-12-06 2007-12-06 基于声学统计模型的单元挑选语音合成方法

Country Status (1)

Country Link
CN (1) CN101178896B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710488B (zh) * 2009-11-20 2011-08-03 安徽科大讯飞信息科技股份有限公司 语音合成方法及装置
CN102270449A (zh) 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
CN102752239B (zh) * 2012-06-28 2015-08-12 北京捷通华声语音技术有限公司 一种提供音库混合训练模型的方法和系统
CN103531196B (zh) * 2013-10-15 2016-04-13 中国科学院自动化研究所 一种波形拼接语音合成的选音方法
CN103632663B (zh) * 2013-11-25 2016-08-17 内蒙古大学 一种基于hmm的蒙古语语音合成前端处理的方法
CN104766611A (zh) * 2014-01-07 2015-07-08 安徽科大讯飞信息科技股份有限公司 目标任务分布估计和声学模型自适应方法及系统
CN104112444B (zh) * 2014-07-28 2018-11-06 中国科学院自动化研究所 一种基于文本信息的波形拼接语音合成方法
CN106297765B (zh) * 2015-06-04 2019-10-18 科大讯飞股份有限公司 语音合成方法及系统
CN106297766B (zh) * 2015-06-04 2019-11-15 科大讯飞股份有限公司 语音合成方法及系统
CN104916284B (zh) * 2015-06-10 2017-02-22 百度在线网络技术(北京)有限公司 用于语音合成系统的韵律与声学联合建模的方法及装置
CN106384587B (zh) * 2015-07-24 2019-11-15 科大讯飞股份有限公司 一种语音识别方法及系统
WO2017028003A1 (zh) * 2015-08-14 2017-02-23 华侃如 基于隐马尔科夫模型的语音单元拼接方法
CN107924678B (zh) * 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
CN105206264B (zh) * 2015-09-22 2017-06-27 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105427855A (zh) * 2015-11-09 2016-03-23 上海语知义信息技术有限公司 一种智能软件的语音播报系统及语音播报方法
CN105654939B (zh) * 2016-01-04 2019-09-13 极限元(杭州)智能科技股份有限公司 一种基于音向量文本特征的语音合成方法
CN105654940B (zh) * 2016-01-26 2019-12-24 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN105679306B (zh) * 2016-02-19 2019-07-09 云知声(上海)智能科技有限公司 语音合成中预测基频帧的方法及系统
WO2018209556A1 (en) * 2017-05-16 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for speech synthesis
CN107240401B (zh) * 2017-06-13 2020-05-15 厦门美图之家科技有限公司 一种音色转换方法及计算设备
CN107452369B (zh) * 2017-09-28 2021-03-19 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
CN108172211B (zh) * 2017-12-28 2021-02-12 云知声(上海)智能科技有限公司 可调节的波形拼接系统及方法
CN108900886A (zh) * 2018-07-18 2018-11-27 深圳市前海手绘科技文化有限公司 一种手绘视频智能配音生成以及同步方法
CN109285535A (zh) * 2018-10-11 2019-01-29 四川长虹电器股份有限公司 基于前端设计的语音合成方法
CN110047462B (zh) * 2019-01-31 2021-08-13 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN110047463B (zh) * 2019-01-31 2021-03-02 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN109979428B (zh) * 2019-04-02 2021-07-23 北京地平线机器人技术研发有限公司 音频生成方法和装置、存储介质、电子设备
CN110534089B (zh) * 2019-07-10 2022-04-22 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
CN112562637B (zh) * 2019-09-25 2024-02-06 北京中关村科金技术有限公司 拼接语音音频的方法、装置以及存储介质
CN112151009B (zh) * 2020-09-27 2024-06-25 平安科技(深圳)有限公司 一种基于韵律边界的语音合成方法及装置、介质、设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1035537A2 (en) * 1999-03-09 2000-09-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
CN1613107A (zh) * 2001-11-06 2005-05-04 D·S·P·C·技术有限公司 基于hmm的文字-音素分析器及其训练方法
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN1755796A (zh) * 2004-09-30 2006-04-05 国际商业机器公司 文本到语音转换中基于统计技术的距离定义方法和系统
CN1835075A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种结合自然样本挑选与声学参数建模的语音合成方法
CN101004909A (zh) * 2007-02-16 2007-07-25 黑龙江大学 基于韵律特征的汉语语音合成基元的选取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1035537A2 (en) * 1999-03-09 2000-09-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
CN1613107A (zh) * 2001-11-06 2005-05-04 D·S·P·C·技术有限公司 基于hmm的文字-音素分析器及其训练方法
CN1755796A (zh) * 2004-09-30 2006-04-05 国际商业机器公司 文本到语音转换中基于统计技术的距离定义方法和系统
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN1835075A (zh) * 2006-04-07 2006-09-20 安徽中科大讯飞信息科技有限公司 一种结合自然样本挑选与声学参数建模的语音合成方法
CN101004909A (zh) * 2007-02-16 2007-07-25 黑龙江大学 基于韵律特征的汉语语音合成基元的选取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱东来 等.基于隐马尔科夫模型的汉语韵律词基频模型.《声学学报》.2002,第27卷(第6期), *

Also Published As

Publication number Publication date
CN101178896A (zh) 2008-05-14

Similar Documents

Publication Publication Date Title
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
CN102354495B (zh) 半开放式口语试题的测试方法及系统
CN101064104B (zh) 基于语音转换的情感语音生成方法
Yu et al. Word-level emphasis modelling in HMM-based speech synthesis
CN104217713A (zh) 汉藏双语语音合成方法及装置
Ling et al. The USTC and iFlytek speech synthesis systems for Blizzard Challenge 2007
CN1835075B (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
US20060095264A1 (en) Unit selection module and method for Chinese text-to-speech synthesis
Qian et al. Improved prosody generation by maximizing joint probability of state and longer units
CN103632663B (zh) 一种基于hmm的蒙古语语音合成前端处理的方法
CN101950560A (zh) 一种连续语音声调识别方法
CN110364140A (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN109326280B (zh) 一种歌唱合成方法及装置、电子设备
CN102254554A (zh) 一种对普通话重音进行层次化建模和预测的方法
Chen et al. The ustc system for blizzard challenge 2011
TWI503813B (zh) 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
CN116092471A (zh) 一种面向低资源条件下的多风格个性化藏语语音合成模型
Koudounas et al. Italic: An italian intent classification dataset
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
Toman et al. Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis
Balyan et al. Automatic phonetic segmentation of Hindi speech using hidden Markov model
Chen et al. An investigation of implementation and performance analysis of DNN based speech synthesis system
Dines et al. Personalising speech-to-speech translation: Unsupervised cross-lingual speaker adaptation for HMM-based speech synthesis
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: IFLYTEK CO., LTD.

Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD.

CP03 Change of name, title or address

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: 230088 information industry base, No. 616, Mount Huangshan Road, hi tech Zone, Anhui, Hefei

Patentee before: Anhui USTC iFLYTEK Co., Ltd.