CN1835074B - 一种结合高层描述信息和模型自适应的说话人转换方法 - Google Patents

一种结合高层描述信息和模型自适应的说话人转换方法 Download PDF

Info

Publication number
CN1835074B
CN1835074B CN200610039680A CN200610039680A CN1835074B CN 1835074 B CN1835074 B CN 1835074B CN 200610039680 A CN200610039680 A CN 200610039680A CN 200610039680 A CN200610039680 A CN 200610039680A CN 1835074 B CN1835074 B CN 1835074B
Authority
CN
China
Prior art keywords
model
speaker
parameter
voice
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200610039680A
Other languages
English (en)
Other versions
CN1835074A (zh
Inventor
秦龙
凌震华
王仁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV filed Critical ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Priority to CN200610039680A priority Critical patent/CN1835074B/zh
Publication of CN1835074A publication Critical patent/CN1835074A/zh
Application granted granted Critical
Publication of CN1835074B publication Critical patent/CN1835074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种结合高层描述信息和模型自适应的说话人转换方法,包括原始说话人声学模型的训练,使用结合高层描述信息和最大似然线性回归的自适应方法对原始说话人声学模型进行调整,以及由自适应得到的目标说话人模型进行参数生成并合成目标语音三个主要阶段。使用本发明中的说话人转换方法,可以提高合成语音的音质,增强合成语音中目标说话人的特征,实现具有多表现力的语音合成系统。

Description

一种结合高层描述信息和模型自适应的说话人转换方法
技术领域
本发明涉及语音合成中说话人转换的方法,具体是通过高层韵律描述信息和模型自适应方法使语音合成系统可以合成多音色、多风格的语音。
背景技术
随着语音合成技术的飞速发展,合成语音的音质和自然度都有了很大的提高,人们已经不再满足一个语音合成系统仅可合成单一音色、单一风格的语音的情形。为了使语音合成系统可以合成出多种音色、多种风格的语音,如果使用传统的语音合成技术,则需要录制多个说话人的不同发音风格的音库,然而音库的录制是一个成本非常大且需要很长的时间才能完成的工作。为了实现具有多表现力的语音合成系统,同时又不至于录制更多更大的音库,说话人转换技术被提出和广泛研究。
目前应用较为广泛的说话人转换方法有基于码本映射(Codebook Mapping)的方法和基于混合高斯模型(Gaussian Mixture Model)的方法。码本映射和基于混合高斯模型的说话人转换方法,一般都需要目标说话人的语音数据和原始说话人的语音数据在文本上相对应,这样就可以利用原始说话人与目标说话人的声学参数之间的对应关系,在参数空间建立起由原始说话人到目标说话人之间的一对一的映射。不过,要求文本和目标说话人语音对应增加了实际系统的使用难度。同时,采用这两种方法转换得到的目标说话人的合成语音中,往往普遍的存在频谱不连续的现象,造成了合成语音音质的降低。
基于隐马尔可夫模型(Hidden Markov Model)的方法也是一种较为广泛应用的说话人转换方法。基于隐马尔可夫模型的说话人转换方法,在进行参数生成的时候充分考虑了语音参数的动态特征,可以生成较为平滑的语音频谱,很好的解决合成语音中的不连续现象。但一般的基于隐马尔可夫模型的说话人转换方法,在进行模型自适应调整时,只是简单的使用数据驱动的方法对原始说话人的声学模型进行绑定,忽略了语音特征的高层描述信息,导致一些完全不相关的模型却进行相同的调整,造成了合成语音中目标说话人的特征不明显、音质下降等问题。
发明内容
本发明的目的就是提出一种结合高层描述信息和模型自适应的基于隐马尔可夫模型的说话人转换方法,提高合成语音的音质,增强合成语音中目标说话人的特征,使语音合成系统可以合成多种音色、多种风格的语音。
一种结合高层描述信息和模型自适应的说话人转换方法,其特征是包括训练阶段和合成阶段,在训练阶段,首先,使用原始说话人的语音数据,训练得到原始说话人频谱、基频和时长隐马尔可夫模型;然后,使用结合高层描述信息和最大似然线性回归的自适应方法,分别对训练得到的原始说话人的频谱、基频和时长模型进行自适应调整,从而得到目标说话人的频谱、基频和时长参数的隐马尔可夫模型;合成阶段则是根据得到的目标说话人的频谱、基频和时长模型,采用考虑参数动态特征的参数生成算法,相应的生成目标说话人的频谱、基频和时长参数,并将其输入到参数合成器中,由参数合成器合成出最终的目标说话人的语音.具体实现步骤为:
(1)、训练阶段的具体实现过程如下:
1)对原始说话人的语音数据进行分帧处理以及语音参数分析和提取,得到原始说话人每一帧语音的线谱频率和基频参数;并对每一帧的线谱频率参数计算其动态参数,即一阶差分、二阶差分参数,由线谱频率参数及其一阶差分、二阶差分参数作为原始说话人的频谱参数;使用多空间概率分布隐马尔可夫模型对频谱和基频参数进行建模,从而得到原始说话人的频谱和基频的隐马尔可夫模型;
2)使用1)中训练得到的原始说话人的频谱和基频隐马尔可夫模型,对原始说话人的语音数据进行隐马尔可夫模型状态切分,从而得到了原始说话人的时长参数,进而训练得到原始说话人的隐马尔可夫时长模型;
3)充分考虑合成系统中能够提供的对于语音单元的高层描述信息,如上下文相关的韵律信息,这些高层描述信息可以有效辅助建立原始说话人和目标说话人的声学参数的映射关系;根据最大似然准则,利用语音单元的高层描述信息,分别为原始说话人的各声学状态的频谱模型建立一棵上下文相关的决策树;具体做法是,在使用决策树对原始说话人的某一状态的频谱模型进行聚类的过程中,每个节点分裂时,总是选择可以使状态输出似然值的增加值最大的问题,对该节点中的所有频谱模型进行决策分类;
4)将3)中生成的各状态频谱模型的决策树合并为一棵决策树,实际上就是在一个根节点下挂载着3)中得到的各状态的决策树,在使用这棵决策树进行模型绑定时,首先通过决策问题将不同状态的模型分开,然后对应每个状态的频谱模型则可以使用3)中得到的各状态的决策树对原始说话人的相应状态的频谱模型进行绑定;
5)使用参数分析算法,对目标说话人的语音进行分析,提取目标说话人的频谱参数(线谱频率及其一阶差分、二阶差分参数),采用自顶向下(Top-Down)或自底向上(Bottoom-Up)的方式遍历4)中生成的决策树;对于那些有足够的数据并且是叶子节点或者其所有子节点均没有足够的数据来进行调整的节点作为一个回归节点。
6)对5)中得到的各回归节点中的模型进行线性调整,主要是通过求得表征原始说话人频谱模型与目标说话人频谱模型之间映射关系的回归矩阵来实现的;这样便得到了目标说话人的频谱模型;
7)对于原始说话人的基频模型,采用与频谱模型相同的如上3)、4)、5)、6)中所述的调整方法,进而得到目标说话人的基频模型;
8)由得到的目标说话人的频谱和基频模型对目标语音进行隐马尔可夫模型状态切分,得到用于训练的目标说话人的时长数据;
9)采用与频谱和基频相同的模型调整方法,对原始说话人的状态时长模型进行调整,从而得到目标说话人的时长模型;
(2)、合成阶段具体采用如下的方法:
1)按照对输入文本分析的结果,找得对应的目标说话人的频谱、基频和时长模型序列。
2)对这些模型使用考虑语音参数动态特征的参数生成方法,具体方法为根据最大似然准则,最大化输出概率其中0为语音参数矢量(包括静态参数和动态参数),Q为状态高斯序列指出每个高斯属于哪个状态,λ为训练阶段得到的目标说话人的频谱、基频和时长隐马尔可夫模型,假设在P(Q|λ)最大的条件下,上述最大化输出概率等同于最大化,其中U为相应高斯模型的协方差矩阵组成的对角矩阵,M为由相应高斯模型的均值序列组成的矩阵,O=WC,其中C为语音静态参数矢量,W为由静态参数生成包括静态特征和动态特征的参数矢量的计算矩阵,则可以通过
Figure G2006100396803D00042
求得最终生成的语音静态参数为C=(WTU-1W)-1WTU-1MT,按照这种考虑语音动态特征的参数生成算法,分别生成目标说话人的线谱频率、基频和时长参数;
3)将生成的线谱频率、基频和时长参数输入到线谱参数合成器,合成出目标说话人的语音。
发明的效果
语音高层描述信息的使用,避免了一些完全不相关的模型却使用相同的回归矩阵进行调整所造成的合成语音的音质降低。同时,也增强了合成语音中目标说话人的特征。
结合高层描述信息和模型自适应的说话人转换方法,使语音合成系统可以合成出多个说话人的语音,同时又不增加太大的成本和音库的存储空间,合成系统建立的周期也大大缩短。
结合高层描述信息和模型自适应的说话人转换方法,也可以帮助合成系统合成出不同风格,如不同的情感、不同年龄、不同发音方式的语音。
术语解释
语音合成(Text-To-Speech):又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科,是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是:如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,目的是让计算机能够产生高清晰度、高自然度的连续语音。
说话人转换(Voice Conversion):它是近年来语音合成领域中的一个研究热点,主要是对一个人(原始说话人)的语音进行处理,使它听起来像另一个人(目标说话人)说出来的一样。它可以应用商业、军事、娱乐等多个领域。
语音特征的高层描述信息:主要是指自然语音中一些上下文相关的信息,如前后音素环境、在韵律层次中的位置等。各种语音参数如频谱参数、基频参数都和高层描述信息有很大的相关性。
隐马尔可夫模型(Hidden Markov Model):马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。用HMM刻画语音信号需做出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。
附图说明
图1:本发明的系统工作流程框图。
图2:上下文相关的决策树。
具体实施方式
参见附图,结合高层描述信息和模型自适应的说话人转换方法,包括训练阶段和合成阶段,
1、训练阶段的具体实现过程如下:
1)原始说话人的语音数据进行分帧处理以及语音参数分析和提取,得到原始说话人每一帧语音的线谱频率和基频参数。并对每一帧的线谱频率参数计算其动态参数,即一阶差分、二阶差分参数,由线谱频率参数及其一阶差分、二阶差分参数作为原始说话人的频谱参数。使用多空间概率分布隐马尔可夫模型对频谱和基频参数进行建模,采用的是5状态的隐马尔可夫模型,从而得到原始说话人的频谱和基频的隐马尔可夫模型。
2)使用1)中训练得到的原始说话人的频谱和基频隐马尔可夫模型,对原始说话人的语音数据进行隐马尔可夫模型状态切分,从而得到了原始说话人的时长参数,进而训练得到原始说话人的时长模型。
3)充分考虑合成系统中能够提供的对于语音单元的高层描述信息,如上下文相关的韵律信息,这些高层描述信息可以有效辅助建立原始说话人和目标说话人的声学参数的映射关系。根据最大似然准则,分别为原始说话人的各状态的频谱模型建立一棵上下文相关的决策树。具体做法是,在使用决策树对原始说话人的各状态模型进行聚类的过程中,每个节点分裂时,总是选择可以使状态输出似然值的增加值最大的问题,对该节点中的所有模型进行决策分类。
4)将3)中生成的各状态频谱模型的决策树合并为一棵决策树,也就是首先通过决策问题将不同状态的模型分开,然后对应每个状态则使用3)中得到的各状态的回归树,并由这棵决策树对原始说话人的频谱模型进行绑定。
5)提取目标说话人的频谱参数(线谱频率及其一阶差分、二阶差分参数),采用自顶向下(Top-Down)或自底向上(Bottom-Up)的方式遍历4)中生成的决策树。对于那些有足够的数据并且是叶子节点或者其所有子节点均没有足够的数据来进行调整的节点作为一个回归节点。
6)对5)中得到的各回归节点中的模型进行线性调整,主要是求得表征原始说话人频谱模型与目标说话人频谱模型之间映射关系的回归矩阵。这样便得到了目标说话人的频谱模型。
7)对于原始说话人的基频模型,采用与频谱模型相同的自适应调整方法,进而得到目标说话人的基频模型。
8)由自适应得到的目标说话人的频谱和基频模型对目标语音进行隐马尔可夫模型状态切分,得到用于自适应的目标说话人的时长数据。
9)采用与频谱和基频相同的自适应方法,对原始说话人的状态时长模型进行自适应调整,从而得到目标说话人的时长模型。
2、合成阶段具体采用如下的方法:
1)按照输入文本分析的结果,生成原始说话人的频谱、基频和时长参数。
2)对这些参数使用考虑语音参数动态特征的参数生成方法,根据最大似然准则,由训练阶段得到的目标说话人的频谱、基频和时长隐马尔可夫模型,分别生成目标说话人的线谱频率、基频和时长参数。
3)将生成的线谱频率、基频和时长参数输入到线谱参数合成器,合成出目标说话人的语音。

Claims (1)

1.一种结合高层描述信息和模型自适应的说话人转换方法,其特征是包括训练阶段和合成阶段:
(1)、训练阶段的具体实现过程如下:
1)对原始说话人的语音数据进行分帧处理以及语音参数分析和提取,得到原始说话人每一帧语音的线谱频率和基频参数;并对每一帧的线谱频率参数计算其动态参数,即一阶差分、二阶差分参数,由线谱频率参数及其一阶差分、二阶差分参数作为原始说话人的频谱参数;使用多空间概率分布隐马尔可夫模型对频谱和基频参数进行建模,从而得到原始说话人的频谱和基频的隐马尔可夫模型;
2)使用1)中训练得到的原始说话人的频谱和基频隐马尔可夫模型,对原始说话人的语音数据进行隐马尔可夫模型状态切分,从而得到了原始说话人的时长参数,进而训练得到原始说话人的隐马尔可夫时长模型;
3)充分考虑合成系统中能够提供的对于语音单元的高层描述信息,如上下文相关的韵律信息,这些高层描述信息可以有效辅助建立原始说话人和目标说话人的声学参数的映射关系;根据最大似然准则,利用语音单元的高层描述信息,分别为原始说话人的各声学状态的频谱模型建立一棵上下文相关的决策树;具体做法是,在使用决策树对原始说话人的某一状态的频谱模型进行聚类的过程中,每个节点分裂时,总是选择可以使状态输出似然值的增加值最大的问题,对该节点中的所有频谱模型进行决策分类;
4)将3)中生成的各状态频谱模型的决策树合并为一棵决策树,实际上就是在一个根节点下挂载着3)中得到的各状态的决策树,在使用这棵决策树进行模型绑定时,首先通过决策问题将不同状态的模型分开,然后对应每个状态的频谱模型则可以使用3)中得到的各状态的决策树对原始说话人的相应状态的频谱模型进行绑定;
5)使用参数分析算法,对目标说话人的语音进行分析,提取目标说话人的频谱参数(线谱频率及其一阶差分、二阶差分参数),采用自顶向下(Top-Down)或自底向上(Bottom-Up)的方式遍历4)中生成的决策树;对于那些有足够的数据并且是叶子节点或者其所有子节点均没有足够的数据来进行调整的节点作为一个回归节点;
6)对5)中得到的各回归节点中的模型进行线性调整,主要是通过求得表征原始说话人频谱模型与目标说话人频谱模型之间映射关系的回归矩阵来实现的;这样便得到了目标说话人的频谱模型;
7)对于原始说话人的基频模型,采用与频谱模型相同的如上3)、4)、5)、
6)中所述的调整方法,进而得到目标说话人的基频模型;
8)由得到的目标说话人的频谱和基频模型对目标语音进行隐马尔可夫模型状态切分,得到用于训练的目标说话人的时长数据;
9)采用与频谱和基频相同的模型调整方法,对原始说话人的状态时长模型进行调整,从而得到目标说话人的时长模型;
(2)、合成阶段具体采用如下的方法:
1)按照对输入文本分析的结果,找得对应的目标说话人的频谱、基频和时长模型序列;
a)对这些模型使用考虑语音参数动态特征的参数生成方法,具体方法为根据最大似然准则,最大化输出概率其中O为语音参数矢量(包括静态参数和动态参数),Q为状态高斯序列指出每个高斯属于哪个状态,λ为训练阶段得到的目标说话人的频谱、基频和时长隐马尔可夫模型,假设在P(Q|λ)最大的条件下,上述最大化输出概率等同于最大化,
Figure F2006100396803C00022
其中U为相应高斯模型的协方差矩阵组成的对角矩阵,M为由相应高斯模型的均值序列组成的矩阵,O=WC,其中C为语音静态参数矢量,W为由静态参数生成包括静态特征和动态特征的参数矢量的计算矩阵,则可以通过
Figure F2006100396803C00031
求得最终生成的语音静态参数为C=(WTU-1W)-1WTU-1MT,按照这种考虑语音动态特征的参数生成算法,分别生成目标说话人的线谱频率、基频和时长参数;
2)将生成的线谱频率、基频和时长参数输入到线谱参数合成器,合成出目标说话人的语音。
CN200610039680A 2006-04-07 2006-04-07 一种结合高层描述信息和模型自适应的说话人转换方法 Active CN1835074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610039680A CN1835074B (zh) 2006-04-07 2006-04-07 一种结合高层描述信息和模型自适应的说话人转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610039680A CN1835074B (zh) 2006-04-07 2006-04-07 一种结合高层描述信息和模型自适应的说话人转换方法

Publications (2)

Publication Number Publication Date
CN1835074A CN1835074A (zh) 2006-09-20
CN1835074B true CN1835074B (zh) 2010-05-12

Family

ID=37002789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610039680A Active CN1835074B (zh) 2006-04-07 2006-04-07 一种结合高层描述信息和模型自适应的说话人转换方法

Country Status (1)

Country Link
CN (1) CN1835074B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982809B (zh) * 2012-12-11 2014-12-10 中国科学技术大学 一种说话人声音转换方法
GB2517503B (en) * 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method
CN104766602B (zh) * 2014-01-06 2019-01-18 科大讯飞股份有限公司 歌唱合成系统中基频合成参数生成方法及系统
CN105023574B (zh) * 2014-04-30 2018-06-15 科大讯飞股份有限公司 一种实现合成语音增强的方法及系统
WO2017046887A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
CN105304080B (zh) * 2015-09-22 2019-09-03 科大讯飞股份有限公司 语音合成装置及方法
CN105654942A (zh) * 2016-01-04 2016-06-08 北京时代瑞朗科技有限公司 一种基于统计参数的疑问句、感叹句的语音合成方法
CN105845125B (zh) * 2016-05-18 2019-05-03 百度在线网络技术(北京)有限公司 语音合成方法和语音合成装置
CN107705802B (zh) * 2017-09-11 2021-01-29 厦门美图之家科技有限公司 语音转换方法、装置、电子设备及可读存储介质
US20220013106A1 (en) * 2018-12-11 2022-01-13 Microsoft Technology Licensing, Llc Multi-speaker neural text-to-speech synthesis
CN112242134B (zh) * 2019-07-01 2024-07-16 北京邮电大学 语音合成方法及装置
CN111292718A (zh) * 2020-02-10 2020-06-16 清华大学 语音转换处理方法、装置、电子设备及存储介质
CN111192566B (zh) * 2020-03-03 2022-06-24 云知声智能科技股份有限公司 英文语音合成方法及装置
CN112365877A (zh) * 2020-11-27 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1127898A (zh) * 1995-01-26 1996-07-31 李琳山 智慧型国语语音输入方法及国语听写机
CN1342967A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 多种语音工作模式的统一识别方法
CN1607576A (zh) * 2002-11-15 2005-04-20 中国科学院声学研究所 一种语音识别系统
CN1615508A (zh) * 2001-12-17 2005-05-11 旭化成株式会社 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器
JP2005157354A (ja) * 2003-11-26 2005-06-16 Microsoft Corp 複数感知の音声強調のための方法および機器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1127898A (zh) * 1995-01-26 1996-07-31 李琳山 智慧型国语语音输入方法及国语听写机
CN1342967A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 多种语音工作模式的统一识别方法
CN1615508A (zh) * 2001-12-17 2005-05-11 旭化成株式会社 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器
CN1607576A (zh) * 2002-11-15 2005-04-20 中国科学院声学研究所 一种语音识别系统
JP2005157354A (ja) * 2003-11-26 2005-06-16 Microsoft Corp 複数感知の音声強調のための方法および機器

Also Published As

Publication number Publication date
CN1835074A (zh) 2006-09-20

Similar Documents

Publication Publication Date Title
CN1835074B (zh) 一种结合高层描述信息和模型自适应的说话人转换方法
EP3895159B1 (en) Multi-speaker neural text-to-speech synthesis
US11514888B2 (en) Two-level speech prosody transfer
Huang et al. Generspeech: Towards style transfer for generalizable out-of-domain text-to-speech
Wang et al. Uncovering latent style factors for expressive speech synthesis
CN1222924C (zh) 声音个性化的语音合成器
Morgan Deep and wide: Multiple layers in automatic speech recognition
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
Kim et al. Real-time emotion detection system using speech: Multi-modal fusion of different timescale features
CN108831435B (zh) 一种基于多情感说话人自适应的情感语音合成方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN1835075B (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
JP2002328695A (ja) テキストからパーソナライズ化音声を生成する方法
Qian et al. Improved prosody generation by maximizing joint probability of state and longer units
Choi et al. Sequence-to-sequence emotional voice conversion with strength control
Yamagishi et al. The HTS-2008 system: Yet another evaluation of the speaker-adaptive HMM-based speech synthesis system in the 2008 Blizzard Challenge
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
Secujski et al. Speaker/Style-Dependent Neural Network Speech Synthesis Based on Speaker/Style Embedding.
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
Toman et al. Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis
Toda et al. Trajectory training considering global variance for HMM-based speech synthesis
Reddy et al. Improved HMM-based mixed-language (Telugu–Hindi) polyglot speech synthesis
Qin et al. HMM-based emotional speech synthesis using average emotion model
Ding A Systematic Review on the Development of Speech Synthesis
Ueda et al. Individuality-preserving voice reconstruction for articulation disorders using text-to-speech synthesis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: ANHUI USTC IFLYTEK CO., LTD.

Free format text: FORMER NAME: ZHONGKEDA XUNFEI INFORMATION SCIENCE +. TECHNOLOGY CO., LTD., ANHUI PROV.

CP01 Change in the name or title of a patent holder

Address after: 230088 No. 616, Mount Huangshan Road, Hefei, Anhui

Patentee after: Anhui USTC iFLYTEK Co., Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, Hefei, Anhui

Patentee before: Zhongkeda Xunfei Information Science &. Technology Co., Ltd., Anhui Prov.

C56 Change in the name or address of the patentee

Owner name: IFLYTEK CO., LTD.

Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD.

CP03 Change of name, title or address

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, Hefei, Anhui

Patentee before: Anhui USTC iFLYTEK Co., Ltd.