CN104112444A - 一种基于文本信息的波形拼接语音合成方法 - Google Patents
一种基于文本信息的波形拼接语音合成方法 Download PDFInfo
- Publication number
- CN104112444A CN104112444A CN201410362838.5A CN201410362838A CN104112444A CN 104112444 A CN104112444 A CN 104112444A CN 201410362838 A CN201410362838 A CN 201410362838A CN 104112444 A CN104112444 A CN 104112444A
- Authority
- CN
- China
- Prior art keywords
- primitive
- text
- prediction model
- information
- preliminary election
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title abstract 3
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000010187 selection method Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims description 18
- 238000012417 linear regression Methods 0.000 claims description 9
- 238000003066 decision tree Methods 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 abstract description 8
- 238000003786 synthesis reaction Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010189 synthetic method Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明一种基于文本信息的波形拼接语音合成方法,该方法包括:步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练时长预测模型与权重预测模型;步骤S2:采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。
Description
技术领域
本发明属于智能信息处理领域,涉及一种基于文本信息的波形拼接系统。
背景技术
语音作为人机交互的主要手段之一,语音合成主要目的是让计算机能够产生高清晰度、高自然度的连续语音。语音合成主要有两种方式,早期的研究主要是采用参数语音合成,最常用的合成方法是基于隐马尔柯夫的参数语音合成方法。该方法作为一种基于统计声学建模方法的具休实现,对语音的声学参数进行隐马尔柯夫建模,并通过参数生成算法来重构声学参数轨迹,最后调用语音合成器来产生语音波形。该方法的不足在于合成语音的音质、自然度和清晰度都不够理想,与实际语音具有较大的差距。另一种方法是基于语料库的语音拼接合成方法,该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接合成语音。
但该方法虽能合成出较为接近原始语音的波形,但受限于语料库大小的制约,合成语音的稳定性不够理想(音库过大,合成语音速度较慢,无法实时合成;音库过小,合成语音不稳定),很大程度上影响的听感。并且现有的拼接合成系统,在计算代价时缺少考虑文本信息对基元的影响,合成出的语音在韵律表现上也不是很好。
发明内容
(一)要解决的技术问题
为解决上述的一个或多个问题,本发明的目的是提供一种基于文本信息的波形拼接语音合成方法。
(二)技术方案
为达成所述目的,本发明提供的一种基于文本信息的波形拼接语音合成方法实现的步骤包括:
步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练时长预测模型与权重预测模型;
步骤S2:采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;
步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。
(三)有益效果
从上述技术方案可以看出,本发明基于文本特征的波形拼接语音合成方法具有以下有益效果:
(1)该方法结合待合成语音与原始语音的文本特征,在基元预选时用分层预选方法,不仅能有效率的在保证候选基元接近目标基元的情况下,减少基元的个数,降低后期代价计算的时间开销,提高了合成语音的效率,增强拼接合成的实时性;并且加入的时长预测模型能保证选到的基元在时长上的连续性,提高了合成语音自然度;
(2)目标代价的计算方法采用的是基于文本信息结合预测得到的权重信息得到的代价,保证了代价最小的基元在韵律上与目标基元的一致性,拼接合成出高自然度,并提高了合成语音的韵律表现;
该方法包括:对原始切分过的大音库进行参数提取(包括声学参数与文本参数)。结合相应文本标注信息,对基元的时长信息进行建模,结合基元的上下文信息与基元所在词的词性等信息,生成分层预选模型对基元进行预选。这种预选方法不仅可以达到在大语料库的情况下缩短系统运行时间、增强系统合成语音的实时性和提高基元选取的准确率的目的,而且保证了候选基元在时长上的连续性。在计算目标代价时,在训练阶段,用决策树算法与线性回归算法结合文本特征与声学特征进行建模,预测出相关文本特征的权重信息。在拼接合成语音时,输入相应的候选基元与目标基元的文本信息距离,结合决策树与线性回归模型预测出的权重信息,就得到相对应候选基元的目标代价,再结合拼接代价的计算,最后就能拼接合成出语音,本发明合成出较高音质的语音。
附图说明
图1为根据本发明基于文本信息的波形拼接语音合成方法流程图;
图2为本发明中训练时长预测模型一实施例的流程图;
图3为本发明中训练权重预测模型一实施例的流程图;
图4为根据本发明一实施例的分层预选流程图;
图5为根据本发明一实施例的基于文本特征的目标代价的计算。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。
本发明方法结合待合成语音与原始语音的文本特征,首先对音库中的基元进行分层预选,提高了合成语音的效率,增强了合成语音的实时性,然后结合基于文本信息预测出的权重信息,计算代价,挑选合适的基元,最后拼接合成出高自然度与高韵律表现的语音。
如图1示出本发明基于文本信息的的波形拼接语音合成方法流程图,该方法包括以下步骤:
步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练时长预测模型与权重预测模型;模型训练模块,根据训练文本与对应的音频提取基元的文本参数与声学参数进行模型训练,获取分层预选中的时长预测模型与目标代价计算时所需的权重预测模型;
如图2所示为本发明中训练时长预测模型一实施例的流程图;所述训练时长预测模型包括以下步骤:
步骤S11:对音库进行音段切分,切分为波形拼接所需的最小基本单元,以切分后的基元为单位,按帧提取基频参数、梅尔倒谱参数与能量;在本发明一实施例中,谱参数是提取的12阶梅尔倒谱系数。
步骤S12:对所述原始音频对应文本进行文本分析,根据音段切分结果,提取所有基元对应的上下文文本特征信息与时长信息,并与提取的声学参数一一对应;
步骤S13:根据与声学参数一一对应的文本特征与时长信息,采用决策树训练时长预测模型。
如图3所示为本发明中训练权重预测模型一实施例的流程图,所述训练权重预测模型的包括以下步骤:
步骤S1A:对音库进行音段切分,切分为波形拼接系统所需的最小基本单元,并以切分后的基元为单位,按帧提取基频参数、梅尔倒谱参数与能量;在本发明一实施例中,谱参数是提取的12阶梅尔倒谱系数。
步骤S1B:对所述原始音频对应文本进行文本分析,根据音段切分结果,提取所有基元对应的上下文文本特征信息与时长信息,并与提取的声学参数一一对应;
步骤S1C:根据提取的所有基元的文本特征与声学特征,按基元进行分类;
步骤S1D:对于每一类基元,计算所有任意两个基元对应的文本特征参数与声学参数之间的距离,存储所有距离信息作为训练样本;
步骤S1F:采用决策树和线性回归算法(M5P),进行权重预测模型的训练:文本的距离信息作为决策树的节点,在叶节点处与声学参数的距离作线性回归。即可得到文本信息对应的权重。
叶节点处的回归可以用以下公式表示:
w0|x0-x′0|+w1|x1-x′1|+…+wn|xn-x′n|=π0|F0-F0′|+π1|Dur-Dur′|+π2|E-E′| (1)
其中x′i和xi为两基元对应的文本特征,F0和F0′为对应的基频信息,Dur和Dur′为对应的时长信息,E和E′为能量信息。本实例取[π0,π1,π2]的值为[1,1,0.5]。经过叶节点处的回归运算,(w0,w1,...,wn)即为预测得到的权重信息。
步骤S2:采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;基元预选模块,采用分层预选方法,对语料库中的基元进行初步预选,以减少后期代价计算的复杂度,提高合成效率。
如图4所示为根据本发明一实施例的分层预选流程图,所述分层预选包括以下步骤:
步骤S21:设置标识参数flag=0,第一层预选采用基元上下文特征信息作为预选信息进行预选;
步骤S22:第二层预选是在第一层预选的基础上,采用文本特征信息、词性和重音信息作为预选信息进行基元预选,如果标识参数flag=0,则执行步骤S23;如果标识参数flag=1,则输出第二层候选基元;
步骤S23:第三层预选是在第二层预选的基础上,采用根据文本特征预测出来的时长信息作为预选信息进行预选,如果候选基元个数不为0,设置标识参数flag=1,返回步骤S21;如果候选基元个数不为0,则输出第三层候选基元。
步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。
选音合成模块,包括目标代价与拼接代价的计算。利用代价和最小原则挑选得到最佳基元。
如图5所示为本发明的基于文本特征的目标代价的计算,获取所述目标代价包括以下步骤:
步骤S31:根据待合成语句的文本分析结果提取的相关基元的文本参数作为目标基元的参数,经过分层预选后的基元的文本参数作为候选基元的参数;
步骤S32:计算目标基元与候选基元文本特征之间的距离,结合预测出的权重信息,经过线性回归运算得到的结果即为目标代价;
在拼接代价计算中,计算相邻两个基元的相邻N帧(本实例中N=3)的声学参数距离,作为拼接代价;
表格1为根据本发明一实施例的所需要的文本特征。
综上所述,本发明提出了一种基于文本信息的波形拼接语音合成的选音方法,其中包括基于文本信息分层预选与权重预测,该方法不仅可以合成出较高音质的语音,而且提高了系统的运行速度,增强了系统运行的实时性。
需要说明的是,上述对各部件的实现方式并不仅限于实施方式中提到的各种实现方式,本领域的普通技术人员可对其进行简单地熟知地替换,例如:
(1)训练中采用的谱参数是梅尔倒谱系数,可以用其它参数替代,如使用不同阶数的线谱对参数。
(2)对实验室中所采用的文本特征个数与类别,可根据自己的实际需要进行实际的增加或减少。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于文本信息的波形拼接语音合成方法,其特征在于,该方法包括:
步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练权重预测模型与时长预测模型;
步骤S2:采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;
步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。
2.根据权利要求1所述的方法,其特征在于,所述训练权重预测模型包括以下步骤:
步骤S11:对音库进行音段切分,切分为波形拼接系统所需的最小基本单元,并以切分后的基元为单位,按帧提取基频参数、梅尔倒谱参数与能量;
步骤S12:对原始音频对应文本进行文本分析,提取所有基元对应的上下文文本特征信息与时长信息,并与提取的声学参数一一对应;
步骤S13:根据与声学参数一一对应的文本特征与时长信息,采用决策树训练时长预测模型。
3.根据权利要求1所述的方法,其特征在于,所述训练权重预测模型包括以下步骤:
步骤S1A:对音库进行音段切分,切分为波形拼接系统所需的最小基本单元,并以切分后的基元为单位,按帧提取基频参数、梅尔倒谱参数与能量;
步骤S1B:对所述原始音频对应文本进行文本分析,提取所有基元对应的上下文文本特征信息与时长信息,并与提取的声学参数一一对应;
步骤S1C:根据提取的所有基元的文本特征与声学特征,按基元进行分类;
步骤S1D:对于每一类基元,计算所有任意两个基元对应的文本特征参数与声学参数之间的距离,存储所有距离信息作为训练样本;
步骤S1F:采用决策树和线性回归算法,训练权重预测模型。
4.根据权利要求2或3所述的方法,其特征在于,所述文本特征的距离信息作为决策树的节点,在叶节点处与声学参数的距离作线性回归,即可得到文本信息对应的权重。
5.根据权利要求1所述的方法,其特征在于,所述分层预选包括以下步骤:
步骤S21:设置标识参数flag=0,第一层预选采用基元上下文特征信息进行预选;
步骤S22:第二层预选是在第一层预选的基础上,采用文本特征信、词性和重音信息作为预选信息进行基元预选,如果标识参数flag=0,则执行步骤S23;如果标识参数flag=1,则输出第二层候选基元;
步骤S23:第三层预选是在第二层预选的基础上,采用根据文本特征预测出来的时长信息作为预选信息进行预选,如果候选基元个数不为0,设置标识参数flag=1,返回步骤S21;如果候选基元个数不为0,则输出第三层候选基元。
6.根据权利要求1所述的方法,其特征在于,获取所述目标代价包括以下步骤:
步骤S31:根据待合成语句的文本分析结果提取的相关基元的文本参数作为目标基元的参数,将分层预选后的基元的文本参数作为候选基元的参数;
步骤S32:计算目标基元与候选基元文本特征间的距离,结合预测出的权重信息,经过线性回归运算得到的结果即为目标代价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410362838.5A CN104112444B (zh) | 2014-07-28 | 2014-07-28 | 一种基于文本信息的波形拼接语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410362838.5A CN104112444B (zh) | 2014-07-28 | 2014-07-28 | 一种基于文本信息的波形拼接语音合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104112444A true CN104112444A (zh) | 2014-10-22 |
CN104112444B CN104112444B (zh) | 2018-11-06 |
Family
ID=51709205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410362838.5A Active CN104112444B (zh) | 2014-07-28 | 2014-07-28 | 一种基于文本信息的波形拼接语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104112444B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
CN104575488A (zh) * | 2014-12-25 | 2015-04-29 | 北京时代瑞朗科技有限公司 | 一种基于文本信息的波形拼接语音合成方法 |
CN104778958A (zh) * | 2015-03-20 | 2015-07-15 | 广东欧珀移动通信有限公司 | 一种含噪声歌曲拼接的方法及装置 |
CN105206264A (zh) * | 2015-09-22 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN106601226A (zh) * | 2016-11-18 | 2017-04-26 | 中国科学院自动化研究所 | 音素时长预测建模方法及音素时长预测方法 |
CN106652986A (zh) * | 2016-12-08 | 2017-05-10 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌曲音频拼接方法及设备 |
CN106970950A (zh) * | 2017-03-07 | 2017-07-21 | 腾讯音乐娱乐(深圳)有限公司 | 相似音频数据的查找方法及装置 |
WO2018072543A1 (zh) * | 2016-10-17 | 2018-04-26 | 腾讯科技(深圳)有限公司 | 模型生成方法、语音合成方法及装置 |
CN110047462A (zh) * | 2019-01-31 | 2019-07-23 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
CN112767957A (zh) * | 2020-12-31 | 2021-05-07 | 科大讯飞股份有限公司 | 获得预测模型的方法、语音波形的预测方法及相关装置 |
CN113299269A (zh) * | 2021-05-20 | 2021-08-24 | 平安科技(深圳)有限公司 | 语音合成系统的训练方法、装置、计算机设备及存储介质 |
CN114495898A (zh) * | 2022-04-15 | 2022-05-13 | 中国科学院自动化研究所 | 一种统一的语音合成与语音转换的训练方法和系统 |
US11545135B2 (en) * | 2018-10-05 | 2023-01-03 | Nippon Telegraph And Telephone Corporation | Acoustic model learning device, voice synthesis device, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030004723A1 (en) * | 2001-06-26 | 2003-01-02 | Keiichi Chihara | Method of controlling high-speed reading in a text-to-speech conversion system |
CN101064103A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于音节韵律约束关系的汉语语音合成方法及系统 |
CN101131818A (zh) * | 2006-07-31 | 2008-02-27 | 株式会社东芝 | 语音合成装置与方法 |
CN101178896A (zh) * | 2007-12-06 | 2008-05-14 | 安徽科大讯飞信息科技股份有限公司 | 基于声学统计模型的单元挑选语音合成方法 |
-
2014
- 2014-07-28 CN CN201410362838.5A patent/CN104112444B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030004723A1 (en) * | 2001-06-26 | 2003-01-02 | Keiichi Chihara | Method of controlling high-speed reading in a text-to-speech conversion system |
CN101064103A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于音节韵律约束关系的汉语语音合成方法及系统 |
CN101131818A (zh) * | 2006-07-31 | 2008-02-27 | 株式会社东芝 | 语音合成装置与方法 |
CN101178896A (zh) * | 2007-12-06 | 2008-05-14 | 安徽科大讯飞信息科技股份有限公司 | 基于声学统计模型的单元挑选语音合成方法 |
Non-Patent Citations (2)
Title |
---|
裴定瑜: "语音拼接单元的选择", 《同济大学硕士论文》 * |
陶建华 等: "汉语TTS系统中可训练韵律模型的研究", 《声学学报》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538024B (zh) * | 2014-12-01 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
CN104575488A (zh) * | 2014-12-25 | 2015-04-29 | 北京时代瑞朗科技有限公司 | 一种基于文本信息的波形拼接语音合成方法 |
CN104778958A (zh) * | 2015-03-20 | 2015-07-15 | 广东欧珀移动通信有限公司 | 一种含噪声歌曲拼接的方法及装置 |
CN105206264A (zh) * | 2015-09-22 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105206264B (zh) * | 2015-09-22 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
WO2018072543A1 (zh) * | 2016-10-17 | 2018-04-26 | 腾讯科技(深圳)有限公司 | 模型生成方法、语音合成方法及装置 |
US10832652B2 (en) | 2016-10-17 | 2020-11-10 | Tencent Technology (Shenzhen) Company Limited | Model generating method, and speech synthesis method and apparatus |
CN106601226A (zh) * | 2016-11-18 | 2017-04-26 | 中国科学院自动化研究所 | 音素时长预测建模方法及音素时长预测方法 |
CN106601226B (zh) * | 2016-11-18 | 2020-02-28 | 中国科学院自动化研究所 | 音素时长预测建模方法及音素时长预测方法 |
CN106652986A (zh) * | 2016-12-08 | 2017-05-10 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌曲音频拼接方法及设备 |
CN106652986B (zh) * | 2016-12-08 | 2020-03-20 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌曲音频拼接方法及设备 |
CN106970950A (zh) * | 2017-03-07 | 2017-07-21 | 腾讯音乐娱乐(深圳)有限公司 | 相似音频数据的查找方法及装置 |
CN106970950B (zh) * | 2017-03-07 | 2021-08-24 | 腾讯音乐娱乐(深圳)有限公司 | 相似音频数据的查找方法及装置 |
US11545135B2 (en) * | 2018-10-05 | 2023-01-03 | Nippon Telegraph And Telephone Corporation | Acoustic model learning device, voice synthesis device, and program |
CN110047462A (zh) * | 2019-01-31 | 2019-07-23 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
CN110047462B (zh) * | 2019-01-31 | 2021-08-13 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
CN112767957A (zh) * | 2020-12-31 | 2021-05-07 | 科大讯飞股份有限公司 | 获得预测模型的方法、语音波形的预测方法及相关装置 |
CN112767957B (zh) * | 2020-12-31 | 2024-05-31 | 中国科学技术大学 | 获得预测模型的方法、语音波形的预测方法及相关装置 |
CN113299269A (zh) * | 2021-05-20 | 2021-08-24 | 平安科技(深圳)有限公司 | 语音合成系统的训练方法、装置、计算机设备及存储介质 |
CN113299269B (zh) * | 2021-05-20 | 2023-12-29 | 平安科技(深圳)有限公司 | 语音合成系统的训练方法、装置、计算机设备及存储介质 |
CN114495898A (zh) * | 2022-04-15 | 2022-05-13 | 中国科学院自动化研究所 | 一种统一的语音合成与语音转换的训练方法和系统 |
CN114495898B (zh) * | 2022-04-15 | 2022-07-01 | 中国科学院自动化研究所 | 一种统一的语音合成与语音转换的训练方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104112444B (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104112444A (zh) | 一种基于文本信息的波形拼接语音合成方法 | |
CN103531196B (zh) | 一种波形拼接语音合成的选音方法 | |
CN104575488A (zh) | 一种基于文本信息的波形拼接语音合成方法 | |
CN101710488B (zh) | 语音合成方法及装置 | |
CN102664003B (zh) | 基于谐波加噪声模型的残差激励信号合成及语音转换方法 | |
CN101751922B (zh) | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
CN104681036B (zh) | 一种语言音频的检测系统及方法 | |
Kim et al. | Real-time emotion detection system using speech: Multi-modal fusion of different timescale features | |
US11282503B2 (en) | Voice conversion training method and server and computer readable storage medium | |
CN1835075B (zh) | 一种结合自然样本挑选与声学参数建模的语音合成方法 | |
Xie et al. | Sequence error (SE) minimization training of neural network for voice conversion. | |
CN103377651B (zh) | 语音自动合成装置及方法 | |
CN104538024A (zh) | 语音合成方法、装置及设备 | |
CN102184731A (zh) | 一种韵律类和音质类参数相结合的情感语音转换方法 | |
CN109346056A (zh) | 基于深度度量网络的语音合成方法及装置 | |
CN104103268B (zh) | 一种语料库处理方法、装置及语音合成系统 | |
CN103077708A (zh) | 一种语音识别系统中拒识能力提升方法 | |
CN102568476A (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN108172211A (zh) | 可调节的波形拼接系统及方法 | |
Vielzeuf et al. | Are E2E ASR models ready for an industrial usage? | |
Cámbara et al. | Convolutional speech recognition with pitch and voice quality features | |
CN102231275B (zh) | 一种基于加权混合激励的嵌入式语音合成方法 | |
CA3178027A1 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
CN103226946A (zh) | 一种基于受限玻尔兹曼机的语音合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |