CN108346424B - 语音合成方法和装置、用于语音合成的装置 - Google Patents
语音合成方法和装置、用于语音合成的装置 Download PDFInfo
- Publication number
- CN108346424B CN108346424B CN201710051436.7A CN201710051436A CN108346424B CN 108346424 B CN108346424 B CN 108346424B CN 201710051436 A CN201710051436 A CN 201710051436A CN 108346424 B CN108346424 B CN 108346424B
- Authority
- CN
- China
- Prior art keywords
- synthesized
- text
- state
- spectrum
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 72
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 72
- 238000001308 synthesis method Methods 0.000 title abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 215
- 238000000034 method Methods 0.000 claims abstract description 84
- 230000008569 process Effects 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims description 157
- 238000003066 decision tree Methods 0.000 claims description 98
- 230000003595 spectral effect Effects 0.000 claims description 98
- 238000004879 turbidimetry Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 230000005284 excitation Effects 0.000 description 9
- 238000002372 labelling Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种语音合成方法和装置、用于语音合成的装置,其中的方法具体包括:接收待合成文本;在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。本发明实施例能够有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,进而能够提高合成语音的听感和音质。
Description
技术领域
本发明涉及语音合成技术领域,特别是涉及一种语音合成方法和装置、以及一种用于语音合成的装置。
背景技术
语音合成技术又称文语转换(TTS,Text-to-Speech)技术,即将文字转换为语音的技术,该技术赋予计算机像人一样自如说话的能力,使用户与机器之间的信息沟通更加舒服自然。
目前,基于隐马尔可夫模型(HMM,Hidden Markov Model)的语音合成(HTS,HMM-based Speech Synthesis System)得到广泛的重视和应用。HTS的基本思路是:对语音信号进行参数化分解,并建立各声学参数对应的HMM模型,合成时利用训练得到的HMM模型预测待合成文本的声学参数,这些声学参数被输入至参数合成器,最终得到合成语音。在语音合成技术中,通常会涉及到清浊音判定问题。
现有的清浊音判定方案通常在基频维度进行清浊音判定,相应的清浊音判定过程可以包括:在基频维度上对清浊音进行统计建模,得到的基频参数模型中可以包括:浊音权重参数,并依据该浊音权重参数判定状态的清浊性,例如,若该浊音权重参数超过0.5,则该状态被判定为浊音,否则,若该浊音权重参数未超过0.5,则该状态被判定为清音。
然而,在实际应用中现有的清浊音判定方案容易出现清浊音判定错误的问题。而当清浊音判定错误时,合成语音中会出现杂音,尤其地当浊音被判定为清音时,由于浊音的能量较大,会产生明显的噪声,影响合成语音的听感。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音合成方法、语音合成装置、及用于语音合成的装置,本发明实施例能够有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,进而能够提高合成语音的听感和音质。
为了解决上述问题,本发明公开了一种语音合成方法,包括:
接收待合成文本;
在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;
依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。
可选地,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定的步骤,包括:
在所述待合成文本的语音合成过程中,依据隐马尔可夫模型HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型包括:决策树,所述决策树包括:频谱决策树,所述频谱决策树包括:频谱叶节点;
依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性。
可选地,通过如下步骤获取所述目标频谱叶节点的清浊性概率:
从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。
可选地,所述方法还包括:
依据训练数据,得到HMM模型;其中,所述训练数据包括:训练录音数据;
依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。
可选地,通过如下步骤确定所述频谱决策树中频谱叶节点对应的目标频谱训练录音数据:
依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;
依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。
可选地,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定的步骤,包括:
在所述待合成文本的语音合成过程中,将所述待合成文本对应状态级或者帧级频谱参数输入至频谱清浊分类器,以得到所述频谱清浊分类器输出的所述状态级或者帧级频谱参数对应的清浊性分类结果,作为清浊性判定结果。
可选地,所述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音的步骤,包括:
依据所述待合成文本对应状态的清浊性判定结果,依据基频叶节点得到所述待合成文本对应状态的基频参数;
依据所述待合成文本对应状态的基频参数、频谱参数和时长参数,生成所述待合成文本对应的帧级声学参数;
依据所述待合成文本对应的帧级声学参数,得到待合成文本对应的合成语音。
可选地,所述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音的步骤,包括:
依据所述待合成文本对应帧的清浊性判定结果,得到所述待合成文本对应帧的基频参数;
依据所述待合成文本对应帧的基频参数、频谱参数和时长参数,得到待合成文本对应的合成语音。
另一方面,本发明公开了一种语音合成装置,所述装置包括:
文本接收模块,用于接收待合成文本;
清浊性判定模块,用于在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;以及
合成语音获取模块,用于依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。
可选地,所述清浊性判定模块包括:
目标频谱叶节点获取子模块,用于在所述待合成文本的语音合成过程中,依据隐马尔可夫模型HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型包括:决策树,所述决策树包括:频谱决策树,所述频谱决策树包括:频谱叶节点;
清浊性判定子模块,用于依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性。
可选地,所述装置还包括:
清浊性概率获取模块,用于从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。
可选地,所述装置还包括:
模型获取模块,用于依据训练数据,得到HMM模型;其中,所述训练数据包括:训练录音数据;
概率确定模块,用于依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。
可选地,所述装置还包括:
训练录音数据确定模块,用于确定所述频谱决策树中频谱叶节点对应的目标频谱训练录音数据;
所述训练录音数据确定模块包括:
状态判定子模块,用于依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;
目标帧获取子模块,用于依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。
可选地,所述清浊性判定模块包括:
清浊性分类子模块,用于在所述待合成文本的语音合成过程中,将所述待合成文本对应状态级或者帧级频谱参数输入至频谱清浊分类器,以得到所述频谱清浊分类器输出的所述状态级或者帧级频谱参数对应的清浊性分类结果,作为清浊性判定结果。
可选地,所述合成语音获取模块包括:
第一基频获取子模块,用于依据所述待合成文本对应状态的清浊性判定结果,依据基频叶节点得到所述待合成文本对应状态的基频参数;
帧级参数生成子模块,用于依据所述待合成文本对应状态的基频参数、频谱参数和时长参数,生成所述待合成文本对应的帧级声学参数;
第一语音合成子模块,用于依据所述待合成文本对应的帧级声学参数,得到待合成文本对应的合成语音。
可选地,所述合成语音获取模块包括:
第二基频获取子模块,用于依据所述待合成文本对应帧的清浊性判定结果,得到所述待合成文本对应帧的基频参数;
第二语音合成子模块,用于依据所述待合成文本对应帧的基频参数、频谱参数和时长参数,得到待合成文本对应的合成语音。
又一方面,本发明公开了一种用于语音合成的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收待合成文本;
在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;
依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。
本发明实施例包括以下优点:
本发明实施例在频谱维度上进行清浊性判定,使得频谱维度将决定清浊性,清浊性将决定基频参数(例如,清音状态对应的基频参数为0,浊音状态对应的基频参数则根据基频叶节点的参数生成),而基频的清浊性(无论为0或者不为0)也将决定激励的清浊性,故本发明实施例能够提高频谱的清浊性与激励(由基频生成)的清浊性的一致性,因此能够有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,进而能够提高合成语音的听感和音质。
附图说明
图1是本发明的一种基于HMM的语音合成方法的流程图;
图2是本发明实施例的一种决策树的示意;
图3是本发明的一种语音合成方法实施例一的步骤流程图;
图4是本发明的一种语音合成方法实施例二的步骤流程图;
图5是本发明的一种语音合成方法实施例三的步骤流程图;
图6是本发明的一种语音合成装置实施例的结构框图;
图7是根据一示例性实施例示出的一种用于语音合成的装置作为终端时的框图;以及
图8是根据一示例性实施例示出的一种用于语音合成的装置作为服务器时的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
发明人在实施例本发明实施例的过程中发现,合成语音的杂音本质上是由于频谱的清浊性与激励(由基频生成)的清浊性不一致性导致的,而HMM模型的训练过程中,基频模型和频谱模型是独立训练的;这样,现有的清浊音判定方案在基频维度上进行清浊音判定,容易造成语音合成过程中频谱的清浊性与基频的清浊性的不一致,进而容易导致出现清浊音判定错误的问题,进一步导致合成语音中出现杂音、以及导致合成语音的听感下降。
针对现有方案存在的清浊音判定错误、以及清浊音判定错误导致合成语音中出现噪声的技术问题,本发明实施例提供了一种语音合成方案,该方案在待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;由于本发明实施例在频谱维度上进行清浊性判定,这样,本发明实施例中频谱维度将决定清浊性,清浊性将决定基频参数(例如,清音状态对应的基频参数为0,浊音状态对应的基频参数则根据基频叶节点的参数生成),而基频的清浊性(无论为0或者不为0)也将决定激励的清浊性,因此,本发明实施例能够提高频谱的清浊性与激励(由基频生成)的清浊性的一致性,进而能够有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题。
本发明实施例可以应用于基于HMM的语音合成过程中,参照图1,示出了本发明的一种基于HMM的语音合成方法的流程图,其具体可以包括:训练阶段和合成阶段。
其中,在训练阶段,可以从录音数据库中获取训练录音数据,并对训练录音数据进行参数提取,以得到对应的声学参数,该声学参数可以包括:频谱参数、基频参数和时长参数中的至少一种,以及,可以对训练录音数据进行标注;可选地,可以基于训练录音数据及其对应的文本生成标注信息,上述标注信息可用于表示训练录音数据中从哪个时刻开始到哪个时刻结束是什么建模单元,当前时刻是什么建模单元、前一时刻是什么建模单元等,可选地,对于中文,该建模单元可以包括:音节包含的声母(sh等)和/或韵母(eng等)等,上述标注可被称为上下文相关的标注。这样,本发明实施例的训练数据可以包括:训练录音数据、及其对应的声学参数和标注信息,并利用上述训练数据训练HMM模型。
并且,为了提高HMM模型的鲁棒性、复杂度和训练数据量之间的均衡性,本发明实施例的HMM模型可以包括决策树。机器学习中,决策树是一个预测模型,其代表的是对象属性与对象值之间的一种映射关系。决策树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。通常,决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。
可选地,本发明实施例的HMM模型可以包括但不限于:声学参数模型、时长模型等,其中,上述声学参数模型可以包括:基频模型、频谱模型等;该基频模型、频谱模型可以包括:多棵与HMM的状态对应的决策树,时长模型可以包括一棵决策树,也即,本发明实施例的基频模型可以对应有基频决策树,频谱模型可以对应有频谱决策树,时长模型可以对应有时长决策树,且基频决策树和频谱决策树都可以对应有HMM的状态,基频决策树和频谱决策树中叶节点可分别被称为基频叶节点和频谱叶节点。
在实际应用中,可以针对决策树,对上下文属性集合对应的问题集进行设计,具体地,可以根据先验知识来选择一些对声学参数有一定影响的上下文属性并设计相应的问题集,比如前后调、前后声韵母等。参照图2,示出了本发明实施例的一种决策树的示意,图2所示决策树中矩形框表示决策树的中间节点,图2中两个矩形框分别表示问题:当前声母是sh吗?、当前声母是b吗?,圆框表示决策树的叶节点,其中的数字表示叶节点的序号,叶节点可用于保存一个HMM模型的声学参数均值和方差,如叶节点1中用于保存sh这个声母的声学参数均值和方差;那么当HMM模型的输入为待合成声母sh时,HMM模型的输出结果可与为叶节点1保存的平均值和方差。可以理解,图2所示决策树仅为决策树的示例,实际使用的决策树的结构可以更复杂,例如,一颗决策树涉及的问题数量可以为几千,决策树中叶节点(圆框)的数量可以为几千等等。
在合成阶段,可以对给定的待合成文本进行属性分析(如上下文属性分析等),以得到待合成文本对应的标注序列;接着,依据所述HMM模型,得到待合成文本对应的状态级预测参数;然后采用参数生成算法,依据所述状态级预测参数,生成所述待合成文本对应的帧级声学参数;最后,依据所述帧级声学参数,(例如通过语音合成器)得到所述待合成文本对应的合成语音。
本发明实施例在所述待合成文本的语音合成过程中,可以依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果,上述清浊性判定结果可以包括:清音状态或者浊音状态。
方法实施例一
参照图3,示出了本发明的一种语音合成方法实施例一的步骤流程图,该方法实施例具体可以包括如下步骤:
步骤301、接收待合成文本;
步骤302、在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;
步骤303、依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。
本发明实施例中,待合成文本可用于表示需要转换为语音的文本。在实际应用中,可以按照图1在合成阶段的处理流程,进行所述待合成文本的语音合成,以得到所述待合成文本对应的合成语音,可以理解,本发明实施例对于所述待合成文本的具体语音合成过程不加以限制。
在所述待合成文本的语音合成过程中,通常会涉及到清浊音判定。本发明实施例依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果。
其中,上述状态用于表示HMM模型描述的马尔科夫过程的状态,可选地,可以对该待合成文本进行属性分析(如上下文属性分析等),以得到待合成文本对应的标注序列,该标注序列可以包括:待合成文本的建模单元及其上下文信息(如该建模单元是句子中的第几个字,所在的词是句中的第几个词),则可以利用HMM模型确定该标注序列对应的状态,也即所述待合成文本对应状态。可以理解,本发明实施例对于待合成文本对应状态的具体确定方式不加以限制。综上,本发明实施例在状态级进行清浊音判定,可以有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题。
上述帧用于表示建模单元包括的特定帧长度的语音,具体到本发明实施例,可以判定帧级频谱参数对应的清浊性,本发明实施例在帧级进行清浊音判定,不仅可以有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,而且能够有效改善在清音和浊音交界处边界的帧产生清音浊化或浊音清化的问题。
假设一个建模单元包括100帧语音,该100帧语音可以包括:5个不同状态的20帧语音,则在帧级进行清浊音判定,可以独立对各帧的清浊音进行判定,例如,可以预置相应的判定规则:如果一个清音(一般清音的帧都是清音)的前一个音是一个浊音,那么这个清音的第一帧是浊音,这样,可以较好地在清音和浊音两个状态之间过渡,有效改善在清音和浊音交界处边界的帧产生清音浊化或浊音清化的问题。
需要说明的是,清浊性判定结果将决定基频维度,例如,清音状态对应的基频参数为0,浊音状态对应的基频参数则根据基频叶节点的参数生成,在待合成文本对应状态或者帧,而基频的清浊性(无论为0或者不为0)也将决定激励的清浊性,因此,本发明实施例能够提高频谱的清浊性与激励(由基频生成)的清浊性的一致性,进而能够有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题。例如,在所述待合成文本对应状态或者帧被判定为浊音状态之后,在语音合成过程中该待合成文本对应状态或者帧的激励可被设置为冲击响应序列;在所述待合成文本对应状态或者帧被判定为清音状态之后,在语音合成过程中该待合成文本对应状态或者帧的激励可被设定为白噪声。
在本发明的一种可选实施例中,在依据频谱参数对所述待合成文本对应状态的清浊性进行判定后,上述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音的步骤303可以包括:依据所述待合成文本对应状态的清浊性判定结果,依据基频叶节点得到所述待合成文本对应状态的基频参数;依据所述待合成文本对应状态的基频参数、频谱参数和时长参数,生成所述待合成文本对应的帧级声学参数;进而依据所述待合成文本对应的帧级声学参数,得到待合成文本对应的合成语音。
在本发明的另一种可选实施例中,在依据频谱参数对所述待合成文本对应状态的清浊性进行判定后,上述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音的步骤303可以包括:在依据频谱参数对所述待合成文本对应帧的清浊性进行判定后,可以依据所述待合成文本对应帧的清浊性判定结果,得到所述待合成文本对应帧的基频参数;进而依据所述待合成文本对应帧的基频参数、频谱参数和时长参数,得到待合成文本对应的合成语音。
综上,本发明实施例的语音合成方法,在频谱维度上进行清浊性判定,使得频谱维度将决定清浊性,清浊性将决定基频参数(例如,清音状态对应的基频参数为0,浊音状态对应的基频参数则根据基频叶节点的参数生成),而基频的清浊性(无论为0或者不为0)也将决定激励的清浊性,故本发明实施例能够提高频谱的清浊性与激励(由基频生成)的清浊性的一致性,能够有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,进而能够提高合成语音的听感和音质。
方法实施例二
参照图4,示出了本发明的一种语音合成方法实施例一的步骤流程图,该方法实施例具体可以包括如下步骤:
步骤401、接收待合成文本;
步骤402、在所述待合成文本的语音合成过程中,依据HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型可以包括:决策树,所述决策树可以包括:频谱决策树,所述频谱决策树可以包括:频谱叶节点;
步骤403、依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性;
步骤404、依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。
相对于图3所示实施例一,本实施例中状态的清浊性的清浊性可由频谱决策树中频谱叶节点判定,具体地,可以依据与所述待合成文本对应状态相匹配的目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性;由于目标频谱叶节点的清浊性概率可以基于数据统计方式得到,故可以不影响HMM模型的大小和体积,因此不仅能够避免增加HMM模型的复杂度,而且能够提高HTS在嵌入式终端、或者移动终端上实施的可行性。
在所述待合成文本的语音合成过程中,可以依据HMM模型获取所述待合成文本对应状态,可选地,可以利用频谱模型,依据所述待合成文本对应的标注序列,预测所述待合成文本对应的状态级频谱参数,该状态级频谱参数的状态也即所述待合成文本对应状态。而每个频谱叶节点可以对应有状态,故步骤402可以将所述待合成文本对应状态与各频谱叶节点对应的状态进行匹配,以得到与所述待合成文本对应状态相匹配的目标频谱叶节点。
步骤403可以依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性。可选地,若所述目标频谱叶节点的清浊性概率大于概率阈值,则判定所述待合成文本对应状态为浊音状态,否则,判定所述待合成文本对应状态为清音状态。其中,上述概率阈值可由本领域技术人员根据实际应用需求确定,例如,上述概率阈值可以为0.5或者大于等于0.5小于等于1的值。
在本发明的一种可选实施例中,通过如下步骤获取所述目标频谱叶节点的清浊性概率:从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。通常,频谱叶节点的参数可用于保存状态的频谱参数的均值和方差,而本可选实施例还可以通过频谱叶节点的参数保存清浊性概率,以提高清浊性概率的保存便利性。当然,上述通过频谱叶节点的参数保存清浊性概率的方式只是作为可选实施例,实际上,本发明实施例还可以采用其他方式保存清浊性概率,本发明实施例对于保存清浊性概率的具体保存方式不加以限制。
在本发明的另一种可选实施例中,本发明实施例可以在离线方式下(如训练阶段)统计频谱叶节点对应的训练录音数据中清浊音的分布,进而得到频谱叶节点的清浊性概率,相对应的,本发明实施例的方法还可以包括:
步骤S1、依据训练数据,得到HMM模型;其中,所述训练数据可以包括:训练录音数据;
步骤S2、依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。
本发明实施例中,频谱叶节点对应的目标帧训练录音数据可以为与频谱叶节点的状态相匹配的训练录音数据,在实际应用中,可以从全部或者训练录音数据中获取频谱叶节点对应的目标帧训练录音数据。
在本发明的一种可选实施例中,可以通过如下步骤确定所述频谱决策树中频谱叶节点对应的目标频谱训练录音数据:
步骤T1、依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;
步骤T2、依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。
HMM模型是统计模型,其用来描述一个含有隐含未知参数的马尔可夫过程。在数学上一个状态是指一个马尔科夫过程的状态,HMM模型可用于描述最多有几个不同的状态以及状态间的跳转关系。
在实际应用中,可以依据训练数据,训练得到HMM模型。可选地,上述HMM模型可以包括但不限于:频谱HMM模型、基频HMM模型和时长HMM模型。假设HMM模型描述5个状态,建模单元是声母/韵母,那么训练出来的HMM模型中,会在时序上将建模单元分为5个状态,并统计出这5个状态声学参数均值。可选地,上述训练数据可以包括:训练录音数据、及其对应的声学参数和标注信息,则可以利用上述声学参数和标注信息训练得到HMM模型。在本发明的一种应用示例中,可以将录音数据对应的录音波形进行采样,以得到若干帧训练录音数据,假设录音数据的长度为2s,则可以将录音数据采样为400帧长度为5ms的帧训练录音数据,并通过人工标注的方式,得到从第几帧到第几帧属于哪个韵母/声母。可以理解,本发明实施例对于HMM模型的具体训练方法不加以限制。
步骤T1可以依据HMM模型,确定全部或者部分训练录音数据包含的各帧训练录音数据对应的目标状态,也即判定一个建模单元对应的各帧训练录音数据所处的状态,这样,可以提高目标帧训练录音数据与叶节点的状态匹配。
而由于基频、频谱对应的每个状态均可以对应有一棵决策树,故频谱决策树也可以对应有状态,这样,步骤T2可以基于频谱决策树中频谱叶节点对应的状态与各帧训练录音数据对应的目标状态的匹配,得到频谱决策树中频谱叶节点与帧训练录音数据之间的映射关系,也即可以得到频谱决策树中频谱叶节点对应的目标帧训练录音数据。在实际应用中,可以遍历所有频谱决策树中频谱叶节点,以得到各频谱决策树中频谱叶节点对应的目标帧训练录音数据。
假设在时序上将建模单元分为5个状态,则步骤T1可以通过状态边界判定,确定建模单元对应的帧训练录音数据中的各帧训练录音数据所处的目标状态,也即,哪几帧处于状态1,哪几帧处于状态2…哪几帧处于状态5。例如,对于韵母uai,假设其具有5个状态,对应20帧训练录音数据,那么根据uai对应的HMM模型的状态转移限制的不同,可以有各种不同的帧和状态之间的对应关系,比如:第1--3帧处于状态1,4--8帧处于状态2,9--10帧处于状态3,11—15处于状态4,16-20处于状态5等。
在本发明的一种可选实施例中,所述对所述训练录音数据进行时间到状态的对齐的步骤T1,可以包括:依据所述HMM模型、以及所述训练录音数据的声学参数和建模单元,确定所述训练录音数据的各建模单元对应的各帧训练录音数据的状态边界,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态。上述状态边界的确定可用于判定各建模单元对应的各帧训练录音数据所处的状态。
在实际应用中,可以采用参数估计方法确定所述训练录音数据的各建模单元对应的各帧训练录音数据的状态边界。可选地,上述参数估计方法可以包括:最小二乘法、最大似然法等。其中,对于最小二乘法,当从HMM模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小;而对于最大似然法,当从HMM模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从HMM模型中抽取该n组样本观测值的概率最大;其中,n为正整数。可以理解,本发明实施例对于具体的参数估计方法不加以限制。
在采用最大似然法时,上述确定所述训练录音数据的各建模单元对应的各帧训练录音数据的状态边界的步骤,可以包括:
步骤O1、依据所述HMM模型、以及所述训练录音数据的声学参数和建模单元,预测所述训练录音数据的各建模单元对应的各帧训练录音数据处于一种状态的概率;
步骤O2、当所述训练录音数据的各建模单元对应的多帧训练录音数据处于一种状态的概率的组合符合声学参数对应的预置条件时,将所述训练录音数据的各建模单元对应的各帧训练录音数据所属的状态作为对应的目标状态。
其中,上述概率是指各帧训练录音数据处于一种状态的概率,假设某建模单元对应100帧训练录音数据,其包含的第10帧,有可能10%处于状态2、80%处于状态3、10%处于状态4。由于HMM模型的训练过程使得HMM模型具备各帧训练录音数据处于一种状态的概率的预测能力,故步骤O1可以依据所述HMM模型、以及所述训练录音数据的声学参数和建模单元,预测所述训练录音数据的各建模单元对应的各帧训练录音数据处于一种状态的概率。步骤T1输出的某建模单元对应的预测结果可以包括:各帧训练录音数据处于任意状态的概率,假设某建模单元对应100帧训练录音数据,则其对应的预测结果包括:第1帧处于状态1—状态5中任一的概率、第2帧处于状态1—状态5中任一的概率、第3帧处于状态1—状态5中任一的概率…第100帧处于状态1—状态5中任一的概率等等。
步骤O2可以对各建模单元对应的多帧训练录音数据处于一种状态的概率进行组合,以得到各建模单元对应的所有帧训练录音数据处于各种状态的概率组合,例如,上述概率组合可以包括:所有帧训练录音数据处于状态1、状态2、状态3、状态4或者状态5的概率组合。
可选地,上述声学参数对应的预置条件可以包括:多帧训练录音数据处于一种状态的概率组合最大、和/或、多帧训练录音数据的声学参数均值与该状态的声学参数均值相接近,则将该多帧训练录音数据处于的状态确定为该状态。假如100帧训练录音数据的前10帧与决策树的第1个状态的平均值比较接近,就把前10帧划分为第1个状态,同理,将100帧的后30帧划分为第2个状态等等,通过状态边界判定,可以将100帧训练录音数据划分为5个部分,每一部分都与叶节点的平均值最接近。
或者,上述声学参数对应的预置条件可以包括:对多帧训练录音数据处于一种状态的概率组合进行融合(如求平均值),则得到的融合结果对应声学参数的似然值最大等。可以理解,本领域技术人员可以根据实际应用需求,合理利用最大似然法,本发明实施例对于上述声学参数对应的具体的预置条件不加以限制。
在得到频谱决策树中频谱叶节点对应的目标帧训练录音数据后,步骤S2可以依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。
在本发明的一种应用示例中,假设频谱叶节点k对应n帧目标帧训练录音,其中,清音数据帧数为nu,浊音数据帧数为nv,其中,nu、nv和n均为正整数,nu+nv=n,则对应的清浊性概率可以表示为:
p=nv/(nv+nu) (1)
步骤403得到的清浊性判定结果可以包括:清音状态或者浊音状态,则步骤404可以依据步骤403得到的清浊性判定结果,得到所述待合成文本对应的合成语音。
在本发明的一种可选实施例中,在依据频谱参数对所述待合成文本对应状态的清浊性进行判定后,上述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音的步骤404可以包括:依据所述待合成文本对应状态的清浊性判定结果,依据基频叶节点得到所述待合成文本对应状态的基频参数;依据所述待合成文本对应状态的基频参数、频谱参数和时长参数,生成所述待合成文本对应的帧级声学参数;进而依据所述待合成文本对应的帧级声学参数,得到待合成文本对应的合成语音。
其中,在依据步骤403得到的清浊性判定结果,得到所述待合成文本对应的合成语音的过程中,清浊性将决定基频参数。可选地,由于人发清音时声带不振动,故清音状态对应的基频参数可以为0,浊音状态对应的基频参数则可以根据基频叶节点的参数生成,例如,可以依据基频叶节点的参数包含的基频参数均值和方差,预测浊音状态对应的基频参数。
可选地,所述待合成文本对应状态的频谱参数和时长参数可分别依据频谱模型和时长模型预测得到,所述待合成文本对应状态的基频参数、频谱参数和时长参数可以作为状态级声学参数,由此可以通过参数生成算法,依据状态级声学参数生成帧级声学参数,并通过语音合成器生成所述帧级声学参数对应的语音波形,作为合成语音。
综上,本发明实施例的语音合成方法,依据与所述待合成文本对应状态相匹配的目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性;使得频谱维度将决定清浊性,清浊性将决定基频参数,而基频的清浊性也将决定激励的清浊性,故本发明实施例能够提高频谱的清浊性与激励(由基频生成)的清浊性的一致性,能够有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,进而能够提高合成语音的听感和音质。
并且,由于目标频谱叶节点的清浊性概率可以基于数据统计方式得到,故可以不影响HMM模型的大小和体积,因此不仅能够避免增加HMM模型的复杂度,而且能够提高HTS在嵌入式终端、或者移动终端上实施的可行性。
方法实施例三
参照图5,示出了本发明的一种语音合成方法实施例三的步骤流程图,该方法实施例具体可以包括如下步骤:
步骤501、接收待合成文本;
步骤502、在所述待合成文本的语音合成过程中,将所述待合成文本对应状态级或者帧级频谱参数输入至频谱清浊分类器,以得到所述频谱清浊分类器输出的所述状态级或者帧级频谱参数对应的清浊性分类结果,作为清浊性判定结果;
步骤503、依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。
相对于图3所示实施例,本实施例可以建立状态级或者帧级频谱参数到清浊性分类结果的频谱清浊分类器,该频谱清浊分类器可以为两类分类器,输出的清浊性分类结果可以包括:清音或者浊音。通过频谱清浊分类器可以实现状态级或者帧级频谱参数的清浊性判定;其中,在实现帧级频谱参数的清浊性判定时,不仅可以有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,而且能够有效改善在清音和浊音交界处边界的帧产生清音浊化或浊音清化的问题。
在本发明的一种可选实施例中,该频谱清浊分类器的频谱训练数据可以包括:状态级或者帧级频谱参数对应的正样本和反样本,其中,正样本可以为状态级或者帧级频谱参数对应的浊音样本,反样本可以为状态级或者帧级频谱参数对应的清音样本,则可以利用机器学习方法,对上述频谱训练数据进行训练,以得到频谱清浊分类器。可选地,上述机器学习方法可以包括:高斯混合模型(GMM,Gaussian Mixture Model)、深度神经网络(DNN,Deep Neural Network)等。可以理解,本发明实施例对于具体的机器学习方法不加以限制。
可选地,可以预置相应的判定规则,并使频谱清浊分类器利用上述判定规则进行帧级频谱参数的清浊性判定。可选地,上述判定规则可以包括:如果一个清音(一般清音的帧都是清音)的前一个音是一个浊音,那么这个清音的第一帧是浊音,这样,可以较好地在清音和浊音两个状态之间过渡,有效改善在清音和浊音交界处边界的帧产生清音浊化或浊音清化的问题。
综上,本发明实施例的语音合成方法,可以通过频谱清浊分类器实现状态级或者帧级频谱参数的清浊性判定,其中,在实现频谱参数的清浊性判定时,不仅可以有效改善由于清浊音判定错误而导致的合成语音中出现噪声的问题,而且能够有效改善在清音和浊音交界处边界的帧产生清音浊化或浊音清化的问题。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图6,示出了本发明的一种语音合成装置实施例的结构框图,该装置具体可以包括:文本接收模块601、清浊性判定模块602、以及合成语音获取模块603。
其中,上述文本接收模块601,用于接收待合成文本;
上述清浊性判定模块602,用于在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;以及
上述合成语音获取模块603,用于依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。
可选地,所述清浊性判定模块602可以包括:
目标频谱叶节点获取子模块,用于在所述待合成文本的语音合成过程中,依据隐马尔可夫模型HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型可以包括:决策树,所述决策树可以包括:频谱决策树,所述频谱决策树可以包括:频谱叶节点;
清浊性判定子模块,用于依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性。
可选地,所述装置还可以包括:
清浊性概率获取模块,用于从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。
可选地,所述装置还可以包括:
模型获取模块,用于依据训练数据,得到HMM模型;其中,所述训练数据可以包括:训练录音数据;
概率确定模块,用于依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。
可选地,所述装置还可以包括:
训练录音数据确定模块,用于确定所述频谱决策树中频谱叶节点对应的目标频谱训练录音数据;
所述训练录音数据确定模块可以包括:
状态判定子模块,用于依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;
目标帧获取子模块,用于依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。
可选地,所述清浊性判定模块602可以包括:
清浊性分类子模块,用于在所述待合成文本的语音合成过程中,将所述待合成文本对应状态级或者帧级频谱参数输入至频谱清浊分类器,以得到所述频谱清浊分类器输出的所述状态级或者帧级频谱参数对应的清浊性分类结果,作为清浊性判定结果。
可选地,所述合成语音获取模块603可以包括:
第一基频获取子模块,用于依据所述待合成文本对应状态的清浊性判定结果,依据基频叶节点得到所述待合成文本对应状态的基频参数;
帧级参数生成子模块,用于依据所述待合成文本对应状态的基频参数、频谱参数和时长参数,生成所述待合成文本对应的帧级声学参数;
第一语音合成子模块,用于依据所述待合成文本对应的帧级声学参数,得到待合成文本对应的合成语音。
可选地,所述合成语音获取模块603可以包括:
第二基频获取子模块,用于依据所述待合成文本对应帧的清浊性判定结果,得到所述待合成文本对应帧的基频参数;
第二语音合成子模块,用于依据所述待合成文本对应帧的基频参数、频谱参数和时长参数,得到待合成文本对应的合成语音。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种用于语音合成的装置作为终端时的框图。例如,该终端900可以是前述的智能终端,也可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,终端900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制终端900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为终端900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当终端900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为终端900提供各个方面的状态评估。例如,传感器组件914可以检测到终端900的打开/关闭状态,组件的相对定位,例如所述组件为终端900的显示器和小键盘,传感器组件914还可以检测终端900或终端900一个组件的位置改变,用户与终端900接触的存在或不存在,终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由终端900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图8是根据一示例性实施例示出的一种用于语音合成的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行一种语音合成方法,所述方法包括:接收待合成文本;在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。
可选地,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,包括:
在所述待合成文本的语音合成过程中,依据隐马尔可夫模型HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型包括:决策树,所述决策树包括:频谱决策树,所述频谱决策树包括:频谱叶节点;
依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性。
可选地,所述服务器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。
可选地,所述服务器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据训练数据,得到HMM模型;其中,所述训练数据包括:训练录音数据;
依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。
可选地,所述服务器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;
依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。
可选地,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,包括:
在所述待合成文本的语音合成过程中,将所述待合成文本对应状态级或者帧级频谱参数输入至频谱清浊分类器,以得到所述频谱清浊分类器输出的所述状态级或者帧级频谱参数对应的清浊性分类结果,作为清浊性判定结果。
可选地,所述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音,包括:
依据所述待合成文本对应状态的清浊性判定结果,依据基频叶节点得到所述待合成文本对应状态的基频参数;
依据所述待合成文本对应状态的基频参数、频谱参数和时长参数,生成所述待合成文本对应的帧级声学参数;
依据所述待合成文本对应的帧级声学参数,得到待合成文本对应的合成语音。
可选地,所述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音,包括:
依据所述待合成文本对应帧的清浊性判定结果,得到所述待合成文本对应帧的基频参数;
依据所述待合成文本对应帧的基频参数、频谱参数和时长参数,得到待合成文本对应的合成语音。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种语音合成方法、一种语音合成装置、以及一种用于语音合成的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (22)
1.一种语音合成方法,其特征在于,所述方法包括:
接收待合成文本;
在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;所述状态用于表示隐马尔可夫HMM模型描述的马尔科夫过程的状态;
依据所述清浊性判定结果,得到所述待合成文本对应的合成语音;
所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,包括:
在所述待合成文本的语音合成过程中,依据HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型包括:决策树,所述决策树包括:频谱决策树,所述频谱决策树包括:频谱叶节点;
依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性;
其中,所述目标频谱叶节点的清浊性概率的确定过程包括:依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清音数据帧数和浊音数据帧数,确定所述频谱叶节点的清浊性概率。
2.根据权利要求1所述的方法,其特征在于,通过如下步骤获取所述目标频谱叶节点的清浊性概率:
从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
依据训练数据,得到HMM模型;其中,所述训练数据包括:训练录音数据;
依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。
4.根据权利要求3所述的方法,其特征在于,通过如下步骤确定所述频谱决策树中频谱叶节点对应的目标频谱训练录音数据:
依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;
依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。
5.根据权利要求1所述的方法,其特征在于,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定的步骤,还包括:
在所述待合成文本的语音合成过程中,将所述待合成文本对应状态级或者帧级频谱参数输入至频谱清浊分类器,以得到所述频谱清浊分类器输出的所述状态级或者帧级频谱参数对应的清浊性分类结果,作为清浊性判定结果。
6.根据权利要求1至5中任一所述的方法,其特征在于,所述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音的步骤,包括:
依据所述待合成文本对应状态的清浊性判定结果,依据基频叶节点得到所述待合成文本对应状态的基频参数;
依据所述待合成文本对应状态的基频参数、频谱参数和时长参数,生成所述待合成文本对应的帧级声学参数;
依据所述待合成文本对应的帧级声学参数,得到待合成文本对应的合成语音。
7.根据权利要求1至5中任一所述的方法,其特征在于,所述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音的步骤,包括:
依据所述待合成文本对应帧的清浊性判定结果,得到所述待合成文本对应帧的基频参数;
依据所述待合成文本对应帧的基频参数、频谱参数和时长参数,得到待合成文本对应的合成语音。
8.一种语音合成装置,其特征在于,所述装置包括:
文本接收模块,用于接收待合成文本;
清浊性判定模块,用于在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;所述状态用于表示隐马尔可夫HMM模型描述的马尔科夫过程的状态;以及
合成语音获取模块,用于依据所述清浊性判定结果,得到所述待合成文本对应的合成语音;
所述清浊性判定模块包括:
目标频谱叶节点获取子模块,用于在所述待合成文本的语音合成过程中,依据HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型包括:决策树,所述决策树包括:频谱决策树,所述频谱决策树包括:频谱叶节点;
清浊性判定子模块,用于依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性;
其中,所述目标频谱叶节点的清浊性概率的确定过程包括:依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清音数据帧数和浊音数据帧数,确定所述频谱叶节点的清浊性概率。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
清浊性概率获取模块,用于从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
模型获取模块,用于依据训练数据,得到HMM模型;其中,所述训练数据包括:训练录音数据;
概率确定模块,用于依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
训练录音数据确定模块,用于确定所述频谱决策树中频谱叶节点对应的目标频谱训练录音数据;
所述训练录音数据确定模块包括:
状态判定子模块,用于依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;
目标帧获取子模块,用于依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。
12.根据权利要求8所述的装置,其特征在于,所述清浊性判定模块包括:
清浊性分类子模块,用于在所述待合成文本的语音合成过程中,将所述待合成文本对应状态级或者帧级频谱参数输入至频谱清浊分类器,以得到所述频谱清浊分类器输出的所述状态级或者帧级频谱参数对应的清浊性分类结果,作为清浊性判定结果。
13.根据权利要求8至12中任一所述的装置,其特征在于,所述合成语音获取模块包括:
第一基频获取子模块,用于依据所述待合成文本对应状态的清浊性判定结果,依据基频叶节点得到所述待合成文本对应状态的基频参数;
帧级参数生成子模块,用于依据所述待合成文本对应状态的基频参数、频谱参数和时长参数,生成所述待合成文本对应的帧级声学参数;
第一语音合成子模块,用于依据所述待合成文本对应的帧级声学参数,得到待合成文本对应的合成语音。
14.根据权利要求8至12中任一所述的装置,其特征在于,所述合成语音获取模块包括:
第二基频获取子模块,用于依据所述待合成文本对应帧的清浊性判定结果,得到所述待合成文本对应帧的基频参数;
第二语音合成子模块,用于依据所述待合成文本对应帧的基频参数、频谱参数和时长参数,得到待合成文本对应的合成语音。
15.一种用于语音合成的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收待合成文本;
在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果;所述状态用于表示隐马尔可夫HMM模型描述的马尔科夫过程的状态;
依据所述清浊性判定结果,得到所述待合成文本对应的合成语音;
所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,包括:
在所述待合成文本的语音合成过程中,依据HMM模型,获取与所述待合成文本对应状态相匹配的目标频谱叶节点;其中,所述HMM模型包括:决策树,所述决策树包括:频谱决策树,所述频谱决策树包括:频谱叶节点;
依据所述目标频谱叶节点的清浊性概率,判定所述待合成文本对应状态的清浊性;
其中,所述目标频谱叶节点的清浊性概率的确定过程包括:依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清音数据帧数和浊音数据帧数,确定所述频谱叶节点的清浊性概率。
16.根据权利要求15所述的装置,其特征在于,所述服务器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
从所述目标频谱叶节点的参数中读取所述目标频谱叶节点的清浊性概率。
17.根据权利要求16所述的装置,其特征在于,所述服务器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据训练数据,得到HMM模型;其中,所述训练数据包括:训练录音数据;
依据所述频谱决策树中频谱叶节点对应的目标帧训练录音数据中清浊音的分布,确定所述频谱叶节点的清浊性概率,并将所述频谱叶节点的清浊性概率作为所述频谱叶节点的参数保存。
18.根据权利要求17所述的装置,其特征在于,所述服务器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据所述HMM模型,对所述训练录音数据进行时间到状态的对齐,以得到所述训练录音数据包含的各帧训练录音数据对应的目标状态;
依据所述目标状态和所述频谱决策树对应的状态,得到所述频谱决策树中频谱叶节点对应的目标帧训练录音数据。
19.根据权利要求15所述的装置,其特征在于,所述依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,包括:
在所述待合成文本的语音合成过程中,将所述待合成文本对应状态级或者帧级频谱参数输入至频谱清浊分类器,以得到所述频谱清浊分类器输出的所述状态级或者帧级频谱参数对应的清浊性分类结果,作为清浊性判定结果。
20.根据权利要求15至19中任一所述的装置,其特征在于,所述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音,包括:
依据所述待合成文本对应状态的清浊性判定结果,依据基频叶节点得到所述待合成文本对应状态的基频参数;
依据所述待合成文本对应状态的基频参数、频谱参数和时长参数,生成所述待合成文本对应的帧级声学参数;
依据所述待合成文本对应的帧级声学参数,得到待合成文本对应的合成语音。
21.根据权利要求15至19中任一所述的装置,其特征在于,所述依据所述清浊性判定结果,得到所述待合成文本对应的合成语音,包括:
依据所述待合成文本对应帧的清浊性判定结果,得到所述待合成文本对应帧的基频参数;
依据所述待合成文本对应帧的基频参数、频谱参数和时长参数,得到待合成文本对应的合成语音。
22.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中一个或多个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710051436.7A CN108346424B (zh) | 2017-01-23 | 2017-01-23 | 语音合成方法和装置、用于语音合成的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710051436.7A CN108346424B (zh) | 2017-01-23 | 2017-01-23 | 语音合成方法和装置、用于语音合成的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108346424A CN108346424A (zh) | 2018-07-31 |
CN108346424B true CN108346424B (zh) | 2021-11-19 |
Family
ID=62974601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710051436.7A Active CN108346424B (zh) | 2017-01-23 | 2017-01-23 | 语音合成方法和装置、用于语音合成的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108346424B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562637B (zh) * | 2019-09-25 | 2024-02-06 | 北京中关村科金技术有限公司 | 拼接语音音频的方法、装置以及存储介质 |
CN113838453B (zh) * | 2021-08-17 | 2022-06-28 | 北京百度网讯科技有限公司 | 语音处理方法、装置、设备和计算机存储介质 |
CN113838452B (zh) | 2021-08-17 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和计算机存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102201240A (zh) * | 2011-05-27 | 2011-09-28 | 中国科学院自动化研究所 | 基于逆滤波的谐波噪声激励模型声码器 |
CN102201232A (zh) * | 2011-06-01 | 2011-09-28 | 北京宇音天下科技有限公司 | 一种用于嵌入式语音合成系统的音库结构压缩及使用方法 |
CN102339605A (zh) * | 2010-07-22 | 2012-02-01 | 盛乐信息技术(上海)有限公司 | 基于先验清浊知识的基频提取方法及系统 |
CN102496363A (zh) * | 2011-11-11 | 2012-06-13 | 北京宇音天下科技有限公司 | 一种用于汉语语音合成的音调修正方法 |
CN104916282A (zh) * | 2015-03-27 | 2015-09-16 | 北京捷通华声语音技术有限公司 | 一种语音合成的方法和装置 |
-
2017
- 2017-01-23 CN CN201710051436.7A patent/CN108346424B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339605A (zh) * | 2010-07-22 | 2012-02-01 | 盛乐信息技术(上海)有限公司 | 基于先验清浊知识的基频提取方法及系统 |
CN102201240A (zh) * | 2011-05-27 | 2011-09-28 | 中国科学院自动化研究所 | 基于逆滤波的谐波噪声激励模型声码器 |
CN102201232A (zh) * | 2011-06-01 | 2011-09-28 | 北京宇音天下科技有限公司 | 一种用于嵌入式语音合成系统的音库结构压缩及使用方法 |
CN102496363A (zh) * | 2011-11-11 | 2012-06-13 | 北京宇音天下科技有限公司 | 一种用于汉语语音合成的音调修正方法 |
CN104916282A (zh) * | 2015-03-27 | 2015-09-16 | 北京捷通华声语音技术有限公司 | 一种语音合成的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108346424A (zh) | 2018-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2749970C1 (ru) | Способ сжатия модели нейронной сети, а также способ и устройство для перевода языкового корпуса | |
CN108399914B (zh) | 一种语音识别的方法和装置 | |
CN107632980B (zh) | 语音翻译方法和装置、用于语音翻译的装置 | |
CN110210310B (zh) | 一种视频处理方法、装置和用于视频处理的装置 | |
US20160240188A1 (en) | Speech recognition device and speech recognition method | |
KR20080023030A (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
CN110992942B (zh) | 一种语音识别方法、装置和用于语音识别的装置 | |
CN107274903B (zh) | 文本处理方法和装置、用于文本处理的装置 | |
CN112185363B (zh) | 音频处理方法及装置 | |
CN113658577B (zh) | 一种语音合成模型训练方法、音频生成方法、设备及介质 | |
CN111326138A (zh) | 语音生成方法及装置 | |
CN108346424B (zh) | 语音合成方法和装置、用于语音合成的装置 | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
CN109977426A (zh) | 一种翻译模型的训练方法、装置以及机器可读介质 | |
KR20040068023A (ko) | 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법 | |
CN114283783A (zh) | 语音合成方法、模型训练方法、设备及存储介质 | |
CN111640452B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN115148185A (zh) | 语音合成方法及装置、电子设备及存储介质 | |
CN110930977B (zh) | 一种数据处理方法、装置和电子设备 | |
CN112151072A (zh) | 语音处理方法、装置和介质 | |
CN108346423B (zh) | 语音合成模型的处理方法和装置 | |
CN112133325B (zh) | 错误音素识别方法及装置 | |
CN114067781A (zh) | 语音识别结果的检测方法、装置和介质 | |
CN113889105A (zh) | 一种语音翻译方法、装置和用于语音翻译的装置 | |
CN113891150A (zh) | 一种视频处理方法、装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |