CN109313891B - 用于语音合成的系统和方法 - Google Patents
用于语音合成的系统和方法 Download PDFInfo
- Publication number
- CN109313891B CN109313891B CN201780037307.0A CN201780037307A CN109313891B CN 109313891 B CN109313891 B CN 109313891B CN 201780037307 A CN201780037307 A CN 201780037307A CN 109313891 B CN109313891 B CN 109313891B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- speech
- acoustic
- acoustic features
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000015572 biosynthetic process Effects 0.000 title claims description 74
- 238000003786 synthesis reaction Methods 0.000 title claims description 74
- 238000012549 training Methods 0.000 claims description 35
- 238000001228 spectrum Methods 0.000 claims description 28
- 238000003062 neural network model Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 description 10
- 230000005284 excitation Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了基于文本生成语音的系统和方法。该方法包括:从文本中识别多个音素(210);对每个识别的音素,确定第一组声学特征(230);基于第一组声学特征中的至少一个声学特征,从语音数据库中选择与每个识别的音素相应的样本音素(250);对所述每个选择的样本音素,确定第二组声学特征(270);以及利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音(290)。
Description
技术领域
本申请涉及到语音合成,更具体地,涉及基于单元选择和基于模型的语音生成来从文本中合成语音的系统和方法。
背景技术
文本-语音系统可以将各种文本转换成语音。通常,文本-语音系统可以包括前端部分和后端部分。前端部分可以包括文本规范化和文本与音素的转换,也就是将原始文本转换成与其等同的书写单词,将拼音转换给每个单词,并将文本划分、标记为韵律单元,例如,短语、短句和句子。前端部分可以将语音转录和韵律信息作为符号语音输出到后端部分。然后,后端部分基于合成方法,例如统计参数合成或拼接合成方法将符号语言数据转化为声音。
统计参数合成方法可以从文本中获得音素的特征,并通过训练的机器学习模型来预测每个音素的音素持续时间、基频和频谱。然而,预测的音素持续时间、基频和频谱可能会被统计方法过度平滑,导致合成语音严重失真。另一方面,连接合成方法,例如单元选择合成(USS),可以从数据库中选择并连接语音单元。然而,单元选择方法经常在连接处经历“跳跃”,导致语音不连续和不自然。因此,需要一种文本-语音合成系统来生成质量提高的语音。
本申请的实施例提供一种改进语音合成的系统和方法,该系统和方法可以同时运用基于语音数据库的单元选择和基于模型的语音生成。
发明内容
本申请的一个方面是关于一种基于文本生成语音的计算机实施方法。该方法包括:从所述文本中识别多个音素;对每个识别的音素,确定第一组声学特征;基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素;对所述每个选择的样本音素,确定第二组声学特征;以及利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音。
本申请的另一方面是关于一种用于基于文本生成语音的语音合成系统。语音合成系统包括存储装置,被配置为存储语音数据库和生成模型。语音合成系统还包括处理器,该处理器被配置为:从所述文本中识别多个音素;对每个识别的音素,确定第一组声学特征;基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素;对所述每个选择的样本音素,确定第二组声学特征;以及利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音。
本申请的另一方面是关于一种存储一组指令的非暂时性计算机可读介质,所述一组指令由至少一个处理器执行时,所述可执行指令使所述至少一个处理器执行从文本生成语音的方法。该方法包括:从所述文本中识别多个音素;对每个识别的音素,确定第一组声学特征;基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素;对所述每个选择的样本音素,确定第二组声学特征;以及利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音。
应当理解的是,以上描述只是示例性的,不应被视为是对本申请的公开范围的限制。
附图说明
图1是根据本申请的一些实施例所示的一种示例性语音合成系统。
图2是根据本申请的一些实施例所示的一种同时基于选择的和预测的语音参数,合成语音的示例性流程的流程图。
图3是根据本申请的一些实施例所示的一种示例性语音合成系统框图。
具体实施方式
本申请以示例性的实施例的方式来进一步描述。这些示例性实施例参考至随附的图示而被详细地描述。在各种可能的情况下,其中相同的组件符号代表整个图式的数个视图的相似结构。
本申请主要针对基于文本转语音的系统和方法,用以生成高保真度的语音。在一些实施例中,语音合成系统包括合成部分和训练部分。所述合成部分可以包括从文本中识别多个音素的音素识别单元。所述合成部分可以进一步包括声学特征确定单元,该单元确定每个被识别的音素的一组声学特征。在一些实施例中,所确定的一组声学特征可以包括音素持续时间、基频、频谱或其任意组合。
所述合成部分可以进一步包括样本音素选择单元,该样本音素选择单元基于所确定的一组声学特征中的至少一个声学特征从语音数据库中选择与每个识别的音素对应的样本音素。在一些实施例中,所述样本音素选择单元可以被配置为选择语音数据库中存储的音素,所述被选择的音素与所识别音素的声学特征最接近。所述样本音素选择单元还可以被配置为每个被选择的样本音素确定更新的一组声学特征,并将所述更新的一组声学特征提供用于语音合成。在一些实施例中,所述更新的一组声学特征具有音素持续时间、基频、频谱或其任意组合的更新值。由于更新的一组声学特征是根据语音数据库中的真实音素来确定,它们比从文本中识别的音素直接估计的声学特征更准确和自然。因此,利用更新的声学特征可以提高合成语音的质量。
所述语音合成系统的训练部分可以包含多个语音样本的语音数据库。所述训练部分还可以包括特征提取单元,该特征提取单元可以提取语音数据库中的语音样本激励参数和频谱参数以训练生成模型。所述训练部分可以通过使用语音数据库中提取的语音样本的激励参数和频谱参数和训练样本的标签,来执行生成模型的训练流程。示例性激励参数可以包括基频、带通发声强度和/或傅立叶强度。示例性频谱参数可以包括线性预测编码(LPC)系数中的频谱包络和/或倒频系数。示例性标签可以包括上下文标签,例如前一个/当前/下一个音素标识、当前音素标识在当前音节中的位置、前一个/当前/下一个音节是否被强调/重音、前一个/当前/下一个音节中音素的数目、当前音节在当前词语/短语中的位置、当前短语中当前音节之前/之后的强调/重音音节的数量、从前一个/当前强调音节到当前/下一个音节的音节数量、从前一个重音/当前音节到当前/下一个重音音节的音节的数量、当前音节的元音的名称、前一个/当前/下一个单词的预测、前一个/当前/下一个单词/短语中的音节/单词的数量、在话语中的当前短语的位置,和/或在话语中的音节/单词/短语的数量。
在一些实施例中,训练流程可以被配置为通过多个谱的音素来训练生成模型。在一些实施例中,生成模型可以是隐马尔可夫模型(HMM)模型或神经网络模型。训练部分在训练后可以提供经过训练的生成模型,该模型用于基于文本的音素生成语音合成的参数。
通过训练的生成模型,语音合成系统可以基于更新的一组声学特征中的至少一个进一步生成语音。在一些实施例中,语音合成系统还可以包括文本特征提取,其确定每个识别的音素的一组文本特征。除了该组声学特征之外,还可以使用文本特征进一步提高语音合成质量。
图1是根据本申请的一些实施例所示的一种示例性语音合成系统。语音合成系统包括合成部分100和训练部分700。虽然图1描述了在一个系统内的语音合成部分100和训练部分700,可以推测合成部分和训练部分可以是独立系统的一部分。例如,训练部分700可以在服务器中实现,而合成部分100可以在通信连接到服务器的终端装置中实现。
在一些实施例中,合成部分100可以包括音素识别单元110、语音数据库120、声学特征确定单元130、样本音素选择单元150和语音合成单元170。
音素识别单元110可以被配置为识别文本中多个音素。例如,接收到文本后,音素识别单元110可以被配置为将包含诸如数字和缩写符号的文本转换成当它们被读出时的等同的书写单词。音素识别单元110也可以被配置为将语音转录分配给每个词。音素识别单元110还可以进一步配置为将文本划分为韵律单元,例如短语、短句和句子。因此,音素识别单元110可以被配置为识别文本中的多个音素。
声学特征确定单元130可以被配置为确定由音素识别单元110识别的每个音素的一组声学特征。例如,声学特征确定单元130可以被配置为每个识别的音素确定一组声学特征,包含音素持续时间、基频、频谱、音节中的位置和/或相邻音素。在一些实施例中,所确定的一组声学特征可以包括识别的音素的音素持续时间、基频、频谱或其任意组合。声学特征确定单元130还可以被配置为发送这组声学特征到音素选择单元150。
在获得所识别音素的确定的声学特征之后,样本音素选择单元150可以被配置为基于所确定的一组声学特征中的至少一个声学特征从语音数据库中选择与每个识别的音素对应的样本音素。例如,样本音素选择单元150可以被配置为基于音素持续时间、基频和音节中的位置来搜索和选择语音数据库120中的样本音素。语音数据库120可以包括从真人语音中获得的多个样本音素和这些样本音素的声学特征。
在一些实施例中,样本音素选择单元150可以被配置为选择语音数据库中存储的具有与所识别音素声学特征最相似特征的音素。例如,样本音素选择单元150可以被配置为选择语音数据库120中音素持续时间和基频与识别的音素的最相似的音素。在一些实施例中,样本音素选择单元150还可以被配置为对所确定的一组声学特征中的每一个进行加权处理,并根据加权结果选择相似度最佳的音素。加权比率基于每个声学特征对语音合成的影响来确定。
另外,样本音素选择单元150可以被配置为确定每个选择的样本音素的一组声学特征。例如,样本音素选择单元150在选择样本音素之后可以进一步配置为将所选样本音素的一组声学特征(例如,音素持续时间和基频)确定为用于语音合成的音素声学特征。在一些实施例中,所确定的一组声学特征可以包括所选样本音素的音素持续时间、基频、频谱或其任意组合。
训练部分700可以包括语音数据库720、特征提取单元730、训练单元740、生成模型760和参数生成单元780。语音数据库720可以包括记录的真人语音的多个语音样本。该语音样本可以在使用语音合成模型之前用于训练机器学习模型。
特征提取单元720可以被配置为提取样本语音中的特征参数。例如,特征提取单元720可以被配置为提取语音数据库720中的语音频谱参数和激励参数。在一些实施例中,特征提取单元720可以被配置为提取声学特征和/或语言特征。示例性声学特征可以包括基频和/或音素持续时间。示例性语言特征可以包括长度、语调、语法、重读、音调、发声和/或方式。
训练单元740可以被配置为使用多个样本语音训练生成模型。例如,训练单元740可以被配置为借由语音样本中获得的音素标签及其对应的特征提取单元730提取的激励参数和的频谱参数来训练生成模型。在一些实施例中,训练单元740可以被配置为训练基于HMM的生成模型,例如基于上下文的子词HMM模型和HMM和判定树的组合模型。在一些实施例中,训练单元720可以被配置为训练神经网络模型,例如前馈神经网络(FFNN)模型、混合密度网络(MDN)模型、递归神经网络(RNN)模型和Highway网络模型。
在一些实施例中,训练单元740可以被配置为通过多个音素谱来训练生成模型。例如,训练单元740可以被配置为从语音数据库720中获得的样本语音音素的频谱来训练生成模型760。在一些实施例中,与基于文本特征训练的生成模型相比,基于音素的频谱训练的生成模型760复杂度低且计算成本也较低。
一旦训练流程收敛,生成模型760可以包括训练的生成模型,该模型可以根据来自文本的音素的标签生成语音合成的预测参数。在一些实施例中,生成模型760可以包括训练的基于HMM的生成模型,例如经训练的依赖于上下文的子词HMM模型和经训练的HMM和判定树的组合模型。在一些实施例中,生成模型760可以包括训练的神经网络模型,例如经训练的FFNN模型、经训练的MDN模型、经训练的RNN模型和经训练的Highway网络模型。
参数生成单元780可以被配置为通过生成模型760,基于来自文本(未示出)的音素标签来生成预测参数以用于语音合成。所述生成的语音合成参数可以包括预测的语言特征和/或预测的声学特征。这些预测的语言特征和预测的声学特征可以被发送到语音合成单元170用于语音合成。
语音合成单元170可以被配置为从样本音素选择单元150获得针对每个选择的样本音素所确定的一组声学特征和从参数生成单元780中获得预测的语言和声学参数。语音合成单元170可以被配置为基于样本音素选择单元150所确定的一组声学特征中的至少一个来生成基于生成模型760的语音。换句话说,语音合成单元170可以被配置为在生成语音利用所选样本音素的声学特征,而不是利用参数生成单元780来预测的声学特征。所选取样本音素的这些声学特征是从真人语音的样本音素中提取。与来自参数生成单元780预测的声学特征相比,它们可以为语音合成提供真实且更准确的声学特征。预测的声学特征可能过度平滑,由于它们是由统计学训练的生成模型760生成的。
例如,语音合成单元170可以被配置为利用所述所选的样本音素的音素持续时间和基频,而不是预测音素持续时间和预测基频来生成语音。预测的音素持续时间和基频是统计参数,而不是真人语音参数。相应地,语音合成单元170可以生成更接近真人讲话的语音。
在一些实施例中,音素识别单元110可以被配置为将每个识别的音素划分成多个帧。音素识别单元110也可以被配置为确定每个帧的一组声学特征。样本音素选择单元150还可以被配置为基于帧的一组声学特征中的至少一个声学特征来选择多个样本音素。类似地,其他单元的操作可以基于帧来执行。
在一些实施例中,音素识别单元110还可以被配置为确定每个识别音素的一组文本特征。语音合成单元170可以进一步配置为基于所识别的音素的文本特征生成语音。例如,音素识别单元110可以进一步配置为确定所识别的每个音素的一组文本特征并发送该组文本特征到语音合成单元170。语音合成单元170可以被配置为基于该组文本特征和上述预测的语言特征和所选择的声学特征来生成语音。
在一些实施例中,语音合成单元170可以被配置为基于上述频谱参数生成语音,而不是基于当使用频谱参数训练生成模型时的文本特征。例如,当训练单元740通过语音数据库的样本语音提取的音素频谱训练生成模型760时,语音合成单元170可以被配置为基于样本音素选择单元150所选样本音素的频谱生成语音。
图2是根据本申请的一些实施例所示的一种同时基于所选和预测语音参数合成语音的示例性流程的流程图。
步骤210可以包括识别文本中的音素。在一些实施例中,步骤210识别文本中的音素可以包括识别文本中的多个音素。例如,步骤210识别文本中的音素可以包括转换含有符号,例如数字和缩写的文本为其等同的书写单词。步骤210识别文本中的音素还可以包括为每个单词分配拼音。步骤210识别文本中的音素可以包括将文本进一步划分、标记为韵律单元,例如短语、从句和句子。
步骤230可以包括确定经识别的音素的声学特征。在一些实施例中,步骤230确定声学特征可以包括确定步骤210中经识别的每个音素的一组声学特征。例如,步骤230确定声学特征可以包括为步骤210识别的每个音素确定一组声学特征,该组声学特征包含音素持续时间、基频、频谱、音节中的位置、和/或相邻音素。在一些实施例中,所确定的一组声学特征可以包括所确定的音素的音素持续时间、基频、频谱或其任意组合。
步骤250可以包括基于所确定的一组声学特征来选择与识别的音素相对应的样本音素。在一些实施例中,步骤250选择样本音素可以包括基于所确定的一组声学特征中的至少一个,从语音数据库中选择与每个识别的音素相对应的样本音素。例如,步骤250选择样本音素可以包括基于音素持续时间、基频和音节中的位置,从图1中所示的语音数据库120中选择样本音素。语音数据库120可以包括真人语音中获得的多个样本音素和这些样本音素的声学特征。
在一些实施例中,步骤250选择样本音素可以包括选择存储在语音数据库中的音素,所述被选的音素具有与所识别的音素相似度最高的声学特征。例如,步骤250选择样本音素可以包括选择语音数据库120中音素持续时间和基频与所识别音素的最接近的音素。步骤250选择样本音素可以包括对所确定的一组声学特征中的每一个声学特征进行加权,并根据加权结果选择相似度最高的一个。加权比率可以基于每个声学特征对语音合成的影响来确定。
步骤270可以包括确定所选样本音素的声学特征。在一些实施例中,步骤270确定所选样本音素的声学特征可以包括确定步骤250选择的每个样本音素的一组声学特征。例如,步骤270确定所选样本音素的声学特征可以包括确定步骤250中所选择的样本音素的一组声学特征,例如音素持续时间和基频,以作为语音合成用的音素的声学特征。在一些实施例中,所确定的一组声学特征可以包括所选样本音素的音素持续时间、基频、频谱或其任意组合。
步骤290可以包括基于所选择样本音素的声学特征和生成模型来生成语音。在一些实施例中,步骤290生成语音可以包括为步骤250获得的每个选择的样本音素获取所确定的一组声学特征,和从训练的生成模型获取预测的语言和声学参数。步骤290生成语音可以包括基于步骤250中确定的一组声学特征中的至少一个,通过训练的生成模型来生成语音。换而言之,步骤290生成语音可以包括在生成语音时,使用所选样本音素的语音特征,而不是使用预测的语音特征。这些所选样本音素的声学特征可以从中真人语音的样本音素中提取。与预测的声学特征相比,它们可以为语音合成提供真实的声学特征。预测的声学特征可能被过度平滑,由于它们是由统计学训练的生成模型生成的。
例如,步骤290生成语音可以包括通过使用所选样本音素的音素持续时间和基频,而不是使用预测的音素持续时间和预测的基频来生成语音。预测的音素持续时间和基频是统计参数,而不是来自真人语音的参数。因此,步骤290可以生成更类似真人的语音。
图3是根据本申请的一些实施例所示的一种示例性语音合成系统300。在一些实施例中,语音合成系统300可以包括内存310、处理器320、存储器330、I/O接口340和通信接口350。语音合成系统300的一个或多个组件可以被包含用于将文本转换成语音。这些组件可以被配置为在各个组件之间传输数据并发送或接收指令。
处理器320可以包括任何适当类型的通用或专用微处理器、数字信号处理器或微控制器。处理器320可以被配置为从文本中识别音素。在一些实施例中,处理器320可以被配置为从文本中识别多个音素。例如,处理器320可以被配置为将包含诸如数字和缩写等符号的文本转换为等同的书写单词。处理器320还可以被配置为将语音记录分配给每个单词。处理器320还可以被配置为将文本划分为韵律单元,诸如短语、从句和句子。
处理器320还可以被配置为给识别的音素确定声学特征。在一些实施例中,处理器320可以被配置为确定每个识别的音素的一组声学特征。例如,处理器320可以被配置为每个识别的音素确定一组声学特征,包含音素持续时间、基频、频谱、音节中的位置和/或相邻音素。在一些实施例中,所确定的一组声学特征可以包括识别的音素的音素持续时间、基频、频谱或其任何组合。
处理器320还可以被配置为基于确定的声学特征来选择与识别的音素相对应的样本音素。在一些实施例中,处理器320可以被配置为基于确定的一组声学特征中的至少一个,从语音数据库中选择与每个识别的音素对应的样本音素。例如,处理器320可以被配置为基于音素持续时间、基频和音节中的位置,来搜索并选择存储在内存310和/或存储器330中的语音数据库中的样本音素。语音数据库可以包括可以从真人语音中获得的多个样本音素和这些样本音素的声学特征。
在一些实施例中,处理器320可以被配置为选择存储在语音数据库中音素,所述被选的音素具有与所识别音素的声学特征相似度最高的声学特征。例如,处理器320可以被配置为选择语音数据库中音素持续时间和基频与识别的音素最接近的音素。在一些实施例中,处理器320可以被配置为对所确定的一组声学特征中的每一个进行加权并且根据加权结果来选择最相似的一个。加权比例可以基于每个声学特征对语音合成的影响来确定。
另外,处理器320可以被配置为确定所选样本音素的声学特征。在一些实施例中,处理器320可以被配置为确定每个选择的样本音素的一组声学特征。例如,处理器320可以被配置为确定所选择的样本音素的一组声学特征(诸如音素持续时间和基频),以作为用于语音合成的音素的声学特征。在一些实施例中,所确定的一组声学特征可以包括所选样本音素的音素持续时间、基频、频谱或其任何组合。
此外,处理器320可以被配置为基于所选样本音素的声学特征,使用生成模型来生成语音。在一些实施例中,处理器320可以被配置为每个选择的样本音素获取所确定的一组声学特征,以及从训练的生成模型获取预测的语言和声学参数。处理器320可以被配置为基于一组确定的声学特征中的至少一个,通过训练的生成模型来生成语音。换而言之,处理器320可以被配置为在生成语音中利用所选样本音素的语音特征,而不是使用预测的语音特征。这些所选样本音素的声学特征可以从中真人语音的样本音素中提取。与预测的声学特征相比,它们可以为语音合成提供真实的声学特征。预测的声学特征可能被过度平滑,由于它们是由统计学训练的生成模型生成的。
例如,处理器320可以被配置为通过使用所选样本音素的音素持续时间和基频,而不是使用预测的音素持续时间和预测的基频来生成语音。预测的音素持续时间和基频是统计参数,而不是真实人类语音的参数。相应地,处理器320可以被配置为生成更接近真实人类语音的语音。
内存310存储器330可以包括任何适当类型的大容量存储装置,用来存储处理器320需要操作的任何类型的信息。内存310和存储器330可以是易失性的或非易失性的、磁性的、半导体的、光学的、可移动的、不可移动的或其他类型的存储装置或有形(即,非瞬态)计算机可读介质,包括但不限于ROM、闪存、动态RAM和静态RAM。内存310和/或存储器330可以被配置为存储一个或多个计算机程序,所述一个或多个计算机程序可以由处理器320执行以完成本申请中公开的示例性语音合成方法。例如,如上所述,内存310和/或存储器330可以被配置为存储可以由处理器420执行的用于从文本合成语音的程序。
内存310和/或存储器330可以被进一步配置为存储由处理器320使用的信息和数据。例如,内存310和/或存储器330可以被配置为存储图1所示的语音数据库120和语音数据库720、从文本中识别的音素、所选样本音素、所识别音素的所选声学特征的集合、所选样本音素的所选声学特征的集合、提取激励和频谱参数、图1中的训练的生成模型760、所预测的语言和声学特征,和文本特征。
I/O接口340可以被配置为促进语音合成系统300和其他装置之间的通信。例如,I/O接口340可以从另一个装置(例如,计算机)接收文本。I/O接口340还可以输出合成语音到其他装置,例如膝上型计算机或扬声器。
通信接口350可以被配置为与语音合成服务器进行通信。例如,通信接口350可以被配置为通过有线连接或无线连接,与语音合成服务器相连接以存取语音数据库120和/或语音数据库720。所述无线连接包括,诸如蓝牙,Wi-Fi和蜂窝(例如,GPRS、WCDMA、HSPA、LTE或后代蜂窝通信系统)。所述无线连接包括,例如,USB线或电线。
本申请的另一方面是针对存储指令的非暂时性计算机可读介质,所述指令在被执行时使得一个或多个处理器执行如上所述方法。计算机可读介质可以包括易失性的或非易失性的、磁性的、半导体的、磁带的、光学的、可移动的、不可移动的或其他类型的计算机可读介质或计算机可读存储装置。例如,如所公开的,计算机可读介质可以是其上存储有计算机指令的存储装置或内存模块。在一些实施例中,计算机可读介质可以是其上存储有计算机指令的盘或闪存驱动器。
对于本领域的普通技术人员显而易见的是,可以对所公开的语音合成系统和相关方法进行各种变更、改良和修改。考虑到所公开的语音合成系统和相关方法的说明和实践,其他实施例对于本领域具有通常知识者将是显而易见的。尽管所述实施例使用语音作为示例进行描述,但是可以将所描述的合成系统和方法应用于从文本生成其他音频信号。例如,所描述的系统和方法可用于生成歌曲、收音机/电视广播、演示文稿、语音消息、音频书籍、导航语音指南等。
本申请的说明书和示例仅被认为是示例性的,真正的范围由以下权利要求及其等同物来限定。
Claims (18)
1.一种用于基于文本生成语音的计算机实施方法,所述方法包括:
从所述文本中识别多个音素;
对每个识别的音素,确定第一组声学特征;
基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素,其中,所述基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素包括:
将所述每个识别的音素分割为多个帧;
确定每一帧的第三组声学特征;
对所述第三组声学特征中的至少一个声学特征进行加权处理;
根据加权结果从所述语音数据库中选择与所述每个识别的音素相对应的所述样本音素;
对每个选择的样本音素,确定第二组声学特征;以及
利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音。
2.根据权利要求1所述的计算机实施方法,其特征在于,所述第一组声学特征包括第一音素持续时间、第一基频、第一频谱或其任何组合。
3.根据权利要求2所述的计算机实施方法,其特征在于,所述第二组声学特征包括第二音素持续时间、第二基频、第二频谱或其任何组合。
4.根据权利要求1所述的计算机实施方法,进一步包括:
为所述每个识别的音素确定一组文本特征,
其中基于所述识别的音素确定的文本特征生成所述语音。
5.根据权利要求1所述的计算机实施方法,其特征在于,选择所述样本音素进一步包括:
选择存储在所述语音数据库中的音素,被选择的音素的声学特征与所述识别的音素的声学特征相似度最高。
6.根据权利要求1所述的计算机实施方法,其中所述生成模型是隐马尔可夫模型(HMM)或神经网络模型。
7.根据权利要求1所述的计算机实施方法,进一步包括:
利用所述语音数据库中的多个训练样本训练所述生成模型,
其中所述多个训练样本包括多个音素频谱。
8.根据权利要求7所述的计算机实施方法,其特征在于,生成所述语音包括:
利用经训练的生成模型,基于被选择的样本音素的频谱,生成所述语音。
9.一种用于基于文本生成语音的语音合成系统,所述语音合成系统包括:
存储装置,所述存储装置被配置为存储语音数据库和生成模型;以及处理器,所述处理器被配置为:
从所述文本中识别多个音素;
对每个识别的音素,确定第一组声学特征;
基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素,其中,为基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素,所述处理器进一步被配置为:将所述每个识别的音素分割为多个帧;
确定每一帧的第三组声学特征;对所述第三组声学特征中的至少一个声学特征进行加权处理;
根据加权结果从所述语音数据库中选择与所述每个识别的音素相对应的所述样本音素;对每个选择的样本音素,确定第二组声学特征;以及
利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音。
10.根据权利要求9所述的语音合成系统,其特征在于,所述第一组声学特征包括第一音素持续时间、第一基频、第一频谱或其任何组合。
11.根据权利要求10所述的语音合成系统,其特征在于,所述第二组声学特征包括第二音素持续时间、第二基频、第二频谱或其任何组合。
12.根据权利要求9所述的语音合成系统,所述处理器进一步被配置为:
为所述每个识别的音素确定一组文本特征,
其中基于所述识别的音素确定的文本特征生成所述语音。
13.根据权利要求9所述的语音合成系统,其特征在于,为选择所述样本音素,所述处理器进一步被配置为:
选择存储在所述语音数据库中的音素,被选择的音素的声学特征与所述识别的音素的声学特征相似度最高。
14.根据权利要求9所述的语音合成系统,其中所述生成模型是隐马尔可夫模型(HMM)或神经网络模型。
15.根据权利要求9所述的语音合成系统,其特征在于,所述处理器进一步被配置为:
利用所述语音数据库中的多个训练样本训练所述生成模型,
其中所述多个训练样本包括多个音素频谱。
16.根据权利要求15所述的语音合成系统,其特征在于,为生成所述语音,所述处理器进一步被配置为:
利用经训练的生成模型,基于被选择的样本音素的频谱,生成所述语音。
17.一种非暂时性 计算机可读介质,其存储一组可执行指令,当所述可执行指令由至少一个处理器执行时,所述指令使所述至少一个处理器执行从文本生成语音的方法,所述方法包括:
从所述文本中识别多个音素;
对每个识别的音素,确定第一组声学特征;
基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素,其中,所述基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素包括:
将所述每个识别的音素分割为多个帧;
确定每一帧的第三组声学特征;对所述第三组声学特征中的至少一个声学特征进行加权处理;
根据加权结果从所述语音数据库中选择与所述每个识别的音素相对应的所述样本音素;
对每个选择的样本音素,确定第二组声学特征;以及
利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音。
18.根据权利要求17所述的非暂时性计算机可读介质,其特征在于,所述方法进一步包括:
利用所述语音数据库中的多个训练样本训练所述生成模型,其中:
所述多个训练样本包括多个音素频谱,以及
生成所述语音包括利用所述训练的生成模型,基于被选择的样本音素的频谱,生成所述语音。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2017/084530 WO2018209556A1 (en) | 2017-05-16 | 2017-05-16 | System and method for speech synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109313891A CN109313891A (zh) | 2019-02-05 |
CN109313891B true CN109313891B (zh) | 2023-02-21 |
Family
ID=64273025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780037307.0A Active CN109313891B (zh) | 2017-05-16 | 2017-05-16 | 用于语音合成的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200082805A1 (zh) |
CN (1) | CN109313891B (zh) |
TW (1) | TWI721268B (zh) |
WO (1) | WO2018209556A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11854538B1 (en) * | 2019-02-15 | 2023-12-26 | Amazon Technologies, Inc. | Sentiment detection in audio data |
US11468879B2 (en) * | 2019-04-29 | 2022-10-11 | Tencent America LLC | Duration informed attention network for text-to-speech analysis |
CN110459201B (zh) * | 2019-08-22 | 2022-01-07 | 云知声智能科技股份有限公司 | 一种产生新音色的语音合成方法 |
CN110808026B (zh) * | 2019-11-04 | 2022-08-23 | 金华航大北斗应用技术有限公司 | 一种基于lstm的电声门图语音转换方法 |
CN111028824A (zh) * | 2019-12-13 | 2020-04-17 | 厦门大学 | 一种用于闽南语的合成方法及其装置 |
CN111429877B (zh) * | 2020-03-03 | 2023-04-07 | 云知声智能科技股份有限公司 | 歌曲处理方法及装置 |
CN111613224A (zh) * | 2020-04-10 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种个性化语音合成方法及装置 |
CN112435666A (zh) * | 2020-09-30 | 2021-03-02 | 远传融创(杭州)科技有限公司 | 一种基于深度学习模型的智能语音数字通信方法 |
CN112382267A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于转换口音的方法、装置、设备以及存储介质 |
CN112863482B (zh) * | 2020-12-31 | 2022-09-27 | 思必驰科技股份有限公司 | 带有韵律的语音合成方法及系统 |
CN113160849B (zh) * | 2021-03-03 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌声合成方法、装置及电子设备和计算机可读存储介质 |
US20230335110A1 (en) * | 2022-04-19 | 2023-10-19 | Google Llc | Key Frame Networks |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1760972A (zh) * | 2004-10-15 | 2006-04-19 | 微软公司 | 使用合成输入测试和调整语音识别系统 |
CN101156196A (zh) * | 2005-03-28 | 2008-04-02 | 莱塞克技术公司 | 混合语音合成器、方法和使用 |
CN101178896A (zh) * | 2007-12-06 | 2008-05-14 | 安徽科大讯飞信息科技股份有限公司 | 基于声学统计模型的单元挑选语音合成方法 |
CN101312038A (zh) * | 2007-05-25 | 2008-11-26 | 摩托罗拉公司 | 用于合成语音的方法 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020120451A1 (en) * | 2000-05-31 | 2002-08-29 | Yumiko Kato | Apparatus and method for providing information by speech |
TWM244535U (en) * | 2003-07-03 | 2004-09-21 | Etoms Electronics Corp | 2D barcode voice generator |
CN102063899B (zh) * | 2010-10-27 | 2012-05-23 | 南京邮电大学 | 一种非平行文本条件下的语音转换方法 |
US20160343366A1 (en) * | 2015-05-19 | 2016-11-24 | Google Inc. | Speech synthesis model selection |
TWI582755B (zh) * | 2016-09-19 | 2017-05-11 | 晨星半導體股份有限公司 | 文字轉語音方法及系統 |
-
2017
- 2017-05-16 CN CN201780037307.0A patent/CN109313891B/zh active Active
- 2017-05-16 WO PCT/CN2017/084530 patent/WO2018209556A1/en active Application Filing
-
2018
- 2018-04-27 TW TW107114380A patent/TWI721268B/zh active
-
2019
- 2019-11-15 US US16/684,684 patent/US20200082805A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1760972A (zh) * | 2004-10-15 | 2006-04-19 | 微软公司 | 使用合成输入测试和调整语音识别系统 |
CN101156196A (zh) * | 2005-03-28 | 2008-04-02 | 莱塞克技术公司 | 混合语音合成器、方法和使用 |
CN101312038A (zh) * | 2007-05-25 | 2008-11-26 | 摩托罗拉公司 | 用于合成语音的方法 |
CN101178896A (zh) * | 2007-12-06 | 2008-05-14 | 安徽科大讯飞信息科技股份有限公司 | 基于声学统计模型的单元挑选语音合成方法 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
TWI721268B (zh) | 2021-03-11 |
US20200082805A1 (en) | 2020-03-12 |
CN109313891A (zh) | 2019-02-05 |
WO2018209556A1 (en) | 2018-11-22 |
TW201901658A (zh) | 2019-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109313891B (zh) | 用于语音合成的系统和方法 | |
CN111566656B (zh) | 利用多种语言文本语音合成模型的语音翻译方法及系统 | |
US11410684B1 (en) | Text-to-speech (TTS) processing with transfer of vocal characteristics | |
US11373633B2 (en) | Text-to-speech processing using input voice characteristic data | |
US11410639B2 (en) | Text-to-speech (TTS) processing | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
Ghai et al. | Literature review on automatic speech recognition | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
Zwicker et al. | Automatic speech recognition using psychoacoustic models | |
US20160379638A1 (en) | Input speech quality matching | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
Panda et al. | Automatic speech segmentation in syllable centric speech recognition system | |
Qian et al. | A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
US20170249953A1 (en) | Method and apparatus for exemplary morphing computer system background | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
Chittaragi et al. | Acoustic-phonetic feature based Kannada dialect identification from vowel sounds | |
CN113593522B (zh) | 一种语音数据标注方法和装置 | |
Gerosa et al. | Towards age-independent acoustic modeling | |
Sultana et al. | A survey on Bengali speech-to-text recognition techniques | |
CN107924677B (zh) | 用于异常值识别以移除语音合成中的不良对准的系统和方法 | |
KR101890303B1 (ko) | 가창 음성 생성 방법 및 그에 따른 장치 | |
EP1589524B1 (en) | Method and device for speech synthesis | |
Yeh et al. | A consistency analysis on an acoustic module for Mandarin text-to-speech | |
CN111696530B (zh) | 一种目标声学模型获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |