CN104021784B - 基于大语料库的语音合成方法和装置 - Google Patents
基于大语料库的语音合成方法和装置 Download PDFInfo
- Publication number
- CN104021784B CN104021784B CN201410276352.XA CN201410276352A CN104021784B CN 104021784 B CN104021784 B CN 104021784B CN 201410276352 A CN201410276352 A CN 201410276352A CN 104021784 B CN104021784 B CN 104021784B
- Authority
- CN
- China
- Prior art keywords
- rhythm
- boundary demarcation
- corpus
- probability
- scheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 23
- 230000033764 rhythmic process Effects 0.000 claims abstract description 291
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 63
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 63
- 239000000463 material Substances 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 9
- 239000012634 fragment Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000452 restraining effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于大语料库的语音合成方法和装置。所述基于大语料库的语音合成方法包括:利用韵律结构预测模型对输入的文本进行韵律结构预测处理,给出至少一个备选韵律边界划分方案;根据所述至少一个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息,确定韵律边界划分方案;根据所确定的韵律边界划分方案进行语音合成。本发明实施例提供的基于大语料库的语音合成方法和装置提高了语音合成的自然度和灵活性。
Description
技术领域
本发明实施例涉及文语转换技术领域,尤其涉及一种基于大语料库的语音合成方法和装置。
背景技术
语音是人机交流最习惯、最自然的方式。将文字输入转成语音输出的技术称为文语转换(Text-to-Speech,TTS)或语音合成技术。它涉及声学、语言学、数字信号处理多媒体技术等多个领域,是中文信息处理领域的一项前沿技术。
图1示出了现有技术提供的语音合成系统的信号流。参见图1,在训练阶段,可以依据对文本语料库101和语音语料库102中的标注数据训练得到韵律结构预测模型103、声学模型104以及候选单元105。其中,所述韵律结构预测模型103为语音合成阶段中的韵律结构预测107提供参考,所述声学模型104为语音合成109提供依据,而候选单元105是在波形拼接式的语音合成109中用于调取常用的候选波形的软件单元。
在语音合成阶段,首先对输入的文本进行文本分析106,然后根据韵律结构预测模型103对输入文本的进行韵律结构预测107,再根据不同的语音合成模式,也即参数合成式语音合成或者波形拼接式语音合成进行参数预测/单元选择108,最后进行最终的语音合成109。
采用现有的语音合成系统进行韵律结构预测,已经能够针对一定的输入文本得到该输入文本的确定的韵律层级结构。但是,在人们实际的交流中,语音的韵律层级结构往往受到多种因素的影响。图2是真人语音中韵律结构的影响因素的原理示意图。参见图2,真人语音的韵律结构可能会受到说话人特征、感情、基本频率和句子的意思的影响。以说话人特征为例,年龄在70岁的男人说话的韵律结构就与年龄在30岁的女人说话的韵律结构不同。
因此,按照统一的韵律结构预测模型103预测得到的句子的韵律结构的灵活性不好,造成语音合成系统最终合成的语音的自然度不高。
发明内容
有鉴于此,本发明实施例提出一种基于大语料库的语音合成方法和装置,以提高合成语音的自然度和灵活性。
第一方面,本发明实施例提供了一种基于大语料库的语音合成方法,所述方法包括:
利用韵律结构预测模型对输入的文本进行韵律结构预测处理,给出至少两个备选韵律边界划分方案;
根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案;
根据所确定的韵律边界划分方案进行语音合成。
第二方面,本发明实施例提供了一种基于大语料库的语音合成装置,所述装置包括:
预测处理模块,用于利用韵律结构预测模型对输入的文本进行韵律结构预测处理,给出至少两个备选韵律边界划分方案;
边界划分模块,用于根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案;
语音合成模块,用于根据所确定的韵律边界划分方案进行语音合成。
本发明实施例提供的基于大语料库的语音合成方法和装置,通过利用韵律结构预测模型对输入的文本进行韵律结构预测处理,给出至少两个备选韵律边界划分方案,再根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案,最后根据所确定的韵律边界划分方案进行语音合成,提高了合成语音的自然度和灵活性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是现有技术提供的语音合成系统的信号流图;
图2是现有技术真人语音中韵律结构的影响因素的原理示意图;
图3是本发明第一实施例提供的基于大语料库的语音合成方法的流程图;
图4是本发明实施例所适用的汉语句子的韵律结构示意图;
图5是本发明第一实施例提供的文本语料库中韵律标注数据的示意图;
图6是实施本发明第一实施例提供的运行基于大语料库的语音合成方法的语音合成系统的信号流图;
图7是本发明第二实施例提供的基于大语料库的语音合成方法中边界划分的流程图;
图8是本发明优选实施例提供的基于大语料库的语音合成方法的流程图;
图9是本发明第三实施例提供的基于大语料库的语音合成装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
图3至图6示出了本发明的第一实施例。
图3是本发明第一实施例提供的基于大语料库的语音合成方法的流程图。所述基于大语料库的语音合成方法运行在专门用于语音合成的计算装置上。所说专门用于语音合成的计算装置包括个人电脑、服务器等通用式计算机,还包括各种用于语音合成的嵌入式计算机。所述基于大语料库的语音合成方法包括:
S310,利用韵律结构预测模型对输入的文本进行韵律结构预测处理,给出至少两个备选韵律边界划分方案。
语音合成系统在组成功能上可分为文本分析、韵律处理和声学处理三大模块。文本分析模块主要模拟人对自然语言的理解过程,使计算机对输入的文本能完全理解并给出后两部分所需的各种发音提示。韵律处理为合成语音规划出音段特征,是合成语音能正确表达语义,听起来更加自然。声学处理根据前两部分处理结果的要求输出语音,即合成语音。
对输入文本的韵律处理离不开对输入文本的韵律结构预测。一般认为,汉语的韵律结构包括韵律词、韵律短语和语调短语三个层级。图4是汉语句子的韵律结构示意图。汉语句子由很多语法词401前后衔接构成;一个或者多个语法词401共同构成了韵律词402;一个或多个韵律词402共同构成了韵律短语403;然后一个或多个韵律短语403共同构成了语调短语404。
韵律词402的基本特点是:(1)由一个音步构成;(2)一般为三个音节以下的语法词或词组;(3)跨度为1-3个音节,大多数为2-3个音节,例如连词、介词等;(4)具有类似于语法词的连调模式和词重音模式,内部不出现节奏边界;(5)韵律词402可以组成韵律短语403。
韵律短语403的主要特点是:(1)由一个或几个韵律词402组成;(2)跨度为7-9个音节;(3)内部各个韵律词402之间可能出现韵律上的节奏分界,主要表现为韵律词末尾音节的延长和韵律词之间的音高重新设置;(4)韵律短语403的调阶走势基本上呈降势;(5)具有相对稳定的短语重音配置模式,即与句法结构相关的常规重音模式。
语调短语404的主要特点是:(1)可能多音步;(2)内部可能包含不止一个韵律短语语调模式和韵律短语重音模式,因而会出现相关的节奏分界,主要表现为韵律短语末尾音节的延长和韵律短语之间的音高重新设置;(3)具有取决于不同语气或句型的语调模式,即具有特定的调阶走势,例如陈述句降,一般疑问句升,感叹句调阶总体抬高。
对输入文本的这三个层次的识别,也就是对输入文本的韵律结构预测决定了合成语音在句子中间的停顿特征。一般来说,系统的输入文本中存在与韵律层次一一对应的三个停顿级别,且韵律层次越高,其边界出的停顿特征就越明显;韵律层级越低,其边界处的停顿特征就模糊。而合成语音的停顿特征对其自然度有很大的影响。所以,对输入文本的韵律结构预测很大程度上影响着最终的合成语音的自然度。
对输入文本进行韵律结构预测的结果是韵律边界划分方案。依据不同的韵律边界划分方案进行语音合成,则合成语音的停顿点和停顿时长等参数不同。所述韵律边界划分方案包括预测得到的韵律词边界、韵律短语边界以及语调短语边界。也就是说,所述韵律边界划分方案中包括对韵律词、韵律短语以及语调短语的边界的划分。
应该理解的是,对相同的输入文本进行韵律结构预测,可能输出对所述输入文本的不同的韵律边界划分方案。优选的,可以通过输出对输入文本的较优的多个韵律边界划分方案来获得对所述输入文本的不同的韵律边界划分方案。
在对输入文本进行韵律结构预测的过程中,一般认为语调短语是非常容易识别出来的,因为语调短语基本都是由标点符号分隔开的,与此同时对于韵律词的预测可以依靠总结规则的方法,而且已经基本满足使用的要求。相比较之下,对韵律短语的预测便成为了韵律结构预测中的难点。因此,对输入文本的韵律结构预测主要是要解决对韵律短语边界的预测。
对输入文本进行韵律结构预测的依据是韵律结构预测模型。所述韵律结构预测模型是通过对文本语料库和语音语料库中的标注数据进行统计学习而生成的。优选的,可以利用决策树算法、条件随机场算法、最大熵模型算法或者隐马尔科夫模型算法对文本语料库和语音语料库中的标注数据进行统计学习,从而生成所述韵律结构预测模型。
所述文本语料库和所述语音语料库是用于训练所述韵律结构预测模型的两个基础语料库。其中,所述文本语料库的存储对象是文本数据,而语音语料库的存储对象是语音数据。所述文本语料库和所述语音语料库中不仅存储有基础的语料,还对应的存储有这些语料的标注数据。所述语料的标注数据至少包括对语料的韵律层级结构的标注数据。
以文本语料库为例说明对语料的标注数据的结构。图5是本发明第一实施例提供的文本语料库中韵律标注数据的示意图。参见图5,所述文本语料库中不仅存储有语料501,还存储有对该语料的韵律结构的标注数据502。所述语料501以句子为单位进行存储,在这些句子的内部划分韵律词、韵律短语以及语调短语。所述语料的标注数据502是对语料中韵律词的末尾是何种韵律边界的标注。在对语料的韵律结构的标注数据中,B0表示该韵律词的末尾是韵律词边界;B1表示该韵律词的末尾是韵律短语边界;B2表示该韵律词的末尾是语调短语边界。
在本实施例中,接收到所述输入文本后,利用所述韵律结构预测模型对所述输入文本进行韵律结构预测,获取对所述输入文本的至少两个韵律边界划分方案。
S320,根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案。
在语音合成中,输入文本可以看作是不同韵律单元的集合。也就是说,所述输入文本包括不同的韵律单元。所述韵律单元就是音节,对应于输入文本中的每个汉字。例如,“我爱北京天安门”的输入文本包括了韵律单元“门”;“好好学习,天天向上”的输入文本包括了韵律单元“习”。
在针对输入文本给出了不同的韵律边界划分方案之后,由于不同的韵律边界划分方案所给出的韵律边界不同,在不同韵律边界划分方案中处在相同位置的韵律单元并不相同。
示例的,对于输入文本“短短两周时间上涨的价格超过了过去五年的总和”,如果仅给出韵律短语的划分边界,有下面两种韵律边界划分方案:
短短两周时间$上涨的价格$超过了过去五年的总和。
短短两周时间$上涨的价格超过了$过去五年的总和。
在上述两种韵律边界划分方案中,符号“$”表示该韵律边界划分方案中韵律短语的边界。可以看出,在第一种韵律边界划分方案中,韵律单元“格”处在该韵律边界划分方案的第二个韵律短语的末尾,而在第二种韵律边界划分方案中,韵律单元“了”处在该韵律边界划分方案中第二个韵律短语的末尾。
在本实施例中,将不同韵律单元在所述语音语料库中的结构概率信息进行比较,并根据比较的结果从至少两个备选韵律边界划分方案中确定最终的韵律边界划分方案。其中,所述韵律单元的结构概率信息包括所述韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。
在上面的两种韵律边界划分方案的例子中,韵律单元“格”以及韵律单元“了”分别处于第一种韵律边界划分方案和第二种韵律边界划分方案的末尾。如果在所述语音语料库中韵律单元“格”处于韵律短语的末尾的概率大于韵律单元“了”处于韵律短语的末尾的概率,则选择第一种韵律边界划分方案为最终的韵律边界划分方案;如果在所述语音语料库中韵律单元“了”处于韵律短语的末尾的概率大于韵律单元“格”处于韵律短语的末尾的概率,则选择第二中韵律边界划分方案为最终的韵律边界划分方案。
S330,根据所确定的韵律边界划分方案进行语音合成。
确定了输入文本的韵律边界划分方案后,根据所确定的韵律边界划分方案进行语音合成。所述语音合成包括波形拼接式的语音合成,以及参数合成式的语音合成。
上述方案中,优选可以首先采用上述方案确定韵律词的划分方案,如果需要,可以在韵律词划分的基础上进行韵律短语的划分,得到多个韵律短语划分的备选方案,采用类似的方法获得优选的备选方案,作为最终的韵律边界划分方案。
图6是实施本发明第一实施例提供的运行基于大语料库的语音合成方法的语音合成系统的信号流图。参见图6,所述运行基于大语料库的语音合成方法的语音合成系统对输入文本的语音合成除了包括现有技术中的语音合成系统中包括的对输入文本的文本分析608,依照韵律结构预测模型对输入文本的韵律结构预测609,对输入文本的参数预测/单元选择610,以及最终的语音合成611,还包括依据韵律单元的在语音语料库中的结构概率信息对韵律结构进行的韵律修正607。按照修正后的韵律结构进行输入文本的语音合成,所得到的合成语音的自然度更高。
本实施例通过对输入文本进行韵律结构预测,给出至少两个备选韵律边界划分方案,再根据所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息确定韵律边界划分方案,最后根据所确定的韵律边界划分方案进行语音合成,使得在对输入文本进行的韵律结构预测参考了韵律单元的在语料库中的结构概率信息,提高了语音合成的自然度和灵活性。
图7示出了本发明的第二实施例。
图7是本发明第二实施例提供的基于大语料库的语音合成方法中边界划分的流程图。所述基于大语料库的语音合成方法以本发明第一实施例为基础,进一步的,根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案包括:
S321,根据预先对语音语料库中数据的统计,获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息。
在根据韵律单元的位置统计信息确定输入文本的韵律边界划分方案时,首先根据预先对语音语料库中数据的统计,获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息。其中,所述韵律单元的结构概率信息包括所述韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。
所述韵律单元应该选取处于所述备选韵律边界划分方案中韵律边界处的韵律单元。如果所述韵律单元的结构概率信息是指所述韵律单元出现在韵律词、韵律短语或者语调短语的首部的概率,则需要选取处于所述韵律边界后面的韵律单元;如果所述韵律单元的结构概率信息是指所述韵律单元出现在韵律词、韵律短语或者语调短语的尾部的概率,则需要选取处于所述韵律边界前面的韵律单元。
优选的,所述韵律单元的结构概率信息可以通过下式表达:
Wi=β×log(m+n0)-γ。
其中,m表示所述韵律单元处于所述语音语料库中目标韵律层级的目标位置的个数,所述目标韵律层级包括韵律词、韵律短语以及语调短语,所述目标位置可以是韵律词、韵律短语或者语调短语的首部或者尾部;n0是个数调整参数,它可以是大于零的任意整数;β是概率缩放系数;γ是概率偏移系数。上式中,参数n0、β以及γ是依据经验取值的参数,而通过上式计算得到的结果Wi就表示所述韵律单元在所述语音语料库中的结构概率信息。
S322,根据所述结构概率信息,利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率。
优选的,按照预定的加权参数对所述至少两个备选韵律边界划分方案的目标韵律层级概率以及结构概率进行加权平均,确定所述至少两个备选韵律边界划分方案的输出概率。
示例的,所述输出概率计算函数如下式所示:
f(Wp,Wi)=α×Wp+(1-α)Wi。
其中,α是加权系数,它是一个依经验取值的参数,其取值在0至1之间;Wp是所述韵律单元的韵律层级概率;Wi是所述韵律单元的结构概率。其中,所述韵律单元的韵律层级概率,也就是Wp是利用韵律结构预测模型对输入文本进行韵律结构预测时,由所述韵律结构预测模型输出的对应于所述韵律单元的概率值。它表示输入文本在所述韵律单元处出现对应层级的韵律边界的概率。所述对应层级可以是韵律词层级、韵律短语层级或者语调短语层级。
所述韵律单元的结构概率是指所述韵律单元出现在语音语料库的语料中的特定位置的概率。所述结构概率可以通过对语音语料库中韵律单元的出现位置进行统计而得到。
优选的,所述韵律单元的结构概率是指所述韵律单元出现在语音语料库中韵律词、韵律短语或者语调短语的首部或者尾部的概率。
所述输出概率计算函数的计算结果是所述备选韵律边界划分方案的输出概率。
S323,确定输出概率最大的备选韵律边界划分方案为韵律边界划分方案。
可以认为输出概率最大的备选韵律边界划分方案是依据韵律单元在语音语料库中的结构概率信息最为适合的韵律边界划分方案,因此,将输出概率最大的备选韵律边界划分方案作为最终的韵律边界划分方案。
本实施例通过获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息,再根据所述结构概率信息,利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率,最后确定输出概率最大的备选韵律边界划分方案为最终的韵律边界划分方案,完成了根据韵律单元的位置统计信息对韵律边界划分方案的确定,提高了语音合成的自然度和灵活性。
图8示出了本发明的优选实施例。
图8是本发明优选实施例提供的基于大语料库的语音合成方法的流程图。参见图8,所述基于大语料库的语音合成方法包括:
S810,利用文本语料库和语音语料库中的标注数据训练韵律结构预测模型。
语音合成系统是将输入的文本序列转换成合成语音波形的系统。它把文本文件通过一定的软硬件转换,然后又计算机或其他语音系统将语音输出,并尽可能的使合成的语音向人发出的声音一样有较高的可懂度和自然度。
对输入文本的语音合成是依据文本语料库和语音语料库两个语料库中的语料数据而进行的。所述文本语料库和语音语料库中都存储着海量的语料数据。所述文本语料库中语料数据的格式是文本格式,它是对输入文本进行文本分析的基础参照。而语音语料库中语料数据的格式是音频格式,它是完成对输入文本的分析后进行语音合成的基础数据。
在分析输入文本和合成输出语音两个步骤之间,还必须对输入文本的韵律结构进行预测。对输入文本的韵律结构预测决定了输出语音的停顿点和停顿时长等声学参数。对输入文本的韵律结构预测必须依据训练好的韵律结构预测模型。
对所述韵律结构预测模型的训练是依据文本语料库和语音语料库中的标注数据而进行的。所述标注数据对语料的韵律结构进行了标注。在对韵律结构预测模型的训练过程中,通过对所述文本语料库和语音语料库中标注数据的统计学习,所述韵律结构预测模型完善了自身的结构,从而能够针对输入文本,对输入文本的韵律结构进行预测。
在本实施例中,对文本语料库和语音语料库中的标注数据的统计学习包括:依据决策树算法、条件随机场算法、最大熵模型算法以及隐马尔科夫模型算法进行的统计学习。
S820,通过对韵律单元在语音语料库中出现位置的统计,获取所述韵律单元的结构概率信息。
所述语音语料库中存储着海量的语音语料片段。所述语音语料片段有不同的韵律单元组成。例如,所述语音语料库中存储有“到达目的地”的语音语料片段,则该语音语料片段包括“到”、“达”、“目”、“的”以及“地”五个韵律单元。
所述语音语料片段可以是韵律词、韵律短语或者语调短语。在本实施例中,所述语音语料片段是韵律短语。
所述结构概率信息是指韵律单元在所述语音语料库中出现在语音语料片段中设定位置的概率信息。优选的,所述结构概率信息是指韵律单元在所述语音语料库中出现在所述语音语料片段的首部或者尾部的概率信息。
可以通过对韵律单元在语音语料库中的出现位置进行统计而获取所述结构概率信息。优选的,可以通过对韵律单元在语音语料库中出现在语音语料片段的首部或者尾部的概率而获取所述结构概率信息。
S830,利用韵律结构预测模型对输入的文本进行韵律结构预测处理,给出至少两个备选韵律边界划分方案。
接收到输入文本后,利用已经训练好的韵律结构预测模型对输入文本进行韵律结构预测处理。对输入文本的韵律结构预测处理的结果是针对输入文本的至少两个备选韵律边界划分方案。优选的,可以通过输出对输入文本的较优的至少两个备选韵律边界划分方案来获得对所述输入文本的不同的韵律边界划分方案。
所述韵律边界划分方案用于定义输入文本的韵律边界。优选的,按照输入文本的不同韵律层级,所述韵律边界划分方案所定义的输入文本的韵律边界包括韵律词边界、韵律短语边界以及语调短语边界。
由于对韵律短语的预测便成为了韵律结构预测中的难点,在本实施例中仅以对韵律短语的边界的划分为例对韵律结构边界的划分进行说明。本领域技术人员应该理解,对韵律词以及语调短语的边界划分的过程与对韵律短语的边界划分的过程类似。
示例的,以对输入文本“短短两周时间上涨的价格超过了过去五年的总和”的韵律短语边界划分为例,对给出至少两个备选韵律边界划分方案的过程进行说明。对于上述输入文本有下面两种韵律短语边界划分方案:
短短两周时间$上涨的价格$超过了过去五年的总和。
短短两周时间$上涨的价格超过了$过去五年的总和。
其中,符号“$”表示所述韵律边界划分方案中韵律短语的边界。
S840,根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案。
无论是所述韵律词、韵律短语或者语调短语,都是由韵律单元组成的。在语音语料库中,韵律单元会根据一定的概率出现在韵律词、韵律短语或者语调短语的首部或者尾部。例如,韵律单元“了”出现在韵律短语的尾部的概率为0.78。这个概率就是韵律单元在语音语料库中的结构概率信息。
可以通过对韵律单元在语音语料库中的出现位置进行统计,得到所述韵律单元的结构概率信息,也就是韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。得到所述韵律单元的结构概率信息后,可以依据韵律单元的结构概率信息分别计算所述至少两个备选韵律边界划分方案的输出概率,再依据所述输出概率从所述至少两个备选韵律边界划分方案中确定最终的韵律边界划分方案。
优选的,可以根据下式计算所述至少两个备选韵律边界划分方案的输出概率:
f(Wp,Wi)=α×Wp+(1-α)Wi。
其中,α是加权系数,它是一个依经验取值的参数,其取值在0至1之间,并且一旦选定,对于不同的备选韵律边界划分方案不会改变;Wp是所述韵律单元的韵律层级概率;Wi是所述韵律单元的结构概率。
以上文所述的对于输入文本“短短两周时间上涨的价格超过了过去五年的总和”的两种韵律边界划分方案为例,假如韵律单元“了”出现在语音语料库中韵律短语的末尾的概率大于韵律单元“格”出现在韵律短语的末尾的概率,则依据该结构概率信息计算得到的第二种韵律边界划分方案的输出概率大于第一种韵律边界划分方案的输出概率,所以选择第二种韵律边界划分方案为最终的韵律边界划分方案。
S850,根据所确定的韵律边界划分方案进行语音合成。
确定了输入文本的韵律边界划分方案后,根据所确定的韵律边界划分方案进行语音合成。所述语音合成可以是波形拼接式的语音合成,也可以是参数合成式的语音合成。
需要说明的是,上述方法步骤有可能并不由一台计算机执行。实际上,有可能在一台计算机上完成对韵律结构预测模型的训练,再将训练好的韵律结构预测模型移植到另一台计算机上,完成对输入文本的语音合成。
本实施例通过训练韵律结构预测模型,统计韵律单元的位置统计信息,对输入文本进行韵律结构预测以给出至少两个备选韵律边界划分方案,根据韵律单元的位置统计信息从所述至少两个备选韵律边界划分方案中确定最终的韵律边界划分方案,最后根据确定的韵律边界划分方案进行语音合成,使得参考韵律单元的位置统计信息对输入文本进行韵律结构预测,提高了语音合成的自然度和灵活性。
图9示出了本发明的第三实施例。
图9是本发明第三实施例提供的基于大语料库的语音合成装置的结构图。参见图9,所述基于大语料库的语音合成装置包括:预测处理模块910、边界划分模块920以及语音合成模块930。
所述预测处理模块910用于利用韵律结构预测模型对输入的文本进行韵律结构预测处理,给出至少两个备选韵律边界划分方案。
所述边界划分模块920用于根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案。
所述语音合成模块930用于根据所确定的韵律边界划分方案进行语音合成。
优选的,所述韵律结构预测模型是通过预先对文本语料库和语音语料库中的标注数据进行统计学习而生成的。
优选的,预先对文本语料库和语音语料库中的标注数据的统计学习包括:依据决策树算法、条件随机场算法、最大熵模型算法以及隐马尔科夫模型算法进行的统计学习。
优选的,所述边界划分模块包括:结构概率信息获取单元921、输出概率计算单元922以及边界划分方案确定单元923。
所述结构概率信息获取单元921用于根据预先对语音语料库中数据的统计,获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息。
所述输出概率计算单元922用于根据所述结构概率信息,利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率。
所述边界划分方案确定单元923用于确定输出概率最大的备选韵律边界划分方案为韵律边界划分方案。
优选的,所述至少两个备选韵律边界划分方案所划定的韵律边界包括:韵律词边界、韵律短语边界或语调短语边界。
优选的,所述韵律单元的结构概率信息包括:所述韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。
优选的,所述输出概率计算单元922具体用于:按照预定的加权参数对所述至少两个备选韵律边界划分方案的目标韵律层级概率以及结构概率进行加权平均,确定所述至少两个备选韵律边界划分方案的输出概率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种基于大语料库的语音合成方法,其特征在于,包括:
利用韵律结构预测模型对输入的文本进行韵律结构预测处理,给出至少两个备选韵律边界划分方案;
根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案;
根据所确定的韵律边界划分方案进行语音合成。
2.根据权利要求1所述的方法,其特征在于,所述韵律结构预测模型是通过预先对文本语料库和语音语料库中的标注数据进行统计学习而生成的。
3.根据权利要求2所述的方法,其特征在于,预先对文本语料库和语音语料库中的标注数据的统计学习包括:依据决策树算法、条件随机场算法、最大熵模型算法以及隐马尔科夫模型算法进行的统计学习。
4.根据权利要求1所述的方法,其特征在于,根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案包括:
根据预先对语音语料库中数据的统计,获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息;
根据所述结构概率信息,利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率;
确定输出概率最大的备选韵律边界划分方案为韵律边界划分方案。
5.根据权利要求4所述的方法,其特征在于,所述至少两个备选韵律边界划分方案所划定的韵律边界包括:韵律词边界、韵律短语边界或语调短语边界。
6.根据权利要求4所述的方法,其特征在于,所述韵律单元的结构概率信息包括:所述韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。
7.根据权利要求4所述的方法,其特征在于,根据所述结构概率信息,利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率包括:
按照预定的加权参数对所述至少两个备选韵律边界划分方案的目标韵律层级概率以及结构概率进行加权平均,确定所述至少两个备选韵律边界划分方案的输出概率。
8.一种基于大语料库的语音合成装置,其特征在于,包括:
预测处理模块,用于利用韵律结构预测模型对输入的文本进行韵律结构预测处理,给出至少两个备选韵律边界划分方案;
边界划分模块,用于根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案;
语音合成模块,用于根据所确定的韵律边界划分方案进行语音合成。
9.根据权利要求8所述的装置,其特征在于,所述韵律结构预测模型是通过预先对文本语料库和语音语料库中的标注数据进行统计学习而生成的。
10.根据权利要求9所述的装置,其特征在于,预先对文本语料库和语音语料库中的标注数据的统计学习包括:依据决策树算法、条件随机场算法、最大熵模型算法以及隐马尔科夫模型算法进行的统计学习。
11.根据权利要求7所述的装置,其特征在于,所述边界划分模块包括:
结构概率信息获取单元,用于根据预先对语音语料库中数据的统计,获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息;
输出概率计算单元,用于根据所述结构概率信息,利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率;
边界划分方案确定单元,用于确定输出概率最大的备选韵律边界划分方案为韵律边界划分方案。
12.根据权利要求11所述的装置,其特征在于,所述至少两个备选韵律边界划分方案所划定的韵律边界包括:韵律词边界、韵律短语边界或语调短语边界。
13.根据权利要求11所述的装置,其特征在于,所述韵律单元的结构概率信息包括:所述韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。
14.根据权利要求11所述的装置,其特征在于,所述输出概率计算单元具体用于:
按照预定的加权参数对所述至少两个备选韵律边界划分方案的目标韵律层级概率以及结构概率进行加权平均,确定所述至少两个备选韵律边界划分方案的输出概率。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410276352.XA CN104021784B (zh) | 2014-06-19 | 2014-06-19 | 基于大语料库的语音合成方法和装置 |
JP2014264861A JP6581356B2 (ja) | 2014-06-19 | 2014-12-26 | 大規模コーパスに基づく音声合成方法及び装置 |
EP14200490.2A EP2958105B1 (en) | 2014-06-19 | 2014-12-29 | Method and apparatus for speech synthesis based on large corpus |
US14/588,069 US9767788B2 (en) | 2014-06-19 | 2014-12-31 | Method and apparatus for speech synthesis based on large corpus |
KR1020140195029A KR102139387B1 (ko) | 2014-06-19 | 2014-12-31 | 큰 말뭉치에 기초하여 음성 합성을 하기 위한 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410276352.XA CN104021784B (zh) | 2014-06-19 | 2014-06-19 | 基于大语料库的语音合成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104021784A CN104021784A (zh) | 2014-09-03 |
CN104021784B true CN104021784B (zh) | 2017-06-06 |
Family
ID=51438509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410276352.XA Active CN104021784B (zh) | 2014-06-19 | 2014-06-19 | 基于大语料库的语音合成方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9767788B2 (zh) |
EP (1) | EP2958105B1 (zh) |
JP (1) | JP6581356B2 (zh) |
KR (1) | KR102139387B1 (zh) |
CN (1) | CN104021784B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11848001B2 (en) | 2014-09-26 | 2023-12-19 | Intel Corporation | Systems and methods for providing non-lexical cues in synthesized speech |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803850B2 (en) * | 2014-09-08 | 2020-10-13 | Microsoft Technology Licensing, Llc | Voice generation with predetermined emotion type |
CN105185373B (zh) * | 2015-08-06 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 韵律层级预测模型的生成及韵律层级预测方法和装置 |
CN105654940B (zh) * | 2016-01-26 | 2019-12-24 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
CN108305611B (zh) * | 2017-06-27 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 文本转语音的方法、装置、存储介质和计算机设备 |
CN108170848B (zh) * | 2018-01-18 | 2021-08-13 | 重庆邮电大学 | 一种面向中国移动智能客服的对话场景分类方法 |
CN110942763B (zh) * | 2018-09-20 | 2023-09-12 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
WO2020218635A1 (ko) * | 2019-04-23 | 2020-10-29 | 엘지전자 주식회사 | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 |
US11227578B2 (en) * | 2019-05-15 | 2022-01-18 | Lg Electronics Inc. | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium |
US11393447B2 (en) * | 2019-06-18 | 2022-07-19 | Lg Electronics Inc. | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium |
CN110782871B (zh) | 2019-10-30 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 一种韵律停顿预测方法、装置以及电子设备 |
CN110827825A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 语音识别文本的标点预测方法、系统、终端及存储介质 |
CN111028823B (zh) * | 2019-12-11 | 2024-06-07 | 广州酷狗计算机科技有限公司 | 音频生成方法、装置、计算机可读存储介质及计算设备 |
CN113129864B (zh) * | 2019-12-31 | 2024-05-31 | 科大讯飞股份有限公司 | 语音特征预测方法、装置、设备及可读存储介质 |
WO2021134581A1 (zh) * | 2019-12-31 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 基于韵律特征预测的语音合成方法、装置、终端及介质 |
CN111724765B (zh) * | 2020-06-30 | 2023-07-25 | 度小满科技(北京)有限公司 | 一种文本转语音的方法、装置及计算机设备 |
CN112151009B (zh) * | 2020-09-27 | 2024-06-25 | 平安科技(深圳)有限公司 | 一种基于韵律边界的语音合成方法及装置、介质、设备 |
CN112466277B (zh) * | 2020-10-28 | 2023-10-20 | 北京百度网讯科技有限公司 | 韵律模型训练方法、装置、电子设备及存储介质 |
CN113421550A (zh) * | 2021-06-25 | 2021-09-21 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101051458A (zh) * | 2006-04-04 | 2007-10-10 | 中国科学院自动化研究所 | 基于组块分析的韵律短语预测方法 |
CN101202041A (zh) * | 2006-12-13 | 2008-06-18 | 富士通株式会社 | 一种汉语韵律词组词方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002156990A (ja) * | 2000-11-22 | 2002-05-31 | Matsushita Electric Ind Co Ltd | 中国語音声合成におけるポーズ継続時間処理方法及び装置 |
CN1945693B (zh) * | 2005-10-09 | 2010-10-13 | 株式会社东芝 | 训练韵律统计模型、韵律切分和语音合成的方法及装置 |
JP4559950B2 (ja) * | 2005-10-20 | 2010-10-13 | 株式会社東芝 | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム |
CN101051459A (zh) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 基频和停顿预测及语音合成的方法和装置 |
US7822606B2 (en) * | 2006-07-14 | 2010-10-26 | Qualcomm Incorporated | Method and apparatus for generating audio information from received synthesis information |
JPWO2008056590A1 (ja) * | 2006-11-08 | 2010-02-25 | 日本電気株式会社 | テキスト音声合成装置、そのプログラム及びテキスト音声合成方法 |
JP5119700B2 (ja) * | 2007-03-20 | 2013-01-16 | 富士通株式会社 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
WO2009021183A1 (en) * | 2007-08-08 | 2009-02-12 | Lessac Technologies, Inc. | System-effected text annotation for expressive prosody in speech synthesis and recognition |
TWI573129B (zh) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 |
JP6082657B2 (ja) * | 2013-05-28 | 2017-02-15 | 日本電信電話株式会社 | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム |
-
2014
- 2014-06-19 CN CN201410276352.XA patent/CN104021784B/zh active Active
- 2014-12-26 JP JP2014264861A patent/JP6581356B2/ja active Active
- 2014-12-29 EP EP14200490.2A patent/EP2958105B1/en active Active
- 2014-12-31 US US14/588,069 patent/US9767788B2/en active Active
- 2014-12-31 KR KR1020140195029A patent/KR102139387B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101051458A (zh) * | 2006-04-04 | 2007-10-10 | 中国科学院自动化研究所 | 基于组块分析的韵律短语预测方法 |
CN101202041A (zh) * | 2006-12-13 | 2008-06-18 | 富士通株式会社 | 一种汉语韵律词组词方法及装置 |
Non-Patent Citations (1)
Title |
---|
assigning phrase breaks from part-of-speech sequence;paul taylor et al;《computer speech and language》;19991231;99-117 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11848001B2 (en) | 2014-09-26 | 2023-12-19 | Intel Corporation | Systems and methods for providing non-lexical cues in synthesized speech |
Also Published As
Publication number | Publication date |
---|---|
JP6581356B2 (ja) | 2019-09-25 |
KR102139387B1 (ko) | 2020-07-30 |
US9767788B2 (en) | 2017-09-19 |
JP2016004267A (ja) | 2016-01-12 |
EP2958105B1 (en) | 2018-04-04 |
US20150371626A1 (en) | 2015-12-24 |
EP2958105A1 (en) | 2015-12-23 |
KR20150146373A (ko) | 2015-12-31 |
CN104021784A (zh) | 2014-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104021784B (zh) | 基于大语料库的语音合成方法和装置 | |
US20200211529A1 (en) | Systems and methods for multi-style speech synthesis | |
CN105244020B (zh) | 韵律层级模型训练方法、语音合成方法及装置 | |
JP6238312B2 (ja) | テキストの音声化及び意味に基づくオーディオhip | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
KR20210146368A (ko) | 숫자 시퀀스에 대한 종단 간 자동 음성 인식 | |
US20140025382A1 (en) | Speech processing system | |
KR20170011636A (ko) | 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법 | |
CN110767213A (zh) | 一种韵律预测方法及装置 | |
JP6036682B2 (ja) | 音声合成システム、音声合成方法、および音声合成プログラム | |
US9324316B2 (en) | Prosody generator, speech synthesizer, prosody generating method and prosody generating program | |
Lazaridis et al. | Improving phone duration modelling using support vector regression fusion | |
TW201411602A (zh) | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Wester | Syllable classification using articulatory-acoustic features | |
Mei et al. | A particular character speech synthesis system based on deep learning | |
JP6786065B2 (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
Yin | An overview of speech synthesis technology | |
Anushiya Rachel et al. | A small-footprint context-independent HMM-based synthesizer for Tamil | |
JP2021085943A (ja) | 音声合成装置及びプログラム | |
Phung et al. | A hybrid TTS between unit selection and HMM-based TTS under limited data conditions | |
Lazaridis et al. | Comparative evaluation of phone duration models for Greek emotional speech | |
Razavi et al. | Pronunciation lexicon development for under-resourced languages using automatically derived subword units: a case study on Scottish Gaelic | |
Boháč et al. | Automatic syllabification and syllable timing of automatically recognized speech–for czech | |
Plesniarski | AUTOMATIC SPEECH RECOGNITION OF LOW RESOURCE LANGUAGES |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |