CN104021784A

CN104021784A - 基于大语料库的语音合成方法和装置

Info

Publication number: CN104021784A
Application number: CN201410276352.XA
Authority: CN
Inventors: 李秀林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-06-19
Filing date: 2014-06-19
Publication date: 2014-09-03
Anticipated expiration: 2034-06-19
Also published as: CN104021784B; JP6581356B2; EP2958105B1; EP2958105A1; KR102139387B1; US20150371626A1; JP2016004267A; US9767788B2; KR20150146373A

Abstract

本发明公开了一种基于大语料库的语音合成方法和装置。所述基于大语料库的语音合成方法包括：利用韵律结构预测模型对输入的文本进行韵律结构预测处理，给出至少一个备选韵律边界划分方案；根据所述至少一个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息，确定韵律边界划分方案；根据所确定的韵律边界划分方案进行语音合成。本发明实施例提供的基于大语料库的语音合成方法和装置提高了语音合成的自然度和灵活性。

Description

基于大语料库的语音合成方法和装置

技术领域

本发明实施例涉及文语转换技术领域，尤其涉及一种基于大语料库的语音合成方法和装置。

背景技术

语音是人机交流最习惯、最自然的方式。将文字输入转成语音输出的技术称为文语转换(Text-to-Speech,TTS)或语音合成技术。它涉及声学、语言学、数字信号处理多媒体技术等多个领域，是中文信息处理领域的一项前沿技术。

图1示出了现有技术提供的语音合成系统的信号流。参见图1，在训练阶段，可以依据对文本语料库101和语音语料库102中的标注数据训练得到韵律结构预测模型103、声学模型104以及候选单元105。其中，所述韵律结构预测模型103为语音合成阶段中的韵律结构预测107提供参考，所述声学模型104为语音合成109提供依据，而候选单元105是在波形拼接式的语音合成109中用于调取常用的候选波形的软件单元。

在语音合成阶段，首先对输入的文本进行文本分析106，然后根据韵律结构预测模型103对输入文本的进行韵律结构预测107，再根据不同的语音合成模式，也即参数合成式语音合成或者波形拼接式语音合成进行参数预测/单元选择108，最后进行最终的语音合成109。

采用现有的语音合成系统进行韵律结构预测，已经能够针对一定的输入文本得到该输入文本的确定的韵律层级结构。但是，在人们实际的交流中，语音的韵律层级结构往往受到多种因素的影响。图2是真人语音中韵律结构的影响因素的原理示意图。参见图2，真人语音的韵律结构可能会受到说话人特征、感情、基本频率和句子的意思的影响。以说话人特征为例，年龄在70岁的男人说话的韵律结构就与年龄在30岁的女人说话的韵律结构不同。

因此，按照统一的韵律结构预测模型103预测得到的句子的韵律结构的灵活性不好，造成语音合成系统最终合成的语音的自然度不高。

发明内容

有鉴于此，本发明实施例提出一种基于大语料库的语音合成方法和装置，以提高合成语音的自然度和灵活性。

第一方面，本发明实施例提供了一种基于大语料库的语音合成方法，所述方法包括：

利用韵律结构预测模型对输入的文本进行韵律结构预测处理，给出至少两个备选韵律边界划分方案；

根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案；

根据所确定的韵律边界划分方案进行语音合成。

第二方面，本发明实施例提供了一种基于大语料库的语音合成装置，所述装置包括：

预测处理模块，用于利用韵律结构预测模型对输入的文本进行韵律结构预测处理，给出至少两个备选韵律边界划分方案；

边界划分模块，用于根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案；

语音合成模块，用于根据所确定的韵律边界划分方案进行语音合成。

本发明实施例提供的基于大语料库的语音合成方法和装置，通过利用韵律结构预测模型对输入的文本进行韵律结构预测处理，给出至少两个备选韵律边界划分方案，再根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案，最后根据所确定的韵律边界划分方案进行语音合成，提高了合成语音的自然度和灵活性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是现有技术提供的语音合成系统的信号流图；

图2是现有技术真人语音中韵律结构的影响因素的原理示意图；

图3是本发明第一实施例提供的基于大语料库的语音合成方法的流程图；

图4是本发明实施例所适用的汉语句子的韵律结构示意图；

图5是本发明第一实施例提供的文本语料库中韵律标注数据的示意图；

图6是实施本发明第一实施例提供的运行基于大语料库的语音合成方法的语音合成系统的信号流图；

图7是本发明第二实施例提供的基于大语料库的语音合成方法中边界划分的流程图；

图8是本发明优选实施例提供的基于大语料库的语音合成方法的流程图；

图9是本发明第三实施例提供的基于大语料库的语音合成装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

图3至图6示出了本发明的第一实施例。

图3是本发明第一实施例提供的基于大语料库的语音合成方法的流程图。所述基于大语料库的语音合成方法运行在专门用于语音合成的计算装置上。所说专门用于语音合成的计算装置包括个人电脑、服务器等通用式计算机，还包括各种用于语音合成的嵌入式计算机。所述基于大语料库的语音合成方法包括：

S310，利用韵律结构预测模型对输入的文本进行韵律结构预测处理，给出至少两个备选韵律边界划分方案。

语音合成系统在组成功能上可分为文本分析、韵律处理和声学处理三大模块。文本分析模块主要模拟人对自然语言的理解过程，使计算机对输入的文本能完全理解并给出后两部分所需的各种发音提示。韵律处理为合成语音规划出音段特征，是合成语音能正确表达语义，听起来更加自然。声学处理根据前两部分处理结果的要求输出语音，即合成语音。

对输入文本的韵律处理离不开对输入文本的韵律结构预测。一般认为，汉语的韵律结构包括韵律词、韵律短语和语调短语三个层级。图4是汉语句子的韵律结构示意图。汉语句子由很多语法词401前后衔接构成；一个或者多个语法词401共同构成了韵律词402；一个或多个韵律词402共同构成了韵律短语403；然后一个或多个韵律短语403共同构成了语调短语404。

韵律词402的基本特点是：(1)由一个音步构成；(2)一般为三个音节以下的语法词或词组；(3)跨度为1-3个音节，大多数为2-3个音节，例如连词、介词等；(4)具有类似于语法词的连调模式和词重音模式，内部不出现节奏边界；(5)韵律词402可以组成韵律短语403。

韵律短语403的主要特点是：(1)由一个或几个韵律词402组成；(2)跨度为7-9个音节；(3)内部各个韵律词402之间可能出现韵律上的节奏分界，主要表现为韵律词末尾音节的延长和韵律词之间的音高重新设置；(4)韵律短语403的调阶走势基本上呈降势；(5)具有相对稳定的短语重音配置模式，即与句法结构相关的常规重音模式。

语调短语404的主要特点是：(1)可能多音步；(2)内部可能包含不止一个韵律短语语调模式和韵律短语重音模式，因而会出现相关的节奏分界，主要表现为韵律短语末尾音节的延长和韵律短语之间的音高重新设置；(3)具有取决于不同语气或句型的语调模式，即具有特定的调阶走势，例如陈述句降，一般疑问句升，感叹句调阶总体抬高。

对输入文本的这三个层次的识别，也就是对输入文本的韵律结构预测决定了合成语音在句子中间的停顿特征。一般来说，系统的输入文本中存在与韵律层次一一对应的三个停顿级别，且韵律层次越高，其边界出的停顿特征就越明显；韵律层级越低，其边界处的停顿特征就模糊。而合成语音的停顿特征对其自然度有很大的影响。所以，对输入文本的韵律结构预测很大程度上影响着最终的合成语音的自然度。

对输入文本进行韵律结构预测的结果是韵律边界划分方案。依据不同的韵律边界划分方案进行语音合成，则合成语音的停顿点和停顿时长等参数不同。所述韵律边界划分方案包括预测得到的韵律词边界、韵律短语边界以及语调短语边界。也就是说，所述韵律边界划分方案中包括对韵律词、韵律短语以及语调短语的边界的划分。

应该理解的是，对相同的输入文本进行韵律结构预测，可能输出对所述输入文本的不同的韵律边界划分方案。优选的，可以通过输出对输入文本的较优的多个韵律边界划分方案来获得对所述输入文本的不同的韵律边界划分方案。

在对输入文本进行韵律结构预测的过程中，一般认为语调短语是非常容易识别出来的，因为语调短语基本都是由标点符号分隔开的，与此同时对于韵律词的预测可以依靠总结规则的方法，而且已经基本满足使用的要求。相比较之下，对韵律短语的预测便成为了韵律结构预测中的难点。因此，对输入文本的韵律结构预测主要是要解决对韵律短语边界的预测。

对输入文本进行韵律结构预测的依据是韵律结构预测模型。所述韵律结构预测模型是通过对文本语料库和语音语料库中的标注数据进行统计学习而生成的。优选的，可以利用决策树算法、条件随机场算法、最大熵模型算法或者隐马尔科夫模型算法对文本语料库和语音语料库中的标注数据进行统计学习，从而生成所述韵律结构预测模型。

所述文本语料库和所述语音语料库是用于训练所述韵律结构预测模型的两个基础语料库。其中，所述文本语料库的存储对象是文本数据，而语音语料库的存储对象是语音数据。所述文本语料库和所述语音语料库中不仅存储有基础的语料，还对应的存储有这些语料的标注数据。所述语料的标注数据至少包括对语料的韵律层级结构的标注数据。

以文本语料库为例说明对语料的标注数据的结构。图5是本发明第一实施例提供的文本语料库中韵律标注数据的示意图。参见图5，所述文本语料库中不仅存储有语料501，还存储有对该语料的韵律结构的标注数据502。所述语料501以句子为单位进行存储，在这些句子的内部划分韵律词、韵律短语以及语调短语。所述语料的标注数据502是对语料中韵律词的末尾是何种韵律边界的标注。在对语料的韵律结构的标注数据中，B0表示该韵律词的末尾是韵律词边界；B1表示该韵律词的末尾是韵律短语边界；B2表示该韵律词的末尾是语调短语边界。

在本实施例中，接收到所述输入文本后，利用所述韵律结构预测模型对所述输入文本进行韵律结构预测，获取对所述输入文本的至少两个韵律边界划分方案。

S320，根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案。

在语音合成中，输入文本可以看作是不同韵律单元的集合。也就是说，所述输入文本包括不同的韵律单元。所述韵律单元就是音节，对应于输入文本中的每个汉字。例如，“我爱北京天安门”的输入文本包括了韵律单元“门”；“好好学习，天天向上”的输入文本包括了韵律单元“习”。

在针对输入文本给出了不同的韵律边界划分方案之后，由于不同的韵律边界划分方案所给出的韵律边界不同，在不同韵律边界划分方案中处在相同位置的韵律单元并不相同。

示例的，对于输入文本“短短两周时间上涨的价格超过了过去五年的总和”，如果仅给出韵律短语的划分边界，有下面两种韵律边界划分方案：

短短两周时间$上涨的价格$超过了过去五年的总和。

短短两周时间$上涨的价格超过了$过去五年的总和。

在上述两种韵律边界划分方案中，符号“$”表示该韵律边界划分方案中韵律短语的边界。可以看出，在第一种韵律边界划分方案中，韵律单元“格”处在该韵律边界划分方案的第二个韵律短语的末尾，而在第二种韵律边界划分方案中，韵律单元“了”处在该韵律边界划分方案中第二个韵律短语的末尾。

在本实施例中，将不同韵律单元在所述语音语料库中的结构概率信息进行比较，并根据比较的结果从至少两个备选韵律边界划分方案中确定最终的韵律边界划分方案。其中，所述韵律单元的结构概率信息包括所述韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。

在上面的两种韵律边界划分方案的例子中，韵律单元“格”以及韵律单元“了”分别处于第一种韵律边界划分方案和第二种韵律边界划分方案的末尾。如果在所述语音语料库中韵律单元“格”处于韵律短语的末尾的概率大于韵律单元“了”处于韵律短语的末尾的概率，则选择第一种韵律边界划分方案为最终的韵律边界划分方案；如果在所述语音语料库中韵律单元“了”处于韵律短语的末尾的概率大于韵律单元“格”处于韵律短语的末尾的概率，则选择第二中韵律边界划分方案为最终的韵律边界划分方案。

S330，根据所确定的韵律边界划分方案进行语音合成。

确定了输入文本的韵律边界划分方案后，根据所确定的韵律边界划分方案进行语音合成。所述语音合成包括波形拼接式的语音合成，以及参数合成式的语音合成。

上述方案中，优选可以首先采用上述方案确定韵律词的划分方案，如果需要，可以在韵律词划分的基础上进行韵律短语的划分，得到多个韵律短语划分的备选方案，采用类似的方法获得优选的备选方案，作为最终的韵律边界划分方案。

图6是实施本发明第一实施例提供的运行基于大语料库的语音合成方法的语音合成系统的信号流图。参见图6，所述运行基于大语料库的语音合成方法的语音合成系统对输入文本的语音合成除了包括现有技术中的语音合成系统中包括的对输入文本的文本分析608，依照韵律结构预测模型对输入文本的韵律结构预测609，对输入文本的参数预测/单元选择610，以及最终的语音合成611，还包括依据韵律单元的在语音语料库中的结构概率信息对韵律结构进行的韵律修正607。按照修正后的韵律结构进行输入文本的语音合成，所得到的合成语音的自然度更高。

本实施例通过对输入文本进行韵律结构预测，给出至少两个备选韵律边界划分方案，再根据所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息确定韵律边界划分方案，最后根据所确定的韵律边界划分方案进行语音合成，使得在对输入文本进行的韵律结构预测参考了韵律单元的在语料库中的结构概率信息，提高了语音合成的自然度和灵活性。

图7示出了本发明的第二实施例。

图7是本发明第二实施例提供的基于大语料库的语音合成方法中边界划分的流程图。所述基于大语料库的语音合成方法以本发明第一实施例为基础，进一步的，根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案包括：

S321，根据预先对语音语料库中数据的统计，获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息。

在根据韵律单元的位置统计信息确定输入文本的韵律边界划分方案时，首先根据预先对语音语料库中数据的统计，获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息。其中，所述韵律单元的结构概率信息包括所述韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。

所述韵律单元应该选取处于所述备选韵律边界划分方案中韵律边界处的韵律单元。如果所述韵律单元的结构概率信息是指所述韵律单元出现在韵律词、韵律短语或者语调短语的首部的概率，则需要选取处于所述韵律边界后面的韵律单元；如果所述韵律单元的结构概率信息是指所述韵律单元出现在韵律词、韵律短语或者语调短语的尾部的概率，则需要选取处于所述韵律边界前面的韵律单元。

优选的，所述韵律单元的结构概率信息可以通过下式表达：

Wi＝β×log(m+n0)-γ。

其中，m表示所述韵律单元处于所述语音语料库中目标韵律层级的目标位置的个数，所述目标韵律层级包括韵律词、韵律短语以及语调短语，所述目标位置可以是韵律词、韵律短语或者语调短语的首部或者尾部；n0是个数调整参数，它可以是大于零的任意整数；β是概率缩放系数；γ是概率偏移系数。上式中，参数n0、β以及γ是依据经验取值的参数，而通过上式计算得到的结果Wi就表示所述韵律单元在所述语音语料库中的结构概率信息。

S322，根据所述结构概率信息，利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率。

优选的，按照预定的加权参数对所述至少两个备选韵律边界划分方案的目标韵律层级概率以及结构概率进行加权平均，确定所述至少两个备选韵律边界划分方案的输出概率。

示例的，所述输出概率计算函数如下式所示：

f(Wp,Wi)＝α×Wp+(1-α)Wi。

其中，α是加权系数，它是一个依经验取值的参数，其取值在0至1之间；Wp是所述韵律单元的韵律层级概率；Wi是所述韵律单元的结构概率。其中，所述韵律单元的韵律层级概率，也就是Wp是利用韵律结构预测模型对输入文本进行韵律结构预测时，由所述韵律结构预测模型输出的对应于所述韵律单元的概率值。它表示输入文本在所述韵律单元处出现对应层级的韵律边界的概率。所述对应层级可以是韵律词层级、韵律短语层级或者语调短语层级。

所述韵律单元的结构概率是指所述韵律单元出现在语音语料库的语料中的特定位置的概率。所述结构概率可以通过对语音语料库中韵律单元的出现位置进行统计而得到。

优选的，所述韵律单元的结构概率是指所述韵律单元出现在语音语料库中韵律词、韵律短语或者语调短语的首部或者尾部的概率。

所述输出概率计算函数的计算结果是所述备选韵律边界划分方案的输出概率。

S323，确定输出概率最大的备选韵律边界划分方案为韵律边界划分方案。

可以认为输出概率最大的备选韵律边界划分方案是依据韵律单元在语音语料库中的结构概率信息最为适合的韵律边界划分方案，因此，将输出概率最大的备选韵律边界划分方案作为最终的韵律边界划分方案。

本实施例通过获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息，再根据所述结构概率信息，利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率，最后确定输出概率最大的备选韵律边界划分方案为最终的韵律边界划分方案，完成了根据韵律单元的位置统计信息对韵律边界划分方案的确定，提高了语音合成的自然度和灵活性。

图8示出了本发明的优选实施例。

图8是本发明优选实施例提供的基于大语料库的语音合成方法的流程图。参见图8，所述基于大语料库的语音合成方法包括：

S810，利用文本语料库和语音语料库中的标注数据训练韵律结构预测模型。

语音合成系统是将输入的文本序列转换成合成语音波形的系统。它把文本文件通过一定的软硬件转换，然后又计算机或其他语音系统将语音输出，并尽可能的使合成的语音向人发出的声音一样有较高的可懂度和自然度。

对输入文本的语音合成是依据文本语料库和语音语料库两个语料库中的语料数据而进行的。所述文本语料库和语音语料库中都存储着海量的语料数据。所述文本语料库中语料数据的格式是文本格式，它是对输入文本进行文本分析的基础参照。而语音语料库中语料数据的格式是音频格式，它是完成对输入文本的分析后进行语音合成的基础数据。

在分析输入文本和合成输出语音两个步骤之间，还必须对输入文本的韵律结构进行预测。对输入文本的韵律结构预测决定了输出语音的停顿点和停顿时长等声学参数。对输入文本的韵律结构预测必须依据训练好的韵律结构预测模型。

对所述韵律结构预测模型的训练是依据文本语料库和语音语料库中的标注数据而进行的。所述标注数据对语料的韵律结构进行了标注。在对韵律结构预测模型的训练过程中，通过对所述文本语料库和语音语料库中标注数据的统计学习，所述韵律结构预测模型完善了自身的结构，从而能够针对输入文本，对输入文本的韵律结构进行预测。

在本实施例中，对文本语料库和语音语料库中的标注数据的统计学习包括：依据决策树算法、条件随机场算法、最大熵模型算法以及隐马尔科夫模型算法进行的统计学习。

S820，通过对韵律单元在语音语料库中出现位置的统计，获取所述韵律单元的结构概率信息。

所述语音语料库中存储着海量的语音语料片段。所述语音语料片段有不同的韵律单元组成。例如，所述语音语料库中存储有“到达目的地”的语音语料片段，则该语音语料片段包括“到”、“达”、“目”、“的”以及“地”五个韵律单元。

所述语音语料片段可以是韵律词、韵律短语或者语调短语。在本实施例中，所述语音语料片段是韵律短语。

所述结构概率信息是指韵律单元在所述语音语料库中出现在语音语料片段中设定位置的概率信息。优选的，所述结构概率信息是指韵律单元在所述语音语料库中出现在所述语音语料片段的首部或者尾部的概率信息。

可以通过对韵律单元在语音语料库中的出现位置进行统计而获取所述结构概率信息。优选的，可以通过对韵律单元在语音语料库中出现在语音语料片段的首部或者尾部的概率而获取所述结构概率信息。

S830，利用韵律结构预测模型对输入的文本进行韵律结构预测处理，给出至少两个备选韵律边界划分方案。

接收到输入文本后，利用已经训练好的韵律结构预测模型对输入文本进行韵律结构预测处理。对输入文本的韵律结构预测处理的结果是针对输入文本的至少两个备选韵律边界划分方案。优选的，可以通过输出对输入文本的较优的至少两个备选韵律边界划分方案来获得对所述输入文本的不同的韵律边界划分方案。

所述韵律边界划分方案用于定义输入文本的韵律边界。优选的，按照输入文本的不同韵律层级，所述韵律边界划分方案所定义的输入文本的韵律边界包括韵律词边界、韵律短语边界以及语调短语边界。

由于对韵律短语的预测便成为了韵律结构预测中的难点，在本实施例中仅以对韵律短语的边界的划分为例对韵律结构边界的划分进行说明。本领域技术人员应该理解，对韵律词以及语调短语的边界划分的过程与对韵律短语的边界划分的过程类似。

示例的，以对输入文本“短短两周时间上涨的价格超过了过去五年的总和”的韵律短语边界划分为例，对给出至少两个备选韵律边界划分方案的过程进行说明。对于上述输入文本有下面两种韵律短语边界划分方案：

短短两周时间$上涨的价格$超过了过去五年的总和。

短短两周时间$上涨的价格超过了$过去五年的总和。

其中，符号“$”表示所述韵律边界划分方案中韵律短语的边界。

S840，根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案。

无论是所述韵律词、韵律短语或者语调短语，都是由韵律单元组成的。在语音语料库中，韵律单元会根据一定的概率出现在韵律词、韵律短语或者语调短语的首部或者尾部。例如，韵律单元“了”出现在韵律短语的尾部的概率为0.78。这个概率就是韵律单元在语音语料库中的结构概率信息。

可以通过对韵律单元在语音语料库中的出现位置进行统计，得到所述韵律单元的结构概率信息，也就是韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。得到所述韵律单元的结构概率信息后，可以依据韵律单元的结构概率信息分别计算所述至少两个备选韵律边界划分方案的输出概率，再依据所述输出概率从所述至少两个备选韵律边界划分方案中确定最终的韵律边界划分方案。

优选的，可以根据下式计算所述至少两个备选韵律边界划分方案的输出概率：

f(Wp,Wi)＝α×Wp+(1-α)Wi。

其中，α是加权系数，它是一个依经验取值的参数，其取值在0至1之间，并且一旦选定，对于不同的备选韵律边界划分方案不会改变；Wp是所述韵律单元的韵律层级概率；Wi是所述韵律单元的结构概率。

以上文所述的对于输入文本“短短两周时间上涨的价格超过了过去五年的总和”的两种韵律边界划分方案为例，假如韵律单元“了”出现在语音语料库中韵律短语的末尾的概率大于韵律单元“格”出现在韵律短语的末尾的概率，则依据该结构概率信息计算得到的第二种韵律边界划分方案的输出概率大于第一种韵律边界划分方案的输出概率，所以选择第二种韵律边界划分方案为最终的韵律边界划分方案。

S850，根据所确定的韵律边界划分方案进行语音合成。

确定了输入文本的韵律边界划分方案后，根据所确定的韵律边界划分方案进行语音合成。所述语音合成可以是波形拼接式的语音合成，也可以是参数合成式的语音合成。

需要说明的是，上述方法步骤有可能并不由一台计算机执行。实际上，有可能在一台计算机上完成对韵律结构预测模型的训练，再将训练好的韵律结构预测模型移植到另一台计算机上，完成对输入文本的语音合成。

本实施例通过训练韵律结构预测模型，统计韵律单元的位置统计信息，对输入文本进行韵律结构预测以给出至少两个备选韵律边界划分方案，根据韵律单元的位置统计信息从所述至少两个备选韵律边界划分方案中确定最终的韵律边界划分方案，最后根据确定的韵律边界划分方案进行语音合成，使得参考韵律单元的位置统计信息对输入文本进行韵律结构预测，提高了语音合成的自然度和灵活性。

图9示出了本发明的第三实施例。

图9是本发明第三实施例提供的基于大语料库的语音合成装置的结构图。参见图9，所述基于大语料库的语音合成装置包括：预测处理模块910、边界划分模块920以及语音合成模块930。

所述预测处理模块910用于利用韵律结构预测模型对输入的文本进行韵律结构预测处理，给出至少两个备选韵律边界划分方案。

所述边界划分模块920用于根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案。

所述语音合成模块930用于根据所确定的韵律边界划分方案进行语音合成。

优选的，所述韵律结构预测模型是通过预先对文本语料库和语音语料库中的标注数据进行统计学习而生成的。

优选的，预先对文本语料库和语音语料库中的标注数据的统计学习包括：依据决策树算法、条件随机场算法、最大熵模型算法以及隐马尔科夫模型算法进行的统计学习。

优选的，所述边界划分模块包括：结构概率信息获取单元921、输出概率计算单元922以及边界划分方案确定单元923。

所述结构概率信息获取单元921用于根据预先对语音语料库中数据的统计，获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息。

所述输出概率计算单元922用于根据所述结构概率信息，利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率。

所述边界划分方案确定单元923用于确定输出概率最大的备选韵律边界划分方案为韵律边界划分方案。

优选的，所述至少两个备选韵律边界划分方案所划定的韵律边界包括：韵律词边界、韵律短语边界或语调短语边界。

优选的，所述韵律单元的结构概率信息包括：所述韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。

优选的，所述输出概率计算单元922具体用于：按照预定的加权参数对所述至少两个备选韵律边界划分方案的目标韵律层级概率以及结构概率进行加权平均，确定所述至少两个备选韵律边界划分方案的输出概率。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大语料库的语音合成方法，其特征在于，包括：

根据所确定的韵律边界划分方案进行语音合成。

2.根据权利要求1所述的方法，其特征在于，所述韵律结构预测模型是通过预先对文本语料库和语音语料库中的标注数据进行统计学习而生成的。

3.根据权利要求2所述的方法，其特征在于，预先对文本语料库和语音语料库中的标注数据的统计学习包括：依据决策树算法、条件随机场算法、最大熵模型算法以及隐马尔科夫模型算法进行的统计学习。

4.根据权利要求1所述的方法，其特征在于，根据所述至少两个备选韵律边界划分方案中韵律单元在语音语料库中的结构概率信息确定韵律边界划分方案包括：

根据预先对语音语料库中数据的统计，获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息；

根据所述结构概率信息，利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率；

确定输出概率最大的备选韵律边界划分方案为韵律边界划分方案。

5.根据权利要求4所述的方法，其特征在于，所述至少两个备选韵律边界划分方案所划定的韵律边界包括：韵律词边界、韵律短语边界或语调短语边界。

6.根据权利要求4所述的方法，其特征在于，所述韵律单元的结构概率信息包括：所述韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。

7.根据权利要求4所述的方法，其特征在于，根据所述结构概率信息，利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率包括：

按照预定的加权参数对所述至少两个备选韵律边界划分方案的目标韵律层级概率以及结构概率进行加权平均，确定所述至少两个备选韵律边界划分方案的输出概率。

8.一种基于大语料库的语音合成装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述韵律结构预测模型是通过预先对文本语料库和语音语料库中的标注数据进行统计学习而生成的。

10.根据权利要求9所述的装置，其特征在于，预先对文本语料库和语音语料库中的标注数据的统计学习包括：依据决策树算法、条件随机场算法、最大熵模型算法以及隐马尔科夫模型算法进行的统计学习。

11.根据权利要求7所述的装置，其特征在于，所述边界划分模块包括：

结构概率信息获取单元，用于根据预先对语音语料库中数据的统计，获取所述至少两个备选韵律边界划分方案中韵律单元的结构概率信息；

输出概率计算单元，用于根据所述结构概率信息，利用输出概率计算函数计算所述至少两个备选韵律边界划分方案的输出概率；

边界划分方案确定单元，用于确定输出概率最大的备选韵律边界划分方案为韵律边界划分方案。

12.根据权利要求11所述的装置，其特征在于，所述至少两个备选韵律边界划分方案所划定的韵律边界包括：韵律词边界、韵律短语边界或语调短语边界。

13.根据权利要求11所述的装置，其特征在于，所述韵律单元的结构概率信息包括：所述韵律单元出现在韵律词、韵律短语或者语调短语的首部或者尾部的概率。

14.根据权利要求11所述的装置，其特征在于，所述输出概率计算单元具体用于：