CN104867491B

CN104867491B - 用于语音合成的韵律模型训练方法和装置

Info

Publication number: CN104867491B
Application number: CN201510337430.7A
Authority: CN
Inventors: 徐扬凯; 李秀林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-06-17
Filing date: 2015-06-17
Publication date: 2017-08-18
Anticipated expiration: 2035-06-17
Also published as: CN104867491A

Abstract

本发明公开了一种用于语音合成的韵律模型训练方法和装置，其中，用于语音合成的韵律模型训练方法，包括：S1、从训练语料文本中提取分词对应的文本特征和标记特征；S2、基于同义词词林对训练语料文本中的分词进行泛化；以及S3、根据文本特征、标记特征以及泛化后的分词，对韵律模型进行训练。本发明实施例的用于语音合成的韵律模型训练方法和装置，通过从训练语料文本中提取分词对应的文本特征和标记特征，基于同义词词林对训练语料文本中的多个分词进行泛化，然后根据文本特征、标记特征以及泛化后的分词，对韵律模型进行训练，使得韵律模型更加完善，进而提升韵律预测的准确性。

Description

用于语音合成的韵律模型训练方法和装置

技术领域

本发明涉及文语转换技术领域，尤其涉及一种用于语音合成的韵律模型训练方法和装置。

背景技术

语音合成，又称文语转换技术，是一种能够将文字信息转化为语音并进行朗读的技术。随着科技的不断进步，语音合成的应用越来越广泛，如新闻与信息的播报、有声小说等。在日常生活中，也可通过语音合成，将短信、邮件等信息合成为语音，为用户多提供一种获取信息的方式。

在语音合成系统中，韵律预测是整个系统的基础，如果韵律停顿预测错误会直接影响语音合成的效果。例如：合成文本为“如果路人递给它一个空瓶”，正确韵律应为“如果#1路人#1递给#1它#2一个#1空瓶”，而真实的韵律预测结果为“如果#1路人#1递给#2它#1一个#1空瓶”，其中的#1表示小停顿，#2表示大停顿。韵律停顿预测错误造成了该语句最终的合成效果不够流畅自然，从而导致用户使用体验差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种用于语音合成的韵律模型训练方法，该方法能够完善韵律模型，提升韵律预测的准确性。

本发明的第二个目的在于提出一种语音合成方法。

本发明的第三个目的在于提出一种用于语音合成的韵律模型训练装置。

本发明的第四个目的在于提出一种语音合成装置。

为了实现上述目的，本发明第一方面实施例提出了一种用于语音合成的韵律模型训练方法，包括：S1、从训练语料文本中提取分词对应的文本特征和标记特征；S2、基于同义词词林对所述训练语料文本中的分词进行泛化；以及S3、根据所述文本特征、所述标记特征以及泛化后的分词，对所述韵律模型进行训练。

本发明实施例的用于语音合成的韵律模型训练方法，通过从训练语料文本中提取分词对应的文本特征和标记特征，基于同义词词林对训练语料文本中的多个分词进行泛化，然后根据文本特征、标记特征以及泛化后的分词，对韵律模型进行训练，使得韵律模型更加完善，进而提升韵律预测的准确性。

本发明第二方面实施例提出了一种语音合成方法，包括：S4、从待预测文本中提取文本特征，并将所述文本特征输入所述韵律模型；S5、根据所述韵律模型对所述待预测文本进行韵律预测；S6、进一步对所述待预测文本进行声学预测，以生成声学参数序列；以及S7、对所述声学参数序列进行拼接，以生成语音合成结果。

本发明实施例的语音合成方法，通过从待预测文本中提取文本特征，并将文本特征输入韵律模型，根据韵律模型对待预测文本进行韵律预测，进一步对待预测文本进行声学预测，以生成声学参数序列，以及对声学参数序列进行拼接，以生成语音合成结果，基于同义词词林的韵律模型，提升了韵律预测的准确性，从而使韵律停顿更加流畅自然，提升用户使用体验。

本发明第三方面实施例提出了一种用于语音合成的韵律模型训练装置，包括：提取模块，用于从训练语料文本中提取分词对应的文本特征和标记特征；泛化模块，用于基于同义词词林对所述训练语料文本中的分词进行泛化；以及训练模块，用于根据所述文本特征、所述标记特征以及泛化后的分词，对所述韵律模型进行训练。

本发明实施例的用于语音合成的韵律模型训练装置，通过从训练语料文本中提取分词对应的文本特征和标记特征，基于同义词词林对训练语料文本中的多个分词进行泛化，然后根据文本特征、标记特征以及泛化后的分词，对韵律模型进行训练，使得韵律模型更加完善，进而提升韵律预测的准确性。

本发明第四方面实施例提出了一种语音合成装置，包括：提取模块，用于从待预测文本中提取文本特征，并将所述文本特征输入所述韵律模型；韵律预测模块，用于根据所述韵律模型对所述待预测文本进行韵律预测；声学预测模块，用于进一步对所述待预测文本进行声学预测，以生成声学参数序列；以及生成模块，用于对所述声学参数序列进行拼接，以生成语音合成结果。

本发明实施例的语音合成装置，通过从待预测文本中提取文本特征，并将文本特征输入韵律模型，根据韵律模型对待预测文本进行韵律预测，进一步对待预测文本进行声学预测，以生成声学参数序列，以及对声学参数序列进行拼接，以生成语音合成结果，基于同义词词林的韵律模型，提升了韵律预测的准确性，从而使韵律停顿更加流畅自然，提升用户使用体验。

附图说明

图1是根据本发明一个实施例的用于语音合成的韵律模型训练方法的流程图。

图2是根据本发明一个实施例的语音合成方法的流程图。

图3是根据本发明一个实施例的用于语音合成的韵律模型训练装置的结构示意图。

图4是根据本发明一个实施例的语音合成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的用于语音合成的韵律模型训练方法和装置以及语音合成方法和装置。

如图1所示，用于语音合成的韵律模型训练方法可包括：

S1、从训练语料文本中提取分词对应的文本特征和标记特征。

其中，训练语料可被切分为多个分词，每个分词均具有对应的文本特征和标记特征。文本特征可包括词性、词长等特征。标记特征可以是分词的类别对应的韵律停顿层级，例如韵律词对应的韵律停顿层级为#1，韵律短语对应的韵律停顿层级为#2，语调短语对应的韵律停顿层级为#3等。

举例来说，例句为“欧盟#2决定#1成立#2联合部队#3打击#2地中海#1偷渡#1活动#3”。词序列x为：欧盟决定成立联合部队打击地中海偷渡活动，标记序列y为：#2#1#2#3#2#1#1#3。标记序列y有多个标记特征组成。

S2、基于同义词词林对训练语料文本中的多个分词进行泛化。

具体地，可将与语法词用法、意义、词性等相同的同义词加入特征，进行泛化扩展。

举例来说，“成立”的同义词可包括“建立”、“组建”等。

S3、根据文本特征、标记特征以及泛化后的分词，对韵律模型进行训练。

具体地，可通过以下公式对韵律模型进行训练。

其中，x为词序列；y为标记序列；p(y|x)为在词序列x下出现标记序列y的概率；Z(x)为归一化因子，t_k(y_i-1，y_i，x，i)为整个观察序列和相应标记序列在i-1和i时刻的特征，为转移函数；s_k(y_i，x，i)为是在i时刻整个观察序列和标记的特征，为状态函数；λ_k为需训练估计的转移函数的权重参数；μ_k为需训练估计的状态函数的权重参数。

举例来说，训练语料“欧盟#2决定#1成立#2联合部队#3打击#2地中海#1偷渡#1活动#3“中的分词“成立”可泛化为“建立”、“组建”，形成以下实数值特征：

其特征函数为

由此，可训练出权重参数λ_k和μ_k。

图2是根据本发明一个实施例的语音合成方法的流程图。

如图2所示，语音合成方法可包括：

S4、从待预测文本中提取文本特征，并将文本特征输入韵律模型。

在本发明的实施例中，可将待预测文本切分为多个分词，然后获得每个分词对应的词性、词长等特征，然后将上述文本特征输入上一实施例中生成的韵律模型。

S5、根据韵律模型对待预测文本进行韵律预测。

具体地，可利用特征函数的权重参数λ_k和μ_k，对待预测文本进行韵律预测。

其中，待预测文本进行韵律预测的特征为：

其中，x为词序列；i为序列时刻；b(x，i)为词序列x在i时刻的特征；x_i为x在i时刻的状态。

状态函数为：

转移函数为：

其中，y为标记序列；i为序列时刻；b(x，i)为词序列x在i时刻的特征；y_i为y在i时刻的状态。

举例来说，在基于同义词词林对分词进行泛化后，在x_i＝“组建”时，韵律模型中存在与实数值特征

和对应的特征函数相关的权重参数λ_k和μ_k，则对应“决定组建联合部队”的词序列中x_i＝“组建”时的韵律预测序列y_i＝#2。而同义词泛化之前,上述实数值特征不存在，无法获得对应的特征函数相关的权重参数λ_k和μ_k，因而无法准确的给出相关的概率信息。因此加入了同义词词林后，可以提高韵律预测的准确性。

利用上述方法对整个分词序列进行韵律预测，获得每个分词的韵律停顿层级，从而完成韵律预测。

S6、进一步对待预测文本进行声学预测，以生成声学参数序列。

将韵律停顿层级输入到声学预测模型中，从而对待预测文本进行声学预测，可生成对应的谱、基频等声学参数序列。

S7、对声学参数序列进行拼接，以生成语音合成结果。

最后利用声码器对声学参数序列进行波形拼接，从而生成最终的语音合成结果。

为实现上述目的，本发明还提出一种用于语音合成的韵律模型训练装置。

如图3所示，用于语音合成的韵律模型训练装置可包括：提取模块110、泛化模块120和训练模块130。

提取模块110用于从训练语料文本中提取文本特征和标记特征。

泛化模块120用于基于同义词词林对训练语料文本中的多个分词进行泛化。

具体地，泛化模块120可将与语法词用法、意义、词性等相同的同义词加入特征，进行泛化扩展。

训练模块130用于对韵律模型进行训练。

具体地，训练模块130可通过以下公式对韵律模型进行训练。

其特征函数为

由此，可训练出权重参数λ_k和μ_k。

图4是根据本发明一个实施例的语音合成装置的结构示意图。

如图4所示，语音合成装置可包括：分析模块140、韵律预测模块150、声学预测模块160和生成模块170。

分析模块140用于从待预测文本中提取文本特征，并将文本特征输入韵律模型。

在本发明的实施例中，分析模块140可将待预测文本切分为多个分词，然后获得每个分词对应的词性、词长等特征，然后将上述文本特征输入上一实施例中生成的韵律模型。

韵律预测模块150用于根据韵律模型对待预测文本进行韵律预测。

具体地，韵律预测模块150可利用特征函数权重参数λ_k和μ_k，对待预测文本进行韵律预测。

其中，待预测文本进行韵律预测的特征为：

声学预测模块160用于进一步对待预测文本进行声学预测，以生成声学参数序列。

具体地，声学预测模块160可将韵律停顿层级输入到声学预测模型中，从而对待预测文本进行声学预测，可生成对应的谱、基频等声学参数序列。

生成模块170用于对声学参数序列进行拼接，以生成语音合成结果。

具体地，生成模块170可利用声码器对声学参数序列进行波形拼接，从而生成最终的语音合成结果。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于语音合成的韵律模型训练方法，其特征在于，包括以下步骤：

S1、从训练语料文本中提取分词对应的文本特征和标记特征；

S2、基于同义词词林对所述训练语料文本中的分词进行泛化；以及

S3、根据所述文本特征、所述标记特征以及泛化后的分词，对所述韵律模型进行训练。

2.如权利要求1所述的方法，其特征在于，所述根据所述文本特征、所述标记特征以及泛化后的分词，对所述韵律模型进行训练，具体包括：

通过目标函数对所述韵律模型进行训练，以获得转移函数的权重参数和状态函数的权重参数。

3.一种使用如权利要求1或2所述的韵律模型进行语音合成的方法，其特征在于，包括以下步骤：

S4、从待预测文本中提取文本特征，并将所述文本特征输入所述韵律模型；

S5、根据所述韵律模型对所述待预测文本进行韵律预测；

S6、进一步对所述待预测文本进行声学预测，以生成声学参数序列；以及

S7、对所述声学参数序列进行拼接，以生成语音合成结果。

4.如权利要求3所述的方法，其特征在于，所述根据所述韵律模型对所述待预测文本进行韵律预测，具体包括：

根据转移函数和状态函数，判断所述文本特征是否存在对应的转移函数的权重参数和状态函数的权重参数，若存在，则获取所述待预测文本对应的韵律停顿层级。

5.一种用于语音合成的韵律模型训练装置，包括：提取模块，用于从训练语料文本中提取分词对应的文本特征和标记特征，其特征在于，还包括：

泛化模块，用于基于同义词词林对所述训练语料文本中的分词进行泛化；以及

训练模块，用于根据所述文本特征、所述标记特征以及泛化后的分词，对所述韵律模型进行训练。

6.如权利要求5所述的装置，其特征在于，所述训练模块，具体用于：

7.一种使用如权利要求5或6所述的韵律模型进行语音合成的装置，其特征在于，包括：

分析模块，用于从待预测文本中提取文本特征，并将所述文本特征输入所述韵律模型；

韵律预测模块，用于根据所述韵律模型对所述待预测文本进行韵律预测；

声学预测模块，用于进一步对所述待预测文本进行声学预测，以生成声学参数序列；以及

生成模块，用于对所述声学参数序列进行拼接，以生成语音合成结果。

8.如权利要求7所述的装置，其特征在于，所述韵律预测模块，具体用于：