CN105244020B

CN105244020B - 韵律层级模型训练方法、语音合成方法及装置

Info

Publication number: CN105244020B
Application number: CN201510616919.8A
Authority: CN
Inventors: 徐扬凯; 李秀林; 付晓寅; 陈志杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-24
Filing date: 2015-09-24
Publication date: 2017-03-22
Anticipated expiration: 2035-09-24
Also published as: CN105244020A

Abstract

本发明公开了一种用于语音合成的韵律层级模型训练方法、使用该韵律层级模型进行语音合成的方法及装置，其中该训练方法包括：对海量无标注语料数据进行训练获得单字的字向量；根据字向量以及韵律标注数据获取训练数据对应的文本特征及标注；以及基于深度神经网络和双向LSTM神经网络，根据训练数据的文本特征、标注对韵律层级模型进行训练。该方法基于字粒度的字典较传统使用的词粒度的词典相比，有效地减小了条目规模，同时减小了模型及资源文件对于计算资源和存储空间的要求，在提高韵律预测模型性能的同时，保证了在嵌入式智能设备中的可用性。

Description

韵律层级模型训练方法、语音合成方法及装置

技术领域

本发明涉及语音技术领域，尤其涉及一种用于语音合成的韵律层级模型训练方法、使用该韵律层级模型进行语音合成的方法以及装置。

背景技术

语音合成，又称文语转换技术，是一种能够将文字信息转化为语音并进行朗读的技术。在语音合成系统中，由于韵律层级预测是整个系统的基础，因此，如何提高语音合成的效果关键在于如何提高韵律层级预测的准确性。

相关技术中，韵律层级预测的方法主要有以下两种：

第一种，韵律层级预测通常采用CRF(Conditional Random Field，条件随机场)模型进行预测，即基于CRF的韵律层级预测方法为了在模型中引入上下文信息，需要对训练的特征进行左右扩展，并且引入人工编写的特征模板对韵律层级模型进行训练。此外，由于韵律层级结构具有一定的包含关系，传统基于CRF的韵律预测方法首先分别训练得到韵律词模型、韵律短语模型以及语调短语模型，然后采用逐级预测的方式对文本的韵律结构进行预测；

第二种，韵律层级预测使用的模型是基于词粒度的基础上进行训练和预测的，通过分词系统获得训练或者预测文本的分词结果，并获得词性、词长等特征，通过人工编写的特征模板生成对应的文本特征来进行训练和预测。

但是，上述两种方法主要存在以下问题：

(1)采用特征左右扩展的方式虽然能够在一定程度上引入上下文关系，但是为了减少模型的规模和训练的复杂度，扩展的大小往往有限，因而无法构建单词之间较远距离的上下文关系；

(2)采用逐级训练的方式可能会导致错误的逐级传递，一旦在前一级韵律预测中出现错误，这种错误很容易向下传递，造成后续的预测错误；

(3)由于韵律预测模型的训练和预测是基于词粒度的基础上进行的，韵律预测模型的性能依赖于分词系统的性能，离线语音合成中的分词系统由于计算资源和存储空间的限制，性能低于在线语音合成系统中的分词系统，从而影响到最终的韵律预测性能；

(4)对于离线合成系统来说，由于计算资源及存储空间有限，对于模型和资源文件大小要求严格，使用词粒度的预测模型需要依赖的词典文件词条数达数十万级别，对于存储空间和计算资源占用较大。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种用于语音合成的韵律层级模型训练方法。该方法基于字粒度的字典较传统使用的词粒度的词典相比，有效地减小了条目规模，同时减小了模型及资源文件对于计算资源和存储空间的要求，在提高韵律预测模型性能的同时，保证了在嵌入式智能设备中的可用性。

本发明的第二个目的在于提出一种语音合成方法。

本发明的第三个目的在于提出一种用于语音合成的韵律层级模型训练装置。

本发明的第四个目的在于提出一种语音合成装置。

为达上述目的，本发明第一方面实施例提出了一种用于语音合成的韵律层级模型训练方法，包括：对海量无标注语料数据进行训练获得单字的字向量；根据所述字向量以及韵律标注数据获取训练数据对应的文本特征及标注，其中，所述训练数据用于训练所述韵律层级模型；以及基于深度神经网络和双向LSTM神经网络，根据所述训练数据的文本特征、所述标注对所述韵律层级模型进行训练。

本发明实施例的用于语音合成的韵律层级模型训练方法，可先对海量无标注语料数据进行训练获得单字的字向量，之后，可根据字向量以及韵律标注数据获取训练数据对应的文本特征及标注，以及基于深度神经网络和双向LSTM神经网络，根据训练数据的文本特征、标注对韵律层级模型进行训练，至少具有以下优点：1)利用双向LSTM的长短时记忆功能将文本之间的远距离上下文特征引入韵律层级预测，有效解决了传统采用人工指定特征模板的方式引入上下文的局限性，提升了韵律预测模型的性能；2)采用一遍标注的方式对韵律模型的各个层级同时进行预测，避免了预测错误在不同层级之间向下传递，同时不同层级的协同关系在训练过程中得到有效表示；3)使用基于字粒度的文本特征，降低了分词系统对于韵律性能的影响因素；4)基于字粒度的字典较传统使用的词粒度的词典相比，有效地减小了条目规模，同时减小了模型及资源文件对于计算资源和存储空间的要求，在提高韵律预测模型性能的同时，保证了在嵌入式智能设备中的可用性。

为达上述目的，本发明第二方面实施例提出了一种使用本发明第一方面实施例所述的韵律层级模型进行语音合成的方法，包括：获取待预测文本，并提取所述待预测文本的文本特征；将所述文本特征输入所述韵律层级模型，并根据所述韵律层级模型对所述待预测文本进行韵律预测；进一步对所述待预测文本进行声学预测，以生成声学参数序列；以及根据所述声学参数序列生成语音合成结果。

本发明实施例的语音合成方法，可从待预测文本中提取文本特征，并将文本特征输入韵律层级模型，根据韵律层级模型对待预测文本进行韵律预测，进一步对待预测文本进行声学预测，以生成声学参数序列，以及根据声学参数序列生成语音合成结果，即通过使用基于字粒度的文本特征以及双向LSTM网络结构训练而成的韵律层级模型，提升了韵律预测的准确性，从而使得韵律停顿更加流畅自然，提升了用户体验。

为达上述目的，本发明第三方面实施例提出了一种用于语音合成的韵律层级模型训练装置，包括：获取模块，用于对海量无标注语料数据进行训练获得单字的字向量；生成模块，用于根据所述字向量以及韵律标注数据获取训练数据对应的文本特征及标注，其中，所述训练数据用于训练所述韵律层级模型；以及训练模块，用于基于深度神经网络和双向LSTM神经网络，根据所述训练数据的文本特征、标注对所述韵律层级模型进行训练。

本发明实施例的用于语音合成的韵律层级模型训练装置，可通过获取模块对海量无标注语料数据进行训练获得单字的字向量，生成模块根据字向量以及韵律标注数据获取训练数据对应的文本特征及标注，训练模块基于深度神经网络和双向LSTM神经网络，根据训练数据的文本特征、标注对韵律层级模型进行训练，至少具有以下优点：1)利用双向LSTM的长短时记忆功能将文本之间的远距离上下文特征引入韵律层级预测，有效解决了传统采用人工指定特征模板的方式引入上下文的局限性，提升了韵律预测模型的性能；2)采用一遍标注的方式对韵律模型的各个层级同时进行预测，避免了预测错误在不同层级之间向下传递，同时不同层级的协同关系在训练过程中得到有效表示；3)使用基于字粒度的文本特征，降低了分词系统对于韵律性能的影响因素；4)基于字粒度的字典较传统使用的词粒度的词典相比，有效地减小了条目规模，同时减小了模型及资源文件对于计算资源和存储空间的要求，在提高韵律预测模型性能的同时，保证了在嵌入式智能设备中的可用性。

为达上述目的，本发明第四方面实施例提出了一种使用本发明第三方面实施例所述的韵律层级模型进行语音合成的装置，包括：提取模块，用于获取待预测文本，并提取所述待预测文本的文本特征；第一预测模块，用于将所述文本特征输入所述韵律层级模型，并根据所述韵律层级模型对所述待预测文本进行韵律预测；第二预测模块，用于进一步对所述待预测文本进行声学预测，以生成声学参数序列；以及生成模块，用于根据所述声学参数序列生成语音合成结果。

本发明实施例的语音合成装置，可通过提取模块从待预测文本中提取文本特征，第一预测模块将文本特征输入韵律层级模型，并根据韵律层级模型对待预测文本进行韵律预测，第二预测模块进一步对待预测文本进行声学预测，以生成声学参数序列，生成模块根据声学参数序列生成语音合成结果，即通过使用基于字粒度的文本特征以及双向LSTM网络结构训练而成的韵律层级模型，提升了韵律预测的准确性，从而使得韵律停顿更加流畅自然，提升了用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是韵律层级结构的示例图；

图2是根据本发明一个实施例的用于语音合成的韵律层级模型训练方法的流程图；

图3是LSTM结构的基本原理的示例图；

图4是根据本发明另一个实施例的用于语音合成的韵律层级模型训练方法的流程图；

图5是根据本发明一个实施例的语音合成方法的流程图；

图6是根据本发明一个实施例的用于语音合成的韵律层级模型训练装置的结构框图；

图7是根据本发明另一个实施例的用于语音合成的韵律层级模型训练装置的结构框图；以及

图8是根据本发明一个实施例的语音合成装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

可以理解，语音合成的目的是将文本转换为语音播放给用户，目标是达到真人文本播报的效果。目前，语音合成在可懂度方面已逐渐成熟，但是在自然流畅度上和真人播报还有很大差距。影响自然流畅度的一个关键因素就是合成语音中的韵律停顿，影响语音合成系统流畅度的关键因素是韵律层级预测的准确性。在语音合成系统中，韵律层级预测的准确性，直接影响最终的语音合成效果以及听者对合成语音的感知。

由于直接预测韵律停顿的时间长度非常困难，因此传统韵律预测方法利用人类发音停顿的特点，根据停顿的时间长度，将韵律分为不同的韵律层级，从而将韵律预测问题转换为分类问题。韵律层级结构通常包括韵律词、韵律短语、语调短语等。如图1所示，其中，PW、PPH和IPH分别表示韵律层级结构中的韵律词、韵律短语和语调短语。从图1可以看出，韵律层级结构具有一定的包含关系，即韵律词<韵律短语<语调短语。韵律标注的任务则是对文本中各个单词的韵律层级进行分类。因此，如何提高语音合成的效果关键在于如何提高韵律层级预测的准确性。

为此，本发明提出了一种用于语音合成的韵律层级模型训练方法、使用该韵律层级模型进行语音合成的方法以及装置。

下面参考附图描述根据本发明实施例的用于语音合成的韵律层级模型训练方法、使用该韵律层级模型进行语音合成的方法以及装置。

图2是根据本发明一个实施例的用于语音合成的韵律层级模型训练方法的流程图。如图2所示，该用于语音合成的韵律层级模型训练方法可以包括：

S201，对海量无标注语料数据进行训练获得单字的字向量。

其中，在本发明的实施例中，无标注语料数据可以是从海量语料库中获得，该海量语料库中的语料包含各领域文本。

具体地，可先对海量语料库中的无标注语料数据进行学习或训练，得到单字的字向量。也就是说，可对无标注语料数据进行学习，得到以单个字为单元的字向量。其中，字向量可理解为对于字面的具有语义信息的向量表示，相似语义信息的字面的字向量之间有较高的数学相似度，例如，以字面“北”为例，该字面“北”的字向量可与“南、东、西、”等字面的字向量有较高的数学相似度。

S202，根据字向量以及韵律标注数据获取训练数据对应的文本特征及标注，其中，训练数据可用于训练韵律层级模型。

此外，上述韵律标注数据是已进行过人工标注的，也就是说该语料具有对应的标注特征，该标注特征可理解为是该语料中文本特征所属类别对应的韵律停顿层级，例如，韵律词对应的韵律停顿层级为为#1，韵律短语对应的韵律停顿层级为#2，语调短语对应的韵律停顿层级为#3等。

具体地，根据上述韵律标注数据以及字向量，可将训练数据中的单字的字面对应的字向量组成文本特征，并将该字所对应的韵律停顿层级组成标注数据。由此，通过使用基于字粒度的文本特征，使得韵律预测模型不完全依赖于分词系统的性能，降低了分词系统对于韵律性能的影响因素，并可将字典条目降低至数千的数量级别。同时通过使用单字的字向量，可以增强字面的泛化能力。

S203，基于深度神经网络和双向LSTM神经网络，根据训练数据的文本特征、标注对韵律层级模型进行训练。

具体而言，在本发明的实施例中，可先基于深度神经网络对训练数据的文本特征以及标注进行进一步抽象，之后，可基于双向LSTM神经网络(是一种双向长短时记忆网络，Bi-LSTM)对训练数据(如韵律标注训练数据)的上下文特征进行融合，以获得不同文本特征对应的权重参数。

也就是说，在韵律层级模型训练过程中，可将韵律层级预测问题看作对韵律词、韵律短语和语调短语的分类问题，可采用深度神经网络(Deep Neural Networks，简称为DNN)和双向LSTM网络结构对韵律层级模型进行训练。具体地，可通过深度神经网络使用全连接的前馈神经网络，对输入的训练文本特征进行进一步的抽象，然后通过双向LSTM神经网络结构对韵律标注训练数据的上下文特征进行融合，最后神经网络的输出对韵律词、韵律短语和语调短语同时进行分类，在误差反向传递的过程体现三种层级结构(即韵律词、韵律短语和语调短语)的相互关系。

其中，在本发明的实施例中，双向长短时记忆(Bi-LSTM)网络结构使用LSTM作为其核心建模单元。例如，图3为LSTM结构的基本原理的示例图，如图3所示，假设给定的输入序列x＝(x₁,...,x_T)，其中，T为输入序列的长度。对于任意时刻的输入x_t，LSTM结构通过下列公式对结构中的各个单元进行计算：

i_t＝σ(W_ixx_t+W_imm_t-1+W_icc_t-1+b_i)

f_t＝σ(W_fxx_t+W_fmm_t-1+W_fcc_t-1+b_f)

c_t＝f_t⊙c_t-1+i_t⊙g(W_cxx_t+W_cmm_t-1+b_c)

o_t＝σ(W_oxx_t+W_omm_t-1+W_occ_t-1+b_o)

m_t＝o_t⊙h(c_t)

其中，W为权重矩阵，b为偏置向量，i、f、o、c、m分别为输入门、遗忘门、输出门、状态单元以及LSTM结构的输出；⊙为向量按元素的乘积，σ为sigmoid函数，其计算公式如下：

此外，g和h为状态单元的输入和输出激活函数，一般为tanh函数：

可以看出，通过LSTM结构中的状态结构缓存历史的状态信息，并且通过输入门、遗忘门以及输出门对历史状态进行维护，从而实现了长距离历史信息的有效缓存。由于LSTM结构能够维护长距离的历史信息，因此特别适合韵律层级标注中的长距离韵律建模。由此，通过使用双向LSTM结构对韵律层级模型进行构建，引入了标注文本的上下文信息，提升了韵律预测模型的性能。

图4是根据本发明另一个实施例的用于语音合成的韵律层级模型训练方法的流程图。

为了进一步提高韵律层级模型的性能，提高韵律层级预测的准确性，在使用基于字粒度的文本特征的基础上，结合分词系统给出的分词建议，并根据结合分词建议的特征进行模型训练。具体地，如图4所示，该用于语音合成的韵律层级模型训练方法可以包括：

S401，对海量无标注语料数据进行训练获得单字的字向量。

S402，基于分词系统对训练数据进行分词，得到对应的分词边界建议及词性。

其中，在本发明的实施例中，上述分词系统可理解为现有技术中的任意一种分词系统。

S403，根据字向量、分词边界建议及词性获取训练数据的文本特征，并根据字向量以及韵律标注数据获取训练数据的标注。

具体地，在得到字向量之后，可根据该字向量获得训练数据中的单字的字面对应的字向量，并将该字的字向量、该字在所属语法词的分词边界位置、该字所属语法词的词性组成该训练数据的文本特征，并根据韵律标注数据获得该训练数据中的单字的字面所对应的韵律停顿层级，并将该韵律停顿层级组成标注数据。

S404，基于深度神经网络和双向LSTM神经网络，根据训练数据的文本特征、标注对韵律层级模型进行训练。

具体而言，在本发明的实施例中，可先基于深度神经网络对训练数据的文本特征以及标注进行进一步抽象，之后，可基于双向LSTM神经网络对训练数据的上下文特征进行融合，以获得不同文本特征对应的权重参数。

本发明实施例的用于语音合成的韵律层级模型训练方法，在训练数据的文本特征的生成过程中，可同时结合分词系统给出的分词边界建议及词性添加至训练文本特征中，有效利用分词系统给出的分词信息作为补充，进一步提高了韵律层级模型的性能。

可以理解，韵律层级模型是应用于语音合成系统中的。在语音合成系统中，韵律层级预测是整个系统的基础。因此，在通过本发明实施例的训练方法生成一个具有高预测准确性的韵律层级模型之后，可将该韵律层级模型应用到语音合成系统中。为此，本发明还提出了一种语音合成方法。

图5是根据本发明一个实施例的语音合成方法的流程图。需要说明的是，本发明实施例的语音合成方法所使用的韵律层级模型是由上述任一个实施例所述的用于语音合成的韵律层级模型训练方法所生成的。

如图5所示，该语音合成方法可以包括：

S501，获取待预测文本，并提取待预测文本的文本特征。

具体地，在获取到待预测文本之后，可基于字粒度将该待预测文本进行切分，以得到多个单字，并获得每个字对应的字向量，将相应字向量作为文本特征，同时结合分词系统针对该待预测文本给出的分词边界建议及词性添加到该文本特征，将添加后的特征作为最终的文本特征。

S502，将文本特征输入韵律层级模型，并根据韵律层级模型对待预测文本进行韵律预测。

具体而言，在本发明的实施例中，根据韵律层级模型对待预测文本进行韵律预测的具体实现过程可如下：基于深度神经网络对文本特征进行进一步抽象，并基于双向LSTM神经网络对待预测文本的上下文特征进行融合，以获得不同文本特征对应的权重参数；根据不同文本特征对应的权重参数获得文本特征所属的各韵律层级的概率，并将最大概率对应的韵律层级作为待预测文本对应的韵律层级(即韵律停顿层级)，从而完成韵律预测。

S503，进一步对待预测文本进行声学预测，以生成声学参数序列。

具体地，可将韵律层级输入到声学预测模型中，从而对待预测文本进行声学预测，生成对应的谱、基频等声学参数序列。

S504，根据声学参数序列生成语音合成结果。

具体地，可利用声码器根据声学参数序列合成语音信号，从而生成最终的语音合成结果。

为了实现上述实施例，本发明还提出了一种用于语音合成的韵律层级模型训练装置。

图6是根据本发明一个实施例的用于语音合成的韵律层级模型训练装置的结构框图。如图6所示，该用于语音合成的韵律层级模型训练装置可以包括：获取模块110、生成模块120和训练模块130。

具体地，获取模块110可用于对海量无标注语料数据进行训练获得单字的字向量。其中，在本发明的实施例中，无标注语料数据可以是从海量语料库中获得，该海量语料库中的语料包含各领域文本。

更具体地，获取模块110可先对海量语料库中的无标注语料数据进行学习或训练，得到单字的字向量。也就是说，可对无标注语料数据进行学习，得到以单个字为单元的字向量。其中，字向量可理解为对于字面的具有语义信息的向量表示，相似语义信息的字面的字向量之间有较高的数学相似度，例如，以字面“北”为例，该字面“北”的字向量可与“南、东、西、”等字面的字向量有较高的数学相似度。

生成模块120可用于根据字向量以及韵律标注数据获取训练数据对应的文本特征及标注，其中，训练数据可用于训练韵律层级模型。此外，韵律标注数据是已进行过人工标注的，也就是说该语料具有对应的标注特征，该标注特征可理解为是该语料中文本特征所属类别对应的韵律停顿层级，例如，韵律词对应的韵律停顿层级为为#1，韵律短语对应的韵律停顿层级为#2，语调短语对应的韵律停顿层级为#3等。

更具体地，生成模块120根据上述韵律标注数据以及字向量，可将训练数据中的单字的字面对应的字向量组成文本特征，并将该字所对应的韵律停顿层级组成标注数据。由此，通过使用基于字粒度的文本特征，使得韵律预测模型不完全依赖于分词系统的性能，降低了分词系统对于韵律性能的影响因素，并可将字典条目降低至数千的数量级别。同时通过使用单字的字向量，可以增强字面的泛化能力。

训练模块130可用于基于深度神经网络和双向LSTM神经网络，根据训练数据的文本特征、标注对韵律层级模型进行训练。具体而言，在本发明的实施例中，训练模块130可先基于深度神经网络对训练数据的文本特征以及标注进行进一步抽象，之后，可基于双向LSTM神经网络对训练数据(如韵律标注训练数据)的上下文特征进行融合，以获得不同文本特征对应的权重参数。

也就是说，训练模块130在韵律层级模型训练过程中，可将韵律层级预测问题看作对韵律词、韵律短语和语调短语的分类问题，可采用深度神经网络和双向LSTM网络结构对韵律层级模型进行训练。更具体地，训练模块130可通过深度神经网络使用全连接的前馈神经网络，对输入的训练文本特征进行进一步的抽象，然后通过双向LSTM神经网络结构对韵律标注训练数据的上下文特征进行融合，最后神经网络的输出对韵律词、韵律短语和语调短语同时进行分类，在误差反向传递的过程体现三种层级结构(即韵律词、韵律短语和语调短语)的相互关系。

i_t＝σ(W_ixx_t+W_imm_t-1+W_icc_t-1+b_i)

f_t＝σ(W_fxx_t+W_fmm_t-1+W_fcc_t-1+b_f)

c_t＝f_t⊙c_t-1+i_t⊙g(W_cxx_t+W_cmm_t-1+b_c)

o_t＝σ(W_oxx_t+W_omm_t-1+W_occ_t-1+b_o)

m_t＝o_t⊙h(c_t)

进一步地，在本发明的一个实施例中，如图7所示，该用于语音合成的韵律层级模型训练装置还可包括：分词模块140，分词模块140可用于基于分词系统对训练数据进行分词，得到对应的分词边界建议及词性。其中，在本发明的实施例中，生成模块120可具体用于：根据字向量、分词边界建议及词性获取训练数据的文本特征，并根据字向量以及韵律标注数据获取训练数据的标注。其中，在本发明的实施例中，上述分词系统可理解为现有技术中的任意一种分词系统。

更具体地，生成模块120在得到训练字向量之后，可根据该字向量获得训练数据中的单字的字面对应的字向量，并将该字的字向量、该字在所属语法词的分词边界位置、该字所属语法词的词性组成该训练数据的文本特征，并根据韵律标注数据获得该训练数据中的单字的字面所对应的韵律停顿层级，并将该韵律停顿层级组成标注数据。

由此，在训练文本特征的生成过程中，可同时结合分词系统给出的分词边界建议及词性添加至训练文本特征中，有效利用分词系统给出的分词信息作为补充，进一步提高了韵律层级模型的性能。

为了实现上述实施例，本发明还提出了一种语音合成装置。

图8是根据本发明一个实施例的语音合成装置的结构框图。需要说明的是，本发明实施例的语音合成装置所使用的韵律层级模型是由上述任一个实施例所述的用于语音合成的韵律层级模型训练装置所生成的。

如图8所示，该语音合成装置可以包括：提取模块210、第一预测模块220、第二预测模块230和生成模块240。

具体地，提取模块210可用于获取待预测文本，并提取待预测文本的文本特征。更具体地，提取模块210在获取到待预测文本之后，可基于字粒度将该待预测文本进行切分，以得到多个单字，并获得每个字对应的字向量，将相应字向量作为文本特征，同时结合分词系统针对该待预测文本给出的分词边界建议及词性添加到该文本特征，将添加后的特征作为最终的文本特征。

第一预测模块220可用于将文本特征输入韵律层级模型，并根据韵律层级模型对待预测文本进行韵律预测。具体而言，在本发明的实施例中，第一预测模块220根据韵律层级模型对待预测文本进行韵律预测的具体实现过程可如下：基于深度神经网络对文本特征进行进一步抽象，并基于双向LSTM神经网络对待预测文本的上下文特征进行融合，以获得不同文本特征对应的权重参数；根据不同文本特征对应的权重参数获得文本特征所属的各韵律层级的概率，并将最大概率对应的韵律层级作为待预测文本对应的韵律层级(即韵律停顿层级)，从而完成韵律预测。

第二预测模块230可用于进一步对待预测文本进行声学预测，以生成声学参数序列。更具体地，第二预测模块230可将韵律层级输入到声学预测模型中，从而对待预测文本进行声学预测，生成对应的谱、基频等声学参数序列。

生成模块240可用于根据声学参数序列生成语音合成结果。更具体地，生成模块240可利用声码器根据声学参数序列合成语音信号，从而生成最终的语音合成结果。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于语音合成的韵律层级模型训练方法，其特征在于，包括以下步骤：

对海量无标注语料数据进行训练获得单字的字向量；

根据所述字向量以及韵律标注数据获取训练数据对应的文本特征及标注，其中，所述训练数据用于训练所述韵律层级模型；以及

基于深度神经网络和双向LSTM神经网络，根据所述训练数据的文本特征、标注对所述韵律层级模型进行训练。

2.如权利要求1所述的方法，其特征在于，还包括：

基于分词系统对所述训练数据进行分词，得到对应的分词边界建议及词性；

其中，根据所述字向量以及韵律标注数据获取训练数据对应的文本特征及标注，具体包括：

根据所述字向量、所述分词边界建议及词性获取所述训练数据的所述文本特征，并根据所述字向量以及所述韵律标注数据获取所述训练数据的所述标注。

3.如权利要求1所述的方法，其特征在于，基于深度神经网络和双向LSTM神经网络，根据所述训练数据的文本特征、标注对所述韵律层级模型进行训练，具体包括：

基于深度神经网络对所述训练数据的文本特征以及标注进行进一步抽象，并基于双向LSTM神经网络对所述训练数据的上下文特征进行融合，以获得不同文本特征对应的权重参数。

4.一种使用如权利要求1至3中任一项所述的韵律层级模型进行语音合成的方法，其特征在于，包括：

获取待预测文本，并提取所述待预测文本的文本特征；

将所述文本特征输入所述韵律层级模型，并根据所述韵律层级模型对所述待预测文本进行韵律预测，以获得所述待预测文本对应的韵律层级；

将所述韵律层级输入到声学预测模型中，从而对所述待预测文本进行声学预测，以生成声学参数序列；以及

根据所述声学参数序列生成语音合成结果。

5.如权利要求4所述的方法，其特征在于，根据所述韵律层级模型对所述待预测文本进行韵律预测，具体包括：

基于深度神经网络对所述文本特征进行进一步抽象，并基于双向LSTM神经网络对所述待预测文本的上下文特征进行融合，以获得不同文本特征对应的权重参数；

根据所述不同文本特征对应的权重参数获得所述文本特征所属的各韵律层级的概率，并将最大概率对应的韵律层级作为所述待预测文本对应的韵律层级。

6.一种用于语音合成的韵律层级模型训练装置，其特征在于，包括：

获取模块，用于对海量无标注语料数据进行训练获得单字的字向量；

生成模块，用于根据所述字向量以及韵律标注数据获取训练数据对应的文本特征及标注，其中，所述训练数据用于训练所述韵律层级模型；以及

训练模块，用于基于深度神经网络和双向LSTM神经网络，根据所述训练数据的文本特征、标注对所述韵律层级模型进行训练。

7.如权利要求6所述的装置，其特征在于，还包括：

分词模块，用于基于分词系统对所述训练数据进行分词，得到对应的分词边界建议及词性；

其中，所述生成模块具体用于：根据所述字向量、所述分词边界建议及词性获取所述训练数据的所述文本特征，并根据所述字向量以及所述韵律标注数据获取所述训练数据的所述标注。

8.如权利要求6所述的装置，其特征在于，所述训练模块具体用于：

9.一种使用如权利要求6至8中任一项所述的韵律层级模型进行语音合成的装置，其特征在于，包括：

提取模块，用于获取待预测文本，并提取所述待预测文本的文本特征；

第一预测模块，用于将所述文本特征输入所述韵律层级模型，并根据所述韵律层级模型对所述待预测文本进行韵律预测，以获得所述待预测文本对应的韵律层级；

第二预测模块，用于将所述韵律层级输入到声学预测模型中，从而对所述待预测文本进行声学预测，以生成声学参数序列；以及

生成模块，用于根据所述声学参数序列生成语音合成结果。

10.如权利要求9所述的装置，其特征在于，所述第一预测模块具体用于：