CN105529023A

CN105529023A - 语音合成方法和装置

Info

Publication number: CN105529023A
Application number: CN201610049832.1A
Authority: CN
Inventors: 盖于涛; 康永国; 张少飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2016-04-27
Anticipated expiration: 2036-01-25
Also published as: CN105529023B

Abstract

本发明提出一种语音合成方法和装置，该语音合成方法包括：对要合成的文本进行文本特征提取，获取上下文特征信息；获取预先生成的模型，所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的，所述变换后的声学参数包括多个韵律层级的基频参数；根据所述模型，确定与所述上下文特征信息对应的模型输出参数，所述模型输出参数包括：多个韵律层级的基频参数；对所述多个韵律层级的基频参数进行基频重构；根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。该方法能够提高合成语音的表现效果。

Description

语音合成方法和装置

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成方法和装置。

背景技术

现在人们对于合成语音已经不仅仅满足于其清晰度和可懂度，还要求合成的语音具有更好的自然度和表现力。在自然语音中，基频是影响自然度和表现力的主要因素，因此基频建模的精度直接影响了合成语音的自然度和表现力。

在传统的语音合成系统中，基频建模使用多空间概率分布的隐马尔可夫模型(multi-spaceprobabilitydistributionHMM,MSD-HMM)的建模方法，该方法可以很好的针对状态级、声韵母级的基频轮廓(或走势)建模，但是很难学习出词、短语或者句子等更高层级的基频趋势，使得合成语音的节奏感、表现力不足。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种语音合成方法，该方法可以提高合成语音的表现效果。

本发明的另一个目的在于提出一种语音合成装置。

为达到上述目的，本发明第一方面实施例提出的语音合成方法，包括：对要合成的文本进行文本特征提取，获取上下文特征信息；获取预先生成的模型，所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的，所述变换后的声学参数包括多个韵律层级的基频参数；根据所述模型，确定与所述上下文特征信息对应的模型输出参数，所述模型输出参数包括：多个韵律层级的基频参数；对所述多个韵律层级的基频参数进行基频重构；根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。

可选的，还包括：对训练样本的文本进行文本特征提取，获取训练样本的上下文特征信息；对训练样本的语音进行声学特征提取，得到训练样本的声学参数；对所述声学参数进行基频的韵律层级变换，使得变换后的声学参数包括多个韵律层级的基频参数；根据训练样本的上下文特征信息和变换后的声学参数，训练得到所述模型。

可选的，所述基频的韵律层级变换包括：基频小波变换。

可选的，所述模型是神经网络模型，以及，在训练神经网络模型时采用的目标函数包括：设置的不同参数的权重。

可选的，所述变换后的声学参数还包括：谱参数。

可选的，所述根据所述模型输出参数进行基频重构，包括：获取每个层级的基频参数对应的权重；根据所述权重对每个层级的基频参数进行加权求和运算。

本发明第一方面实施例提出的语音合成方法，通过根据多个韵律层级的基频参数进行建模，可以将单一维度的基频建模扩展到多个韵律层级的多维的基频建模，提高基频建模效果，从而提高语音合成效果。

为达到上述目的，本发明第二方面实施例提出的语音合成装置，包括：第一获取模块，用于对要合成的文本进行文本特征提取，获取上下文特征信息；第二获取模块，用于获取预先生成的模型，所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的，所述变换后的声学参数包括多个韵律层级的基频参数；确定模块，用于根据所述模型，确定与所述上下文特征信息对应的模型输出参数，所述模型输出参数包括：多个韵律层级的基频参数；基频重构模块，用于对所述多个韵律层级的基频参数进行基频重构；合成模块，用于根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。

可选的，还包括：训练模块，用于对训练样本的文本进行文本特征提取，获取训练样本的上下文特征信息；对训练样本的语音进行声学特征提取，得到训练样本的声学参数；对所述声学参数进行基频的韵律层级变换，使得变换后的声学参数包括多个韵律层级的基频参数；根据训练样本的上下文特征信息和变换后的声学参数，训练得到所述模型。

可选的，所述基频重构模块具体用于：获取设置的每个韵律层级的基频参数对应的权重；根据所述权重对每个韵律层级的基频参数进行加权求和运算。

本发明第二方面实施例提出的语音合成装置，通过根据多个韵律层级的基频参数进行建模，可以将单一维度的基频建模扩展到多个韵律层级的多维的基频建模，提高基频建模效果，从而提高语音合成效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的语音合成方法的流程示意图；

图2是本发明另一实施例提出的语音合成方法的流程示意图；

图3是本发明另一实施例提出的语音合成装置的结构示意图；

图4是本发明另一实施例提出的语音合成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的语音合成方法的流程示意图。本实施例的流程以合成过程为例。参见图1，该方法包括：

S11：对要合成的文本进行文本特征提取，获取上下文特征信息。

文本特征提取的流程例如包括：预处理、分词、词性标注、注音、韵律层级预测。

S12：获取预先生成的模型，所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的，所述变换后的声学参数包括多个韵律层级的基频参数。

模型可以在训练过程中训练生成，具体生成流程可以参见后续描述。

S11-S12并无时序限定关系。

S13：根据所述模型，确定与所述上下文特征信息对应的模型输出参数，所述模型输出参数包括：多个韵律层级的基频参数。

其中，模型中可以记录上下文特征信息与变换后的声学参数之间的映射关系，通过该映射关系，可以确定与上下文特征信息对应的变换后的声学参数，将对应的变换后的声学参数作为模型输出参数。

变换后的声学参数例如包括：多个韵律层级的基频参数，另外，还可以包括谱参数。

S14：对所述多个韵律层级的基频参数进行基频重构。

例如，模型输出参数包括多个韵律层级的基频参数和谱参数，需要对其中的多个韵律层级的基频参数进行基频重构。

通常重构方案是将多个分量进行求和运算。而本实施例中，可以预先设置每个分量(韵律层级的基频参数)的权重，再对所有分量进行加权求和运算，从而可以在基频重构时强调需要强调的韵律层级，得到需要的合成语音的表现效果。

S15：根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。

其中，经过基频重构可以将多维的基频参数合成为一维的基频参数，之后可以将谱参数和一维的基频参数送入声码器中进行语音合成，得到要合成的文本对应的合成语音。

本实施例中，通过根据多个韵律层级的基频参数进行建模，可以将单一维度的基频建模扩展到多个韵律层级的多维的基频建模，提高基频建模效果，从而提高语音合成效果。

图2是本发明另一实施例提出的语音合成方法的流程示意图。本实施例的流程包括训练过程和合成过程。参见图2，该方法包括：

在训练过程可以执行如下步骤：

S201：对训练样本的文本进行文本特征提取，得到上下文特征信息。

S202：对语音进行声学特征提取，获取声学特征信息。

其中，可以在训练过程中收集作为样本的文本和对应的语音，以进行相应的特征提取。

S201-S202并无时序限定关系。

S203：对声学特征信息进行基频小波变换，得到谱参数和多个韵律层级的基频参数。

相关技术中，对语音进行声学特征提取后，会直接采用得到的谱参数和一维的基频参数，以及文本特征提取得到的上下文特征信息进行MSD-HMM建模。

而本实施例中，在声学特征提取后，还进行了基频小波变换，通过基频小波变换，可以将一维的基频分解为多维的基频，不同维度的基频对应不同的韵律层级。例如，将基频分解为高频段、高中频段、中频段、中低频段、低频段的五维分量，不同频段依次与音子级、音节级、词级、短语级和句子级相对应。

可以理解的是，本实施例以小波变换进行分解为例，还可以采用其他算法，如离散余弦变换(DiscreteCosineTransform，DCT)。

以要分为10维基频参数为例，基频小波变换的公式可以是：W_i(f₀)(t)＝W(f₀)(2ⁱ⁺¹τ₀,x)×(i+2.5)^-5/2

其中的W(f₀)(2ⁱ⁺¹τ₀,x)可以根据如下公式计算得到：

其中，i是不同维度的基频参数的索引，W_i(f₀)(t)是第i个韵律层级的基频参数，f₀(t)是变换前的一维的基频参数，是小波母基函数，可以采用“草帽函数(MexicanHat)”，τ是连续尺度，x是平移尺度，t是时间信息，τ₀是与小波母基函数相关的数值，可以根据实际情况调整。

S204：根据上下文特征信息、谱参数和多个韵律层级的基频参数进行模型训练，得到模型。

本实施例中，以神经网络模型训练为例，从而可以训练生成神经网络模型。

神经网络例如是长短期记忆(Long-ShortTermMemory，LSTM)网络。

在神经网络训练过程中可以通过设置不同维度的权重，来调整不同维度的训练效果，从而得到更优良的基频建模效果。在模型训练时的不同维度包括：谱参数和多个韵律层级的基频参数。

经过模型训练后，得到的模型中可以记录上下文特征信息与模型输出参数的映射关系，以在语音合成过程中，根据上下文特征信息获取对应的模型输出参数。

模型输出参数是变换后的声学参数，例如包括：谱参数和多个韵律层级的基频参数。

在模型训练时，采用的目标函数包括：设置的不同参数的权重。例如，目标函数的公式是：

L = Σ_{n} {(y_{n} - f (x_{n}, θ))}^{T} W_{n} (y_{n} - f (x_{n}, θ))

其中，L是目标函数，n是所有样本的数量，y_n是网络输出目标值，f(x_n,θ)是上下文特征信息(也可以称为上下文语境特征)x_n在神经网络模型参数θ下的回归函数，这里代表预测输出，W_n是不同参数的权重，不同参数包括：谱参数和多个韵律层级的基频参数。

不同参数的权重可以根据实际需要设置。

在语音合成时，可以执行如下步骤：

S205：对要合成的文本进行文本特征提取，得到上下文特征信息。

S206：根据训练过程得到的神经网络模型，确定与要合成的文本的上下文特征信息对应的模型输出参数。

由于神经网络模型中可以记录上下文特征信息与模型输出参数的映射关系，从而可以根据上下文特征信息获取对应的模型输出参数。

模型输出参数例如包括：谱参数和多个韵律层级的基频参数。

S207：根据得到的多个韵律层级的基频参数进行基频重构。

其中，该多个韵律层级的基频参数是多维的基频参数，基频重构是指将多维的基频参数合成一维的基频参数。

在基频重构时，也可以设置不同维度的权重，以达到需要强调的韵律层级效果。

例如，以10维基频参数的重构为例，基频重构的公式可以是：

f_{0} (t) = Σ_{i = 1}^{10} w_{i} W_{i} (f_{0}) (t) + ξ^{'} (t)

其中，f₀(t)是重构后的一维的基频参数，W_i(f₀)(t)是第i个韵律层级的基频参数，w_i是第i个韵律层级的权重，ξ'(t)是残差项。

S208：根据基频重构后的基频参数和谱参数进行参数生成。

例如，对基频重构后一维的基频参数和谱参数进行平滑操作，生成平滑后的谱参数和一维的基频参数。

S209：根据生成的参数得到合成语音。

例如，将平滑后的谱参数和基频参数送入声码器，由声码器根据谱参数和基频参数得到合成语音。

可以理解的是，当采用神经网络建模时，也可以不进行参数生成，而是在基频重构后，直接根据谱参数和重构得到的一维的基频参数得到合成语音。

本实施例中，通过根据多个韵律层级的基频参数进行建模，可以将单一维度的基频建模扩展到多个韵律层级的多维的基频建模，提高基频建模效果，从而提高语音合成效果。通过使用神经网络进行建模，可以对多维的基频进行建模，增强基频建模的精度。通过在训练和重构时设置权重，可以突出表现需要层级信息的基频变化，使得合成语音更加富有情感。通过多个维度的基频参数与谱参数的同步建模，通过神经网络学习了谱与基频多个层级间的联系。完全数据驱动，没有人工设计问题集的环节，更为自动化。

图3是本发明另一实施例提出的语音合成装置的结构示意图。参见图3，该装置30包括：第一获取模块31、第二获取模块32、确定模块33、基频重构模块34和合成模块35。

第一获取模块31，用于对要合成的文本进行文本特征提取，获取上下文特征信息。

第二获取模块32，用于获取预先生成的模型，所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的，所述变换后的声学参数包括多个韵律层级的基频参数。

确定模块33，用于根据所述模型，确定与所述上下文特征信息对应的模型输出参数，所述模型输出参数包括：多个韵律层级的基频参数。

基频重构模块34，用于根据所述模型输出参数进行基频重构。

合成模块35，用于根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。

一些实施例中，参见图4，该装置还包括：

训练模块36，用于对训练样本的文本进行文本特征提取，获取训练样本的上下文特征信息；对训练样本的语音进行声学特征提取，得到训练样本的声学参数；对所述声学参数进行基频的韵律层级变换，使得变换后的声学参数包括多个韵律层级的基频参数；根据训练样本的上下文特征信息和变换后的声学参数，训练得到所述模型。

可选的，所述基频的韵律层级变换包括：基频小波变换。

可选的，所述模型是神经网络模型，以及，在训练神经网络模型时采用的目标函数包括：设置的不同维度参数的权重。

可选的，所述变换后的声学参数还包括：谱参数。

可选的，所述模型输出参数包括多个韵律层级的基频参数，所述基频重构模块具体用于：

获取设置的每个韵律层级的基频参数对应的权重；

根据所述权重对每个韵律层级的基频参数进行加权求和运算。

上述模块的具体内容可以参见方法实施例中的相关描述，在此不再赘述。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音合成方法，其特征在于，包括：

对要合成的文本进行文本特征提取，获取上下文特征信息；

获取预先生成的模型，所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的，所述变换后的声学参数包括多个韵律层级的基频参数；

根据所述模型，确定与所述上下文特征信息对应的模型输出参数，所述模型输出参数包括：多个韵律层级的基频参数；

对所述多个韵律层级的基频参数进行基频重构；

根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。

2.根据权利要求1所述的方法，其特征在于，还包括：

对训练样本的文本进行文本特征提取，获取训练样本的上下文特征信息；

对训练样本的语音进行声学特征提取，得到训练样本的声学参数；

对所述声学参数进行基频的韵律层级变换，使得变换后的声学参数包括多个韵律层级的基频参数；

根据训练样本的上下文特征信息和变换后的声学参数，训练得到所述模型。

3.根据权利要求2所述的方法，其特征在于，所述基频的韵律层级变换包括：基频小波变换。

4.根据权利要求2所述的方法，其特征在于，所述模型是神经网络模型，以及，在训练神经网络模型时采用的目标函数包括：设置的不同参数的权重。

5.根据权利要求2所述的方法，其特征在于，所述变换后的声学参数还包括：谱参数。

6.根据权利要求1所述的方法，其特征在于，所述根据所述模型输出参数进行基频重构，包括：

获取设置的每个韵律层级的基频参数对应的权重；

7.一种语音合成装置，其特征在于，包括：

第一获取模块，用于对要合成的文本进行文本特征提取，获取上下文特征信息；

第二获取模块，用于获取预先生成的模型，所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的，所述变换后的声学参数包括多个韵律层级的基频参数；

确定模块，用于根据所述模型，确定与所述上下文特征信息对应的模型输出参数，所述模型输出参数包括：多个韵律层级的基频参数；

基频重构模块，用于对所述多个韵律层级的基频参数进行基频重构；

合成模块，用于根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。

8.根据权利要求7所述的装置，其特征在于，还包括：

训练模块，用于对训练样本的文本进行文本特征提取，获取训练样本的上下文特征信息；对训练样本的语音进行声学特征提取，得到训练样本的声学参数；对所述声学参数进行基频的韵律层级变换，使得变换后的声学参数包括多个韵律层级的基频参数；根据训练样本的上下文特征信息和变换后的声学参数，训练得到所述模型。

9.根据权利要求8所述的装置，其特征在于，所述模型是神经网络模型，以及，在训练神经网络模型时采用的目标函数包括：设置的不同参数的权重。

10.根据权利要求7所述的装置，其特征在于，所述基频重构模块具体用于：

获取设置的每个韵律层级的基频参数对应的权重；