CN106297766A

CN106297766A - 语音合成方法及系统

Info

Publication number: CN106297766A
Application number: CN201510305764.6A
Authority: CN
Inventors: 夏咸军; 江源; 王影; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2015-06-04
Filing date: 2015-06-04
Publication date: 2017-01-04
Anticipated expiration: 2035-06-04
Also published as: CN106297766B

Abstract

本发明公开了一种语音合成方法及系统，该方法包括：接收待合成文本；对所述待合成文本进行预处理，得到所述待合成文本的待合成单元序列及待合成单元的上下文相关信息；根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列的最优备选语音数据；获取测听人员对所述备选语音数据的测听结果；根据所述测听结果对所述音库进行扩充；利用扩充后的音库重新获取所述待合成单元序列的最优备选语音数据，并将重新获取的最优备选语音数据作为优化后的语音数据；将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。利用本发明，可以准确地将人工主观听感融合到待合成文本的合成结果中，提升语音合成效果。

Description

语音合成方法及系统

技术领域

本发明涉及语音合成技术领域，具体涉及一种语音合成方法及系统。

背景技术

实现人机之间人性化、智能化的有效交互，构建高效自然的人机交流环境，已经成为当前信息技术应用和发展的迫切需求。语音合成技术作为人机交流的重要环节，可以将文字信息转化为自然的语音信号，赋予计算机像人一样自如说话的能力，改变了传统通过录音回放实现机器开口说话的繁琐操作。为了使合成语音更加自然，更符合人的主观听感，出现了融合人主观听感的语音合成方法，具体融合方法一般是分析人工主观测听结果来提升合成语音的自然度。

现有的融合人主观听感的语音合成方法一般是通过预先收集大量合成语音及相应人工测听的反馈结果，训练分类模型，分类标签一般为合成正确数据与合成错误数据，利用所述分类模型找到待合成文本多组备选合成语音中最符合人听感的一组合成语音，作为待合成文本的最优合成结果。可见，所述方法主要依赖分类模型将人工测听的反馈结果融合到合成语音中。然而，由于现有合成系统合成语音时，合成错误的语音单元数远远少于合成正确的语音单元数，即训练分类模型的两类训练数据分布不均衡，从而导致训练得到的分类模型具有倾向性，将错误合成单元倾向正确合成单元，影响待合成文本最优合成结果的挑选。因此，如何准确的将人工主观听感融合到待合成文本的合成结果中，是提升语音合成效果亟待解决的问题。

发明内容

本发明实施例提供一种语音合成方法及系统，以准确地将人工主观听感融合到待合成文本的合成结果中，提升语音合成效果。

为此，本发明实施例提供如下技术方案：

一种语音合成方法，包括以下步骤：

(1)接收待合成文本；

(2)对所述待合成文本进行预处理，得到所述待合成文本的待合成单元序列及待合成单元的上下文相关信息；

(3)根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列的最优备选语音数据；

(4)获取测听人员对所述最优备选语音数据的测听结果；

(5)根据所述测听结果对所述音库进行扩充；

(6)利用扩充后的音库重新获取所述待合成单元序列的最优备选语音数据，并将重新获取的最优备选语音数据作为优化后的语音数据；

(7)将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。

优选地，所述对所述待合成文本进行预处理包括：

对所述待合成文本进行分词、词性标注、以及韵律分析。

优选地，所述根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列的最优备选语音数据包括：

从音库中获取所述待合成单元序列中各待合成单元的备选语音单元序列；

提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征的类型包括：频谱、基频、时长、拼接处频谱变化、拼接处基频变化；

计算在所述上下文相关信息表征的环境下，备选语音单元的各声学特征与对应的目标模型的似然值的和，得到第一计算值；

选取对应最大第一计算值的备选语音单元作为所述待合成单元的最优备选语音单元；

依序将所有待合成单元的最优备选语音单元进行拼接，得到待合成单元序列的备选语音数据。

优选地，所述测听结果包括：正确语音数据和错误语音数据，所述错误语音数据包括一个或多个错误合成语音单元，所述正确语音数据包括一个或多个正确合成语音单元、以及一个或多个对应所述错误合成语音单元的主观标注正确语音单元；

所述根据所述测听结果对所述音库进行扩充包括：

将各主观标注正确语音单元及各正确合成语音单元均各自作为一个虚拟语音单元，由所述虚拟语音单元、以及在主观标注时或合成时在所述音库中挑选的所述虚拟语音单元对应的待合成单元的备选语音单元组成对应所述备选语音单元的语音单元池，一个语音单元池包括：一个备选语音单元、或者一个备选语音单元及一个或多个虚拟语音单元。

优选地，所述利用扩充后的音库重新获取所述待合成单元序列的最优备选语音数据包括：

从扩充后的音库中获取所述待合成单元序列中各待合成单元的备选语音单元序列；

提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱变化、拼接处基频变化；

计算所述待合成单元的上下文相关模型与各备选语音单元所在语音单元池中的每个语音单元的上下文相关模型的相似度；

计算在所述上下文相关信息表征的环境下，以所述相似度作为权值参数时，备选语音单元的各声学特征与对应的目标模型的似然值的和，得到第二计算值；

选取对应最大第二计算值的备选语音单元作为所述待合成单元的最优备选语音单元；

优选地，在步骤(6)和步骤(7)之间还包括：

获取测听人员对所述优化后的语音数据的测听结果；

判断所述测听结果是否达到要求；

如果达到，则执行步骤(7)；否则，返回步骤(5)。

一种语音合成系统，包括：

接收模块，用于接收待合成文本；

预处理模块，用于对所述待合成文本进行预处理，得到所述待合成文本的待合成单元序列及待合成单元的上下文相关信息；

第一挑选模块，用于根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列的最优备选语音数据；

测听结果获取模块，用于获取测听人员对所述备选语音数据的测听结果；

音库扩充模块，用于根据所述测听结果对所述音库进行扩充；

第二挑选模块，用于利用扩充后的音库重新获取所述待合成单元序列的最优备选语音数据，并将重新获取的最优备选语音数据作为优化后的语音数据；

输出模块，用于将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。

优选地，所述预处理模块，具体对所述待合成文本进行分词、词性标注、以及韵律分析。

优选地，所述第一挑选模块包括：

备选语音单元获取单元，用于从音库中获取所述待合成单元序列中各待合成单元的备选语音单元序列；

特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征的类型包括：频谱、基频、时长、拼接处频谱变化、拼接处基频变化；

第一计算单元，用于计算在所述上下文相关信息表征的环境下，备选语音单元的各声学特征与对应的目标模型的似然值的和，得到第一计算值；

选取单元，用于选取对应最大第一计算值的备选语音单元作为所述待合成单元的最优备选语音单元；

拼接单元，用于依序将所有待合成单元的最优备选语音单元进行拼接，得到待合成单元序列的备选语音数据。

所述音库扩充模块包括：

修正单元，用于获得对应所述错误合成语音单元的主观标注正确语音单元；

语音单元池生成单元，用于将各主观标注正确语音单元及各正确合成语音单元均各自作为一个虚拟语音单元，由所述虚拟语音单元、以及在主观标注时或合成时在所述音库中挑选的所述虚拟语音单元对应的待合成单元的备选语音单元组成对应所述备选语音单元的语音单元池，一个语音单元池包括：一个备选语音单元、或者一个备选语音单元及一个或多个虚拟语音单元。

优选地，所述第二挑选模块包括：

备选语音单元获取单元，用于从扩充后的音库中获取所述待合成单元序列中各待合成单元的备选语音单元序列；

特征提取单元，用于提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱变化、拼接处基频变化；

相似度计算单元，用于计算所述待合成单元的上下文相关模型与各备选语音单元所在语音单元池中的每个语音单元的上下文相关模型的相似度；

第二计算单元，用于计算在所述上下文相关信息表征的环境下，以所述相似度作为权值参数时，备选语音单元的各声学特征与对应的目标模型的似然值的和，得到第二计算值；

选取单元，用于选取对应最大第二计算值的备选语音单元作为所述待合成单元的最优备选语音单元；

优选地，所述测听结果获取模块，还用于获取测听人员对所述优化后的语音数据的测听结果；

所述系统还包括：

判断模块，用于判断所述测听结果是否达到要求；如果达到，则触发所述输出模块将所述优化后的语音数据作为所述待合成文本的合成语音数据输出；如果未达到，则触发所述音库扩充模块继续根据测听人员对所述优化后的语音数据的测听结果对所述音库进行扩充。

本发明实施例提供的语音合成方法及系统，对于待合成文本，首先从音库中挑选出待合成文本对应的待合成单元序列中的最优备选语音数据，然后由测听人员进行测听，并根据测听结果对音库进行扩充，以增加音库覆盖的韵律特征，然后利用扩充后的音库重新获取待合成单元序列的最优备选语音数据，并将重新获取的最优备选语音数据作为待合成文本的合成语音数据输出。由于将反映人主观听感的主观标注数据融合到了语音合成中，因而使最终得到的合成语音数据更符合人的主观听感，有效地提升了语音合成效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例语音合成方法的流程图；

图2是本发明实施例中语音单元池的示意图；

图3是本发明实施例中利用扩充后的音库重新获取待合成单元的最优备选语音单元的流程图；

图4是本发明实施例语音合成系统的一种结构示意图；

图5是本发明实施例语音合成系统中第一挑选模块的一种结构示意图；

图6是本发明实施例语音合成系统中第二挑选模块的一种结构示意图；

图7是本发明实施例语音合成系统的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例语音合成方法的流程图，包括以下步骤：

步骤101，接收待合成文本。

步骤102，对所述待合成文本进行预处理，得到所述待合成文本的待合成单元序列及待合成单元的上下文相关信息。

所述预处理主要包括：分词、词性标注及韵律分析。以中文为例，待合成文本“发生在我们身边的爱情故事”的韵律分析结果如下：

发生在*我们*身边的#爱情*故事；

fa1sheng1zai4*wo3men0*shen1bian1de0#ai4qing2gu4shi1；

其中，第一行为韵律行，“*”表示韵律词边界，“#”表示韵律短语边界，当然实际应用中不限定该表示方法；第二行为拼音行，数字表示声调信息，当然实际应用中不限定该表示方法，拼音行中的声母和韵母组成的序列即为待合成单元序列。

利用所述预处理结果即可获得待合成单元的上下文相关信息，如待合成单元在句子中的位置、待合成单元的词性信息等。

步骤103，根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列的最优备选语音数据。

在本发明实施例中，需要首先从音库中获取所述待合成单元序列中各待合成单元的备选语音单元序列，一个备选语音单元序列中可以有一个或多个备选语音单元，然后从这些备选语音单元中挑选出一个最优备选语音单元，最后依序将所有待合成单元的最优备选语音单元进行拼接，得到所述待合成单元序列的最优备选语音数据。

在挑选最优备选语音单元时，可以依照每个待合成单元的备选语音单元的各声学特征在所述上下文相关信息表征的环境下相对目标模型的似然值(在本发明实施例中，将备选语音单元的各声学特征在所述上下文相关信息表征的环境下相对目标模型的似然值的和作为该备选语音单元与目标模型的似然值)进行挑选，挑选出似然值最大的备选语音单元作为最优备选语音单元。为了描述方便，将挑选出的待合成单元序列中待合成单元的最优备选语音单元序列表示为

U^{*} = {U_{1}^{*}, U_{2}^{*}, . . ., U_{N}^{*}} .

假设C＝{c₁,c₂,...,c_n,...,c_N}表示待合成文本的N个待合成单元的上下文环境信息，其中，c_n为第n个待合成单元的上下文环境信息。

U = [\begin{matrix} u_{11} & u_{21} & . . . & u_{N 1} \\ u_{12} & u_{22} & . . . & u_{N 2} \\ . . . & . . . & . . . & . . . \\ u_{1 K} & u_{2 K} & . . . & u_{NK} \end{matrix}]

表示待合成文本中N个待合成单元的K个备选语音单元序列，如u₁₂表示第1个待合成单元的第2个备选语音单元，则挑选最优备选语音单元的计算如下所示：

U^{*} = \underset{U}{\arg \max} Σ_{m = 1}^{M} w_{m} \log p (X (U, m) | C (U), λ_{m})

其中，U^*表示备选语音单元的各声学特征与对应的目标模型的似然值的和，为了描述方便，将其称为第一计算值；X(U,m)表示根据备选语音单元序列U提取的备选语音单元声学特征，M为待合成单元声学特征的类型数，所述声学特征的类型包括：频谱、基频、时长、拼接处频谱变化、拼接处基频变化中的一种或多种；logP(X(U,m)|C(U),λ_m)是给定上下文环境C时，备选语音单元声学特征相对目标模型λ_m的似然值；λ_m为音库中当前待合成单元声学特征m对应的目标模型，所述目标模型一般可以通过预先收集数据训练得到，用来指导备选语音单元的挑选，一般挑选语音单元的声学参数分布越符合目标模型的分布越好，w_m表示第m类特征声学模型的权值，具体取值可以根据经验或实验结果而定。

根据上述公式，可以得到待合成单元的每个备选语音单元对应的第一计算值，然后，选取对应最大第一计算值的备选语音单元作为所述待合成单元的最优备选语音单元。

挑选出每个待合成单元的最优备选语音单元后，即可将挑选到的最优备选单元依序进行拼接，得到待合成单元序列的最优备选语音数据；具体拼接方法与现有技术相同，在此不再详细描述。

步骤104，获取测听人员对所述最优备选语音数据的测听结果。

为了使最终得到的合成语音更加自然，更符合人的主观听感，在本发明实施例中，对得到的合成语音，即前面所述的最优备选语音数据，进行人工测听，并利用测听结果对原有音库进行扩充，以丰富音库中语音单元的上下文韵律特征，然后利用扩充后的音库重新获取待合成文本的最优备选语音数据，从而可以使重新挑选出的最优备选语音数据更加自然。

在本发明实施例中，所述测听结果可以包括：正确语音数据和错误语音数据，所述错误语音数据包括一个或多个错误合成语音单元，所述正确语音数据包括一个或多个正确合成语音单元、以及一个或多个对应所述错误合成语音单元的主观标注正确语音单元。

所述测听人员可以是语音合成方向的专家，可以直接给出适合人听感的备选单元，可以从测听人员的反馈结果中得到错误合成单元的平行数据，即错误的合成单元和与之对应的更符合人听感的主观标注合成单元，比如，可以针对每个待合成单元给出一定数量的备选替代语音单元及其在音库中的索引，方便测听人员修正错误合成语音单元，对于错误合成语音单元，测听人员可以从给出的备选替代语音单元中选出对应该错误合成语音单元的一个最优的语音单元作为对应该错误合成语音单元的主观标注正确语音单元。

例如，测听人员测听结果的收集形式可以如下：

“本句合成语音是否有错误？”，A：有错误，B：无错误；

如果有错误请给出错误位置、错误类型；

错误位置可以定位到错误合成单元所在位置，如音素、音节；

错误类型可以包括：发音错误、音高错误、语速错误、发音平滑性错误、音高平滑性错误。

根据测听人员的反馈，即可得到测听结果。

需要说明的是，在实际应用中，可以根据需要选择是否要给出错误类型，而且，可以根据测听结果重新训练目标模型。如果给出错误类型，在后续训练目标模型时可以按照错误类型分类训练。

步骤105，根据所述测听结果对所述音库进行扩充。

前面提到，测听人员对所述备选语音数据的测听结果可以包括：正确合成语音单元和错误合成语音单元。

在本发明实施例中，将各主观标注正确语音单元及各正确合成语音单元均各自作为一个虚拟语音单元形成语音单元池。具体地，由所述虚拟语音单元、以及主观标注时或合成时在所述音库中挑选的所述虚拟语音单元对应的待合成单元的备选语音单元组成对应所述备选语音单元的语音单元池。需要说明的是，一个语音单元池包括：一个备选语音单元、或者一个备选语音单元及一个或多个虚拟语音单元。当音库中语音单元在主观标注或合成时未被选中，则该语音单元对应的语音单元池中不包含虚似语音单元。需要说明的是，所述语音单元池中的语音单元具有相同的声学特征，但具有不同的上下文韵律特征，从而可以扩充音库覆盖的韵律特征，有利于合成更多符合人听感的语音。

比如，合成多个不同上下文环境的待合成单元R时，经过测听人员测听修正后，得到多个经过人工修正后符合人听感的语音单元，假设其中有n个不同上下文环境的待合成单元R在修正时，主观标注的音库中的备选单元为R_org。得到主观标注适合人听感的不同上下文环境的语音单元为R₁,...,R_n，将这些语音单元作为虚拟语音单元加入到音库后，待合成单元R对应的语音单元增加了n个虚拟语音单元，这些虚拟语音单元与音库备选语音单元R_org形成语音单元池，如图2所示。

当然，在实际应用中，音库的扩充形式还可以有其它表示方式，并不仅限于前面所述的语音单元池的形式，只要能够体现出语音单元的多种不同上下文韵律特征即可。

步骤106，利用扩充后的音库重新获取所述待合成单元序列的最优备选语音数据，并将重新获取的最优备选语音数据作为优化后的语音数据。

在利用扩充后的音库重新获取待合成单元序列的最优备选语音数据时，同样需要首先从扩充后的音库中获取所述待合成单元序列中各待合成单元的备选语音单元序列，然后对于其中的每一个待合成单元，从其备选语音单元中挑选出一个最优备选语音单元，最后依序将所有待合成单元的最优备选语音单元进行拼接，得到所述待合成单元序列的最优备选语音数据。

与前面步骤103中从音库中挑选最优备选语音单元不同的是，在步骤106中，需要考虑待合成单元的上下文相关模型与备选语音单元所在的语音单元池中的每个语音单元的上下文相关模型的相似度，并以该相似度作为权值，计算在待合成单元的上下文相关信息表征的环境下，备选语音单元的各声学特征与对应的目标模型的似然值的和，为了描述方便，可以将其称为第二计算值。在得到对应各备选语音单元的第二计算值后，即可选取对应最大第二计算值的备选语音单元作为所述待合成单元的最优备选语音单元。利用扩充后的音库重新获取待合成单元的最优备选语音单元的具体过程将在后面详细描述。

步骤107，将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。

如图3所示，是本发明实施例中利用扩充后的音库重新获取待合成单元的最优备选语音单元的流程图，包括以下步骤：

步骤301，从扩充后的音库中获取待合成单元的备选语音单元序列。

步骤302，提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征的类型包括以下任意一种或多种：频谱、基频、时长、拼接处频谱变化、拼接处基频变化。

步骤303，计算所述待合成单元的上下文相关模型与各备选语音单元所在语音单元池中的每个语音单元的上下文相关模型的相似度。

所述上下文相关模型描述的是每个语音单元或待合成单元的上下文相关韵律信息，具体可以通过构建决策树的方法获取到。

步骤304，计算在所述上下文相关信息表征的环境下，以所述相似度作为权值参数时，备选语音单元的各声学特征与对应的目标模型的似然值的和，得到第二计算值。

以图2所示的语音单元池为例，图中MS2,...MS6表示语音单元池中每个语音单元的每个状态的上下文相关模型，上述第二计算值计算如下式所示：

U^{*} = \underset{U}{\arg \max} Σ_{m = 1}^{M} w_{m} [\log P (X (U, m) | C (U), λ_{m}) * (1 + SimNode (R; T))]

其中，SimNode(R；T)为待合成单元R的上下文相关模型与语音单元池T中的

每个语音单元的上下文相关模型相似度，具体计算方式如下式所示：

SimNode(R；T)＝Rcoef*SNum

其中，SNum为待合成单元每个状态的上下文相关模型与语音单元池中每个备选单元每个状态的上下文相关模型相同的数目，Rcoef是挑选单元的奖励系数，具体取值可以根据经验设定，如0.2。如图2中，阴影部分为待合成单元R每个状态的上下文相关模型与语音单元池中每个备选单元每个状态的上下文相关模型相同的示意图，图中共有3个上下文相关模型相同。

步骤305，选取对应最大第二计算值的备选语音单元作为所述待合成单元的最优备选语音单元。

另外，需要说明的是，在实际应用中，还可以通过迭代方式进行多次优化处理，以使最终得到的合成语音数据更符合人的听感。具体地，在输出最终的合成语音数据之前，先获取测听人员对优化后的语音数据的测听结果，判断该测听结果是否达到要求(如待合成文本为教育相关文本，对合成结果的要求较高，如测听结果的MOS(Mean Opinion Score，MOS)分需要达到4.0以上)；如果达到，则执行上述步骤107；否则，返回步骤105，继续进行优化处理，直至测听结果达到要求。

本发明实施例提供的语音合成方法，对于待合成文本，首先从音库中挑选出待合成文本对应的待合成单元序列中的最优备选语音数据，然后由测听人员进行测听，并根据测听结果对音库进行扩充，以增加音库覆盖的韵律特征，然后利用扩充后的音库重新获取待合成单元序列的最优备选语音数据，并将重新获取的最优备选语音数据作为待合成文本的合成语音数据输出。由于将反映人主观听感的主观标注数据融合到了语音合成中，因而使最终得到的合成语音数据更符合人的主观听感，有效地提升了语音合成效果。

相应地，本发明实施例还提供一种语音合成系统，如图4所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

接收模块401，用于接收待合成文本；

预处理模块402，用于对所述待合成文本进行预处理，得到所述待合成文本的待合成单元序列及待合成单元的上下文相关信息；

第一挑选模块403，用于根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列的最优备选语音数据；

测听结果获取模块404，用于获取测听人员对所述备选语音数据的测听结果；

音库扩充模块405，用于根据所述测听结果对所述音库进行扩充；

第二挑选模块406，用于利用扩充后的音库重新获取所述待合成单元序列的最优备选语音数据，并将重新获取的最优备选语音数据作为优化后的语音数据；

输出模块407，用于将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。

所述预处理主要包括：分词、词性标注及韵律分析，利用所述预处理结果即可获得待合成单元的上下文相关信息，如待合成单元在句子中的位置、待合成单元的词性信息等。

需要说明的是，在本发明实施例中，根据所述测听结果对所述音库进行扩充的结果不是在原音库中增加了新的语音单元，而是根据测听结果增加了与音库中的语音单元具有相同声学特征但不同上下文韵律特征的虚拟语音单元，考虑到存储空间的问题，这些虚拟语音单元可以有不同的存储方式，比如，可以将音库中的语音单元及与该语音单元具有相同声学特征但不同上下文韵律特征的语音单元存放到一个语音单元池中。这样，扩充后的音库可以看作是所述语音单元池的组合。

具体地，所述测听结果可以包括：正确语音数据和错误语音数据，所述错误语音数据包括一个或多个错误合成语音单元，所述正确语音数据包括一个或多个正确合成语音单元、以及一个或多个对应所述错误合成语音单元的主观标注正确语音单元。相应地，音库扩充模块405的一种具体结构可以包括：修正单元和语音单元池生成单元。其中：所述修正单元用于获得对应所述错误合成语音单元的主观标注正确语音单元；所述语音单元池生成单元用于将各主观标注正确语音单元及各正确合成语音单元均各自作为一个虚拟语音单元，由所述虚拟语音单元、以及主观标注时或合成时在所述音库中挑选的所述虚拟语音单元对应的待合成单元的备选语音单元组成对应所述备选语音单元的语音单元池，一个语音单元池包括：一个备选语音单元、或者一个备选语音单元及一个或多个虚拟语音单元。

上述第一挑选模块403可以采用现有的方式从音库中获取所述待合成单元序列的最优备选语音数据，而第二挑选模块406采用与第一挑选模块403不同的挑选准则，利用扩充后的音库获取所述待合成单元序列的最优备选语音数据。这两个模块的具体结构将在后面详细描述。

如图5所示，是本发明实施例语音合成系统中第一挑选模块的一种结构示意图。

该第一挑选模块包括：

备选语音单元获取单元501，用于从音库中获取待合成单元序列中各待合成单元的备选语音单元序列；

特征提取单元502，用于提取所述备选语音单元序列中各备选语音单元的声学特征，所述声学特征的类型包括：频谱、基频、时长、拼接处频谱变化、拼接处基频变化；

第一计算单元503，用于计算在所述上下文相关信息表征的环境下，备选语音单元的各声学特征与对应的目标模型的似然值的和，得到第一计算值；

选取单元504，用于选取对应最大第一计算值的备选语音单元作为所述待合成单元的最优备选语音单元；

拼接单元505，用于依序将所有待合成单元的最优备选语音单元进行拼接，得到待合成单元序列的备选语音数据。

如图6所示，是本发明实施例语音合成系统中第二挑选模块的一种结构示意图。

第二挑选模块的具体结构与第一挑选模块有相同之处，如其中的备选语音单元获取单元601、特征提取单元602、选取单元604、以及拼接单元605，这些单元的功能与第一挑选模块中的相应单元的功能相同，在此不再赘述。

不同的是，在第二挑选模块中，还包括：相似度计算单元607，用于计算所述待合成单元的上下文相关模型与各备选语音单元所在语音单元池中的每个语音单元的上下文相关模型的相似度。相应地，第二挑选模块中的第二计算单元603用于计算在所述上下文相关信息表征的环境下，以所述相似度作为权值参数时，备选语音单元的各声学特征与对应的目标模型的似然值的和，得到第二计算值，具体计算过程可参见前面本发明方法实施例中的描述。

如图7所示，是本发明实施例语音合成系统的另一种结构示意图。

与图4所示实施例的区别在于，在该实施例中，所述系统还包括判断模块701。测听结果获取模块404还用于获取测听人员对所述优化后的语音数据的测听结果。

相应地，判断模块701判断所述测听结果是否达到要求；如果达到，则触发所述输出模块407将所述优化后的语音数据作为所述待合成文本的合成语音数据输出；如果未达到，则触发所述音库扩充模块405继续根据测听人员对所述优化后的语音数据的测听结果对所述音库进行扩充。

本发明实施例提供的语音合成系统，对于待合成文本，首先从音库中挑选出待合成文本对应的待合成单元序列中的最优备选语音数据，然后由测听人员进行测听，并根据测听结果对音库进行扩充，以增加音库覆盖的韵律特征，然后利用扩充后的音库重新获取待合成单元序列的最优备选语音数据，并将重新获取的最优备选语音数据作为待合成文本的合成语音数据输出。由于将反映人主观听感的主观标注数据融合到了语音合成中，因而使最终得到的合成语音数据更符合人的主观听感，有效地提升了语音合成效果。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音合成方法，其特征在于，包括以下步骤：

(1)接收待合成文本；

(4)获取测听人员对所述最优备选语音数据的测听结果；

(5)根据所述测听结果对所述音库进行扩充；

2.根据权利要求1所述的方法，其特征在于，所述对所述待合成文本进行预处理包括：

对所述待合成文本进行分词、词性标注、以及韵律分析。

3.根据权利要求1所述的方法，其特征在于，所述根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列的最优备选语音数据包括：

4.根据权利要求1所述的方法，其特征在于，所述测听结果包括：正确语音数据和错误语音数据，所述错误语音数据包括一个或多个错误合成语音单元，所述正确语音数据包括一个或多个正确合成语音单元、以及一个或多个对应所述错误合成语音单元的主观标注正确语音单元；

所述根据所述测听结果对所述音库进行扩充包括：

5.根据权利要求4所述的方法，其特征在于，所述利用扩充后的音库重新获取所述待合成单元序列的最优备选语音数据包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，在步骤(6)和步骤(7)之间还包括：

获取测听人员对所述优化后的语音数据的测听结果；

判断所述测听结果是否达到要求；

如果达到，则执行步骤(7)；否则，返回步骤(5)。

7.一种语音合成系统，其特征在于，包括：

接收模块，用于接收待合成文本；

8.根据权利要求7所述的系统，其特征在于，

所述预处理模块，具体对所述待合成文本进行分词、词性标注、以及韵律分析。

9.根据权利要求7所述的系统，其特征在于，所述第一挑选模块包括：

10.根据权利要求7所述的系统，其特征在于，所述测听结果包括：正确语音数据和错误语音数据，所述错误语音数据包括一个或多个错误合成语音单元，所述正确语音数据包括一个或多个正确合成语音单元、以及一个或多个对应所述错误合成语音单元的主观标注正确语音单元；

所述音库扩充模块包括：

11.根据权利要求10所述的系统，其特征在于，所述第二挑选模块包括：

12.根据权利要求7至11任一项所述的系统，其特征在于，

所述测听结果获取模块，还用于获取测听人员对所述优化后的语音数据的测听结果；

所述系统还包括：