CN106356052A

CN106356052A - 语音合成方法及装置

Info

Publication number: CN106356052A
Application number: CN201610901099.1A
Authority: CN
Inventors: 袁豪磊; 吴富章; 钱柄桦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-10-17
Filing date: 2016-10-17
Publication date: 2017-01-25
Anticipated expiration: 2036-10-17
Also published as: US10832652B2; WO2018072543A1; CN106356052B; US20190189109A1

Abstract

本发明公开了一种语音合成方法及装置，属于语音合成技术领域。所述方法包括：获取测试语音信息；从测试语音信息中提取具有第一标注类型的测试语音片段；根据具有第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；根据平均差异矩阵，生成具有目标拼接权值的拼接代价模型；通过具有目标拼接权值的拼接代价模型进行语音合成，得到合成的语音信息。本发明通过根据平均差异矩阵生成具有目标拼接权值的拼接代价模型，避免了需要多次手工调整拼接代价模型中的权值，且最终得到的权值仍然不够准确的情况，从而达到了减少手工调整次数，直接通过平均差异矩阵计算出较为精准的目标拼接权值的效果。

Description

语音合成方法及装置

技术领域

本发明实施例涉及语音合成技术领域，特别涉及一种语音合成方法及装置。

背景技术

语音合成技术，又称文语转换(Text to Speech)技术，用于将文字信息转化为语音信息。目前使用较为广泛的语音合成技术是基于波形拼接的语音合成技术。

基于波形拼接的语音合成技术的核心思想是：预先构建一个语料库，该语料库中包含各种语音片段；对于输入的文本信息，从语料库中选择合适的多个语音片段拼接得到最终的语音信息。具体来讲，对于已知的一个文本信息W＝(w1，w2，…，w_n)，w_i为文本基元，采用目标代价和拼接代价从语料库中选择出总代价最小的目标语音片段序列V＝(v1，v2，…，v_n)进行语音合成，v i为语音片段。其中，目标代价用于表征文本基元w_i对应的预测声学特征与语料库中的候选语音片段的声学特征之间的相似性，目标代价越小，两者越相似；拼接代价用于表征两个相邻候选语音片段在拼接后的连续性，拼接代价越小，拼接后的语音连续性效果越好。

比如，对于已知的一个文本信息“早安中国”，文本基元“早安”在语料库中对应3个候选语音片段a，文本基元“中国”在语料库中对应2个候选语音片段b，共存在6组候选拼接方案；目标代价用于表征文本基元“早安”对应的预测声学特征与候选语音片段a之间的相似性，以及用于文本基元“中国”对应的预测声学特征与候选语音片段b之间的相似性；而拼接代价用于表征候选语音片段a与候选语音片段b之间的连续性；对于6种候选拼接方案，计算出每种候选拼接方案各自的目标代价和拼接代价，选择出总代价最小的一种候选拼接方案作为最终的拼接方案，合成得到最终的语音信息。

完整的拼接代价模型由算法模型和权值两部分组成，为了获得较好的连续性效果，这些权值是根据设计者的经验和试错进行手工调整的。具体来讲，在通过具有初始权值的拼接代价模型为输入的文字信息进行语音合成后，需要人工测听语音信息的连续性效果，如果获得不满意的连续性效果，则需要手工调整拼接代价模型中的这些权值；通过使用具有调整后权值的拼接代价模型，将输入的文字信息再次进行语音合成，再一次对合成的语音信息重复上述过程，直至获得满意的连续性效果。

每次手工调整这些权值后，都需要重新进行语音合成并对合成的语音信息的连续性效果进行人工测听，而每次调整后的连续性效果不一定比上一次的连续性结果更优，通常需要很多次的人工测听和手工调整操作才能获得较优的权值和满意的连续性效果。即便如此，最终得到的权值仍然不够准确。

发明内容

为了解决需要很多次的人工测听和手工调整操作才能获得较优的权值和满意的连续性效果的问题，本发明实施例提供了一种语音合成方法及装置。所述技术方案如下：

第一方面，提供了一种模型生成方法，所述方法包括：

获取测试语音信息，所述测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息；

从所述测试语音信息中提取具有第一标注类型的测试语音片段，所述第一标注类型用于标注所述测试语音片段的语音连续性优于预设条件；

根据具有所述第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；每个所述平均差异矩阵与一类拼接组合关系对应，每个所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异；

根据所述平均差异矩阵，生成具有目标拼接权值的拼接代价模型，每个所述拼接代价模型与一类所述拼接组合关系对应。

第二方面，提供了一种语音合成方法，采用如第一方面所述的模型生成方法所生成的所述拼接代价模型，所述方法包括：

对输入的文本信息进行拆分，得到文本基元序列(w1，w2，…，w_n)，w_i为第i个文本基元，1≤i≤n；

根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征；

对于每个所述文本基元w_i，从语料库中选择出若干个候选语音片段；

根据目标代价模型计算每个所述文本基元w_i与对应的候选语音片段之间的目标代价；根据所述拼接代价模型计算相邻的所述候选语音片段之间的拼接代价；

选择出所述目标代价和所述拼接代价所对应的总代价最小的一组目标语音片段序列(v1，v2，…，v_n)进行语音合成，得到与输入的所述文本信息对应的所述语音信息。

第三方面，提供了一种模型生成装置，所述装置包括：

获取模块，用于获取测试语音信息，所述测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息；

提取模块，用于从所述测试语音信息中提取具有第一标注类型的测试语音片段，所述第一标注类型用于标注所述测试语音片段的语音连续性优于预设条件；

第一计算模块，用于根据具有所述第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；每个所述平均差异矩阵与一类拼接组合关系对应，每个所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异；

生成模块，用于根据所述平均差异矩阵，生成具有目标拼接权值的拼接代价模型，每个所述拼接代价模型与一类所述拼接组合关系对应。

第四方面，提供了一种语音合成装置，采用如第三方面所述的模型生成装置所生成的所述拼接代价模型，所述装置包括：

拆分模块，用于对输入的文本信息进行拆分，得到文本基元序列(w1，w2，…，w_n)，w_i为第i个文本基元，1≤i≤n；

得到模块，用于根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征；

选择模块，用于对于每个所述文本基元w_i，从语料库中选择出若干个候选语音片段；

第二计算模块，用于根据目标代价模型计算每个所述文本基元w_i与对应的候选语音片段之间的目标代价；根据所述拼接代价模型计算相邻的所述候选语音片段之间的拼接代价；

合成模块，用于选择出所述目标代价和所述拼接代价所对应的总代价最小的一组目标语音片段序列(v1，v2，…，v_n)进行语音合成，得到与输入的所述文本信息对应的所述语音信息。

本发明实施例提供的技术方案至少具有如下有益效果：

通过根据具有第一标注类型的多个测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵，根据平均差异矩阵生成具有目标拼接权值的拼接代价模型；由于每个平均差异矩阵与一类拼接组合关系对应，用于表征属于同一类拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异，使得根据平均差异矩阵生成出的每个拼接代价模型与一类拼接组合关系对应，且每个拼接代价模型具有精准的权值；避免了需要多次手工调整拼接代价模型中的权值，且最终得到的权值仍然不够准确的情况，从而达到了减少手工调整次数，直接通过平均差异矩阵计算出较为精准的权值的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是一种基于波形拼接的语音合成方法的原理示意图；

图1B是本发明另一个实施例提供的语音合成方法的原理示意图；

图2是本发明一个实施例提供的语音合成方法的方法流程图；

图3是本发明另一个实施例提供的语音合成方法的方法流程图；

图4A是本发明另一个实施例提供的语音合成方法的方法流程图；

图4B是本发明另一个实施例提供的语音合成方法的方法流程图；

图5是本发明另一个实施例提供的语音合成方法的原理示意图；

图6是本发明另一个实施例提供的语音合成方法的原理示意图；

图7是本发明另一个实施例提供的语音合成方法的方法流程图；

图8是本发明另一个实施例提供的语音合成方法的界面示意图；

图9是本发明一个实施例提供的模块生成装置的结构示意图；

图10是本发明另一个实施例提供的模块生成装置的结构示意图；

图11是本发明一个实施例提供的语音合成装置的结构示意图；

图12是本发明一个实施例提供的终端的结构方框图；

图13是本发明一个实施例提供的服务器的结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

请参考图1A，其示出了一种基于波形拼接的语音合成方法的原理示意图。

用户向服务器输入一个文本信息，服务器对输入的文本信息进行拆分，得到一组文本基元序列(w1，w2，…，w_n)，w_i为第i个文本基元，1≤i≤n，经过一系列的步骤，最终服务器将该组文本基元序列转化为一组目标语音片段序列(v1，v2，…，v_n)进行语音合成，得到与输入的文本信息对应的语音信息。以两个前后相邻的文本基元即文本基元w1、文本基元w2为例进行具体说明，服务器根据预设声学模型，将文本基元w1和文本基元w2进行前端处理，分别得到与文本基元w1对应的预测声学特征1，与文本基元w2对应的预测声学特征2。对于文本基元w1对应的预测声学特征1，从语料库中选择出三个第一候选语音片段，三个第一候选语音片段包括候选语音片段a1、候选语音片段a2、候选语音片段a3；对于文本基元w2对应的预测声学特征2，从语料库中选择出两个第二候选语音片段，两个第二候选语音片段包括候选语音片段b1、候选语音片段b2，当将三个第一候选语音片段和两个第二候选语音片段进行拼接时，一共存在6组候选拼接方案。第一组候选拼接方案为候选语音片段a1与候选语音片段b1拼接，第二组候选拼接方案为候选语音片段a2与候选语音片段b1拼接，第三组候选拼接方案为候选语音片段a3与候选语音片段b1拼接，第四组候选拼接方案为候选语音片段a1与候选语音片段b2拼接，第五组候选拼接方案为候选语音片段a2与候选语音片段b2拼接，第六组候选拼接方案为候选语音片段a3与候选语音片段b2拼接。具体来说，对于第一组候选拼接方案，服务器根据目标代价模型计算文本基元w1与对应的候选语音片段a1之间的第一目标代价，文本基元w2与对应的候选语音片段b1之间的第二目标代价，根据拼接代价模型计算候选语音片段a1与候选语音片段b1之间的第一拼接代价，计算得到与第一组候选拼接方案对应的第一总代价，第一总代价包括第一目标代价、第二目标代价和第一拼接代价；依次类推，分别计算得到与第二组候选拼接方案对应的第二总代价，与第三组候选拼接方案对应的第三总代价，与第四组候选拼接方案对应的第四总代价，与第五组候选拼接方案对应的第五总代价，与第六组候选拼接方案对应的第六总代价，将这六组候选拼接方案对应的总代价进行比较，若第二组候选拼接方案所对应的总代价最小，即确定出候选语音片段a1与候选语音片段b2属于目标语音片段，进行最终的语音拼接，并得到最终的合成语音。

以第二组候选拼接方案为例，拼接代价模型可以采用如下公式定义：

\begin{matrix} C C = Σ_{t^{'} = 1}^{T} w_{t^{'}} \cdot (Σ_{n = 1}^{N} w_{n} \cdot | Δ f |) \\ = Σ_{t = t_{0}}^{t_{0} + T - 1} w_{t} \cdot (Σ_{n = 1}^{N} w_{n} \cdot | f_{a, t} - f_{b, t - T + 1} |) \\ = w_{n}^{T} \cdot F \cdot w_{t} \end{matrix}

w_n＝[w_n＝1 w_n＝2…w_n＝N]^T

w_{t} = {[\begin{matrix} w_{t = t_{0}} & w_{t = t_{0} + 1} & ... & w_{t = t_{0} + T - 1} \end{matrix}]}^{T}

F = [\begin{matrix} | f_{a, t_{0}}^{n = 1} - f_{b, t_{0} - T + 1}^{n = 1} | & | f_{a, t_{0} + 1}^{n = 1} - f_{b, t_{0} - T + 2}^{n = 1} | & ... \\ | f_{a, t_{0}}^{n = 2} - f_{b, t_{0} - T + 1}^{n = 2} | & ... & ... \\ ... & ... & | f_{a, t_{0} + T - 1}^{n = N} - f_{b, t_{0}}^{n = N} | \end{matrix}]

其中，CC为拼接代价，拼接代价用于表征候选语音片段a1和候选语音片段b2的连续性，T为候选语音片段a1或候选语音片段b2的重叠帧的帧数，w_t为候选语音片段a1和候选语音片段b2的第t个重叠帧的声学特征对应的第二权值，N为候选语音片段a1或候选语音片段b2包含的声学特征的个数，w_n为候选语音片段a1和候选语音片段b2的第n个声学特征对应的第一权值，|Δf|为候选语音片段a1和候选语音片段b2的第n个声学特征的声学距离测度，F为候选语音片段a1和候选语音片段b2对应的拼接差异矩阵。

结合参考图1B，当候选语音片段a1和候选语音片段b2拼接时，假设候选语音片段a1和候选语音片段b2只有1个重叠帧，候选语音片段a1在该重叠帧上具有N个声学特征(或者说N维声学特征)，候选语音片段b2在该重叠帧上对应存在N个声学特征(或者说N维声学特征)文本基元w1文本基元w2。由于用户发音时，对于不同的相邻候选语音片段，口型过渡和音调过渡是不同的，即不同的相邻候选语音片段所对应的第n个声学特征对应的第一权值w_n和第t个重叠帧(图1B中假设只有1个重叠帧)的声学特征对应的第二权值w_t也是不同的。根据候选语音片段a1或候选语音片段b2包含的声学特征的个数，将候选语音片段a1和候选语音片段b2的每个声学特征的声学距离测度与相对应的第一权值w_n相乘求和，再根据候选语音片段a1或候选语音片段b2的重叠帧的帧数，将与第i个重叠帧相对应的第一权值w_n相乘求和的结果再与相对应的第二权值w_t相乘求和得到拼接代价。

发明人发现，通过奇异值矩阵分解，可以将拼接代价的计算公式进行如下变形：

\begin{matrix} C C = w_{n}^{T} \cdot F \cdot w_{t} \\ = w_{n}^{T} \cdot U Σ V \cdot w_{t} \\ = u \cdot Σ \cdot v \end{matrix}

根据上述的几个公式可知，服务器可以预先通过测试语音信息(相当于训练样本)计算得到拼接差异矩阵F，根据拼接差异矩阵F，计算得到第一权值w_n和第二权值w_t，即当第一权值w_n与第一分解矩阵U正交且第二权值w_t与第二分解矩阵V正交，即u＝0、v＝0时，拼接代价最小，将此时的第一权值w_n和第二权值w_t确定为目标拼接权值。为此，提供有如下实施例。

请参考图2，其示出了本发明实施例提供的一种语音合成方法的方法流程图。该语音合成方法可由具有语音处理能力的服务器或终端来执行，该语音合成方法包括：

步骤202，获取测试语音信息。

可选的，服务器获取测试语音信息。

可选的，测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息。测试语音信息在语音合成过程中，假设拼接代价为0，也即不考虑拼接代价的影响，只考虑目标代价。目标代价用于表征文本基元对应的预测声学特征与候选语音片段的声学特征之间的差异性。该预测声学特征可以采用声学参数概率模型来表征。

步骤204，从测试语音信息中提取具有第一标注类型的测试语音片段。

可选的，测试语音信息包括多个测试语音片段。服务器从测试语音信息中提取具有第一标注类型的测试语音片段。

可选的，每个测试语音片段的标注类型由人工测听后标注得到。

每个测试语音片段的标注类型为第一标注类型或第二标注类型，第一标注类型所对应的语音连续性优于第二标注类型所对应的语音连续性，第一标注类型用于标注测试语音片段的语音连续性优于预设条件。简单来讲，若人工测听结果为该测试语音片段的连续性较优，则将该测试语音片段标注为第一标注类型；若人工测听结果为该测试语音片段的连续性较差，则将该测试语音片段标注为第二标识类型。

步骤206，根据具有第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵。

可选的，服务器根据具有第一标注类型的多个测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵。换句话说，一个测试语音片段是由第一候选语音片段和第二候选语音片段拼接得到的，通过第一候选语音片段和第二候选语音片段在声学特征上的差异，能够求得第一候选语音片段和第二候选语音片段的拼接差异矩阵。对多组属于同一类拼接组合关系的拼接差异矩阵求均值，能够得到该类拼接组合关系所对应的平均差异矩阵。

可选的，每个平均差异矩阵与一类拼接组合关系对应，每个平均差异矩阵用于表征属于同一类拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异。

若语音片段采用音素为单位进行划分，则拼接组合关系是音素单元a在前且音素单元b在后所组成的组合关系。示例性的，拼音“y”和拼音“i”所形成的组合关系就是一种拼接组合关系。

步骤208，根据平均差异矩阵，生成具有目标拼接权值的拼接代价模型。

可选的，服务器根据平均差异矩阵，生成具有目标拼接权值的拼接代价模型。

可选的，每个拼接代价模型与一类拼接组合关系对应。

步骤210，通过具有目标拼接权值的拼接代价模型进行语音合成，得到合成的语音信息。

可选的，终端通过具有目标拼接权值的拼接代价模型进行语音合成，得到合成的语音信息。

需要说明的是，步骤202至步骤208可以单独实现成为一种模型生成方法，该模型生成方法用于生成具有目标拼接权值的拼接代价模型；步骤210为一种语音生成方法，该语音生成方法采用步骤202至步骤208所生成的拼接代价模型，该语音生成方法用于将输入的文本信息进行语音合成，得到合成的语音信息。

可选的，上述步骤202至步骤208通常由服务器来完成，本实施例对此不加以限制。

可选的，上述步骤210通常由服务器或终端来完成，本实施例对此不加以限制。

综上所述，本实施例通过根据具有第一标注类型的多个测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵，根据平均差异矩阵生成具有目标拼接权值的拼接代价模型；由于每个平均差异矩阵与一类拼接组合关系对应，用于表征属于同一类拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异，使得根据平均差异矩阵生成出的每个拼接代价模型与一类拼接组合关系对应，且每个拼接代价模型具有精准的权值；避免了需要多次手工调整拼接代价模型中的这些权值，且最终得到的权值仍然不够准确的情况，从而达到了减少手工调整次数，直接通过平均差异矩阵计算出较为精准的权值的效果。

请参考图3，其示出了本发明实施例提供的一种语音合成方法的方法流程图。该语音合成方法可由具有语音处理能力的服务器或终端来执行，该语音合成方法包括：

步骤301，获取测试语音信息。

可选的，服务器获取测试语音信息。

可选的，测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息，测试语音信息在语音合成过程中，假设拼接代价为0，也即不考虑拼接代价的影响，只考虑目标代价。目标代价用于表征文本基元对应的预测声学特征与候选语音片段的声学特征之间的差异性。。

可选的，步骤301可以被替代实现为步骤301a、步骤301b、步骤301c和步骤301d，如图4A所示：

步骤301a，对测试用的文本信息进行拆分，得到文本基元序列(w1，w2，…，w_n)，w_i为第i个文本基元，1≤i≤n。

可选的，服务器基于音素或音节对测试用的文本信息进行拆分，得到文本基元序列(w1，w2，…，w_n)，w_i为第i个文本基元，1≤i≤n。

步骤301b，根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征。

可选的，服务器根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征。

可选的，预测声学特征可以是由具体的声学参数数值来表示；预测声学特征也可以是由概率模型来表示。其中，预测声学特征是基频、频谱特征、基频的一阶变化率以及高阶变化率、频谱的一阶变化率以及高阶变化率、信号的能量、信号的过零率中的至少一种。

可选的，服务器将每个文本基元w_i对应的语言学模型输出预设的声学模型中，由该预设的声学模型输出与每个文本基元w_i对应的预测声学特征。

步骤301c，对于每个文本基元w_i，从语料库中选择出目标代价最小的语音片段vi。

可选的，服务器对于每个文本基元w_i，计算得到与每个文本基元w_i对应的候选语音片段的目标代价，从语料库中选择出目标代价最小的语音片段viw_t。

其中，目标代价用于表征文本基元w_i对应的预测声学特征与语料库中的候选语音片段的声学特征之间的相似性。目标代价越小，代表两者越相似。

可选的，对于每个文本基元w_i，服务器通过如下公式计算对应的目标代价：

{TC}_{i} = Σ_{n = 1}^{N} w_{n} \cdot | f_{a, n} - f_{a^{'}, n} |

其中，TCi为文本基元w_i对应的目标代价，w_n为预设的第一权值，|f_a，n-f_a'，n|为文本基元w_i对应的预测声学特征a’中的第n个声学特征与候选语音片段a的第n个声学特征之间的声学距离测度。

可选地，若声学特征采用具体的声学参数取值来表示，则声学距离测度可以取欧几里德距离或差值绝对值。

示意性的，若存在10个文本基元w_i，则服务器从语料库中对应选择出10个具有最小目标代价的语音片段vi。

步骤301d，根据选择出的语音片段vi所组成的测试语音片段序列(v1，v2，…，v_n)进行语音合成，得到与测试用的文本信息对应的测试语音信息。

可选的，服务器根据选择出的语音片段vi所组成的测试语音片段序列(v1，v2，…，v_n)进行语音合成，得到与测试用的文本信息对应的测试语音信息。

显然，上述拼接过程中，假设拼接代价为0，不考虑拼接代价对语音合成过程的影响。

步骤302，从测试语音信息中提取具有第一标注类型的测试语音片段。

每个测试语音片段的标注类型为第一标注类型或第二标注类型，第一标注类型所对应的语音连续性优于第二标注类型所对应的语音连续性，第一标注类型用于标注测试语音片段的语音连续性优于预设条件。简单来讲，若人工测听结果为该测试语音片段的连续性较优，则将该测试语音片段标注为第一标注类型；若人工测听结果为该测试语音片段的连续性较差，则将该测试语音片段标注为第二标识类型。第一标注类型所对应的语音连续性优于所述第二标注类型所对应的语音连续性。

可选的，步骤302可以被替代实现为步骤302a和步骤302b，如图4B所示：

步骤302a，获取测试语音信息中至少一个测试语音片段的标注类型。

可选的，服务器获取测试语音信息中至少一个测试语音片段的标注类型。

步骤302b，提取出具有第一标注类型的测试语音片段。

可选的，服务器提取出具有第一标注类型的测试语音片段，即提取出语音连续性效果较好的测试语音片段。

具体来说，通过对测试语音信息进行人工测听，标注出第一标注类型或第二标注类型的测试语音片段，由服务器获取每个测试语音片段的标注类型。第一标注类型用于标注测试语音片段的语音连续性优于预设条件即语音连续性效果较好的测试语音片段，第二标注类型用于标注测试语音片段的语音连续性低于预设条件即语音连续性效果较差的测试语音片段。

然后，服务器从测试语音信息中提取具有第一标注类型的测试语音片段。

步骤303，对于每个具有第一标注类型的测试语音片段，根据测试语音片段在拼接前所对应的相邻候选语音片段计算得到拼接差异矩阵。

可选的，测试语音片段为多个，比如几百个、几千个或者上万个。服务器对于每个具有第一标注类型的测试语音片段，根据该测试语音片段在拼接前所对应的相邻候选语音片段计算得到与该测试语音片段所对应的拼接差异矩阵。

具体的，服务器计算得到拼接差异矩阵的步骤包括：

1)对于每个具有第一标注类型的测试语音片段，服务器获取测试语音片段在拼接前所对应的候选语音片段a和候选语音片段b。

2)服务器获取候选语音片段a的每个重叠帧对应的第一组声学特征和候选语音片段b的每个重叠帧对应的第二组声学特征。

可选的，候选语音片段a和候选语音片段b的重叠帧的帧数可以是一帧，也可以是多帧。示意性的，如图5所示，设当前时刻为t0，候选语音片段a的最后一帧所在时刻为t0，候选语音片段b的第一帧所在时刻为t0，当拼接窗口长度T＝1帧时，候选语音片段a的最后一帧与候选语音片段b的第一帧重叠，即“a(t0)+b(t0)”；也即，在拼接过程中，候选语音片段a和候选语音片段b存在一个重叠帧。

示意性的，如图6所示，设当前时刻为t0，候选语音片段a的最后一帧所在时刻为t0，候选语音片段b的第一帧所在时刻为t0，当拼接窗口长度T取任意值时，候选语音片段a的第t0帧至第t0+T-1帧分别与候选语音片段b的第t0-T+1帧至第t0帧重叠，即“a(t0：t0+T-1)+b(t0-T+1：t0)”，本发明实施例对重叠帧的帧数T不加以限定，示意性的，该重叠帧的帧数T为20帧。

可选的，候选语音片段a的每个重叠帧上对应第一组声学特征，该第一组声学特征包含n个声学特征(或者说n维声学特征)，候选语音片段b的每个重叠帧上对应第二组声学特征，该第二组声学特征包含n个声学特征(或者说n维声学特征)。该声学特征是基频、频谱特征、基频的一阶变化率以及高阶变化率、频谱的一阶变化率以及高阶变化率、信号的能量、信号的过零率中的至少一种。

3)服务器根据第一组声学特征和第二组声学特征，按照如下公式计算得到拼接差异矩阵F。

F = [\begin{matrix} | f_{a, t_{0}}^{n = 1} - f_{b, t_{0} - T + 1}^{n = 1} | & | f_{a, t_{0} + 1}^{n = 1} - f_{b, t_{0} - T + 2}^{n = 1} | & ... \\ | f_{a, t_{0}}^{n = 2} - f_{b, t_{0} - T + 1}^{n = 2} | & ... & ... \\ ... & ... & | f_{a, t_{0} + T - 1}^{n = N} - f_{b, t_{0}}^{n = N} | \end{matrix}]

其中，F为候选语音片段a和候选语音片段b对应的拼接差异矩阵，拼接差异矩阵中的第n行第t列表示候选语音片段a中的第t个重叠帧的第n个声学特征与候选语音片段b中的第t-T+1个重叠帧的第n个声学特征的声学距离测度，f_a,t是与候选语音片段a的第t个重叠帧对应的第n个声学特征，f_b,t-T+1是与候选语音片段b的第t-T+1个重叠帧对应的第n个声学特征。

步骤304，根据相邻候选语音片段的拼接组合关系对拼接差异矩阵进行分类，得到与每一种拼接组合关系所对应的拼接差异矩阵集合。

其中，拼接差异矩阵集合包括属于同一种拼接组合关系的若干个拼接差异矩阵。

可选的，每个测量语音片段所对应的相邻候选语音片段能够计算出一个拼接差异矩阵，若测量语音片段为一万个，则可以计算出一万个拼接差异矩阵。

服务器根据相邻候选语音片段的拼接组合关系对多个拼接差异矩阵进行分类，得到与每一种拼接组合关系所对应的拼接差异矩阵集合。

候选语音片段具有不同的音素或音节类型，若一个测试语音片段是由a类型的语音片段在前且b类型的语音片段所拼接得到的，则该测试语音片段所对应的拼接组合关系是：a类型的语音片段在前且b类型的语音片段在后。

示意性的，若候选语音片段采用音素为单位进行划分，比如候选语音片段a是拼音“y”所对应的语音片段，候选语音片段b是拼音“i”所对应的语音片段，则拼音“y”和拼音“i”所形成的组合关系就是一种拼接组合关系。对于拼音“y”和拼音“i”所形成的拼接组合关系，可能存在几百个拼接差异矩阵，则这几百个拼接差异矩阵都归类至与拼接组合关系“y+i”所对应的拼接差异矩阵集合。

步骤305，对每个拼接差异矩阵集合中的拼接差异矩阵计算均值，得到与每一种拼接组合关系所对应的平均差异矩阵。

可选的，服务器对每个拼接差异矩阵集合中的拼接差异矩阵计算均值，得到与每一种拼接组合关系所对应的平均差异矩阵。

示意性的，当拼接差异矩阵集合为F_ab，i时，对F_ab，i中的所有拼接差异矩阵计算均值，得到与选语音片段a和候选语音片段b的拼接组合关系所对应的平均差异矩阵F_ab。

步骤306，对于每个平均差异矩阵F_ab，对平均差异矩阵F_ab进行奇异值分解F_ab＝U∑V，得到第一分解矩阵U和第二分解矩阵V。

可选的，服务器对于每个平均差异矩阵F_ab，对平均差异矩阵F_ab进行奇异值分解F_ab＝U∑V，得到第一分解矩阵U和第二分解矩阵V。

其中，ab代表由a类型的语音片段在前且b类型的语音片段在后的拼接组合关系；示意性的，该类型是指音素类型。

步骤307，将第一分解矩阵U的正交矩阵生成为第一权值w_n，将第二分解矩阵V的正交矩阵生成为第二权值w_t。

可选的，服务器将第一分解矩阵U的正交矩阵生成为第一权值w_n，将第二分解矩阵V的正交矩阵生成为第二权值w_t。

可选的，通过如下公式定义拼接代价：

\begin{matrix} C C = w_{n}^{T} \cdot F \cdot w_{t} \\ = w_{n}^{T} \cdot U Σ V \cdot w_{t} \\ = u \cdot Σ \cdot v \end{matrix}

根据上述公式可知，当第一权值w_n与第一分解矩阵U正交且第二权值w_t与第二分解矩阵V正交，即u＝0、v＝0时，拼接代价最小，将此时的第一权值w_n和第二权值w_t确定为目标拼接权值。

步骤308，生成拼接代价模型如下：

C C = Σ_{t = 1}^{T} w_{t} \cdot (Σ_{n = 1}^{N} w_{n} \cdot | Δ f |)

其中，CC为拼接代价，拼接代价用于表征两个相邻候选语音片段之间的连续性，T为两个相邻候选语音片段的重叠帧的帧数，w_t为两个相邻候选语音片段的第t个重叠帧的声学特征对应的第二权值，N为每个候选语音片段包含的声学特征的个数，w_n为两个相邻候选语音片段的第n个声学特征对应的第一权值，|Δf|为两个相邻候选语音片段的第n个声学特征的声学距离测度。

可选的，服务器生成拼接代价模型。

步骤309，通过具有目标拼接权值的拼接代价模型进行语音合成，得到合成的语音信息。

其中，目标拼接权值包括第一权值和第二权值。

可选的，服务器或其它终端通过具有目标拼接权值的拼接代价模型进行语音合成，得到合成的语音信息。

本实施例还通过对每个拼接差异矩阵集合中的拼接差异矩阵计算均值，得到与每一种拼接组合关系所对应的平均差异矩阵，对于每个平均差异矩阵F_ab，对平均差异矩阵F_ab进行奇异值分解F_ab＝U∑V，得到第一分解矩阵U和第二分解矩阵V，将第一分解矩阵U的正交矩阵生成为第一权值w_n，将第二分解矩阵V的正交矩阵生成为第二权值w_t；使得根据进行奇异值分解后的平均差异矩阵F_ab，当第一权值w_n与第一分解矩阵U正交且第二权值w_t与第二分解矩阵V正交，即u＝0、v＝0时，拼接代价最小，从而确定出目标拼接权值，保证了每个拼接代价模型具有精准的权值，达到了减少手工调整次数，直接将第一分解矩阵U的正交矩阵生成为第一权值w_n，将第二分解矩阵V的正交矩阵生成为第二权值w_t计算出较为精准的权值的效果。

在一种可能的实施例中，上述实施例中，由服务器得到的拼接代价模型可以传输给终端在实际的语音合成过程中进行应用。此时，步骤309可以被替代实现为步骤309a、步骤309b、步骤309c、步骤309d和步骤309e，如图7所示：

步骤309a，对输入的文本信息进行拆分，得到文本基元序列(w1，w2，…，w_n)，w_i为第i个文本基元，1≤i≤n。

可选的，输入的文本信息是由用户输入的文本信息，比如，新闻文本或者小说文本。终端对输入的文本信息进行拆分，得到文本基元序列(w1，w2，…，w_n)，w_i为第i个文本基元，1≤i≤n。

步骤309b，根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征。

可选的，终端根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征。

步骤309c，对于每个文本基元w_i，从语料库中选择出若干个候选语音片段。

可选的，终端对于每个文本基元w_i，从语料库中选择出若干个候选语音片段。

步骤309d，根据目标代价模型计算每个文本基元w_i与对应的候选语音片段之间的目标代价；根据拼接代价模型计算相邻候选语音片段之间的拼接代价。

可选的，终端根据目标代价模型，通过如下公式计算每个文本基元w_i与对应的候选语音片段之间的目标代价：

T C = Σ_{n = 1}^{N} w_{n} \cdot | f_{a, n} - f_{a^{'}, n} |

其中，TC为输入的文本基元a对应的目标代价，w_n为采用模型生成方法生成的拼接代价模型中的候选语音片段第n个声学特征对应的第一权值，|f_a，n-f_a',n|为候选语音片段a和预测声学特征a’的第n个声学特征的声学距离测度。

可选的，终端根据拼接代价模型，通过如下公式计算相邻候选语音片段之间的拼接代价：

{CC}_{T} = Σ_{t = t_{0}}^{t_{0} + T - 1} w_{t} \cdot (Σ_{n = 1}^{N} w_{n} \cdot | f_{a, t} - f_{b, t - T + 1} |)

其中，CCT为相邻的候选语音片段a和候选语音片段b对应的拼接代价，w_t为候选语音片段a或候选语音片段b的第t个重叠帧的声学特征对应的第二权值，w_n为候选语音片段a或候选语音片段b的第n个声学特征对应的第一权值，|f_a，t-f_b，t-T+1|为候选语音片段a的第t个重叠帧和候选语音片段b的第t-T+1个重叠帧的第n个声学特征的声学距离测度。

步骤309e，选择出目标代价和拼接代价所对应的总代价最小的一组目标语音片段序列(v1，v2，…，v_n)进行语音合成，得到与输入的文本信息对应的语音信息。

可选的，终端从所有候选拼接方式中，选择出目标代价和拼接代价所对应的总代价最小的一组目标语音片段序列(v1，v2，…，v_n)进行语音合成，得到与输入的文本信息对应的语音信息。

可选地，所有候选拼接方式所对应的目标代价和拼接代价，能够形成一个矩阵，通过动态规划算法，能够求出该矩阵中从左到右的取值最小的一条路径，则该条路径所对应的各个语音片段，构成总代价最小的一组目标语音片段序列。

结合参考图8，在一个具体的例子中，语音合成方法应用于终端设备的应用程序如“企鹅FM”上，当用户在具有语音合成功能的应用程序中输入一段新闻文本或者小说文本，应用程序将合成与输入的新闻文本或者小说文本相对应的语音信息。

下面为本发明中的装置实施例，对于装置实施例中未详尽描述的细节，可以结合参考上述一一对应的方法实施例。

请参考图9，其示出了本发明一个实施例提供的模块生成装置的结构示意图。

该装置可以通过软件、硬件或者两者的结合，实现成为服务器的全部或一部分。该模块生成装置包括：

获取模块910，用于获取测试语音信息，测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息；

提取模块920，用于从测试语音信息中提取具有第一标注类型的测试语音片段，第一标注类型用于标注测试语音片段的语音连续性优于预设条件；

第一计算模块930，用于根据具有第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；每个平均差异矩阵与一类拼接组合关系对应，每个平均差异矩阵用于表征属于同一类拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异；

生成模块940，用于根据平均差异矩阵，生成具有目标拼接权值的拼接代价模型，每个拼接代价模型与一类拼接组合关系对应。

请参考图10，其示出了本发明另一个实施例提供的模块生成装置的结构示意图。本实施例为基于图9所示实施例提供的更为优选的实施例。

生成模块940，包括：

分解单元941、第一生成单元942和第二生成单元943；

分解单元941，用于对于每个平均差异矩阵F_ab，对平均差异矩阵F_ab进行奇异值分解F_ab＝U∑V，得到第一分解矩阵U和第二分解矩阵V；

第一生成单元942，用于将第一分解矩阵U的正交矩阵生成为第一权值w_n，将第二分解矩阵V的正交矩阵生成为第二权值w_t；

第二生成单元943，用于生成具有第一权值w_n和第二权值w_t的拼接代价模型；

其中，ab代表由a类型的语音片段在前且b类型的语音片段在后的拼接组合关系。

第二生成单元943，具体用于生成所述拼接代价模型如下：

C C = Σ_{t = 1}^{T} w_{t} \cdot (Σ_{n = 1}^{N} w_{n} \cdot | Δ f |)

其中，CC为拼接代价，所述拼接代价用于表征两个相邻候选语音片段之间的连续性，T为两个相邻候选语音片段的重叠帧的帧数，w_t为两个相邻候选语音片段的第t个所述重叠帧的所述声学特征对应的第二权值，N为每个所述候选语音片段包含的所述声学特征的个数，w_n为两个相邻候选语音片段的第n个所述声学特征对应的第一权值，|Δf|为两个相邻候选语音片段的第n个所述声学特征的声学距离测度。

第一计算模块930，包括：

第一计算单元931、分类单元932和第二计算单元933；

第一计算单元931，用于对于每个具有第一标注类型的测试语音片段，根据测试语音片段在拼接前所对应的相邻候选语音片段计算得到拼接差异矩阵；

分类单元932，用于根据相邻候选语音片段的拼接组合关系对拼接差异矩阵进行分类，得到与每一种拼接组合关系所对应的拼接差异矩阵集合，拼接差异矩阵集合包括属于同一种拼接组合关系的若干个拼接差异矩阵；

第二计算单元933，用于对每个拼接差异矩阵集合中的拼接差异矩阵计算均值，得到与每一种拼接组合关系所对应的平均差异矩阵。

第一计算单元931，包括：

第一获取子单元931a、第二获取子单元931b和计算子单元931c；

第一获取子单元931a，用于对于每个具有第一标注类型的测试语音片段，获取测试语音片段在拼接前所对应的候选语音片段a和候选语音片段b；

第二获取子单元931b，用于获取候选语音片段a的重叠帧对应的第一组声学特征和候选语音片段b的重叠帧对应的第二组声学特征，第一组声学特征包含n个声学特征，第二组声学特征包含n个声学特征；

计算子单元931c，用于根据第一组声学特征和第二组声学特征，按照如下公式计算得到拼接差异矩阵F；

F = [\begin{matrix} | f_{a, t_{0}}^{n = 1} - f_{b, t_{0} - T + 1}^{n = 1} | & | f_{a, t_{0} + 1}^{n = 1} - f_{b, t_{0} - T + 2}^{n = 1} | & ... \\ | f_{a, t_{0}}^{n = 2} - f_{b, t_{0} - T + 1}^{n = 2} | & ... & ... \\ ... & ... & | f_{a, t_{0} + T - 1}^{n = N} - f_{b, t_{0}}^{n = N} | \end{matrix}]

提取模块920，包括：

获取单元921和提取单元922；

获取单元921，用于获取测试语音信息中至少一个测试语音片段的标注类型，每个测试语音片段的标注类型为第一标注类型或第二标注类型，第一标注类型所对应的语音连续性优于第二标注类型所对应的语音连续性；

提取单元922，用于提取出具有第一标注类型的测试语音片段。

获取模块910，包括：

拆分单元911、得到单元912、选择单元913和合成单元914；

拆分单元911，用于对测试用的文本信息进行拆分，得到文本基元序列(w1，w2，…，w_n)，w_i为第i个文本基元，1≤i≤n；

得到单元912，用于根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征；

选择单元913，用于对于每个文本基元w_i，从语料库中选择出目标代价最小的语音片段vi，目标代价用于表征文本基元w_i对应的预测声学特征与语料库中的候选语音片段的声学特征之间的相似性；

合成单元914，用于根据选择出的语音片段vi所组成的测试语音片段序列(v1，v2，…，v_n)进行语音合成，得到与测试用的文本信息对应的测试语音信息。

请参考图11，其示出了本发明一个实施例提供的语音合成装置的结构示意图。该语音合成装置采用如图9或图10所示实施例中提供的拼接代价模型，该语音合成装置包括：

拆分模块1100，用于对输入的文本信息进行拆分，得到文本基元序列(w1，w2，…，w_n)，w_i为第i个文本基元，1≤i≤n；

得到模块1110，用于根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征；

选择模块1120，用于对于每个文本基元w_i，从语料库中选择出若干个候选语音片段；

第二计算模块1130，用于根据目标代价模型计算每个文本基元w_i与对应的候选语音片段之间的目标代价；根据拼接代价模型计算相邻的候选语音片段之间的拼接代价；

合成模块1140，用于选择出目标代价和拼接代价所对应的总代价最小的一组目标语音片段序列(v1，v2，…，v_n)进行语音合成，得到与输入的文本信息对应的语音信息。

请参考图12，其示出了本发明一个实施例提供的终端1200的框图。具体来讲：设备1200可以包括RF(Radio Frequency，射频)电路1210、包括有一个或一个以上计算机可读存储介质的存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、W_iFi(w_ireless fidelity，无线保真)模块1270、包括有一个或者一个以上处理核心的处理器1280、以及电源1290等部件。本领域技术人员可以理解，图12中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1210可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1280处理；另外，将涉及上行的数据发送给基站。通常，RF电路1210包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路1210还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(W_ideband Code Division MultipleAccess，宽带码分多址)、LTE(Long Term Evolution，长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。存储器1220可用于存储软件程序以及模块。处理器1280通过运行存储在存储器1220的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据设备1200的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1220还可以包括存储器控制器，以提供处理器1280和输入单元1230对存储器1220的访问。

输入单元1230可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1230可包括触敏表面1231以及其他输入设备1232。触敏表面1231，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1231上或在触敏表面1231附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面1231可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1280，并能接收处理器1280发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1231。除了触敏表面1231，输入单元1230还可以包括其他输入设备1232。具体地，其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及设备120的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1240可包括显示面板1241，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板1241。进一步的，触敏表面1231可覆盖在显示面板1241之上，当触敏表面1231检测到在其上或附近的触摸操作后，传送给处理器1280以确定触摸事件的类型，随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图12中，触敏表面1231与显示面板1241是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面1231与显示面板1241集成而实现输入和输出功能。

设备1200还可包括至少一种传感器1250，比如光传感器、运动传感器以及其它传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度，接近传感器可在设备1200移动到耳边时，关闭显示面板1241和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于设备1200还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其它传感器，在此不再赘述。

音频电路1260、扬声器1221，传声器1222可提供用户与设备1200之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号，传输到扬声器1221，由扬声器1221转换为声音信号输出；另一方面，传声器1222将收集的声音信号转换为电信号，由音频电路1260接收后转换为音频数据，再将音频数据输出处理器1280处理后，经RF电路1210以发送给另一设备，或者将音频数据输出至存储器1220以便进一步处理。音频电路1260还可能包括耳塞插孔，以提供外设耳机与设备1200的通信。

W_iFi属于短距离无线传输技术，设备1200通过W_iFi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了W_iFi模块1270，但是可以理解的是，其并不属于设备1200的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1280是设备1200的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器1220内的软件程序和/或模块，以及调用存储在存储器1220内的数据，执行设备1200的各种功能和处理数据，从而对设备进行整体监控。可选的，处理器1280可包括一个或多个处理核心；可选的，处理器1280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1280中。

设备1200还包括给各个部件供电的电源1290(比如电池)，优选的，电源可以通过电源管理系统与处理器1280逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1290还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，设备1200还可以包括摄像头、蓝牙模块等，在此不再赘述。

设备1200还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，使得装置1200能够执行上述由终端执行的语音合成方法。

请参考图13，其示出了本发明一个实施例提供的服务器的结构框架图。具体来讲：所述服务器1300包括中央处理单元(CPU)1301、包括随机存取存储器(RAM)1302和只读存储器(ROM)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述服务器1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

根据本发明的各种实施例，所述服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于计算机可读介质中，所述一个或者一个以上程序包含用于进行本发明实施例提供的语音合成方法中由服务器或终端所执行的步骤。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的语音合成方法中全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种模型生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述平均差异矩阵，生成具有目标拼接权值的拼接代价模型，包括：

对于每个所述平均差异矩阵F_ab，对所述平均差异矩阵F_ab进行奇异值分解F_ab＝U∑V，得到第一分解矩阵U和第二分解矩阵V；

将所述第一分解矩阵U的正交矩阵生成为第一权值w_n，将所述第二分解矩阵V的正交矩阵生成为第二权值w_t；

生成具有所述第一权值w_n和所述第二权值w_t的所述拼接代价模型；

3.根据权利要求2所述的方法，其特征在于，所述生成具有所述第一权值w_n和所述第二权值w_t的所述拼接代价模型，包括：

生成所述拼接代价模型如下：

C C = Σ_{t = 1}^{T} w_{t} \cdot (Σ_{n = 1}^{N} w_{n} \cdot | Δ f |)

其中，CC为拼接代价，所述拼接代价用于表征两个相邻候选语音片段之间的连续性，T为两个相邻候选语音片段的重叠帧的帧数，w_t为两个相邻候选语音片段的第t个所述重叠帧的所述声学特征对应的所述第二权值，N为每个所述候选语音片段包含的所述声学特征的个数，w_n为两个相邻候选语音片段的第n个所述声学特征对应的所述第一权值，|Δf|为两个相邻候选语音片段的第n个所述声学特征的声学距离测度。

4.根据权利要求1至3任一所述的方法，其特征在于，所述根据具有所述第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵，包括：

对于每个具有所述第一标注类型的所述测试语音片段，根据所述测试语音片段在拼接前所对应的相邻候选语音片段计算得到拼接差异矩阵；

根据所述相邻候选语音片段的拼接组合关系对所述拼接差异矩阵进行分类，得到与每一种拼接组合关系所对应的拼接差异矩阵集合，所述拼接差异矩阵集合包括属于同一种拼接组合关系的若干个所述拼接差异矩阵；

对每个所述拼接差异矩阵集合中的所述拼接差异矩阵计算均值，得到与每一种所述拼接组合关系所对应的所述平均差异矩阵。

5.根据权利要求4所述的方法，其特征在于，所述对于每个具有所述第一标注类型的测试语音片段，根据所述测试语音片段在拼接前所对应的相邻候选语音片段计算得到拼接差异矩阵，包括：

对于每个具有所述第一标注类型的测试语音片段，获取所述测试语音片段在拼接前所对应的候选语音片段a和候选语音片段b；

获取所述候选语音片段a的重叠帧对应的第一组声学特征和所述候选语音片段b的重叠帧对应的第二组声学特征，所述第一组声学特征包含n个所述声学特征，所述第二组声学特征包含n个所述声学特征；

根据所述第一组声学特征和所述第二组声学特征，按照如下公式计算得到所述拼接差异矩阵F；

F = [\begin{matrix} | f_{a, t_{0}}^{n = 1} - f_{b, t_{0} - T + 1}^{n = 1} | & | f_{a, t_{0} + 1}^{n = 1} - f_{b, t_{0} - T + 2}^{n = 1} | & ... \\ | f_{a, t_{0}}^{n = 2} - f_{b, t_{0} - T + 1}^{n = 2} | & ... & ... \\ ... & ... & | f_{a, t_{0} + T - 1}^{n = N} - f_{b, t_{0}}^{n = N} | \end{matrix}]

其中，F为所述候选语音片段a和所述候选语音片段b对应的所述拼接差异矩阵，所述拼接差异矩阵中的第n行第t列表示所述候选语音片段a中的第t个所述重叠帧的第n个所述声学特征与所述候选语音片段b中的第t-T+1个所述重叠帧的第n个所述声学特征的声学距离测度，f_a,t是与所述候选语音片段a的第t个所述重叠帧对应的第n个所述声学特征，f_b,t-T+1是与所述候选语音片段b的第t-T+1个所述重叠帧对应的第n个所述声学特征。

6.根据权利要求1至3任一所述的方法，其特征在于，所述从所述测试语音信息中提取具有第一标注类型的测试语音片段，包括：

获取所述测试语音信息中至少一个测试语音片段的标注类型，每个所述测试语音片段的标注类型为所述第一标注类型或第二标注类型，所述第一标注类型所对应的语音连续性优于所述第二标注类型所对应的语音连续性；

提取出具有所述第一标注类型的所述测试语音片段。

7.根据权利要求1至3任一所述的方法，其特征在于，所述获取测试语音信息，包括：

对测试用的文本信息进行拆分，得到文本基元序列(w1，w2，…，w_n)，w_i为第i个文本基元，1≤i≤n；

对于每个所述文本基元w_i，从语料库中选择出目标代价最小的语音片段vi，所述目标代价用于表征所述文本基元w_i对应的预测声学特征与所述语料库中的候选语音片段的声学特征之间的相似性；

根据选择出的所述语音片段vi所组成的测试语音片段序列(v1，v2，…，v_n)进行语音合成，得到与测试用的所述文本信息对应的所述测试语音信息。

8.一种语音合成方法，其特征在于，采用如权利要求1至7任一所述的模型生成方法所生成的所述拼接代价模型，所述方法包括：

9.一种模型生成装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述生成模块，包括：

分解单元、第一生成单元和第二生成单元；

所述分解单元，用于对于每个所述平均差异矩阵F_ab，对所述平均差异矩阵F_ab进行奇异值分解F_ab＝UΣV，得到第一分解矩阵U和第二分解矩阵V；

所述第一生成单元，用于将所述第一分解矩阵U的正交矩阵生成为第一权值w_n，将所述第二分解矩阵V的正交矩阵生成为第二权值w_t；

所述第二生成单元，用于生成具有所述第一权值w_n和所述第二权值w_t的所述拼接代价模型；

11.根据权利要求10所述的装置，其特征在于，所述第二生成单元，具体用于生成所述拼接代价模型如下：

C C = Σ_{t = 1}^{T} w_{t} \cdot (Σ_{n = 1}^{N} w_{n} \cdot | Δ f |)

12.根据权利要求9至11任一所述的装置，其特征在于，所述第一计算模块，包括：

第一计算单元、分类单元和第二计算单元；

所述第一计算单元，用于对于每个具有所述第一标注类型的所述测试语音片段，根据所述测试语音片段在拼接前所对应的相邻候选语音片段计算得到拼接差异矩阵；

所述分类单元，用于根据所述相邻候选语音片段的拼接组合关系对所述拼接差异矩阵进行分类，得到与每一种拼接组合关系所对应的拼接差异矩阵集合，所述拼接差异矩阵集合包括属于同一种拼接组合关系的若干个所述拼接差异矩阵；

所述第二计算单元，用于对每个所述拼接差异矩阵集合中的所述拼接差异矩阵计算均值，得到与每一种所述拼接组合关系所对应的所述平均差异矩阵。

13.根据权利要求12所述的装置，其特征在于，所述第一计算单元，包括：

第一获取子单元、第二获取子单元和计算子单元；

所述第一获取子单元，用于对于每个具有所述第一标注类型的测试语音片段，获取所述测试语音片段在拼接前所对应的候选语音片段a和候选语音片段b；

所述第二获取子单元，用于获取所述候选语音片段a的重叠帧对应的第一组声学特征和所述候选语音片段b的重叠帧对应的第二组声学特征，所述第一组声学特征包含n个所述声学特征，所述第二组声学特征包含n个所述声学特征；

所述计算子单元，用于根据所述第一组声学特征和所述第二组声学特征，按照如下公式计算得到所述拼接差异矩阵F；

F = [\begin{matrix} | f_{a, t_{0}}^{n = 1} - f_{b, t_{0} - T + 1}^{n = 1} | & | f_{a, t_{0} + 1}^{n = 1} - f_{b, t_{0} - T + 2}^{n = 1} | & ... \\ | f_{a, t_{0}}^{n = 2} - f_{b, t_{0} - T + 1}^{n = 2} | & ... & ... \\ ... & ... & | f_{a, t_{0} + T - 1}^{n = N} - f_{b, t_{0}}^{n = N} | \end{matrix}]

14.根据权利要求9至11任一所述的装置，其特征在于，所述提取模块，包括：

获取单元和提取单元；

所述获取单元，用于获取所述测试语音信息中至少一个测试语音片段的标注类型，每个所述测试语音片段的标注类型为所述第一标注类型或第二标注类型，所述第一标注类型所对应的语音连续性优于所述第二标注类型所对应的语音连续性；

所述提取单元，用于提取出具有所述第一标注类型的所述测试语音片段。

15.根据权利要求9至11任一所述的装置，其特征在于，所述获取模块，包括：

拆分单元、得到单元、选择单元和合成单元；

所述拆分单元，用于对测试用的文本信息进行拆分，得到文本基元序列(w1，w2，…，w_n)，w_i为第i个文本基元，1≤i≤n；

所述得到单元，用于根据预设声学模型，得到与每个文本基元w_i对应的预测声学特征；

所述选择单元，用于对于每个所述文本基元w_i，从语料库中选择出目标代价最小的语音片段vi，所述目标代价用于表征所述文本基元w_i对应的预测声学特征与所述语料库中的候选语音片段的声学特征之间的相似性；

所述合成单元，用于根据选择出的所述语音片段vi所组成的测试语音片段序列(v1，v2，…，v_n)进行语音合成，得到与测试用的所述文本信息对应的所述测试语音信息。

16.一种语音合成装置，其特征在于，采用如权利要求9至15任一所述的模型生成装置所生成的所述拼接代价模型，所述装置包括：