CN103065619A

CN103065619A - 一种语音合成方法和语音合成系统

Info

Publication number: CN103065619A
Application number: CN201210575160XA
Authority: CN
Inventors: 孙见青; 凌震华; 何婷婷; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2012-12-26
Filing date: 2012-12-26
Publication date: 2013-04-24
Anticipated expiration: 2032-12-26
Also published as: CN103065619B

Abstract

本发明的实施例公开了一种语音合成方法和语音合成系统，用于提高语音的合成音质和自然度。该方法包括：将获取的合成文本划分为固定成分文本和可变成分文本；对固定成分文本进行分析，确定固定成分文本中各基本合成单元的合成时长参数，得到固定成分文本的合成时长参数序列；对可变成分文本进行分析，确定可变成分文本中各基本合成单元的合成时长参数，得到可变成分文本的合成时长参数序列；根据固定成分文本及可变成分文本的合成时长参数序列，确定合成文本的合成基频参数序列及确定合成文本的合成频谱参数序列；根据固定成分文本及可变成分文本的合成时长参数序列、合成基频参数序列和合成频谱参数序列，生成连续语音信号。

Description

一种语音合成方法和语音合成系统

技术领域

本发明涉及语音信号处理及语音合成技术领域，尤其是涉及一种语音合成方法和语音合成系统。

背景技术

目前，在文本受限领域(如银行的电话客服系统，机场航班播报等)中，合成文本往往具有相对固定模式，合成文本通常由固定不变成分(即固定成分文本)及可变参数成分(即可变成分文本)构成。对此在现有技术中，系统可以将固定成分文本通过预先录制自然语音的方式获取部分语音片断，对可变成分文本执行语音合成得到另一语音片断，并将所述两段语音片断信号拼接获取到最后的连续语音信号。这样的方法虽然实现简单且保持了自然语音部分的自然流畅性，然而在实际应用中依然存在以下问题：自然语音段和基于文本合成的语音段之间的衔接自然度难以保证；另外，由于获取方式的不同，自然语音的语音段和基于文本合成的语音段在音质上也难以保持一致。

发明内容

本发明实施例提供了一种语音合成方法和语音合成系统，用于提高语音的合成音质和自然度。

有鉴于此，本发明第一方面提供一种语音合成方法，可包括：

获取合成文本；

将所述合成文本划分为固定成分文本和可变成分文本；

对所述固定成分文本进行分析，确定所述固定成分文本中各基本合成单元的合成时长参数，得到所述固定成分文本的合成时长参数序列；以及

对所述可变成分文本进行分析，确定所述可变成分文本中各基本合成单元的合成时长参数，得到所述可变成分文本的合成时长参数序列；

根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成基频参数序列；以及

根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成频谱参数序列；

根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列，生成连续语音信号。

在某些实施方式中，所述将所述合成文本划分为固定成分文本和可变成分文本具体包括：

采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合；

将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较，若所述分词或分词组合与所述韵律词标注信息一致，则确定出所述分词或分词组合为固定成分文本，若否，则确定出所述分词或分词组合为可变成分文本。

在某些实施方式中，所述对所述固定成分文本进行分析，确定所述固定成分文本中各基本合成单元的合成时长参数，得到所述固定成分文本的合成时长参数序列，包括：

从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元的时长参数T_i；

从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列

基于公式

{{\overset{&OverBar;}{d}}_{i}^{j}} = \arg \max \log L_{i} = Σ_{j = 1}^{N} \log p (d_{i}^{j}),

S.T：

Σ_{j = 1}^{N} d_{i}^{j} = T_{i},

生成所述固定成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列；

其中，S.T：为第i个基本语音单元所对应的基本合成单元序列的时长约束条件，

为所述基本语音单元所对应的第j个基本合成单元的时长特征变量，N为所述基本语音单元所对应的基本合成单元总数。

在某些实施方式中，所述对所述可变成分文本进行分析，确定所述可变成分文本的各基本合成单元的合成时长参数，得到所述可变成分文本的合成时长参数序列，包括：

从所述预置模板库中获取所述可变成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列

基于公式

{{\overset{&OverBar;}{d}}_{i}^{j}} = \arg \max \log L_{i} = Σ_{j = 1}^{N} \log p (d_{i}^{j}),

生成所述可变成分文本的各基本语音单元的基本合成单元序列的合成时长参数序列；

其中，为第i个基本语音单元中第j个基本合成单元的时长特征变量，N为所述基本语音单元所对应的基本合成单元的总数。

在某些实施方式中，根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成基频参数序列，包括：

从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的基频模型

对所述各基本合成单元的基频模型

根据其所对应合成时长参数重复相应次数，获取所述基本合成单元的基频模型序列；

根据合成文本的基本语音单元序列，拼接各基本语音单元对应的所述基本合成单元的基频模型序列，获取所述合成文本的基频模型序列；

从所述预置模板库中获取所述固定成分文本所对应的自然语音段的基频参数序列Y_gf；

基于公式

{\bar{C}}_{f} = \arg \max \log p (C_{f} | λ) + α {(C_{gf} - Y_{gf})}^{T} {(C_{gf} - Y_{gf}) u_{gf}}^{- 1},

获取所述合成文本的合成基频参数序列；

其中，

\log p (C_{f} | λ) = - \frac{1}{2} {C_{f}}^{T} W^{T} {U_{f}}^{- 1} W C_{f} + {C_{f}}^{T} W^{T} {U_{f}}^{- 1} M_{f}

是合成文本对应的基频模型序列的似然度总和，其中，λ是所述概率模型的模型参数，包括计算动态参数的窗函数矩阵W，基频模型序列的均值M_f和协方差矩阵U_f；C_f为待生成的语音合成基频参数矩阵，包括固定成分的合成基频参数矩阵C_gf以及可变成分的合成基频参数矩阵C_uf；

α(C_gf-Y_gf)^T(C_gf-Y_gf)u_gf ^-1用于描述生成的合成基频参数序列和自然语音段的基频参数序列的差值，其中，Y_gf为固定成分文本的自然基频参数，u_gf ^-1为自然基频参数的全局方差，α是系统第一预设域值。

在某些实施方式中，根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成频谱参数序列，包括：

从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的频谱模型

对所述各基本合成单元的频谱模型根据其所对应合成时长参数

重复相应次数，获取所述基本合成单元的频谱模型序列；

根据合成文本的基本语音单元序列，拼接各基本语音单元对应的所述基本合成单元的频谱模型序列，获取所述合成文本的频谱模型序列；

从所述预置模板库中获取所述固定成分文本所对应的自然语音段的频谱参数序列Y_gs；

基于公式

C_{s} = \bar{\arg} \max \log p (C_{s} | λ) + β {(C_{gs} - Y_{gs})}^{T} (C_{gs} - Y_{gs}) {u_{gs}}^{- 1},

获取所述合成文本的合成频谱参数序列；

其中，

\log p (C_{s} | λ) = - \frac{1}{2} {C_{s}}^{T} W^{T} {U_{s}}^{- 1} W C_{s} + {C_{s}}^{T} W^{T} {U_{s}}^{- 1} M_{s}

是合成文本对应的频谱模型序列的似然度总和，λ是所述概率模型的模型参数，包括计算动态参数的窗函数矩阵W，频谱模型序列的均值M_s和协方差矩阵U_s；C_s为待生成的语音合成频谱参数；

β(C_gs-Y_gs)^T(C_gs-Y_gs)u_gs ^-1用于描述生成的合成频谱参数序列和自然语音段的频谱参数序列的差值，其中，Y_gs为固定成分文本的自然频谱参数，u_gs ^-1为自然频谱参数的全局方差，β是系统第二预设域值。

本发明第二方面提供一种语音合成系统，可包括：

获取模块，用于获取合成文本；

文本划分模块，用于将所述合成文本划分为固定成分文本和可变成分文本；

时长参数获取模块，用于对所述固定成分文本进行分析，确定所述固定成分文本中各基本合成单元的合成时长参数，得到所述固定成分文本的合成时长参数序列；以及对所述可变成分文本进行分析，确定所述可变成分文本中各基本合成单元的合成时长参数，得到所述可变成分文本的合成时长参数序列；

基频参数获取模块，用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成基频参数序列；

频谱参数获取模块，用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成频谱参数序列；

语音信号生成模块，用于根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列，生成连续语音信号。

在某些实施方式中，所述文本划分模块，具体用于采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合；将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较，若所述分词或分词组合与所述韵律词标注信息一致，则确定出所述分词或分词组合为固定成分文本，若否，则确定出所述分词或分词组合为可变成分文本。

在某些实施方式中，所述时长参数获取模块具体用于：

基于公式

{{\bar{d}}_{i}^{j}} = \arg \max \log L_{i} = Σ_{j = 1}^{N} \log p (d_{i}^{j}),

S.T：

Σ_{j = 1}^{N} d_{i}^{j} = T_{i},

其中，S.T：为第i个基本语音单元所对应的基本合成单元序列的时长约束条件，为所述基本语音单元所对应的第j个基本合成单元的时长特征变量，N为所述基本语音单元所对应的基本合成单元总数。

在某些实施方式中，所述时长参数获取模块还用于：

基于公式

{{\bar{d}}_{i}^{j}} = \arg \max \log L_{i} = Σ_{j = 1}^{N} \log p (d_{i}^{j}),

在某些实施方式中，所述基频参数获取模块具体用于：

对所述各基本合成单元的基频模型

根据其所对应合成时长参数

重复相应次数，获取所述基本合成单元的基频模型序列；

基于公式

{\bar{C}}_{f} = \arg \max \log p (C_{f} | λ) + α {(C_{gf} - Y_{gf})}^{T} {(C_{gf} - Y_{gf}) u_{gf}}^{- 1},

获取所述合成文本的合成基频参数序列；

其中，

\log p (C_{f} | λ) = - \frac{1}{2} {C_{f}}^{T} W^{T} {U_{f}}^{- 1} W C_{f} + {C_{f}}^{T} W^{T} {U_{f}}^{- 1} M_{f}

在某些实施方式中，所述频谱参数获取模块具体用于：

对所述各基本合成单元的频谱模型

根据其所对应合成时长参数

重复相应次数，获取所述基本合成单元的频谱模型序列；

基于公式

C_{s} = \bar{\arg} \max \log p (C_{s} | λ) + β {(C_{gs} - Y_{gs})}^{T} (C_{gs} - Y_{gs}) {u_{gs}}^{- 1},

获取所述合成文本的合成频谱参数序列；

其中，

\log p (C_{s} | λ) = - \frac{1}{2} {C_{s}}^{T} W^{T} {U_{s}}^{- 1} W C_{s} + {C_{s}}^{T} W^{T} {U_{s}}^{- 1} M_{s}

从以上技术方案可以看出，本发明实施例提供的一种语音合成方法和语音合成系统，先确定固定成分文本的合成时长参数和可变成分文本的合成时长参数，然后据此，再确定合成文本的合成基频参数序列和合成频谱参数序列，最后根据固定成分文本及可变成分文本的合成时长参数、合成基频参数序列和合成频谱参数序列生成连续语音信号，即固定成分文本和可变成分文本采用同样的方式生成语音信号，保持了一致性，同时也提高语音的合成音质和自然度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音合成方法的流程示意图；

图2为本发明实施例提供的一种语音合成系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

以下分别进行详细说明。

请参考图1，图1为本发明实施例提供的一种语音合成方法的流程示意图；其中，所述方法包括：

步骤101、获取合成文本；

步骤102、将所述合成文本划分为固定成分文本和可变成分文本；

在某些实施方式中，语音合成系统获取用户输入的合成文本，并将其进行划分，其中，固定成分文本是指可以从系统音库中找到对应模板的文本字串，可变成分文本是指无法直接获取对应模板的文本字串。

步骤103、对所述固定成分文本进行分析，确定所述固定成分文本中各基本合成单元的合成时长参数，得到所述固定成分文本的合成时长参数序列；

步骤104、对所述可变成分文本进行分析，确定所述可变成分文本中各基本合成单元的合成时长参数，得到所述可变成分文本的合成时长参数序列；

可以理解的是，每一个基本合成单元对应一个合成时长参数，文本中各基本合成单元的合成时长参数形成该文本的合成时长参数序列；另外，由于合成文本可以认为是由固定成分文本和可变成分文本组成，因此步骤103中得到的固定成分文本的合成时长参数序列和步骤104中得到的可变成分文本的合成时长参数序列可以认为是合成文本的合成时长参数序列。

步骤105、根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成基频参数序列；

步骤106、根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成频谱参数序列；

步骤107、根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列，生成连续语音信号。

由上述步骤101至步骤107可知，本发明实施例提供的一种语音合成方法，先确定固定成分文本的合成时长参数和可变成分文本的合成时长参数，然后据此，再确定合成文本的合成基频参数序列和合成频谱参数序列，最后根据固定成分文本及可变成分文本的合成时长参数、合成基频参数序列和合成频谱参数序列生成连续语音信号，即固定成分文本和可变成分文本采用同样的方式生成语音信号，保持了一致性，同时也提高语音的合成音质和自然度。

本发明以下实施例中，分别就如何划分合成文本(步骤102)，如何得到合成文本的合成时长参数序列(步骤103和步骤104)，如何确定合成文本的合成基频参数序列(步骤105)以及合成频谱参数序列(步骤106)，对所述语音合成方法进行具体分析：

可以理解的是，在语音合成方法执行前，可以预先在语音合成系统中进行预置模板库的构建，具体地，语音合成系统中可以预先设置有决策树模型以及语音单元合成参数模型的模型库，以及固定成分文本模板库，包括模板标注信息及对应语音信号声学参数特征。这些合成参数模型通常可以是数学统计模型，一般由模型参数(如高斯模型的均值方差等)确定；预置模板库中决策树模型及语音单元合成参数模型可以采用传统模型训练方式获得：首先，根据当前应用环境设计常用语句语料。比如针对银行客服相关业务，系统可以根据客服数据中常见的交互信息，设计银行业务相关的语句语料；第二，由特定发音人根据所述语料录制连续语音信号；第三，根据字词间连贯性的自然发音的韵律对所述连续语音信号进行切分，并对韵律词或韵律短语单元执行相关信息标注。考虑到不同自然发音人具有不同的发音特点，为提高模型的自然度，本实施例中可以采用人工测听的方式确定各韵律词单元；第四，根据基本语音单元(如音素)对所述各韵律词单元的语音段信号进行语音切分，获取各基本语音单元的语音片断。该语音片断的切分可以采取基于声学模型对齐的自动切分方法，也可以通过人工切分方法以提高准确率；最后，步五：统计第i个基本语音单元片断对应语音片断的时长特征，并提取所述语音片断的基频特征矢量以及频谱特征矢量。

在某些实施方式中，所述步骤102可以具体为：

采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合；将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较，若所述分词或分词组合与所述韵律词标注信息一致，则确定出所述分词或分词组合为固定成分文本，若否，则确定出所述分词或分词组合为可变成分文本。

可以理解的是，在将所述分词或分词组合与预置模板库中的韵律词标注信息进行匹配比较的过程中，考虑到系统分词算法切分所得的分词单元往往较小，而固定成分文本的匹配需要完整匹配，对此系统还可以考虑分词及分词前后相邻单元的组合和预设韵律词标注信息的一致性。比如对“感谢/您/使用/工商/银行”的切分结果输入，系统将确认“感谢/您”的分词组合和预设的韵律词“感谢您”匹配一致。同样地，对“使用”和“银行”韵律词可以从预置模板库中匹配到，所以标注这三个韵律词为固定成分文本，而对于“工商”，则定义为可变成分文本。

在某些实施方式中，所述得到所述固定成分文本的合成时长参数序列(步骤103)可以具体为：

基于公式

{{\bar{d}}_{i}^{j}} = \arg \max \log L_{i} = Σ_{j = 1}^{N} \log p (d_{i}^{j}),

S.T：

Σ_{j = 1}^{N} d_{i}^{j} = T_{i},

其中，S.T：

为第i个基本语音单元所对应的基本合成单元序列的时长约束条件，

可以理解的是，本发明实施例考虑到数据量大小和模拟准确性，采用了高斯模型满足

即该模型由参数均值

以及方差

确定。通过引入自然语音段的时长特征约束，使得生成的语音段的合成参数更好的体现了自然语音的效果，改善了时长的预测效果。

在某些实施方式中，所述得到所述可变成分文本的合成时长参数序列(步骤104)可以具体为：

基于公式

{{\bar{d}}_{i}^{j}} = \arg \max \log L_{i} = Σ_{j = 1}^{N} \log p (d_{i}^{j}),

可以理解的是，本发明实施例中可变成分文本的合成时长参数序列是采用传统的方法获取，即选择模型最大化的变量作为最优时长特征，具体地，满足公式

{{\bar{d}}_{i}^{j}} = \arg \max \log L_{i} = Σ_{j = 1}^{N} \log p (d_{i}^{j}) .

另外，本发明实施例中是根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，分别确定合成文本的合成基频参数序列和合成频谱参数序列：

所述确定合成文本的合成基频参数序列(步骤106)可以具体为：

对所述各基本合成单元的基频模型

基于公式

{\bar{C}}_{f} = \arg \max \log p (C_{f} | λ) + α {(C_{gf} - Y_{gf})}^{T} {(C_{gf} - Y_{gf}) u_{gf}}^{- 1},

获取所述合成文本的合成基频参数序列；

其中，

\log p (C_{f} | λ) = - \frac{1}{2} {C_{f}}^{T} W^{T} {U_{f}}^{- 1} W C_{f} + {C_{f}}^{T} W^{T} {U_{f}}^{- 1} M_{f}

可以理解的是，α用于调整合成基频参数序列的倾向度，α的值越大则合成基频参数序列越接近于所述固定成分文本对应的自然语音段的基频参数序列，则越符合通用模型分布特征。在具体实现中，选择权重a为[0，100]间的数值。

另外，通过加权目标函数生成的合成基频参数序列具有如下特征：对可变成分文本其基频参数满足通用基频模型分布，而对于固定成分文本其基频参数在满足基频模型分布的同时还更接近自然语音的特点，具有连贯性。通过自然语音段的基频参数序列的约束生成的合成基频参数序列将比较靠近自然语音段的基频参数序列，改变了传统基于最大似然准则生成的基频参数序列比较平滑，动态起伏感不强、声音沉闷的问题。

在某些实施方式中，所述确定合成文本的合成频谱参数序列(步骤107)可以具体为：

对所述各基本合成单元的频谱模型

根据其所对应合成时长参数

重复相应次数，获取所述基本合成单元的频谱模型序列；

基于公式

C_{s} = \bar{\arg} \max \log p (C_{s} | λ) + β {(C_{gs} - Y_{gs})}^{T} (C_{gs} - Y_{gs}) {u_{gs}}^{- 1},

获取所述合成文本的合成频谱参数序列；

其中，

\log p (C_{s} | λ) = - \frac{1}{2} {C_{s}}^{T} W^{T} {U_{s}}^{- 1} W C_{s} + {C_{s}}^{T} W^{T} {U_{s}}^{- 1} M_{s}

可以理解的是，β用于调整合成频谱参数序列的倾向度，β的值越大则优化的合成频谱参数序列越接近于所述固定成分文本对应的自然语音段的频谱参数序列，反之则越符合通用模型分布特征。在具体实现中，选择权重β为[0，100]间的数值。

另外，通过加权目标函数生成的合成频谱参数序列具有如下特征，对可变成分文本其频谱参数满足通用频谱模型分布，而对于固定成分文本其频谱参数在满足频谱分布的同时还更接近自然语音的特点，具有连贯性。通过自然自然语音段的频谱参数序列的约束生成的合成频谱参数序列将比较靠近自然语音段的频谱参数序列，改变了传统基于最大似然准则生成的频谱参数序列比较平滑、声音沉闷的问题。

由上述可知，本发明实施例提供的一种语音合成方法，先确定固定成分文本的合成时长参数和可变成分文本的合成时长参数，然后据此，再确定合成文本的合成基频参数序列和合成频谱参数序列，最后根据固定成分文本及可变成分文本的合成时长参数、合成基频参数序列和合成频谱参数序列生成连续语音信号，即固定成分文本和可变成分文本采用同样的方式生成语音信号，保持了一致性，同时也提高语音的合成音质和自然度。

为便于更好的实施本发明实施例的技术方案，本发明实施例还提供用于实施上述方法的相关系统。其中名词的含义与上述方法中相同，具体实现细节可以参考方法实施例中的说明。

请参考图2，图2为本发明实施例提供的一种语音合成系统的结构示意图；其中，所述系统包括：

获取模块201，用于获取合成文本；

文本划分模块202，用于将所述获取模块201获取的合成文本划分为固定成分文本和可变成分文本；

在某些实施方式中，语音合成系统中的获取模块201获取用户输入的合成文本，文本划分模块202将其进行划分为固定成分文本和可变成分文本，其中，固定成分文本是指可以从系统音库中找到对应模板的文本字串，可变成分文本是指无法直接获取对应模板的文本字串。

时长参数获取模块203，用于对所述固定成分文本进行分析，确定所述固定成分文本中各基本合成单元的合成时长参数，得到所述固定成分文本的合成时长参数序列；以及对所述可变成分文本进行分析，确定所述可变成分文本中各基本合成单元的合成时长参数，得到所述可变成分文本的合成时长参数序列；

可以理解的是，每一个基本合成单元对应一个合成时长参数，文本中各基本合成单元的合成时长参数形成该文本的合成时长参数序列；另外，由于合成文本可以认为是由固定成分文本和可变成分文本组成，因此得到的固定成分文本的合成时长参数序列和得到的可变成分文本的合成时长参数序列可以认为是合成文本的合成时长参数序列。

基频参数获取模块204，用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成基频参数序列；

频谱参数获取模块205，用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成频谱参数序列；

语音信号生成模块206，用于根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列，生成连续语音信号。

由上述可知，本发明实施例提供的一种语音合成系统，先确定固定成分文本的合成时长参数和可变成分文本的合成时长参数，然后据此，再确定合成文本的合成基频参数序列和合成频谱参数序列，最后根据固定成分文本及可变成分文本的合成时长参数、合成基频参数序列和合成频谱参数序列生成连续语音信号，即固定成分文本和可变成分文本采用同样的方式生成语音信号，保持了一致性，同时也提高语音的合成音质和自然度。

其中，在本发明实施方式下，可以预先在语音合成系统中进行预置模板库的构建，其后根据利用预置模板库进行信息匹配和信息获取，最终得到合成文本的合成时长参数序列、合成文本的合成基频参数序列以及合成频谱参数序列，并据此生成连续语音信号。可以理解的是，所述预置模板库的构建可以参考方法实施例中的相应过程进行具体实现，此处不再具体阐述。

在某些实施方式中，所述文本划分模块202，具体用于采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合；将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较，若所述分词或分词组合与所述韵律词标注信息一致，则确定出所述分词或分词组合为固定成分文本，若否，则确定出所述分词或分词组合为可变成分文本。

可以理解的是，在文本划分模块202将所述分词或分词组合与预置模板库中的韵律词标注信息进行匹配比较的过程中，考虑到系统分词算法切分所得的分词单元往往较小，而固定成分文本的匹配需要完整匹配，对此系统还可以考虑分词及分词前后相邻单元的组合和预设韵律词标注信息的一致性。

在某些实施方式中，确定固定成分文本的合成时长参数序列时，时长参数获取模块203可以具体用于：

基于公式

{{\bar{d}}_{i}^{j}} = \arg \max \log L_{i} = Σ_{j = 1}^{N} \log p (d_{i}^{j}),

S.T：

Σ_{j = 1}^{N} d_{i}^{j} = T_{i},

其中，S.T：

可以理解的是，本发明实施例考虑到数据量大小和模拟准确性，采用了高斯模型满足即该模型由参数均值

以及方差

在某些实施方式中，确定所述可变成分文本的合成时长参数序列时，所述时长参数获取模块203还用于：

基于公式

{{\bar{d}}_{i}^{j}} = \arg \max \log L_{i} = Σ_{j = 1}^{N} \log p (d_{i}^{j}),

其中，

为第i个基本语音单元中第j个基本合成单元的时长特征变量，N为所述基本语音单元所对应的基本合成单元的总数。

可以理解的是，本发明实施例中可变成分文本的合成时长参数序列是采用传统的方法获取，即选择模型最大化的变量作为最优时长特征。

在某些实施方式中，基频参数获取模块204确定合成文本的合成基频参数序列，具体用于：

对所述各基本合成单元的基频模型

基于公式

{\bar{C}}_{f} = \arg \max \log p (C_{f} | λ) + α {(C_{gf} - Y_{gf})}^{T} {(C_{gf} - Y_{gf}) u_{gf}}^{- 1},

获取所述合成文本的合成基频参数序列；

其中，

\log p (C_{f} | λ) = - \frac{1}{2} {C_{f}}^{T} W^{T} {U_{f}}^{- 1} W C_{f} + {C_{f}}^{T} W^{T} {U_{f}}^{- 1} M_{f}

在某些实施方式中，频谱参数获取模块205确定合成文本的合成频谱参数序列，具体用于：

对所述各基本合成单元的频谱模型

根据其所对应合成时长参数重复相应次数，获取所述基本合成单元的频谱模型序列；

基于公式

C_{s} = \bar{\arg} \max \log p (C_{s} | λ) + β {(C_{gs} - Y_{gs})}^{T} (C_{gs} - Y_{gs}) {u_{gs}}^{- 1},

获取所述合成文本的合成频谱参数序列；

其中，

\log p (C_{s} | λ) = - \frac{1}{2} {C_{s}}^{T} W^{T} {U_{s}}^{- 1} W C_{s} + {C_{s}}^{T} W^{T} {U_{s}}^{- 1} M_{s}

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统及系统中的单元模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明所提供的一种语音合成方法和语音合成系统进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音合成方法，其特征在于，包括：

获取合成文本；

将所述合成文本划分为固定成分文本和可变成分文本；

2.根据权利要求1所述的方法，其特征在于，所述将所述合成文本划分为固定成分文本和可变成分文本具体包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述固定成分文本进行分析，确定所述固定成分文本中各基本合成单元的合成时长参数，得到所述固定成分文本的合成时长参数序列，包括：

基于公式

{{\overset{&OverBar;}{d}}_{i}^{j}} = \arg \max \log L_{i} = Σ_{j = 1}^{N} \log p (d_{i}^{j}),

S.T：

Σ_{j = 1}^{N} d_{i}^{j} = T_{i},

其中，S.T：

4.根据权利要求2或3所述的方法，其特征在于，所述对所述可变成分文本进行分析，确定所述可变成分文本的各基本合成单元的合成时长参数，得到所述可变成分文本的合成时长参数序列，包括：

基于公式

{{\overset{&OverBar;}{d}}_{i}^{j}} = \arg \max \log L_{i} = Σ_{j = 1}^{N} \log p (d_{i}^{j}),

其中，

5.根据权利要求4所述的方法，其特征在于，根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成基频参数序列，包括：

对所述各基本合成单元的基频模型

根据其所对应合成时长参数

重复相应次数，获取所述基本合成单元的基频模型序列；

基于公式

{\bar{C}}_{f} = \arg \max \log p (C_{f} | λ) + α {(C_{gf} - Y_{gf})}^{T} {(C_{gf} - Y_{gf}) u_{gf}}^{- 1},

获取所述合成文本的合成基频参数序列；

其中，

\log p (C_{f} | λ) = - \frac{1}{2} {C_{f}}^{T} W^{T} {U_{f}}^{- 1} W C_{f} + {C_{f}}^{T} W^{T} {U_{f}}^{- 1} M_{f}

6.根据权利要求4所述的方法，其特征在于，根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成频谱参数序列，包括：

对所述各基本合成单元的频谱模型

根据其所对应合成时长参数

重复相应次数，获取所述基本合成单元的频谱模型序列；

基于公式

C_{s} = \bar{\arg} \max \log p (C_{s} | λ) + β {(C_{gs} - Y_{gs})}^{T} (C_{gs} - Y_{gs}) {u_{gs}}^{- 1},

获取所述合成文本的合成频谱参数序列；

其中，

\log p (C_{s} | λ) = - \frac{1}{2} {C_{s}}^{T} W^{T} {U_{s}}^{- 1} W C_{s} + {C_{s}}^{T} W^{T} {U_{s}}^{- 1} M_{s}

7.一种语音合成系统，其特征在于，包括：

获取模块，用于获取合成文本；

8.根据权利要求7所述的系统，其特征在于，所述文本划分模块，具体用于采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合；将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较，若所述分词或分词组合与所述韵律词标注信息一致，则确定出所述分词或分词组合为固定成分文本，若否，则确定出所述分词或分词组合为可变成分文本。

9.根据权利要求8所述的系统，其特征在于，所述时长参数获取模块具体用于：

基于公式