CN104282300A

CN104282300A - 一种非周期成分音节模型建立、及语音合成的方法和设备

Info

Publication number: CN104282300A
Application number: CN201310282732.XA
Authority: CN
Inventors: 王朝民; 刘琨; 焦伟
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2013-07-05
Filing date: 2013-07-05
Publication date: 2015-01-14

Abstract

本发明公开了一种非周期成分音节模型建立、及语音合成的方法和设备，包括：根据原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值，利用离散余弦变换方法得到该音节在选择频带信息上的非周期成分谱拟合曲线，生成包含了所述原始语音波形文件的每一个音节在不同频带信息上的非周期成分谱拟合曲线的非周期成分音节模型，这样将音节模型中包含频段数量*音节帧数的数据信息，转换成为包含频段数量的拟合曲线，缩小了语音建模的规模，节省了系统资源，同时在建立每一音节的非周期成分谱拟合曲线，充分考虑了音节的帧与帧之间的连续性，使得拟合曲线保留了音节原有的音质，并在合成时提高了合成语音的质量。

Description

一种非周期成分音节模型建立、及语音合成的方法和设备

技术领域

本发明涉及语音处理技术领域，尤其涉及一种非周期成分音节模型建立、及语音合成的方法和设备。

背景技术

语音合成技术是指通过机械的、电子的方法产生人造语音的技术。例如：TTS（Text To Speech，文语转换）技术，即将文本信息转换成为语音信息，并通过放音设备播放转换后的语音信息的技术。

语音合成的前提是对语音信息进行分析，例如：语音参数化分析。所谓语音参数化分析的方法包括直接波形分析法和语音参数化分析法。目前比较通用的语音分析方法是语音参数化分析法。所谓语音参数化分析法是指对提取到的语音参数进行分析的方法，其中，在对语音信息进行语音参数提取后，得到的语音参数包括：语音声道谱参数（例如：线性预测系数、美尔道谱系数以及线谱对等等）、语音声源参数（例如：基谱、非周期成分谱等）。通过对这些语音参数的分析，全面了解语音携带的信息，为语音合成做准备。

例如：现有技术中存在的自适应加权普内插技术（即STRAIGHT分析技术），有效地将语音声源以及声道信息分离，得到声道谱SP参数，基谱曲线F0参数以及非周期成分谱AP参数。

在语音参数化分析的基础上，统计参数语音合成技术发展迅猛，逐渐取代了拼接语音合成技术，成为语音合成技术的主流。所谓统计参数语音合成技术是通过语音识别处理方法将大量的语音数据标注后训练成模型，然后在进行语音合成时利用参数生成算法得到语音参数，最后通过线性预测过滤技术得到语音波形。

其中，在统计参数语音合成技术中涉及到HMM（Hidden Markov Model，隐马尔可夫）语音模型建立和LPC语音波形的形成。

具体地，所述HMM语音模型建立的具体包括：

第一，提取每一个音节的非周期成分谱。

第二，将一帧内的非周期成分谱按照设定的频段进行划分。

例如，设定的频段为5段，分别是0～1000MHz，1000～2000Mhz，2000～4000MHz，4000～6000MHz，6000～8000MHz。

第三，将得到的每一个频段内的非周期成分谱进行平均运算，得到每一个频段的非周期成分频带代表值。

最后，针对每一个音节的每一帧，得到5个非周期成分频带代表值，相对于对于每一音节的每一帧进行了帧内建模。

利用HMM语音模型对语音进行合成，将出现以下问题：

1、HMM语音模型建立的语音模型的数据量比较大，不适合在嵌入式系统中使用。

HMM语音模型建立后，当划分频段数量为N时，针对每一个音节的每一帧，将出现N个非周期成分频带代表值对应，也就是说，当每一个音节包含M帧时，HMM语音模型中针对一个音节将出现M*N各非周期成分频带代表值，数据量太大，不适合嵌入式系统使用。

2、现有的HMM语音模型在建立时，以一个音节的每一帧为单位确定非周期成分频带代表值，并没有考虑帧与帧之间非周期成分谱之间的相关性，使得合成后的语音信息的非周期成分谱的连贯性较差，使得合成音的音质不高。

发明内容

本发明实施例提供了一种非周期成分音节模型建立、及语音合成的方法和设备，用于解决现有技术中存在的HMM语音模型数据量大、且合成后的语音信息的非周期成分谱的连贯性差，导致合成音的音质不高的问题。

一种非周期成分音节模型建立的方法，包括：

分解语音数据库中的原始语音波形文件，得到所述原始语音波形文件中每一个音节的非周期成分谱信息、基频信息和声道谱信息；

根据预设的为音节的每一帧划分的至少一个频带信息和音节的非周期成分谱信息，计算所述原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值；

针对所述原始语音波形文件中任意一个音节，依次执行以下操作，直至得到所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线：

选择一个频带信息，查找在该频带信息上该音节对应的每一帧的非周期成分代表值，并根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线；

判断该音节是否已得到划分的每一个频带信息上的非周期成分谱拟合曲线，若是，则选择下一个音节，继续执行得到该音节在划分的每一个频带信息上非周期成分拟合曲线的操作；否则，选择下一个频带信息，继续执行得到该音节在选择的下一个频带信息上非周期成分拟合曲线的操作；

在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，建立原始语音波形文件的标注文件与所述原始语音波形文件的每一个音节信息之间的对应关系，并根据建立的对应关系生成非周期成分音节模型，其中，所述每一个音节信息中包含了每一个音节的基频信息、声道谱信息以及在不同频带信息上的非周期成分谱拟合曲线。

所述根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线，具体包括：

利用查找到的非周期成分代表值，通过以下方式计算得到该音节在选择的频带信息上的非周期成分谱拟合曲线：

c_{d} = \frac{2}{T} Σ_{t = 0}^{T - 1} bap {(n)}_{t} \cos [\frac{π}{T} d (t + \frac{1}{2})];

其中，c_d为该音节在选择的频带信息上的非周期成分谱拟合曲线，T为该音节的帧数，bap(n)_t为该音节的第t帧在选择的频带信息上的非周期成分代表值，n为选择的频带信息的频段标识，d和D为离散余弦变换的阶数，取值范围是1～D-1，t为音节的帧数，取值为0～T-1。

在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，根据建立的对应关系生成非周期成分音节模型之前，所述方法还包括：

利用聚类算法，将得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线进行聚类处理，确定所述原始语音波形文件中每一个音节的非周期成分聚类曲线组；

所述建立原始语音波形文件标识与所述原始语音波形文件的每一个音节信息之间的对应关系，具体包括：

建立原始语音波形文件的标注文件、所述原始语音波形文件的每一个音节的非周期成分聚类曲线组、每一个音节的基频信息以及每一个音节的声道谱信息之间的对应关系。

一种基于非周期成分音节模型的语音合成方法，包括：

利用文本分析设备将获取的待语音合成的文本信息转换成原始语音波形文件，并根据转换得到的原始语音波形文件得到该原始语音波形文件的标注文件；

根据非周期成分音节模型中建立的原始语音波形文件的标注文件与原始语音波形文件的每一个音节信息之间的对应关系，确定转换得到的原始语音波形文件的标注文件对应的每一个音节的非周期成分谱拟合曲线、基频信息和声道谱信息；

根据确定的每一个音节的非周期成分谱拟合曲线，计算得到所述原始语音波形文件中每一个音节的每一帧在不同频带信息上的非周期成分代表值；

利用所述每一个音节的每一帧在不同频带信息上的非周期成分代表值、每一个音节的基频信息以及每一个音节的声道谱信息执行激励操作，并合成语音。

所述根据确定的每一个音节的非周期成分谱拟合曲线，计算得到所述原始语音波形文件中每一个音节的每一帧在不同频带信息上的非周期成分代表值，具体包括：

利用确定的每一个音节的非周期成分谱拟合曲线通过以下方式计算得到所述原始语音波形文件中每一个音节的每一帧在一个频带信息上的非周期成分代表值：

bap {(n)}_{t} = \frac{1}{2} c_{0} + Σ_{d = 1}^{D - 1} c_{d} \cos [\frac{π}{T} d (t + \frac{1}{2})];

其中，bap(n)_t为一个音节的第t帧在频段标识为n的频带信息上的非周期成分代表值，c_d为该音节在频段标识为n的频带信息的非周期成分谱拟合曲线，c₀为该音节在频段标识为n的频带信息上的非周期成分谱拟合曲线的因子，n为频段标识，d和D为离散余弦变换的阶数，取值范围是1～D-1，t为音节的帧数，取值为0～T-1。

一种非周期成分音节模型建立设备，所述设备包括：

非周期成分代表值确定模块，用于分解语音数据库中的原始语音波形文件，得到所述原始语音波形文件中每一个音节的非周期成分谱信息、基频信息和声道谱信息；并根据预设的为音节的每一帧划分的至少一个频带信息和音节的非周期成分谱信息，计算所述原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值；

非周期成分谱拟合曲线生成模块，用于针对所述原始语音波形文件中任意一个音节，依次执行以下操作，直至得到所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线：

选择一个频带信息，查找在该频带信息上该音节对应的每一帧的非周期成分代表值，并根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线；判断该音节是否已得到划分的每一个频带信息上的非周期成分谱拟合曲线，若是，则选择下一个音节，继续执行得到该音节在划分的每一个频带信息上非周期成分拟合曲线的操作；否则，选择下一个频带信息，继续执行得到该音节在选择的下一个频带信息上非周期成分拟合曲线的操作；

非周期成分音节模型建立模块，用于在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，建立原始语音波形文件的标注文件与所述原始语音波形文件的每一个音节信息之间的对应关系，并根据建立的对应关系生成非周期成分音节模型，其中，所述每一个音节信息中包含了每一个音节的基频信息、声道谱信息以及在不同频带信息上的非周期成分谱拟合曲线。

所述非周期成分谱拟合曲线生成模块，具体用于利用查找到的非周期成分代表值，通过以下方式计算得到该音节在选择的频带信息上的非周期成分谱拟合曲线：

c_{d} = \frac{2}{T} Σ_{t = 0}^{T - 1} bap {(n)}_{t} \cos [\frac{π}{T} d (t + \frac{1}{2})];

所述非周期成分聚类曲线组生成模块，用于在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，根据建立的对应关系生成非周期成分音节模型之前，利用聚类算法，将得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线进行聚类处理，确定所述原始语音波形文件中每一个音节的非周期成分聚类曲线组；

所述非周期成分音节模型建立模块，具体用于建立原始语音波形文件的标注文件、所述原始语音波形文件的每一个音节的非周期成分聚类曲线组、每一个音节的基频信息以及每一个音节的声道谱信息之间的对应关系。

一种基于非周期成分音节模型的语音合成设备，所述设备包括：

文件获取模块，用于利用文本分析设备将获取的待语音合成的文本信息转换成原始语音波形文件，并根据转换得到的原始语音波形文件得到该原始语音波形文件的标注文件；

音节信息确定模块，用于根据非周期成分音节模型中建立的原始语音波形文件的标注文件与原始语音波形文件的每一个音节信息之间的对应关系，确定转换得到的原始语音波形文件的标注文件对应的每一个音节的非周期成分谱拟合曲线、基频信息和声道谱信息；

非周期成分代表值确定模块，用于根据确定的每一个音节的非周期成分谱拟合曲线，计算得到所述原始语音波形文件中每一个音节的每一帧在不同频带信息上的非周期成分代表值；

语音合成模块，用于利用所述每一个音节的每一帧在不同频带信息上的非周期成分代表值、每一个音节的基频信息以及每一个音节的声道谱信息执行激励操作，并合成语音。

所述非周期成分代表值确定模块，具体用于利用确定的每一个音节的非周期成分谱拟合曲线通过以下方式计算得到所述原始语音波形文件中每一个音节的每一帧在一个频带信息上的非周期成分代表值：

bap {(n)}_{t} = \frac{1}{2} c_{0} + Σ_{d = 1}^{D - 1} c_{d} \cos [\frac{π}{T} d (t + \frac{1}{2})];

本发明有益效果如下：

本发明实施例在得到所述原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值之后，针对所述原始语音波形文件中任意一个音节，依次执行以下操作：选择一个频带信息，查找在该频带信息上该音节对应的每一帧的非周期成分代表值，并根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线；并在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，建立原始语音波形文件的标注文件与所述原始语音波形文件的每一个音节信息之间的对应关系，并根据建立的对应关系生成非周期成分音节模型，这样将音节模型中包含频段数量*音节帧数的数据信息，转换成为包含频段数量的拟合曲线，缩小了语音建模的规模，节省了系统资源，同时在建立每一音节的非周期成分谱拟合曲线，充分考虑了音节的帧与帧之间的连续性，使得拟合曲线保留了音节原有的音质，并在合成时提高了合成语音的质量。

附图说明

图1为本发明实施例一的一种非周期成分音节模型建立的方法的流程示意图；

图2为本发明实施例二的一种基于非周期成分音节模型的语音合成方法的流程示意图；

图3为本发明实施例三的一种非周期成分音节模型建立设备的结构示意图；

图4为本发明实施例四的一种基于非周期成分音节模型的语音合成设备的结构示意图。

具体实施方式

为了实现本发明的目的，本发明实施例提供了一种非周期成分音节模型建立、及语音合成的方法和设备，在得到所述原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值之后，针对所述原始语音波形文件中任意一个音节，依次执行以下操作：选择一个频带信息，查找在该频带信息上该音节对应的每一帧的非周期成分代表值，并根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线；并在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，建立原始语音波形文件的标注文件与所述原始语音波形文件的每一个音节信息之间的对应关系，并根据建立的对应关系生成非周期成分音节模型，这样将音节模型中包含频段数量*音节帧数的数据信息，转换成为包含频段数量的拟合曲线，缩小了语音建模的规模，节省了系统资源，同时在建立每一音节的非周期成分谱拟合曲线，充分考虑了音节的帧与帧之间的连续性，使得拟合曲线保留了音节原有的音质，并在合成时提高了合成语音的质量。

下面结合说明书附图对本发明各个实施例进行详细描述。

实施例一：

如图1所示，为本发明实施例一的一种非周期成分音节模型建立的方法的流程示意图，所述方法包括：

步骤101：获取语音数据库中的原始语音波形文件。

具体地，在步骤101中，所述语音数据库中包含了大量的原始语音波形文件以及原始语音波形文件对应的标注文件，例如：Wav格式的文件以及对应的文件标识（即Lable）。

其中，所述标注文件与原始语音波形文件是一一对应的，也就是说，每一个原始语音波形文件对应唯一的一个标注文件。

在准备建立非周期成分音节模型之前，从语音数据库中获取大量的原始语音波形文件，经过对分析处理后，训练得到需要的语言参数模型，即非周期成分音节模型。

步骤102：分解获取到的所述原始语音波形文件，得到所述原始语音波形文件中每一个音节的非周期成分谱信息、基频信息和声道谱信息。

具体地，在步骤102中，分解获取到的所述原始语音波形文件，具体包括：

针对每一个原始语音波形文件执行以下操作：

首先，将所述原始语音波形文件通过语音分析设备进行分解，得到所述原始语音波形文件的源信息。

其中，所述原始语音波形文件的源信息包括以下信息中的一种：

基频、非周期成分谱和声道谱。

例如：通过STRAIGHT语音分析合成工具对获取的所述原始语音波形文件进行分解，得到所述原始语音波形文件的源信息：基频F0、非周期成分谱AP和声道谱SP。

其次，将得到的所述基谱进行处理，得到基谱信息。

例如：将得到的基谱F0进行Log域换算，得到LF0，并将得到的LF0作为基谱信息。

第三，针对得到的所述声道谱，从所述原始语音波形文件中每一个音节的帧内提取出18维线谱对，得到参数LSP。

步骤103：根据预设的为音节的每一帧划分的至少一个频带信息和音节的非周期成分谱信息，计算所述原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值。

具体地，在步骤103中，首先，确定针对所述原始语音波形文件的音节划分的频段的数量以及划分得到的每一个频段的频带信息。

需要说明的是，确定针对所述原始语音波形文件的音节划分的频段的数量可以根据实际需要确定，也可以根据经验确定，例如：划分频段的数量为5，这里不做限定。

具体地，确定划分得到的每一个频段的频带信息，包括：

根据步骤102得到的所述原始语音波形文件的非周期成分谱和确定的划分频段的数量，得到划分得到的每一个频段的频带信息。

例如：步骤102得到的所述原始语音波形文件的非周期成分谱为0～8000MHz，确定划分频段的数量为5，则得到划分后的每一频带信息分别为：0～1000MHz，1000～2000Mhz，2000～4000MHz，4000～6000MHz，6000～8000MHz。

其次，选择一个频带信息，并利用音节的非周期成分谱信息，计算所述原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值。

具体地，一个音节以帧为单位，确定所述原始语音波形文件中一音节的帧数，并根据选择的一个频带信息，查找所述原始语音波形文件中一个音节对应的一帧落入该频带信息内的非周期成分值，计算该帧落入该频带信息内的非周期成分值的平均值，作为所述原始语音波形文件中一个音节的一帧在选择的频带信息上的非周期成分代表值。

例如：针对频带信息0～1000MHz，查找所述原始语音波形文件中一个音节1对应的一帧1落入到该频带信息内的非周期成分值，并根据查找到的非周期成分值，计算所述原始语音波形文件中该音节1对应的该帧1在频带信息为0～1000MHz上的非周期成分值的平均值，将得到的平均值作为所述原始语音波形文件中该音节1对应的该帧1在频带信息为0～1000MHz上的非周期成分代表值BAP1；

针对频带信息1000～2000MHz，查找所述原始语音波形文件中一个音节1对应的一帧1落入到该频带信息内的非周期成分值，并根据查找到的非周期成分值，计算所述原始语音波形文件中该音节1对应的该帧1在频带信息为1000～2000MHz上的非周期成分值的平均值，将得到的平均值作为所述原始语音波形文件中该音节1对应的该帧1在频带信息为1000～2000MHz上的非周期成分代表值BAP2；

针对频带信息2000～4000MHz，查找所述原始语音波形文件中一个音节1对应的一帧1落入到该频带信息内的非周期成分值，并根据查找到的非周期成分值，计算所述原始语音波形文件中该音节1对应的该帧1在频带信息为2000～4000MHz上的非周期成分值的平均值，将得到的平均值作为所述原始语音波形文件中该音节1对应的该帧1在频带信息为2000～4000MHz上的非周期成分代表值BAP3；

针对频带信息4000～6000MHz，查找所述原始语音波形文件中一个音节1对应的一帧1落入到该频带信息内的非周期成分值，并根据查找到的非周期成分值，计算所述原始语音波形文件中该音节1对应的该帧1在频带信息为4000～6000MHz上的非周期成分值的平均值，将得到的平均值作为所述原始语音波形文件中该音节1对应的该帧1在频带信息为4000～6000MHz上的非周期成分代表值BAP4；

针对频带信息6000～8000MHz，查找所述原始语音波形文件中一个音节1对应的一帧1落入到该频带信息内的非周期成分值，并根据查找到的非周期成分值，计算所述原始语音波形文件中该音节1对应的该帧1在频带信息为6000～8000MHz上的非周期成分值的平均值，将得到的平均值作为所述原始语音波形文件中该音节1对应的该帧1在频带信息为6000～8000MHz上的非周期成分代表值BAP5。

步骤104：针对所述原始语音波形文件中任意一个音节，依次执行以下操作，直至得到所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线。

步骤1041：选择一个频带信息，查找在该频带信息上该音节对应的每一帧的非周期成分代表值。

具体地，在步骤1041中，假设所述原始语音波形文件中一个音节包含了N帧，频段划分数量为5，得到的频带信息为：0～1000MHz，1000～2000Mhz，2000～4000MHz，4000～6000MHz，6000～8000MHz。

例如：选择一个频带信息0～1000MHz，查找到的所述原始语音波形文件中一个音节对应的每一帧（N个）的非周期成分代表值为：BAP11、BAP12，……，BAP1n。

再例如：选择一个频带信息1000～2000MHz，查找到的所述原始语音波形文件中一个音节对应的每一帧（N个）的非周期成分代表值为：BAP21、BAP22，……，BAP2n。

步骤1042：根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线。

具体地，在步骤1042中，利用查找到的非周期成分代表值，通过以下方式计算得到该音节在选择的频带信息上的非周期成分谱拟合曲线：

c_{d} = \frac{2}{T} Σ_{t = 0}^{T - 1} bap {(n)}_{t} \cos [\frac{π}{T} d (t + \frac{1}{2})];

例如：bap(n)_t=bap(1)₁=BAP11，bap(n)_t=bap(1)₂=BAP12，……，bap(n)_t=bap(1)_n=BAP1n；bap(n)_t=bap(2)₁=BAP21，bap(n)_t=bap(2)₂=BAP22，……，bap(n)_t=bap(2)_n=BAP2n。

需要说明的是，得到一个音节在选择的频带信息上的非周期成分谱拟合曲线还表示了该音节在这个频带信息上的音节路径。

由此可见，在对所述原始语音波形文件中的每一个音节的非周期成分谱进行拟合后，得到多条拟合曲线，其中个，拟合曲线的数量与划分频段的数量相同（例如：上述事例中，原始波形文件中的每一个音节将得到5条对应频段信息的拟合曲线），这样大大减少了数据存储量。

步骤1043：判断该音节是否已得到划分的每一个频带信息上的非周期成分谱拟合曲线，若是，则选择下一个音节，跳转执行步骤104；否则，选择下一个频带信息，跳转执行步骤1041。

具体地，在步骤1043中，在该音节已得到划分的每一个频带信息上的非周期成分谱拟合曲线，则选择下一个音节，继续执行得到下一个音节在划分的每一个频带信息上非周期成分拟合曲线的操作；在该音节未得到划分的每一个频带信息上的非周期成分谱拟合曲线，选择下一个频带信息，继续执行该音节在选择的下一个频带信息上非周期成分拟合曲线的操作。

步骤105：在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，建立原始语音波形文件的标注文件与所述原始波形文件的每一个音节信息之间的对应关系，并根据建立的对应关系生成非周期成分音节模型。

其中，所述每一个音节信息中包含了每一个音节的基频信息、声道谱信息以及在不同频带信息上的非周期成分谱拟合曲线。

具体地，在步骤105中，在得到的所述原始语音波形文件中每一个音节在不同频带信息上的非周期成分谱拟合曲线后，确定所述原始语音波形文件的标注文件，以及所述原始语音波形文件中每一个音节在不同频带信息上的非周期成分谱拟合曲线、该音节的基频信息和该音节的声道谱信息，建立所述原始语音波形文件的标注文件，以及所述原始语音波形文件中每一个音节在不同频带信息上的非周期成分谱拟合曲线、基频信息和声道谱信息的对应关系。

需要说明的是，可以是列表的形式，还可以是其他形式。

如表1所示，为建立所述原始语音波形文件的标注文件，以及所述原始语音波形文件中每一个音节在不同频带信息上的非周期成分谱拟合曲线、基频信息和声道谱信息的对应关系表：

表1

较优地，在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，所述方法还包括：

利用聚类算法，将得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线进行聚类处理，确定所述原始语音波形文件中每一个音节的非周期成分聚类曲线组，建立原始语音波形文件的标注文件、所述原始语音波形文件的每一个音节的非周期成分聚类曲线组、每一个音节的基频信息以及每一个音节的声道谱信息之间的对应关系，根据建立的对应关系生成针对原始语音波形文件的非周期成分音节模型。

通过本发明实施例一的方案，在得到所述原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值之后，针对所述原始语音波形文件中任意一个音节，依次执行以下操作：选择一个频带信息，查找在该频带信息上该音节对应的每一帧的非周期成分代表值，并根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线；并在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，建立原始语音波形文件的标注文件与所述原始语音波形文件的每一个音节信息之间的对应关系，并根据建立的对应关系生成非周期成分音节模型，这样将音节模型中包含频段数量*音节帧数的数据信息，转换成为包含频段数量的拟合曲线，缩小了语音建模的规模，节省了系统资源，同时在建立每一音节的非周期成分谱拟合曲线，充分考虑了音节的帧与帧之间的连续性，使得拟合曲线保留了音节原有的音质，并在合成时提高了合成语音的质量。

实施例二：

如图2所示，为本发明实施例二的一种基于非周期成分音节模型的语音合成方法的流程示意图，本发明实施例二是在本发明实施例一的基础之上实施的，所述方法包括：

步骤201：利用文本分析设备将获取的待语音合成的文本信息转换成原始语音波形文件，并根据转换得到的原始语音波形文件得到该原始语音波形文件的标注文件。

具体地，在步骤201中，获取待语音合成的文本信息之后，需要利用文本分析设备将获取的待语音合成的文本信息转换成原始波形文件，并根据转换得到的原始语音波形文件得到该原始语音波形文件的标注文件。

步骤202：根据非周期成分音节模型中建立的原始语音波形文件的标注文件与原始语音波形文件的每一个音节信息之间的对应关系，确定转换得到的原始语音波形文件的标注文件对应的每一个音节的非周期成分谱拟合曲线、基频信息和声道谱信息。

其中，所述非周期成分音节模型可以是本发明实施例中描述的方式建立的非周期成分音节模型，建立方式不再做赘述；还可以是其他方式建立的非周期成分音节模型，这里不做具体限定。

步骤203：根据确定的每一个音节的非周期成分谱拟合曲线，计算得到所述原始语音波形文件中每一个音节的每一帧在不同频带信息上的非周期成分代表值。

具体地，在步骤203中，所述根据确定的每一个音节的非周期成分谱拟合曲线，计算得到所述原始语音波形文件中每一个音节的每一帧在不同频带信息上的非周期成分代表值，具体包括：

bap {(n)}_{t} = \frac{1}{2} c_{0} + Σ_{d = 1}^{D - 1} c_{d} \cos [\frac{π}{T} d (t + \frac{1}{2})];

步骤204：利用所述每一个音节的每一帧在不同频带信息上的非周期成分代表值、每一个音节的基频信息以及每一个音节的声道谱信息执行激励操作，并合成语音。

具体地，在步骤204中，在得到每一个音节对应的每一帧上在不同频带信息上的非周期成分代表值后，结合该音节的基谱信息和声道谱信息，利用所述基谱信息和所述非周期成分代表值形成激励源，并利用声道谱信息控制LPC滤波器合成语音。

实施例三：

如图3所示，为本发明实施例三的一种非周期成分音节模型建立设备的结构示意图，本发明实施例三是与本发明实施例一和本发明实施例二在同一构思下的发明，所述设备包括：非周期成分代表值确定模块11、非周期成分谱拟合曲线生成模块12和非周期成分音节模型建立模块13，其中：

非周期成分代表值确定模块11，用于分解语音数据库中的原始语音波形文件，得到所述原始语音波形文件中每一个音节的非周期成分谱信息、基频信息和声道谱信息；并根据预设的为音节的每一帧划分的至少一个频带信息和音节的非周期成分谱信息，计算所述原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值。

非周期成分谱拟合曲线生成模块12，用于针对所述原始语音波形文件中任意一个音节，依次执行以下操作，直至得到所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线：

选择一个频带信息，查找在该频带信息上该音节对应的每一帧的非周期成分代表值，并根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线；判断该音节是否已得到划分的每一个频带信息上的非周期成分谱拟合曲线，若是，则选择下一个音节，继续执行得到该音节在划分的每一个频带信息上非周期成分拟合曲线的操作；否则，选择下一个频带信息，继续执行得到该音节在选择的下一个频带信息上非周期成分拟合曲线的操作。

非周期成分音节模型建立模块13，用于在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，建立原始语音波形文件的标注文件与所述原始语音波形文件的每一个音节信息之间的对应关系，并根据建立的对应关系生成非周期成分音节模型，其中，所述每一个音节信息中包含了每一个音节的基频信息、声道谱信息以及在不同频带信息上的非周期成分谱拟合曲线。

具体地，所述非周期成分谱拟合曲线生成模块12，具体用于利用查找到的非周期成分代表值，通过以下方式计算得到该音节在选择的频带信息上的非周期成分谱拟合曲线：

c_{d} = \frac{2}{T} Σ_{t = 0}^{T - 1} bap {(n)}_{t} \cos [\frac{π}{T} d (t + \frac{1}{2})];

较优地，所述设备还包括：非周期成分聚类曲线组生成模块14，其中：

非周期成分聚类曲线组生成模块14，用于在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，根据建立的对应关系生成非周期成分音节模型之前，利用聚类算法，将得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线进行聚类处理，确定所述原始语音波形文件中每一个音节的非周期成分聚类曲线组。

所述非周期成分音节模型建立模块13，具体用于建立原始语音波形文件的标注文件、所述原始语音波形文件的每一个音节的非周期成分聚类曲线组、每一个音节的基频信息以及每一个音节的声道谱信息之间的对应关系。

需要说明的是，本发明实施例三所述的设备可以是语音处理服务器中的逻辑部件，还可以是物理实体单元，这里不做限定。

实施例四：

如图4所示，为本发明实施例四的一种基于非周期成分音节模型的语音合成设备的结构示意图，本发明实施例四是与本发明实施例一与本发明实施例二在同一发明构思下的设备，所述设备包括：文件获取模块21、音节信息确定模块22、非周期成分代表值确定模块23和语音合成模块24，其中：

文件获取模块21，用于利用文本分析设备将获取的待语音合成的文本信息转换成原始语音波形文件，并根据转换得到的原始语音波形文件得到该原始语音波形文件的标注文件。

音节信息确定模块22，用于根据非周期成分音节模型中建立的原始语音波形文件的标注文件与原始语音波形文件的每一个音节信息之间的对应关系，确定转换得到的原始语音波形文件的标注文件对应的每一个音节的非周期成分谱拟合曲线、基频信息和声道谱信息。

非周期成分代表值确定模块23，用于根据确定的每一个音节的非周期成分谱拟合曲线，计算得到所述原始语音波形文件中每一个音节的每一帧在不同频带信息上的非周期成分代表值。

语音合成模块24，用于利用所述每一个音节的每一帧在不同频带信息上的非周期成分代表值、每一个音节的基频信息以及每一个音节的声道谱信息执行激励操作，并合成语音。

具体地，所述非周期成分代表值确定模块23，具体用于利用确定的每一个音节的非周期成分谱拟合曲线通过以下方式计算得到所述原始语音波形文件中每一个音节的每一帧在一个频带信息上的非周期成分代表值：

bap {(n)}_{t} = \frac{1}{2} c_{0} + Σ_{d = 1}^{D - 1} c_{d} \cos [\frac{π}{T} d (t + \frac{1}{2})];

实施例五：

本发明实施例五提供一种语音合成处理系统，所述系统包括了非周期成分音节模型建立设备和语音合成设备。

其中，所述非周期成分音节模型建立设备的功能与本发明实施例三中所述的功能相同，所述语音合成设备与本发明实施例中所述的功能相同，这里不再做赘述。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置（设备）、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置（设备）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种非周期成分音节模型建立的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线，具体包括：

c_{d} = \frac{2}{T} Σ_{t = 0}^{T - 1} bap {(n)}_{t} \cos [\frac{π}{T} d (t + \frac{1}{2})];

3.如权利要求1或2所述的方法，其特征在于，在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，根据建立的对应关系生成非周期成分音节模型之前，所述方法还包括：

4.一种基于非周期成分音节模型的语音合成方法，其特征在于，包括：

5.如权利要求4所述的方法，其特征在于，所述根据确定的每一个音节的非周期成分谱拟合曲线，计算得到所述原始语音波形文件中每一个音节的每一帧在不同频带信息上的非周期成分代表值，具体包括：

bap {(n)}_{t} = \frac{1}{2} c_{0} + Σ_{d = 1}^{D - 1} c_{d} \cos [\frac{π}{T} d (t + \frac{1}{2})];

6.一种非周期成分音节模型建立设备，其特征在于，所述设备包括：

7.如权利要求6所述的设备，其特征在于，

c_{d} = \frac{2}{T} Σ_{t = 0}^{T - 1} bap {(n)}_{t} \cos [\frac{π}{T} d (t + \frac{1}{2})];

8.如权利要求6或7所述的设备，其特征在于，所述设备还包括：

9.一种基于非周期成分音节模型的语音合成设备，其特征在于，所述设备包括：

10.如权利要求9所述的设备，其特征在于，

bap {(n)}_{t} = \frac{1}{2} c_{0} + Σ_{d = 1}^{D - 1} c_{d} \cos [\frac{π}{T} d (t + \frac{1}{2})];