CN104766602A

CN104766602A - 歌唱合成系统中基频合成参数生成方法及系统

Info

Publication number: CN104766602A
Application number: CN201410005732.XA
Authority: CN
Inventors: 孙见青; 王影; 江源; 凌震华; 胡国平; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2014-01-06
Filing date: 2014-01-06
Publication date: 2015-07-08
Anticipated expiration: 2034-01-06
Also published as: CN104766602B

Abstract

本发明公开了一种歌唱合成系统中基频合成参数生成方法及系统，该方法包括：获取待合成简谱；确定所述简谱的各基本合成单元；根据简谱标注获取各基本合成单元的基频合成参数，并将其作为第一融合参数；根据简谱标注确定对应所述各基本合成单元的基频合成模型，得到基频合成模型序列；利用所述第一融合参数和所述基频合成模型序列进行融合优化，获得所述基本合成单元的基频合成参数。利用本发明，可以使合成语音在保留较高相似度和表现力的前提下，避免有明显的走调现象。

Description

歌唱合成系统中基频合成参数生成方法及系统

技术领域

本发明涉及语音合成技术领域，具体涉及一种歌唱合成系统中基频合成参数生成方法及系统。

背景技术

近年来，歌唱合成系统得到了广泛的研究和应用，其中基于隐马尔可夫模型（Hidden Markov Model，HMM）的参数合成系统以及基于波形拼接合成系统达到了实用标准。相比于基于波形拼接合成系统，基于HMM的参数合成方法对训练数据量要求较少且系统规模较小，因而具有较好的实用价值。

基于参数合成的歌唱合成系统首先分别确定各基本合成单元（如音节，音素等）的时长参数序列、基频参数序列以及频谱参数序列，随后再根据合成参数序列利用参数合成器得到连续歌唱信号。时长参数、基频参数以及频谱参数的准确性都将直接影响到歌唱合成效果。而对于歌唱语音，反映了韵律特征和情感表现的基频合成参数对最终合成效果有非常大的影响，显然如何改善歌唱合成中基频合成参数的生成是歌唱合成系统中很重要的一个问题。

传统歌唱合成系统中基频参数的生成主要采用以下两种方式：

（1）基于简谱标注的基频参数生成

具体地，系统根据简谱音高标注确定各基本合成单元对应的标准音高，并根据音高基频转换公式直接生成基频参数。

（2）基于基频合成模型的参数生成

具体地，系统预先录制大量歌唱语音训练数据并根据对应歌词标注信息（也包括简谱中的音高和时值等信息）训练得到各基本合成单元的基频合成模型，随后在接收到歌唱合成请求时，系统首先根据简谱的歌词文本信息获取各基本语音单元对应的基频模型，进而生成相应的基频参数。

基于简谱标注的基频参数生成方法，由于简谱的标注音高并不一定满足发音人的实际基频分布特性，从而导致根据标准音高获取的基频参数与发音人本身的发音特性不一致，最后合成语音不能反映发音人的特性，相似度很低、且合成语音略显呆板。而基于基频合成模型的参数生成通过对真实数据的统计模拟得到符合发音人音色特点的基频模型，然而由于建模本身带来的损失、以及基频模型选择的不完全准确性，该方法很难保证最终合成效果的稳定性，有可能会出现明显的走调现象。

发明内容

本发明提供一种歌唱合成系统中基频合成参数生成方法及系统，以使合成语音在保留较高相似度和表现力的前提下，避免有明显的走调现象。

为此，本发明提供如下技术方案：

一种歌唱合成系统中基频合成参数生成方法，包括：

获取待合成简谱；

确定所述简谱的各基本合成单元；

根据简谱标注获取各基本合成单元的基频合成参数，并将其作为第一融合参数；

根据简谱标注确定对应所述各基本合成单元的基频合成模型，得到基频合成模型序列；

利用所述第一融合参数和所述基频合成模型序列进行融合优化，获得所述基本合成单元的基频合成参数。

优选地，所述根据简谱标注获取各基本合成单元的基频合成参数包括：

利用简谱标注中的基调及音高信息，计算各基本合成单元的基频合成参数。

优选地，所述方法还包括：

基于最小误差原则对根据简谱标注获取的各基本合成单元的基频合成参数进行优化。

优选地，所述根据简谱标注确定对应所述各基本合成单元的基频合成模型，得到基频合成模型序列包括：

根据所述简谱标注获取各基本合成单元的上下文属性；

根据所述上下文属性在预先训练得到的各基本合成单元的基频合成模型决策树中分别确定对应所述基本合成单元的基频合成模型；

拼接所述各基本合成单元的基频合成模型得到基频合成模型序列。

优选地，所述利用所述第一融合参数和所述基频合成模型序列进行融合优化，获得所述基本合成单元的基频合成参数包括：

获取所述基频合成模型序列的似然度总和函数；

使所述似然度总和最大化，得到各基本合成单元的基频合成参数，并将其作为第二融合参数；

对所述基本合成单元的第一融合参数和第二融合参数进行加权平均，获得所述基本合成单元的基频合成参数。

获取所述基频合成模型序列的似然度总和函数；

根据所述第一融合参数确定约束条件；

使所述似然度总和在所述约束条件下最大化，得到各基本合成单元的基频合成参数。

一种歌唱合成系统中基频合成参数生成系统，包括：

简谱获取模块，用于获取待合成简谱；

确定模块，用于确定所述简谱的各基本合成单元；

第一融合参数获取模块，用于根据简谱标注获取各基本合成单元的基频合成参数，并将其作为第一融合参数；

模型序列确定模块，用于根据简谱标注确定对应所述各基本合成单元的基频合成模型，得到基频合成模型序列；

融合模块，用于利用所述第一融合参数和所述基频合成模型序列进行融合优化，获得所述基本合成单元的基频合成参数。

优选地，所述第一融合参数获取模块，具体用于利用简谱标注中的基调及音高信息，计算各基本合成单元的基频合成参数。

优选地，所述系统还包括：

优化模块，用于基于最小误差原则对根据简谱标注获取的各基本合成单元的基频合成参数进行优化。

优选地，所述模型序列确定模块包括：

上下文属性获取单元，用于根据所述简谱标注获取各基本合成单元的上下文属性；

基频合成模型获取单元，用于根据所述上下文属性在预先训练得到的各基本合成单元的基频合成模型决策树中分别确定对应所述基本合成单元的基频合成模型；

模型序列确定单元，用于拼接所述各基本合成单元的基频合成模型得到基频合成模型序列。

优选地，所述融合模块包括：

计算单元，用于获取所述基频合成模型序列的似然度总和函数；

第二融合参数获取单元，用于使所述似然度总和最大化，得到各基本合成单元的基频合成参数，并将其作为第二融合参数；

加权单元，用于对所述基本合成单元的第一融合参数和第二融合参数进行加权平均，获得所述基本合成单元的基频合成参数。

优选地，所述融合模块包括：

约束条件确定单元，用于根据所述第一融合参数确定约束条件；

优化单元，用于使所述似然度总和在所述约束条件下最大化，得到各基本合成单元的基频合成参数。

本发明实施例提供的歌唱合成系统中基频合成参数生成方法及系统与现有技术相比的优点在于：现有技术是直接使用从简谱中得到的基频、或直接根据模型生成基频，对于使用从简谱中得到的基频，对任何发音人均使用这个基频参数，对于很多音色有特性的用户，其基频的分布对其音色有很重要的影响，比如在一个词的末尾基频有明显下降，如果完全使用简谱中描述的基频、或对其范围进行调整后再使用，则合成语音与目标发音人的音色相似度将大大降低，但如果直接使用合成模型生成的基频，则会由于生成基频不准确而导致出现较明显的走调现象。而利用本发明实施例的方法及系统，可以使合成语音在保留较高相似度和表现力的前提下，不会有明显的走调现象，在相似度、表现力和合成效果之间做出了很好的折中，从而可以使合成语音在保留较高相似度和表现力的前提下，避免有明显的走调现象。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例歌唱合成系统中基频合成参数生成方法的流程图；

图2是本发明实施例中合成单元的各状态对应的合成参数模型示意图；

图3是本发明实施例歌唱合成系统中基频合成参数生成系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

语音基频的分布对音色有很重要的影响，比如在一个词的末尾基频有明显下降，如果完全使用简谱中描述的基频、或对其范围进行调整后再使用，则合成语音与目标发音人的音色相似度将大大降低，但如果直接使用合成模型生成的基频，则会由于生成基频不准确而导致出现较明显的走调现象。

为此，本发明实施例提供一种歌唱合成系统中基频合成参数生成方法及系统，预先采集歌唱数据训练得到歌唱合成的基频合成参数模型。在对待合成简谱合成时，首先根据基频合成参数模型生成基频合成参数参考值，然后根据简谱中描述的音高获得基频合成参数理论值，最后结合基频合成参数参考值和理论值对基频参数进行优化。从而可以使合成语音在保留较高相似度和表现力的前提下，不会有明显的走调现象。

如图1所示，是本发明实施例歌唱合成系统中基频合成参数生成方法的流程图，包括以下步骤：

步骤101，获取待合成简谱。

步骤102，确定所述简谱的各基本合成单元。

具体地，可以对待合成简谱进行信息分析，得到音素序列、以及所述音素序列对应的韵律词和韵律短语等信息，将所述音素序列中的各音素作为基本合成单元。

步骤103，根据简谱标注获取各基本合成单元的基频合成参数，并将其作为第一融合参数。

具体地，可以利用简谱标注中的基调及音高信息，计算各基本合成单元的基频合成参数，计算公式如下：

F0_rule=440*2^(p-69)/12 ①

其中，F0_rule为目标基频值，440表示中央C上A音符发出的频率（单位为HZ），p为当前简谱中描述的音高与中央C上A音符的距离，单位为半音（在钢琴上相邻的两个键所拥有的音程）。

进一步地，考虑到由于不同人的音域存在差异，不同人在演唱同样的歌曲时，基调的选择可能并不一致，而上面计算得到的基频合成参数F0_rule是直接根据简谱计算得到的，与原演唱者的基频范围可能不一致，会使得合成出来的声音听起来奇怪、影响听感。为此，在本发明实施例中，还可以基于最小误差原则对根据简谱标注获取的各基本合成单元的基频合成参数F0_rule进行优化。

一种具体的优化过程如下：

遍历-15～+15（单位为半音）基调，结合之前生成的F0_rule，得到新的基频F0_new_bt：

F0_new_bt=F0_rule*2^bt/12 ②

其中，bt的范围为-15～+15。

计算不同bt值下F0_new_bt与生成基频F0_gen的误差：

{RMSE}_{bt} = Σ_{i = 1}^{N} (F 0_{new}_{bt, i} - F 0_{gen}_{i})

③

其中，N表示语音总帧数。

选择具有最小误差的F0_new_bt作为优化目标基频，记为F0_tmp。

步骤104，根据简谱标注确定对应所述各基本合成单元的基频合成模型，得到基频合成模型序列。

所述基频合成模型可以预先采用传统的合成参数模型训练方法，具体地，预先录制大量歌唱语音训练数据并根据对应歌词标注信息（也包括简谱中的音高和时值等信息）训练得到各基本合成单元的基频合成模型及对应的决策树，其具体实现如下：

（1）采集训练数据，获取歌唱风格语音，并进行相应标注。

所述标注信息包括音素序列、音段切分、韵律词、韵律短语、以及音乐相关音高和时值信息等。

（2）提取所述语音对应的基频参数。

（3）训练基频合成模型，即使用歌唱风格语音对应的基频参数和相应的标注信息训练歌唱风格基频合成模型，以及相应的决策树。

模型训练时采用二叉树节点分裂的方式获取二叉决策树。

具体地，首先设置仅包含根节点的二叉决策树并设置根节点为新的考察节点。随后依次挑选预设问题集中所有问题对当前考察节点的数据进行分裂尝试，并选择具有最大样本分裂度的问题为优选问题。接着根据分裂后样本聚集度和/或分裂后子节点中样本数据规模判断是否分裂。若分裂后样本聚集度下降幅度小于设定的阈值或子节点中样本数据量小于设定的门限，则设置当前考察节点为叶节点不再分裂；否则按照最优问题对其分裂，并获取子节点和对应的样本数据。所述样本聚集度即样本分散程度。一般来说分散度越大则说明该节点分裂的可能性越大，否则分裂的可能性越小。在本发明实施例中，可以考虑采用样本方差来衡量节点聚集度，即计算节点包含的所有样本数据距离该类中心的距离（或距离平方）的平均值。

通过上述方法获得二叉决策树，并确定各叶节点对应的训练数据。

然后利用各叶节点的训练数据，即所述基频参数训练得到各叶节点所对应的基频合成模型。

在采用基于HMM模型的参数合成模型时，可以对HMM模型的各状态分别建模，图2展示了合成单元的各状态（2，3，4，5，6状态）分别对应的合成参数模型。

根据简谱标注确定所述各基本合成单元的基频合成模型，得到基频合成模型序列的具体过程如下：

（1）根据简谱标注获取各基本合成单元的上下文属性，所述上下文属性可以是音素序列、韵律词、韵律短语、以及音乐相关音高和时值信息等。

（2）根据所述上下文属性在预先训练得到的各基本合成单元的基频合成模型决策树中分别确定对应所述基本合成单元的基频合成模型。

具体可以根据所述二叉决策树从根节点开始根据所述上下文属性逐层向下推论至叶子节点，获取叶子节点对应的基频合成模型。

（3）按照先后顺序拼接各基本合成单元的基频合成模型得到基频合成模型序列。

步骤105，利用所述第一融合参数和所述基频合成模型序列进行融合优化，获得所述基本合成单元的基频合成参数。

在实际应用中，可以有多种不同的融合优化方式，下面举例进行详细说明。

第一种融合优化方式:

在该融合优化方式中，首先利用所述基频合成模型序列得到基于基频合成模型的各基本合成单元的基频合成参数，并将其作为第二融合参数，然后对各基本合成单元的第一融合参数和第二融合参数进行加权平均，获得所述基本合成单元的基频合成参数。具体过程如下：

（1）获取所述基频合成模型序列的似然度总和函数。

基频合成模型序列的似然度总和的计算如下：

\log P (WC | Q, λ) = - \frac{1}{2} C^{T} W^{T} U^{- 1} WC + C^{T} W^{T} U^{- 1} M + const

④

其中，M和U分别为基频合成模型的均值和协方差矩阵，C为基频合成参数，W为计算动态参数的窗函数矩阵。Q表示基频参数模型中的状态分配，λ表示基频合成模型。

（2）使似然度总和最大化，得到各基本合成单元的基频合成参数。

对应各基本合成单元的基频合成参数为：

C=(W^TU^-1W)^-1W^TU^-1M ⑤

（3）对所述基本合成单元的第一融合参数和第二融合参数进行加权平均，获得所述基本合成单元的基频合成参数。

对于很多音色有特性的用户，其基频的分布对其音色有很重要的影响，比如在一个词的末尾基频有明显下降，如果完全使用简谱中描述的基频，或对其范围进行调整后再使用，则合成语音略显呆板、并且与目标发音人的音色相似度将大大降低，但如果直接使用合成模型生成的基频，则会存在明显的走调现象。

为此，本发明实施例将简谱中描述的基频与目标发音人歌唱风格合成模型生成的基频进行融合，兼容两者优势。

基本合成单元的基频合成参数为：

F0_use_i=w*F0_tmp_i+(1-w)*F0_gen_i ⑥

其中，w为叠加权重，F0_tmp_i和F0_gen_i分别是对应基本合成单元i的第一融合参数和第二融合参数。

在实际应用中，w可以取（0，1）之间的正数，具体数值可由系统预先在调试集上训练得到，比如，可以设置w=0.7。

第二种融合优化方式:

在该融合优化方式中，直接利用上述第一融合参数对所述基频合成模型序列进行融合优化，得到各基本合成单元的基频合成参数。具体过程如下：

（1）获取基频合成模型序列的似然度总和函数。

具体计算公式可参照上述公式④，在此不再详细描述。

（2）根据第一融合参数确定约束条件，具体如下所示：

min{(C-Y)^T(C-Y)u_g ^-1}=min{C^TCu_g ^-1+C^TYu_g ^-1+Y^TCu_g ^-1+const}⑦

其中，Y为上面所述的第一融合参数F0_tmp，u_g为自然基频参数的全局方差。

该约束条件反映了生成的基频参数C和根据简谱标注获取的各基本合成单元的基频合成参数F0_tmp之间的差异，是生成的基频参数C的函数。

（3）使所述似然度总和在所述约束条件下最大化，得到各基本合成单元的基频合成参数。

具体地，可以设定目标函数为频谱模型似然度总和与所述约束条件的加权和，如下所示：

arg max log P(WC|Q,λ)-α(C-Y)^T(C-Y)u_g ^-1 ⑧

计算目标函数的函数值，并对参数C进行优化，使目标函数最大化，从而得到基本合成单元的基频合成参数C如下：

C=(W^TU^-1W+2αIu_g ^-1)^-1(W^TU^-1M+2αYu_g ^-1) ⑨

其中，α是预设的阈值矢量，用于调整优化的基频参数的倾向度。一般来说，α的值越大，则优化的基频参数特征越接近于根据简谱标注获取的基频合成参数。在具体应用中，可以选择权重α为[10，100]间的数值。

通过该加权目标函数的优化生成的基频合成参数具有如下特征：在整体分布上满足简谱标注，而在细节上又符合发音人的发音特性，在保证合成效果的前提下，具有较强的表现力。

本发明实施例提供的歌唱合成系统中基频合成参数生成方法，可以使合成语音在保留较高相似度和表现力的前提下，不会有明显的走调现象，在相似度、表现力和合成效果之间做出了很好的折中，从而可以使合成语音在保留较高相似度和表现力的前提下，避免有明显的走调现象。

所述基频合成参数优化方案可以同等地适用于频谱、时长等其他歌唱合成参数。

相应地，本发明实施例还提供一种歌唱合成系统中基频合成参数生成系统，如图3所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

简谱获取模块301，用于获取待合成简谱。

确定模块302，用于确定所述简谱的各基本合成单元。具体地，可以对待合成简谱进行信息分析，得到音素序列、以及所述音素序列对应的韵律词和韵律短语等信息，将所述音素序列中的各音素作为基本合成单元。

第一融合参数获取模块303，用于根据简谱标注获取各基本合成单元的基频合成参数，并将其作为第一融合参数。

模型序列确定模块304，用于根据简谱标注确定对应所述各基本合成单元的基频合成模型，得到基频合成模型序列。

融合模块305，用于利用所述第一融合参数和所述基频合成模型序列进行融合优化，获得所述基本合成单元的基频合成参数。

上述第一融合参数获取模块303具体可以利用简谱标注中的基调及音高信息，计算各基本合成单元的基频合成参数，具体计算公式可参照前面公式①。

进一步地，考虑到由于不同人的音域存在差异，不同人在演唱同样的歌曲时，基调的选择可能并不一致，而上面公式①计算得到的基频合成参数F0_rule是直接根据简谱计算得到的，与原演唱者的基频范围可能不一致，会使得合成出来的声音听起来奇怪、影响听感。为此，在本发明实施例的系统中，还可以进一步设置优化模块（未图示），用于基于最小误差原则对根据简谱标注获取的各基本合成单元的基频合成参数F0_rule进行优化，具体优化过程参照前面本发明实施例的方法中的描述，在此不再赘述。

上述基频合成模型可以预先采用传统的合成参数模型训练方法，具体地，预先录制大量歌唱语音训练数据并根据对应歌词标注信息（也包括简谱中的音高和时值等信息）训练得到各基本合成单元的基频合成模型。

相应地，所述模型序列确定模块304的一种实现方式可以包括：

其中，所述上下文属性获取单元具体可以根据各基本合成单元的音高和时值，确定所述基本合成单元的上下文属性。

在实际应用中，融合模块305可以采用多种不同的融合优化方式获得所述基本合成单元的基频合成参数。

比如，在融合模块305的一种具体实现方式中，可以首先利用所述基频合成模型序列得到基于基频合成模型的各基本合成单元的基频合成参数，并将其作为第二融合参数，然后对各基本合成单元的第一融合参数和第二融合参数进行加权平均，获得所述基本合成单元的基频合成参数。相应地，融合模块305的一种具体实现结构包括：

再比如，在融合模块305的另一种具体实现方式中，可以直接利用上述第一融合参数对所述基频合成模型序列进行融合优化，得到各基本合成单元的基频合成参数。相应地，融合模块305的另一种具体实现结构包括：

上述各单元的具体计算过程可参照前面本发明方法实施例中的相关描述，在此不再赘述。

本发明实施例提供的歌唱合成系统中基频合成参数生成系统，可以使合成语音在保留较高相似度和表现力的前提下，不会有明显的走调现象，在相似度、表现力和合成效果之间做出了很好的折中，从而可以使合成语音在保留较高相似度和表现力的前提下，避免有明显的走调现象。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种歌唱合成系统中基频合成参数生成方法，其特征在于，包括：

获取待合成简谱；

确定所述简谱的各基本合成单元；

2.根据权利要求1所述的方法，其特征在于，所述根据简谱标注获取各基本合成单元的基频合成参数包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据简谱标注确定对应所述各基本合成单元的基频合成模型，得到基频合成模型序列包括：

根据所述简谱标注获取各基本合成单元的上下文属性；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述利用所述第一融合参数和所述基频合成模型序列进行融合优化，获得所述基本合成单元的基频合成参数包括：

获取所述基频合成模型序列的似然度总和函数；

6.根据权利要求1至4任一项所述的方法，其特征在于，所述利用所述第一融合参数和所述基频合成模型序列进行融合优化，获得所述基本合成单元的基频合成参数包括：

获取所述基频合成模型序列的似然度总和函数；

根据所述第一融合参数确定约束条件；

7.一种歌唱合成系统中基频合成参数生成系统，其特征在于，包括：

简谱获取模块，用于获取待合成简谱；

确定模块，用于确定所述简谱的各基本合成单元；

8.根据权利要求7所述的系统，其特征在于，

所述第一融合参数获取模块，具体用于利用简谱标注中的基调及音高信息，计算各基本合成单元的基频合成参数。

9.根据权利要求8所述的系统，其特征在于，所述系统还包括：

10.根据权利要求7所述的系统，其特征在于，所述模型序列确定模块包括：

11.根据权利要求7至10任一项所述的系统，其特征在于，所述融合模块包括：

12.根据权利要求7至10任一项所述的系统，其特征在于，所述融合模块包括：