CN109326277B

CN109326277B - 半监督的音素强制对齐模型建立方法及系统

Info

Publication number: CN109326277B
Application number: CN201811481756.7A
Authority: CN
Inventors: 王昆
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2022-02-08
Anticipated expiration: 2038-12-05
Also published as: CN109326277A

Abstract

本发明提出一种半监督的音素强制对齐模型建立方法及系统，属于语音合成领域。本发明解决了目前强制对齐方法存在对齐偏差较大，而对齐偏差会影响后端模型语音合成的效果，造成合成语音不够自然、连贯的问题，其技术方案要点为：方法包括：首先，获取模型训练数据；其次，提取原始语音样本MFCC特征；然后，单音素GMM模型训练，获取初步音素对齐状态序列；最后，三音素GMM模型训练，通过引入有监督项来对GMM模型参数进行估计更新，确定模型参数，获取对应的三音素GMM模型，得到目标音素强制对齐模型。系统包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块。本发明的有益效果是：能够提高语音数据利用率及对齐准确率。

Description

半监督的音素强制对齐模型建立方法及系统

技术领域

本发明涉及语音合成技术，特别涉及半监督的音素强制对齐模型建立方法及系统的技术。

背景技术

语音合成系统由前端和后端两个模块构成，用于将一段文本内容通过分析和建模后转换为一段音频文件。前端主要包括原始文本正则化、中文分词、发音预测、韵律结构预测和强制对齐等操作，用于指导后端模型将文本转换成对应的音频。由于语音本身的复杂性和开放性，前端处理一直是传统语音合成的一个重点。前端模块的其中一个模型为音素强制对齐模型，音素强制对齐是指对于文本标注的每个片段——音素，确定包含的音频文件的时间间隔的一种模型。

传统语音合成技术中的强制对齐方法是根据语音样本和对应的文本标注样本集来进行建模，实现音素和语音的对齐，由于语音文件的人工对齐标注工作量大、难度高，大多强制对齐方法没有将语音数据对应的对齐标记纳入考虑，是一种无监督的建模过程。但是传统技术的强制对齐方法存在对齐偏差较大的问题，而对齐偏差会影响后端模型语音合成的效果，造成合成语音不够自然、连贯。

发明内容

本发明的目的是提供一种半监督的音素强制对齐模型建立方法及系统，解决目前强制对齐方法存在对齐偏差较大，而对齐偏差会影响后端模型语音合成的效果，造成合成语音不够自然、连贯的问题。

本发明解决其技术问题，采用的技术方案是：半监督的音素强制对齐模型建立方法，包括如下步骤：

步骤1、获取训练数据，所述训练数据包括原始语音样本集和对应的文本标注样本集，其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本；

步骤2、根据音素字典将所述文本标注样本集中的文本标注样本生成音素标注样本；

步骤3、将所述原始语音样本进行分帧，然后提取每一帧语音样本的MFCC特征序列；

步骤4、通过有对齐标记的语音样本对应的特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化，将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练，输出对应的初步音素对齐状态序列；

步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM，将所述MFCC及其补充特征输入三音素GMM进行训练，输出对应的预测音素对齐状态序列；

步骤6、通过在模型参数估计过程中引入有监督项来对GMM模型参数进行更新，确定所述三音素GMM模型的参数，获取对应的三音素GMM模型，得到目标音素强制对齐模型，其中音素强制对齐模型包括单音素GMM和三音素GMM两个子模型。

进一步的是，步骤4具体包括如下步骤：

步骤401、根据所述有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差，即CMVN操作，然后根据所述音素标注样本创建共享音素列表，对每一组共享音素的每一个状态创建只有一个分量的GMM；

步骤402、通过所述特征的均值和方差初始化GMM模型参数，将GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为对齐标记语音样本特征的方差；

步骤403、根据所述每个原始语音样本特征构建解码图，然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列；

步骤404、根据MFCC特征序列和对应的状态序列计算GMM训练所需的统计量,更新HMM转移概率矩阵；

步骤405、更新所述单音素GMM模型参数，并在每一轮训练时不断增加GMM分量直到指定对齐循环次数，输出初步音素对齐状态序列。

进一步的是，步骤5具体包括如下步骤：

步骤501、将所述单音素复制为三音素，然后将单音素表示的初步音素对齐状态序列转换成三音素对齐状态序列；

步骤502、对于每一帧语音特征和与其相应的三音素对齐状态序列，计算GMM训练所需统计量；

步骤503、将固定某一中间音素的所有三音素的统计量累加，根据三音素累加统计量对所有三音素进行聚类，生成决策树问题集，构建决策树，其中，所述决策树问题集包括音素位置问题集和HMM状态位置问题集两个子集；

步骤504、根据所述决策树和累加统计量初始化三音素GMM模型；

步骤505、将所述初步音素对齐状态序列、决策树输入三音素GMM模型进行训练，分裂或合并单高斯直到指定高斯数目，输出对应的预测音素对齐状态序列。

进一步的是，步骤6具体包括如下步骤：

步骤601、计算三音素GMM模型输入样本的对数似然，其中，对数似然如下两个部分：基于有对齐标记样本的有监督项和基于待对齐样本的无监督项；

步骤602、通过EM算法求解高斯混合模型参数，迭代更新模型参数直到收敛，获得三音素GMM模型参数，得到对应的三音素GMM模型，与所述的单音素GMM模型组成目标音素强制对齐模型。

进一步的是，步骤403具体包括如下步骤：

步骤4031、根据所述音素标注样本、GMM模型生成字典解码图L.fst和语言模型解码图G.fst；

步骤4032、通过所述字典解码图L.fst和语言模型解码图G.fst生成LG.fst，将所述文本标注样本扩展为音素；

步骤4033、将所述LG.fst和上下文解码图C.fst组合生成CLG.fst；

步骤4034、根据HMM拓扑结构、转移概率和决策树，构建不包括自转移的声学模型Ha.fst，其中，每个转移的输入为一个HMM状态；

步骤4035、将所述Ha.fst和CLG.fst组合，通过确定化、去除空转移和最小化，得到HCLGa.fst；

步骤4036、通过增加每个HMM状态的自转移构建较大解码图，生成单音素解码图HCLG.fst。

半监督的音素强制对齐系统，应用于所述的半监督的音素强制对齐模型建立方法，包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块；

所述数据获取模块，用于获取训练据，所述训练数据包括原始语音样本集和对应的文本标注样本集，其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本；

所述音素转化模块，用于将所述的文本标注样本集中的文本标注样本转化成对应的音素标注样本；

所述特征提取模块，用于将原始语音样本集中的语音样本转化成MFCC特征；所述训练模块，用于将所述MFCC特征和对应的音素标注样本输入单音素和三音素GMM模型进行训练；

所述对齐预测模块，用于将所述MFCC特征和对应的音素标注样本在模型中进行转换和计算，输出对应的预测音素对齐状态序列；

所述模型建立模块，用于引入有对齐标记数据的有监督项对模型参数进行估计和更新，确定三音素GMM模型的参数，与所述单音素GMM模型组成目标音素强制对齐模型。

具体的是，所述训练模块包括声学特征获取单元、初始化单元、解码图编译单元、单音素模型训练单元及三音素模型训练单元；

所述声学特征获取单元，用于根据特征提取模块得到模型输入MFCC特征矩阵，将输入MFCC特征矩阵中的有对齐标记的特征数据进行计算，得到每一维均值和方差；

所述初始化单元，用于根据所述均值和方差初始化单音素GMM的均值和方差；

所述解码图编译单元，用于生成与MFCC特征对齐的HMM状态序列时所需的每个语音样本对应音素标注样本的解码图；

所述单音素模型训练单元，用于根据Viterbi训练单音素GMM模型，首先，通过初始模型对MFCC特征数据进行均匀对齐，得到每一帧特征对应的HMM状态序列，然后，根据特征序列和对应HMM状态序列计算转移概率矩阵更新HMM状态，得到一个HMM状态对应的所有GMM所对应观测样本，最后，根据GMM对应的所有观测样本和当前参数采用最大似然估计更新GMM参数；

所述三音素模型训练单元，用于根据Baum-Welch训练三音素GMM模型，首先，获取所有三音素，对于每一帧特征，通过其对应的对齐序列获取对应的HMM状态，计算其统计量，其中，统计量包括音素出现次数和该语音特征的均值和方差，然后，根据累计共享音素的统计量对所有三音素构建决策树进行聚类，最后，根据决策树和决策树统计量初始化三音素GMM模型，通过每个GMM概率密度所占分量分裂或合并高斯数目，直到指定数量，更新三音素GMM模型。

具体的是，所述对齐预测模块包括模型获取单元及对齐预测单元；

所述模型获取单元，用于获取训练模块训练好的单音素GMM模型、三音素GMM模型、决策树和初步音素对齐状态序列；

所述对齐预测单元，用于将单音素表示的初步音素对齐状态序列映射为三音素对齐状态序列，根据决策树将单音素模型中音素对应的HMM状态转换成三音素中的HMM状态，通过EM更新GMM模型参数，输出新的音素对齐状态序列。

本发明的有益效果是，通过上述半监督的音素强制对齐模型建立方法及系统，能够提高对齐准确度及语音数据利用率，并且提升了传统语音合成前端文本处理效果。

附图说明

图1为本发明半监督的音素强制对齐模型建立方法的流程图；

图2为本发明半监督的音素强制对齐系统的结构框图；

图3为实施例中生成音素标注样本的步骤的示意图；

图4为实施例中获取初步音素对齐状态序列的步骤示意图；

图5为实施例中获取预测三音素对齐状态序列的原理示意图；

图6为实施例中引入有监督项对GMM模型参数进行更新的原理示意图。

具体实施方式

下面结合实施例及附图，详细描述本发明的技术方案。

本发明所述半监督的音素强制对齐模型建立方法，其流程图参见图1，该方法包括如下步骤：

步骤1、获取训练数据，所述训练数据包括原始语音样本集和对应的文本标注样本集，其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本。

步骤2、根据音素字典将所述文本标注样本集中的文本标注样本生成音素标注样本。

步骤3、将所述原始语音样本进行分帧，然后提取每一帧语音样本的MFCC特征序列。

步骤4、通过有对齐标记的语音样本对应的特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化，将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练，输出对应的初步音素对齐状态序列；这里，步骤4具体可包括如下步骤：

步骤403、根据所述每个原始语音样本特征构建解码图，然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列；实际中，步骤403具体可包括如下步骤：

步骤4033、将所述LG.fst和上下文解码图C.fst组合生成CLG.fst；

步骤4036、通过增加每个HMM状态的自转移构建较大解码图，生成单音素解码图HCLG.fst；

步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM，将所述MFCC及其补充特征输入三音素GMM进行训练，输出对应的预测音素对齐状态序列；这里，步骤5具体可包括如下步骤：

步骤6、通过在模型参数估计过程中引入有监督项来对GMM模型参数进行更新，确定所述三音素GMM模型的参数，获取对应的三音素GMM模型，得到目标音素强制对齐模型，其中音素强制对齐模型包括单音素GMM和三音素GMM两个子模型；这里，步骤6具体可包括如下步骤：

半监督的音素强制对齐系统，应用于所述的半监督的音素强制对齐模型建立方法，包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块，其结构框图参见图2，其中：

数据获取模块，用于获取训练据，训练数据包括原始语音样本集和对应的文本标注样本集，其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本；音素转化模块，用于将所述的文本标注样本集中的文本标注样本转化成对应的音素标注样本；特征提取模块，用于将原始语音样本集中的语音样本转化成MFCC特征；训练模块，用于将所述MFCC特征和对应的音素标注样本输入单音素和三音素GMM模型进行训练；对齐预测模块，用于将所述MFCC特征和对应的音素标注样本在模型中进行转换和计算，输出对应的预测音素对齐状态序列；模型建立模块，用于引入有对齐标记数据的有监督项对模型参数进行估计和更新，确定三音素GMM模型的参数，与所述单音素GMM模型组成目标音素强制对齐模型。

具体地，训练模块包括声学特征获取单元、初始化单元、解码图编译单元、单音素模型训练单元及三音素模型训练单元；声学特征获取单元，用于根据特征提取模块得到模型输入MFCC特征矩阵，将输入MFCC特征矩阵中的有对齐标记的特征数据进行计算，得到每一维均值和方差；初始化单元，用于根据所述均值和方差初始化单音素GMM的均值和方差；解码图编译单元，用于生成与MFCC特征对齐的HMM状态序列时所需的每个语音样本对应音素标注样本的解码图；单音素模型训练单元，用于根据Viterbi训练单音素GMM模型，首先，通过初始模型对MFCC特征数据进行均匀对齐，得到每一帧特征对应的HMM状态序列，然后，根据特征序列和对应HMM状态序列计算转移概率矩阵更新HMM状态，得到一个HMM状态对应的所有GMM所对应观测样本，最后，根据GMM对应的所有观测样本和当前参数采用最大似然估计更新GMM参数；三音素模型训练单元，用于根据Baum-Welch训练三音素GMM模型，首先，获取所有三音素，对于每一帧特征，通过其对应的对齐序列获取对应的HMM状态，计算其统计量，其中，统计量包括音素出现次数和该语音特征的均值和方差，然后，根据累计共享音素的统计量对所有三音素构建决策树进行聚类，最后，根据决策树和决策树统计量初始化三音素GMM模型，通过每个GMM概率密度所占分量分裂或合并高斯数目，直到指定数量，更新三音素GMM模型。

实际中，对齐预测模块可包括模型获取单元及对齐预测单元；模型获取单元，用于获取训练模块训练好的单音素GMM模型、三音素GMM模型、决策树和初步音素对齐状态序列；对齐预测单元，用于将单音素表示的初步音素对齐状态序列映射为三音素对齐状态序列，根据决策树将单音素模型中音素对应的HMM状态转换成三音素中的HMM状态，通过EM更新GMM模型参数，输出新的音素对齐状态序列。

实施例

本发明实施例半监督的音素强制对齐模型建立方法，在半监督的强制对齐系统的基础上，可包括如下具体步骤：

一、获取训练数据。

所述训练数据包括原始语音样本集和对应的文本标注样本集，其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本。

二、根据音素字典生成音素标注样本。

具体地，如图3所示，对文本标注样本集中的文本信息标注进行处理，获得对应的拼音信息，通过给定中文音素字典对拼音信息进行处理，获得对应的音素状态信息，其中“zhang4”表示“丈”，“4”表示拼音对应的声调。“sil”表示语音样本前后的静音状态。

三、将所述原始语音样本进行分帧，然后提取每一帧语音样本的MFCC特征序列。

如图4所示，根据MFCC特征和声学特征训练单音素GMM模型，具体包括如下步骤：

1)根据有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差，即CMVN操作，然后根据所述音素标注样本创建共享音素列表，对每一组共享音素的每一个状态创建只有一个分量的GMM；

2)通过特征的均值和方差初始化GMM模型参数，将GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为对齐标记语音样本特征的方差；

3)根据所述每个原始语音样本特征构建解码图，然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列；

4)根据MFCC特征序列和对应的状态序列计算GMM训练所需的统计量,更新HMM转移概率矩阵；

5)更新单音素GMM模型参数，并在每一轮训练时不断增加GMM分量直到指定对齐循环次数，输出初步音素对齐状态序列。

四、根据初步音素对齐状态序列构建三音素GMM模型。

如图5所示，通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM，将所述MFCC及其补充特征输入三音素GMM进行训练。

五、确定三音素GMM模型参数，得到目标音素强制对齐模型。

如图6所示，计算三音素GMM模型输入样本的对数似然，其中，对数似然由两部分组成：基于有对齐标记样本的有监督项和基于待对齐样本的无监督项,对数似然公式为：

其中，D_l表示有对齐标记的输入样本集，D_u表示待对齐输入样本集，所有样本独立同分布，混合系数

p(x_j|μ_i,Σ_i)表示样本x_j属于第i个高斯混合分量的概率，μ_i,Σ_i表示该高斯混合分量的参数；

通过EM(Expectation-Maximization)算法求解高斯混合模型参数，迭代更新模型参数直到收敛，更新式如下：

E步：根据初始模型参数计算待对齐数据特征样本xj属于各GMM分量的后验概率；

M步：基于后验概率更新模型参数{(αi,μi,Σi)|1≤i≤N}。

每个GMM分量的混合系数αi由特征样本属于该分量的平均后验概率确定。上述过程迭代直至收敛，获得三音素GMM模型参数，得到对应的三音素GMM模型，与单音素GMM模型组成目标音素强制对齐模型。

Claims

1.半监督的音素强制对齐模型建立方法，其特征在于，包括如下步骤：

步骤3、将所述原始语音样本集进行分帧，然后提取每一帧语音样本的MFCC特征序列；

步骤4、通过有对齐标记的语音样本对应的MFCC特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化，将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练，输出对应的初步音素对齐状态序列；

步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM，将所述MFCC特征及其补充特征输入三音素GMM进行训练，输出对应的预测音素对齐状态序列；

步骤6、通过在模型参数估计过程中引入有监督项来对三音素GMM模型参数进行更新，确定所述三音素GMM模型的参数，获取对应的三音素GMM模型，得到目标音素强制对齐模型，其中目标音素强制对齐模型包括单音素GMM和三音素GMM两个子模型；

所述通过在模型参数估计过程中引入有监督项来对三音素GMM模型参数进行更新，具体包括如下步骤：

步骤601、计算三音素GMM模型输入样本的对数似然，其中，对数似然包括如下两个部分：基于有对齐标记语音样本的有监督项和基于待对齐语音样本的无监督项，对数似然公式为：

步骤602、通过EM算法求解高斯混合模型参数，更新式如下：

E步：根据初始模型参数计算待对齐数据特征样本x_j属于各GMM分量的后验概率；

M步：基于后验概率更新模型参数{(α_i,μ_i,Σ_i)|1≤i≤N}；

每个GMM分量的混合系数α_i由特征样本属于该分量的平均后验概率确定；

上述步骤601-602迭代直至收敛。

2.根据权利要求1所述的半监督的音素强制对齐模型建立方法，其特征在于，步骤4具体包括如下步骤：

步骤401、根据所述有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差，即CMVN操作，然后根据所述音素标注样本创建共享音素列表，对每一组共享音素的每一个状态创建只有一个分量的单音素GMM；

步骤402、通过所述均值和方差初始化单音素GMM模型参数，将单音素GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为有对齐标记语音样本特征的方差；

步骤403、根据每个原始语音样本构建解码图，然后根据原始语音样本的每一帧MFCC特征和对应的解码图获取音素均匀对齐状态序列；

步骤404、根据MFCC特征序列和对应的音素均匀对齐状态序列计算单音素GMM训练所需的统计量,更新HMM转移概率矩阵；

步骤405、更新所述单音素GMM模型参数，并在每一轮训练时不断增加单音素GMM分量直到指定对齐循环次数，输出初步音素对齐状态序列。

3.根据权利要求1所述的半监督的音素强制对齐模型建立方法，其特征在于，步骤5具体包括如下步骤：

步骤501、将单音素复制为三音素，然后将单音素表示的初步音素对齐状态序列转换成三音素对齐状态序列；

步骤502、对于每一帧MFCC特征和与其相应的三音素对齐状态序列，计算三音素GMM训练所需统计量；

4.根据权利要求2所述半监督的音素强制对齐模型建立方法，其特征在于，步骤403具体包括如下步骤：

步骤4031、根据所述音素标注样本、单音素GMM模型生成字典解码图L.fst和语言模型解码图G.fst；

步骤4033、将所述LG.fst和上下文解码图C.fst组合生成CLG.fst；

5.半监督的音素强制对齐系统，应用于权利要求1-4任意一项所述的半监督的音素强制对齐模型建立方法，其特征在于，包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块；

所述特征提取模块，用于将原始语音样本集中的语音样本转化成MFCC特征序列；

所述训练模块，用于将所述MFCC特征和对应的音素标注样本输入单音素和三音素GMM模型进行训练，包括：通过有对齐标记的语音样本对应的MFCC特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化，将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练，输出对应的初步音素对齐状态序列；

所述对齐预测模块，用于通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM，将所述MFCC特征及其补充特征输入三音素GMM进行训练，输出对应的预测音素对齐状态序列；

所述模型建立模块，用于引入有对齐标记数据的有监督项对模型参数进行估计和更新，包括：

其中，D_l表示有对齐标记的输入样本集，D_u表示待对齐输入样本集，所有样本独立同分布，混合系数α_i≥0,

步骤602、通过EM算法求解高斯混合模型参数，更新式如下：

M步：基于后验概率更新模型参数{(α_i,μ_i,Σ_i)|1≤i≤N}；

上述步骤601-602迭代直至收敛，获得三音素GMM模型参数，得到对应的三音素GMM模型，与所述的单音素GMM模型组成目标音素强制对齐模型。

6.根据权利要求5所述的半监督的音素强制对齐系统，其特征在于，所述训练模块包括声学特征获取单元、初始化单元、解码图编译单元、单音素模型训练单元及三音素模型训练单元；

所述声学特征获取单元，用于根据特征提取模块得到模型输入MFCC特征矩阵，将输入MFCC特征矩阵中的有对齐标记的特征序列进行计算，得到每一维均值和方差；

所述三音素模型训练单元，用于根据Baum-Welch训练三音素GMM模型，首先，获取所有三音素，对于每一帧MFCC特征，通过其对应的对齐序列获取对应的HMM状态，计算其统计量，其中，统计量包括音素出现次数，然后，根据累计共享音素的统计量对所有三音素构建决策树进行聚类，最后，根据决策树和决策树统计量初始化三音素GMM模型，通过每个GMM概率密度所占分量分裂或合并高斯数目，直到指定数量，更新三音素GMM模型。

7.根据权利要求6所述的半监督的音素强制对齐系统，其特征在于，所述对齐预测模块包括模型获取单元及对齐预测单元；

所述对齐预测单元，用于将单音素表示的初步音素对齐状态序列映射为三音素对齐状态序列，根据决策树将单音素GMM模型中音素对应的HMM状态转换成三音素中的HMM状态，通过EM更新三音素GMM模型参数，输出新的音素对齐状态序列。