CN109326277A - 半监督的音素强制对齐模型建立方法及系统 - Google Patents
半监督的音素强制对齐模型建立方法及系统 Download PDFInfo
- Publication number
- CN109326277A CN109326277A CN201811481756.7A CN201811481756A CN109326277A CN 109326277 A CN109326277 A CN 109326277A CN 201811481756 A CN201811481756 A CN 201811481756A CN 109326277 A CN109326277 A CN 109326277A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- model
- gmm
- triphones
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 238000003066 decision tree Methods 0.000 claims description 33
- 239000000203 mixture Substances 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 abstract description 9
- 238000003786 synthesis reaction Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 4
- 230000001427 coherent effect Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000002262 irrigation Effects 0.000 abstract 1
- 238000003973 irrigation Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 241001413866 Diaphone Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种半监督的音素强制对齐模型建立方法及系统,属于语音合成领域。本发明解决了目前强制对齐方法存在对齐偏差较大,而对齐偏差会影响后端模型语音合成的效果,造成合成语音不够自然、连贯的问题,其技术方案要点为:方法包括:首先,获取模型训练数据;其次,提取原始语音样本MFCC特征;然后,单音素GMM模型训练,获取初步音素对齐状态序列;最后,三音素GMM模型训练,通过引入有监督项来对GMM模型参数进行估计更新,确定模型参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型。系统包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块。本发明的有益效果是:能够提高语音数据利用率及对齐准确率。
Description
技术领域
本发明涉及语音合成技术,特别涉及半监督的音素强制对齐模型建立方法及系统的技术。
背景技术
语音合成系统由前端和后端两个模块构成,用于将一段文本内容通过分析和建模后转换为一段音频文件。前端主要包括原始文本正则化、中文分词、发音预测、韵律结构预测和强制对齐等操作,用于指导后端模型将文本转换成对应的音频。由于语音本身的复杂性和开放性,前端处理一直是传统语音合成的一个重点。前端模块的其中一个模型为音素强制对齐模型,音素强制对齐是指对于文本标注的每个片段——音素,确定包含的音频文件的时间间隔的一种模型。
传统语音合成技术中的强制对齐方法是根据语音样本和对应的文本标注样本集来进行建模,实现音素和语音的对齐,由于语音文件的人工对齐标注工作量大、难度高,大多强制对齐方法没有将语音数据对应的对齐标记纳入考虑,是一种无监督的建模过程。但是传统技术的强制对齐方法存在对齐偏差较大的问题,而对齐偏差会影响后端模型语音合成的效果,造成合成语音不够自然、连贯。
发明内容
本发明的目的是提供一种半监督的音素强制对齐模型建立方法及系统,解决目前强制对齐方法存在对齐偏差较大,而对齐偏差会影响后端模型语音合成的效果,造成合成语音不够自然、连贯的问题。
本发明解决其技术问题,采用的技术方案是:半监督的音素强制对齐模型建立方法,包括如下步骤:
步骤1、获取训练数据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;
步骤2、根据音素字典将所述文本标注样本集中的文本标注样本生成音素标注样本;
步骤3、将所述原始语音样本进行分帧,然后提取每一帧语音样本的MFCC特征序列;
步骤4、通过有对齐标记的语音样本对应的特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化,将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练,输出对应的初步音素对齐状态序列;
步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC及其补充特征输入三音素GMM进行训练,输出对应的预测音素对齐状态序列;
步骤6、通过在模型参数估计过程中引入有监督项来对GMM模型参数进行更新,确定所述三音素GMM模型的参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型,其中音素强制对齐模型包括单音素GMM和三音素GMM两个子模型。
进一步的是,步骤4具体包括如下步骤:
步骤401、根据所述有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差,即CMVN操作,然后根据所述音素标注样本创建共享音素列表,对每一组共享音素的每一个状态创建只有一个分量的GMM;
步骤402、通过所述特征的均值和方差初始化GMM模型参数,将GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为对齐标记语音样本特征的方差;
步骤403、根据所述每个原始语音样本特征构建解码图,然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列;
步骤404、根据MFCC特征序列和对应的状态序列计算GMM训练所需的统计量,更新HMM转移概率矩阵;
步骤405、更新所述单音素GMM模型参数,并在每一轮训练时不断增加GMM分量直到指定对齐循环次数,输出初步音素对齐状态序列。
进一步的是,步骤5具体包括如下步骤:
步骤501、将所述单音素复制为三音素,然后将单音素表示的初步音素对齐状态序列转换成三音素对齐状态序列;
步骤502、对于每一帧语音特征和与其相应的三音素对齐状态序列,计算GMM训练所需统计量;
步骤503、将固定某一中间音素的所有三音素的统计量累加,根据三音素累加统计量对所有三音素进行聚类,生成决策树问题集,构建决策树,其中,所述决策树问题集包括音素位置问题集和HMM状态位置问题集两个子集;
步骤504、根据所述决策树和累加统计量初始化三音素GMM模型;
步骤505、将所述初步音素对齐状态序列、决策树输入三音素GMM模型进行训练,分裂或合并单高斯直到指定高斯数目,输出对应的预测音素对齐状态序列。
进一步的是,步骤6具体包括如下步骤:
步骤601、计算三音素GMM模型输入样本的对数似然,其中,对数似然如下两个部分:基于有对齐标记样本的有监督项和基于待对齐样本的无监督项;
步骤602、通过EM算法求解高斯混合模型参数,迭代更新模型参数直到收敛,获得三音素GMM模型参数,得到对应的三音素GMM模型,与所述的单音素GMM模型组成目标音素强制对齐模型。
进一步的是,步骤403具体包括如下步骤:
步骤4031、根据所述音素标注样本、GMM模型生成字典解码图L.fst和语言模型解码图G.fst;
步骤4032、通过所述字典解码图L.fst和语言模型解码图G.fst生成LG.fst,将所述文本标注样本扩展为音素;
步骤4033、将所述LG.fst和上下文解码图C.fst组合生成CLG.fst;
步骤4034、根据HMM拓扑结构、转移概率和决策树,构建不包括自转移的声学模型Ha.fst,其中,每个转移的输入为一个HMM状态;
步骤4035、将所述Ha.fst和CLG.fst组合,通过确定化、去除空转移和最小化,得到HCLGa.fst;
步骤4036、通过增加每个HMM状态的自转移构建较大解码图,生成单音素解码图HCLG.fst。
半监督的音素强制对齐系统,应用于所述的半监督的音素强制对齐模型建立方法,包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块;
所述数据获取模块,用于获取训练据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;
所述音素转化模块,用于将所述的文本标注样本集中的文本标注样本转化成对应的音素标注样本;
所述特征提取模块,用于将原始语音样本集中的语音样本转化成MFCC特征;所述训练模块,用于将所述MFCC特征和对应的音素标注样本输入单音素和三音素GMM模型进行训练;
所述对齐预测模块,用于将所述MFCC特征和对应的音素标注样本在模型中进行转换和计算,输出对应的预测音素对齐状态序列;
所述模型建立模块,用于引入有对齐标记数据的有监督项对模型参数进行估计和更新,确定三音素GMM模型的参数,与所述单音素GMM模型组成目标音素强制对齐模型。
具体的是,所述训练模块包括声学特征获取单元、初始化单元、解码图编译单元、单音素模型训练单元及三音素模型训练单元;
所述声学特征获取单元,用于根据特征提取模块得到模型输入MFCC特征矩阵,将输入MFCC特征矩阵中的有对齐标记的特征数据进行计算,得到每一维均值和方差;
所述初始化单元,用于根据所述均值和方差初始化单音素GMM的均值和方差;
所述解码图编译单元,用于生成与MFCC特征对齐的HMM状态序列时所需的每个语音样本对应音素标注样本的解码图;
所述单音素模型训练单元,用于根据Viterbi训练单音素GMM模型,首先,通过初始模型对MFCC特征数据进行均匀对齐,得到每一帧特征对应的HMM状态序列,然后,根据特征序列和对应HMM状态序列计算转移概率矩阵更新HMM状态,得到一个HMM状态对应的所有GMM所对应观测样本,最后,根据GMM对应的所有观测样本和当前参数采用最大似然估计更新GMM参数;
所述三音素模型训练单元,用于根据Baum-Welch训练三音素GMM模型,首先,获取所有三音素,对于每一帧特征,通过其对应的对齐序列获取对应的HMM状态,计算其统计量,其中,统计量包括音素出现次数和该语音特征的均值和方差,然后,根据累计共享音素的统计量对所有三音素构建决策树进行聚类,最后,根据决策树和决策树统计量初始化三音素GMM模型,通过每个GMM概率密度所占分量分裂或合并高斯数目,直到指定数量,更新三音素GMM模型。
具体的是,所述对齐预测模块包括模型获取单元及对齐预测单元;
所述模型获取单元,用于获取训练模块训练好的单音素GMM模型、三音素GMM模型、决策树和初步音素对齐状态序列;
所述对齐预测单元,用于将单音素表示的初步音素对齐状态序列映射为三音素对齐状态序列,根据决策树将单音素模型中音素对应的HMM状态转换成三音素中的HMM状态,通过EM更新GMM模型参数,输出新的音素对齐状态序列。
本发明的有益效果是,通过上述半监督的音素强制对齐模型建立方法及系统,能够提高对齐准确度及语音数据利用率,并且提升了传统语音合成前端文本处理效果。
附图说明
图1为本发明半监督的音素强制对齐模型建立方法的流程图;
图2为本发明半监督的音素强制对齐系统的结构框图;
图3为实施例中生成音素标注样本的步骤的示意图;
图4为实施例中获取初步音素对齐状态序列的步骤示意图;
图5为实施例中获取预测三音素对齐状态序列的原理示意图;
图6为实施例中引入有监督项对GMM模型参数进行更新的原理示意图。
具体实施方式
下面结合实施例及附图,详细描述本发明的技术方案。
本发明所述半监督的音素强制对齐模型建立方法,其流程图参见图1,该方法包括如下步骤:
步骤1、获取训练数据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本。
步骤2、根据音素字典将所述文本标注样本集中的文本标注样本生成音素标注样本。
步骤3、将所述原始语音样本进行分帧,然后提取每一帧语音样本的MFCC特征序列。
步骤4、通过有对齐标记的语音样本对应的特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化,将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练,输出对应的初步音素对齐状态序列;这里,步骤4具体可包括如下步骤:
步骤401、根据所述有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差,即CMVN操作,然后根据所述音素标注样本创建共享音素列表,对每一组共享音素的每一个状态创建只有一个分量的GMM;
步骤402、通过所述特征的均值和方差初始化GMM模型参数,将GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为对齐标记语音样本特征的方差;
步骤403、根据所述每个原始语音样本特征构建解码图,然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列;实际中,步骤403具体可包括如下步骤:
步骤4031、根据所述音素标注样本、GMM模型生成字典解码图L.fst和语言模型解码图G.fst;
步骤4032、通过所述字典解码图L.fst和语言模型解码图G.fst生成LG.fst,将所述文本标注样本扩展为音素;
步骤4033、将所述LG.fst和上下文解码图C.fst组合生成CLG.fst;
步骤4034、根据HMM拓扑结构、转移概率和决策树,构建不包括自转移的声学模型Ha.fst,其中,每个转移的输入为一个HMM状态;
步骤4035、将所述Ha.fst和CLG.fst组合,通过确定化、去除空转移和最小化,得到HCLGa.fst;
步骤4036、通过增加每个HMM状态的自转移构建较大解码图,生成单音素解码图HCLG.fst;
步骤404、根据MFCC特征序列和对应的状态序列计算GMM训练所需的统计量,更新HMM转移概率矩阵;
步骤405、更新所述单音素GMM模型参数,并在每一轮训练时不断增加GMM分量直到指定对齐循环次数,输出初步音素对齐状态序列。
步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC及其补充特征输入三音素GMM进行训练,输出对应的预测音素对齐状态序列;这里,步骤5具体可包括如下步骤:
步骤501、将所述单音素复制为三音素,然后将单音素表示的初步音素对齐状态序列转换成三音素对齐状态序列;
步骤502、对于每一帧语音特征和与其相应的三音素对齐状态序列,计算GMM训练所需统计量;
步骤503、将固定某一中间音素的所有三音素的统计量累加,根据三音素累加统计量对所有三音素进行聚类,生成决策树问题集,构建决策树,其中,所述决策树问题集包括音素位置问题集和HMM状态位置问题集两个子集;
步骤504、根据所述决策树和累加统计量初始化三音素GMM模型;
步骤505、将所述初步音素对齐状态序列、决策树输入三音素GMM模型进行训练,分裂或合并单高斯直到指定高斯数目,输出对应的预测音素对齐状态序列。
步骤6、通过在模型参数估计过程中引入有监督项来对GMM模型参数进行更新,确定所述三音素GMM模型的参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型,其中音素强制对齐模型包括单音素GMM和三音素GMM两个子模型;这里,步骤6具体可包括如下步骤:
步骤601、计算三音素GMM模型输入样本的对数似然,其中,对数似然如下两个部分:基于有对齐标记样本的有监督项和基于待对齐样本的无监督项;
步骤602、通过EM算法求解高斯混合模型参数,迭代更新模型参数直到收敛,获得三音素GMM模型参数,得到对应的三音素GMM模型,与所述的单音素GMM模型组成目标音素强制对齐模型。
半监督的音素强制对齐系统,应用于所述的半监督的音素强制对齐模型建立方法,包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块,其结构框图参见图2,其中:
数据获取模块,用于获取训练据,训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;音素转化模块,用于将所述的文本标注样本集中的文本标注样本转化成对应的音素标注样本;特征提取模块,用于将原始语音样本集中的语音样本转化成MFCC特征;训练模块,用于将所述MFCC特征和对应的音素标注样本输入单音素和三音素GMM模型进行训练;对齐预测模块,用于将所述MFCC特征和对应的音素标注样本在模型中进行转换和计算,输出对应的预测音素对齐状态序列;模型建立模块,用于引入有对齐标记数据的有监督项对模型参数进行估计和更新,确定三音素GMM模型的参数,与所述单音素GMM模型组成目标音素强制对齐模型。
具体地,训练模块包括声学特征获取单元、初始化单元、解码图编译单元、单音素模型训练单元及三音素模型训练单元;声学特征获取单元,用于根据特征提取模块得到模型输入MFCC特征矩阵,将输入MFCC特征矩阵中的有对齐标记的特征数据进行计算,得到每一维均值和方差;初始化单元,用于根据所述均值和方差初始化单音素GMM的均值和方差;解码图编译单元,用于生成与MFCC特征对齐的HMM状态序列时所需的每个语音样本对应音素标注样本的解码图;单音素模型训练单元,用于根据Viterbi训练单音素GMM模型,首先,通过初始模型对MFCC特征数据进行均匀对齐,得到每一帧特征对应的HMM状态序列,然后,根据特征序列和对应HMM状态序列计算转移概率矩阵更新HMM状态,得到一个HMM状态对应的所有GMM所对应观测样本,最后,根据GMM对应的所有观测样本和当前参数采用最大似然估计更新GMM参数;三音素模型训练单元,用于根据Baum-Welch训练三音素GMM模型,首先,获取所有三音素,对于每一帧特征,通过其对应的对齐序列获取对应的HMM状态,计算其统计量,其中,统计量包括音素出现次数和该语音特征的均值和方差,然后,根据累计共享音素的统计量对所有三音素构建决策树进行聚类,最后,根据决策树和决策树统计量初始化三音素GMM模型,通过每个GMM概率密度所占分量分裂或合并高斯数目,直到指定数量,更新三音素GMM模型。
实际中,对齐预测模块可包括模型获取单元及对齐预测单元;模型获取单元,用于获取训练模块训练好的单音素GMM模型、三音素GMM模型、决策树和初步音素对齐状态序列;对齐预测单元,用于将单音素表示的初步音素对齐状态序列映射为三音素对齐状态序列,根据决策树将单音素模型中音素对应的HMM状态转换成三音素中的HMM状态,通过EM更新GMM模型参数,输出新的音素对齐状态序列。
实施例
本发明实施例半监督的音素强制对齐模型建立方法,在半监督的强制对齐系统的基础上,可包括如下具体步骤:
一、获取训练数据。
所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本。
二、根据音素字典生成音素标注样本。
具体地,如图3所示,对文本标注样本集中的文本信息标注进行处理,获得对应的拼音信息,通过给定中文音素字典对拼音信息进行处理,获得对应的音素状态信息,其中“zhang4”表示“丈”,“4”表示拼音对应的声调。“sil”表示语音样本前后的静音状态。
三、将所述原始语音样本进行分帧,然后提取每一帧语音样本的MFCC特征序列。
如图4所示,根据MFCC特征和声学特征训练单音素GMM模型,具体包括如下步骤:
1)根据有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差,即CMVN操作,然后根据所述音素标注样本创建共享音素列表,对每一组共享音素的每一个状态创建只有一个分量的GMM;
2)通过特征的均值和方差初始化GMM模型参数,将GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为对齐标记语音样本特征的方差;
3)根据所述每个原始语音样本特征构建解码图,然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列;
4)根据MFCC特征序列和对应的状态序列计算GMM训练所需的统计量,更新HMM转移概率矩阵;
5)更新单音素GMM模型参数,并在每一轮训练时不断增加GMM分量直到指定对齐循环次数,输出初步音素对齐状态序列。
四、根据初步音素对齐状态序列构建三音素GMM模型。
如图5所示,通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC及其补充特征输入三音素GMM进行训练。
五、确定三音素GMM模型参数,得到目标音素强制对齐模型。
如图6所示,计算三音素GMM模型输入样本的对数似然,其中,对数似然由两部分组成:基于有对齐标记样本的有监督项和基于待对齐样本的无监督项,对数似然公式为:
其中,Dl表示有对齐标记的输入样本集,Du表示待对齐输入样本集,所有样本独立同分布,混合系数p(xj|μi,Σi)表示样本xj属于第i个高斯混合分量的概率,μi,Σi表示该高斯混合分量的参数;
通过EM(Expectation-Maximization)算法求解高斯混合模型参数,迭代更新模型参数直到收敛,更新式如下:
E步:根据初始模型参数计算待对齐数据特征样本xj属于各GMM分量的后验概率;
M步:基于后验概率更新模型参数{(αi,μi,Σi)|1≤i≤N}。
每个GMM分量的混合系数αi由特征样本属于该分量的平均后验概率确定。上述过程迭代直至收敛,获得三音素GMM模型参数,得到对应的三音素GMM模型,与单音素GMM模型组成目标音素强制对齐模型。
Claims (8)
1.半监督的音素强制对齐模型建立方法,其特征在于,包括如下步骤:
步骤1、获取训练数据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;
步骤2、根据音素字典将所述文本标注样本集中的文本标注样本生成音素标注样本;
步骤3、将所述原始语音样本进行分帧,然后提取每一帧语音样本的MFCC特征序列;
步骤4、通过有对齐标记的语音样本对应的特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化,将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练,输出对应的初步音素对齐状态序列;
步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC及其补充特征输入三音素GMM进行训练,输出对应的预测音素对齐状态序列;
步骤6、通过在模型参数估计过程中引入有监督项来对GMM模型参数进行更新,确定所述三音素GMM模型的参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型,其中音素强制对齐模型包括单音素GMM和三音素GMM两个子模型。
2.根据权利要求1所述的半监督的音素强制对齐模型建立方法,其特征在于,步骤4具体包括如下步骤:
步骤401、根据所述有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差,即CMVN操作,然后根据所述音素标注样本创建共享音素列表,对每一组共享音素的每一个状态创建只有一个分量的GMM;
步骤402、通过所述特征的均值和方差初始化GMM模型参数,将GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为对齐标记语音样本特征的方差;
步骤403、根据所述每个原始语音样本特征构建解码图,然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列;
步骤404、根据MFCC特征序列和对应的状态序列计算GMM训练所需的统计量,更新HMM转移概率矩阵;
步骤405、更新所述单音素GMM模型参数,并在每一轮训练时不断增加GMM分量直到指定对齐循环次数,输出初步音素对齐状态序列。
3.根据权利要求1所述的半监督的音素强制对齐模型建立方法,其特征在于,步骤5具体包括如下步骤:
步骤501、将所述单音素复制为三音素,然后将单音素表示的初步音素对齐状态序列转换成三音素对齐状态序列;
步骤502、对于每一帧语音特征和与其相应的三音素对齐状态序列,计算GMM训练所需统计量;
步骤503、将固定某一中间音素的所有三音素的统计量累加,根据三音素累加统计量对所有三音素进行聚类,生成决策树问题集,构建决策树,其中,所述决策树问题集包括音素位置问题集和HMM状态位置问题集两个子集;
步骤504、根据所述决策树和累加统计量初始化三音素GMM模型;
步骤505、将所述初步音素对齐状态序列、决策树输入三音素GMM模型进行训练,分裂或合并单高斯直到指定高斯数目,输出对应的预测音素对齐状态序列。
4.根据权利要求1所述的半监督的音素强制对齐模型建立方法,其特征在于,步骤6具体包括如下步骤:
步骤601、计算三音素GMM模型输入样本的对数似然,其中,对数似然如下两个部分:基于有对齐标记样本的有监督项和基于待对齐样本的无监督项;
步骤602、通过EM算法求解高斯混合模型参数,迭代更新模型参数直到收敛,获得三音素GMM模型参数,得到对应的三音素GMM模型,与所述的单音素GMM模型组成目标音素强制对齐模型。
5.根据权利要求2所述半监督的音素强制对齐模型建立方法,其特征在于,步骤403具体包括如下步骤:
步骤4031、根据所述音素标注样本、GMM模型生成字典解码图L.fst和语言模型解码图G.fst;
步骤4032、通过所述字典解码图L.fst和语言模型解码图G.fst生成LG.fst,将所述文本标注样本扩展为音素;
步骤4033、将所述LG.fst和上下文解码图C.fst组合生成CLG.fst;
步骤4034、根据HMM拓扑结构、转移概率和决策树,构建不包括自转移的声学模型Ha.fst,其中,每个转移的输入为一个HMM状态;
步骤4035、将所述Ha.fst和CLG.fst组合,通过确定化、去除空转移和最小化,得到HCLGa.fst;
步骤4036、通过增加每个HMM状态的自转移构建较大解码图,生成单音素解码图HCLG.fst。
6.半监督的音素强制对齐系统,应用于权利要求1-5任意一项所述的半监督的音素强制对齐模型建立方法,其特征在于,包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块;
所述数据获取模块,用于获取训练据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;
所述音素转化模块,用于将所述的文本标注样本集中的文本标注样本转化成对应的音素标注样本;
所述特征提取模块,用于将原始语音样本集中的语音样本转化成MFCC特征;所述训练模块,用于将所述MFCC特征和对应的音素标注样本输入单音素和三音素GMM模型进行训练;
所述对齐预测模块,用于将所述MFCC特征和对应的音素标注样本在模型中进行转换和计算,输出对应的预测音素对齐状态序列;
所述模型建立模块,用于引入有对齐标记数据的有监督项对模型参数进行估计和更新,确定三音素GMM模型的参数,与所述单音素GMM模型组成目标音素强制对齐模型。
7.根据权利要求6所述的半监督的音素强制对齐系统,其特征在于,所述训练模块包括声学特征获取单元、初始化单元、解码图编译单元、单音素模型训练单元及三音素模型训练单元;
所述声学特征获取单元,用于根据特征提取模块得到模型输入MFCC特征矩阵,将输入MFCC特征矩阵中的有对齐标记的特征数据进行计算,得到每一维均值和方差;
所述初始化单元,用于根据所述均值和方差初始化单音素GMM的均值和方差;
所述解码图编译单元,用于生成与MFCC特征对齐的HMM状态序列时所需的每个语音样本对应音素标注样本的解码图;
所述单音素模型训练单元,用于根据Viterbi训练单音素GMM模型,首先,通过初始模型对MFCC特征数据进行均匀对齐,得到每一帧特征对应的HMM状态序列,然后,根据特征序列和对应HMM状态序列计算转移概率矩阵更新HMM状态,得到一个HMM状态对应的所有GMM所对应观测样本,最后,根据GMM对应的所有观测样本和当前参数采用最大似然估计更新GMM参数;
所述三音素模型训练单元,用于根据Baum-Welch训练三音素GMM模型,首先,获取所有三音素,对于每一帧特征,通过其对应的对齐序列获取对应的HMM状态,计算其统计量,其中,统计量包括音素出现次数和该语音特征的均值和方差,然后,根据累计共享音素的统计量对所有三音素构建决策树进行聚类,最后,根据决策树和决策树统计量初始化三音素GMM模型,通过每个GMM概率密度所占分量分裂或合并高斯数目,直到指定数量,更新三音素GMM模型。
8.根据权利要求6所述的半监督的音素强制对齐系统,其特征在于,所述对齐预测模块包括模型获取单元及对齐预测单元;
所述模型获取单元,用于获取训练模块训练好的单音素GMM模型、三音素GMM模型、决策树和初步音素对齐状态序列;
所述对齐预测单元,用于将单音素表示的初步音素对齐状态序列映射为三音素对齐状态序列,根据决策树将单音素模型中音素对应的HMM状态转换成三音素中的HMM状态,通过EM更新GMM模型参数,输出新的音素对齐状态序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811481756.7A CN109326277B (zh) | 2018-12-05 | 2018-12-05 | 半监督的音素强制对齐模型建立方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811481756.7A CN109326277B (zh) | 2018-12-05 | 2018-12-05 | 半监督的音素强制对齐模型建立方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109326277A true CN109326277A (zh) | 2019-02-12 |
CN109326277B CN109326277B (zh) | 2022-02-08 |
Family
ID=65256303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811481756.7A Active CN109326277B (zh) | 2018-12-05 | 2018-12-05 | 半监督的音素强制对齐模型建立方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109326277B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097193A (zh) * | 2019-04-28 | 2019-08-06 | 第四范式(北京)技术有限公司 | 训练模型的方法及系统和预测序列数据的方法及系统 |
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其系统 |
CN111402893A (zh) * | 2020-03-23 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 语音识别模型确定方法、语音识别方法及装置、电子设备 |
CN111724769A (zh) * | 2020-04-22 | 2020-09-29 | 深圳市伟文无线通讯技术有限公司 | 一种智能家居语音识别模型的生产方法 |
CN111798868A (zh) * | 2020-09-07 | 2020-10-20 | 北京世纪好未来教育科技有限公司 | 语音强制对齐模型评价方法、装置、电子设备及存储介质 |
CN111798841A (zh) * | 2020-05-13 | 2020-10-20 | 厦门快商通科技股份有限公司 | 声学模型训练方法、系统、移动终端及存储介质 |
CN111833844A (zh) * | 2020-07-28 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 用于语音识别和语种分类的混合模型的训练方法及系统 |
CN111933116A (zh) * | 2020-06-22 | 2020-11-13 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN112908308A (zh) * | 2021-02-02 | 2021-06-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN113035247A (zh) * | 2021-03-17 | 2021-06-25 | 广州虎牙科技有限公司 | 一种音频文本对齐方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050075887A1 (en) * | 2003-10-07 | 2005-04-07 | Bernard Alexis P. | Automatic language independent triphone training using a phonetic table |
US20070233481A1 (en) * | 2006-04-03 | 2007-10-04 | Texas Instruments Inc. | System and method for developing high accuracy acoustic models based on an implicit phone-set determination-based state-tying technique |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
US20170263242A1 (en) * | 2016-03-14 | 2017-09-14 | Kabushiki Kaisha Toshiba | Information processing device, information processing method, computer program product, and recognition system |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN108496219A (zh) * | 2015-11-04 | 2018-09-04 | 剑桥大学的校长、教师和学者 | 语音处理系统和方法 |
-
2018
- 2018-12-05 CN CN201811481756.7A patent/CN109326277B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050075887A1 (en) * | 2003-10-07 | 2005-04-07 | Bernard Alexis P. | Automatic language independent triphone training using a phonetic table |
US20070233481A1 (en) * | 2006-04-03 | 2007-10-04 | Texas Instruments Inc. | System and method for developing high accuracy acoustic models based on an implicit phone-set determination-based state-tying technique |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN108496219A (zh) * | 2015-11-04 | 2018-09-04 | 剑桥大学的校长、教师和学者 | 语音处理系统和方法 |
US20170263242A1 (en) * | 2016-03-14 | 2017-09-14 | Kabushiki Kaisha Toshiba | Information processing device, information processing method, computer program product, and recognition system |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097193A (zh) * | 2019-04-28 | 2019-08-06 | 第四范式(北京)技术有限公司 | 训练模型的方法及系统和预测序列数据的方法及系统 |
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其系统 |
CN111402893A (zh) * | 2020-03-23 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 语音识别模型确定方法、语音识别方法及装置、电子设备 |
CN111724769A (zh) * | 2020-04-22 | 2020-09-29 | 深圳市伟文无线通讯技术有限公司 | 一种智能家居语音识别模型的生产方法 |
CN111798841A (zh) * | 2020-05-13 | 2020-10-20 | 厦门快商通科技股份有限公司 | 声学模型训练方法、系统、移动终端及存储介质 |
CN111933116A (zh) * | 2020-06-22 | 2020-11-13 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111833844A (zh) * | 2020-07-28 | 2020-10-27 | 苏州思必驰信息科技有限公司 | 用于语音识别和语种分类的混合模型的训练方法及系统 |
CN111798868A (zh) * | 2020-09-07 | 2020-10-20 | 北京世纪好未来教育科技有限公司 | 语音强制对齐模型评价方法、装置、电子设备及存储介质 |
WO2022048354A1 (zh) * | 2020-09-07 | 2022-03-10 | 北京世纪好未来教育科技有限公司 | 语音强制对齐模型评价方法、装置、电子设备及存储介质 |
US11749257B2 (en) | 2020-09-07 | 2023-09-05 | Beijing Century Tal Education Technology Co., Ltd. | Method for evaluating a speech forced alignment model, electronic device, and storage medium |
CN112908308A (zh) * | 2021-02-02 | 2021-06-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN112908308B (zh) * | 2021-02-02 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN113035247A (zh) * | 2021-03-17 | 2021-06-25 | 广州虎牙科技有限公司 | 一种音频文本对齐方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109326277B (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109326277A (zh) | 半监督的音素强制对齐模型建立方法及系统 | |
US20200402497A1 (en) | Systems and Methods for Speech Generation | |
CN109671442B (zh) | 基于STARGAN和x向量的多对多说话人转换方法 | |
Hadian et al. | End-to-end Speech Recognition Using Lattice-free MMI. | |
Kang et al. | Multi-distribution deep belief network for speech synthesis | |
Liu et al. | Two efficient lattice rescoring methods using recurrent neural network language models | |
CN102496363B (zh) | 一种用于汉语语音合成的音调修正方法 | |
CN106340297A (zh) | 一种基于云计算与置信度计算的语音识别方法与系统 | |
CN108172218A (zh) | 一种语音建模方法及装置 | |
US20050228666A1 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system | |
Wand et al. | Deep Neural Network Frontend for Continuous EMG-Based Speech Recognition. | |
CN110136686A (zh) | 基于STARGAN与i向量的多对多说话人转换方法 | |
US7289958B2 (en) | Automatic language independent triphone training using a phonetic table | |
Afshan et al. | Improved subject-independent acoustic-to-articulatory inversion | |
CN113257221B (zh) | 一种基于前端设计的语音模型训练方法及语音合成方法 | |
Park et al. | On using multiple models for automatic speech segmentation | |
CN104538026B (zh) | 一种用于参数化语音合成的基频建模方法 | |
CN108182938B (zh) | 一种基于dnn的蒙古语声学模型的训练方法 | |
Bansal et al. | Speech synthesis–automatic segmentation | |
CN111933121B (zh) | 一种声学模型训练方法及装置 | |
Peskin et al. | Progress in recognizing conversational telephone speech | |
Nikitaras et al. | Fine-grained noise control for multispeaker speech synthesis | |
Neukirchen et al. | Controlling the complexity of HMM systems by regularization | |
Xie et al. | Generalized variable parameter HMMs based acoustic-to-articulatory inversion. | |
Wang et al. | Disentanglement of Speaker Identity for Accented Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |