CN109326277B - 半监督的音素强制对齐模型建立方法及系统 - Google Patents

半监督的音素强制对齐模型建立方法及系统 Download PDF

Info

Publication number
CN109326277B
CN109326277B CN201811481756.7A CN201811481756A CN109326277B CN 109326277 B CN109326277 B CN 109326277B CN 201811481756 A CN201811481756 A CN 201811481756A CN 109326277 B CN109326277 B CN 109326277B
Authority
CN
China
Prior art keywords
phoneme
model
alignment
gmm
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811481756.7A
Other languages
English (en)
Other versions
CN109326277A (zh
Inventor
王昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201811481756.7A priority Critical patent/CN109326277B/zh
Publication of CN109326277A publication Critical patent/CN109326277A/zh
Application granted granted Critical
Publication of CN109326277B publication Critical patent/CN109326277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种半监督的音素强制对齐模型建立方法及系统,属于语音合成领域。本发明解决了目前强制对齐方法存在对齐偏差较大,而对齐偏差会影响后端模型语音合成的效果,造成合成语音不够自然、连贯的问题,其技术方案要点为:方法包括:首先,获取模型训练数据;其次,提取原始语音样本MFCC特征;然后,单音素GMM模型训练,获取初步音素对齐状态序列;最后,三音素GMM模型训练,通过引入有监督项来对GMM模型参数进行估计更新,确定模型参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型。系统包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块。本发明的有益效果是:能够提高语音数据利用率及对齐准确率。

Description

半监督的音素强制对齐模型建立方法及系统
技术领域
本发明涉及语音合成技术,特别涉及半监督的音素强制对齐模型建立方法及系统的技术。
背景技术
语音合成系统由前端和后端两个模块构成,用于将一段文本内容通过分析和建模后转换为一段音频文件。前端主要包括原始文本正则化、中文分词、发音预测、韵律结构预测和强制对齐等操作,用于指导后端模型将文本转换成对应的音频。由于语音本身的复杂性和开放性,前端处理一直是传统语音合成的一个重点。前端模块的其中一个模型为音素强制对齐模型,音素强制对齐是指对于文本标注的每个片段——音素,确定包含的音频文件的时间间隔的一种模型。
传统语音合成技术中的强制对齐方法是根据语音样本和对应的文本标注样本集来进行建模,实现音素和语音的对齐,由于语音文件的人工对齐标注工作量大、难度高,大多强制对齐方法没有将语音数据对应的对齐标记纳入考虑,是一种无监督的建模过程。但是传统技术的强制对齐方法存在对齐偏差较大的问题,而对齐偏差会影响后端模型语音合成的效果,造成合成语音不够自然、连贯。
发明内容
本发明的目的是提供一种半监督的音素强制对齐模型建立方法及系统,解决目前强制对齐方法存在对齐偏差较大,而对齐偏差会影响后端模型语音合成的效果,造成合成语音不够自然、连贯的问题。
本发明解决其技术问题,采用的技术方案是:半监督的音素强制对齐模型建立方法,包括如下步骤:
步骤1、获取训练数据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;
步骤2、根据音素字典将所述文本标注样本集中的文本标注样本生成音素标注样本;
步骤3、将所述原始语音样本进行分帧,然后提取每一帧语音样本的MFCC特征序列;
步骤4、通过有对齐标记的语音样本对应的特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化,将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练,输出对应的初步音素对齐状态序列;
步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC及其补充特征输入三音素GMM进行训练,输出对应的预测音素对齐状态序列;
步骤6、通过在模型参数估计过程中引入有监督项来对GMM模型参数进行更新,确定所述三音素GMM模型的参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型,其中音素强制对齐模型包括单音素GMM和三音素GMM两个子模型。
进一步的是,步骤4具体包括如下步骤:
步骤401、根据所述有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差,即CMVN操作,然后根据所述音素标注样本创建共享音素列表,对每一组共享音素的每一个状态创建只有一个分量的GMM;
步骤402、通过所述特征的均值和方差初始化GMM模型参数,将GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为对齐标记语音样本特征的方差;
步骤403、根据所述每个原始语音样本特征构建解码图,然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列;
步骤404、根据MFCC特征序列和对应的状态序列计算GMM训练所需的统计量,更新HMM转移概率矩阵;
步骤405、更新所述单音素GMM模型参数,并在每一轮训练时不断增加GMM分量直到指定对齐循环次数,输出初步音素对齐状态序列。
进一步的是,步骤5具体包括如下步骤:
步骤501、将所述单音素复制为三音素,然后将单音素表示的初步音素对齐状态序列转换成三音素对齐状态序列;
步骤502、对于每一帧语音特征和与其相应的三音素对齐状态序列,计算GMM训练所需统计量;
步骤503、将固定某一中间音素的所有三音素的统计量累加,根据三音素累加统计量对所有三音素进行聚类,生成决策树问题集,构建决策树,其中,所述决策树问题集包括音素位置问题集和HMM状态位置问题集两个子集;
步骤504、根据所述决策树和累加统计量初始化三音素GMM模型;
步骤505、将所述初步音素对齐状态序列、决策树输入三音素GMM模型进行训练,分裂或合并单高斯直到指定高斯数目,输出对应的预测音素对齐状态序列。
进一步的是,步骤6具体包括如下步骤:
步骤601、计算三音素GMM模型输入样本的对数似然,其中,对数似然如下两个部分:基于有对齐标记样本的有监督项和基于待对齐样本的无监督项;
步骤602、通过EM算法求解高斯混合模型参数,迭代更新模型参数直到收敛,获得三音素GMM模型参数,得到对应的三音素GMM模型,与所述的单音素GMM模型组成目标音素强制对齐模型。
进一步的是,步骤403具体包括如下步骤:
步骤4031、根据所述音素标注样本、GMM模型生成字典解码图L.fst和语言模型解码图G.fst;
步骤4032、通过所述字典解码图L.fst和语言模型解码图G.fst生成LG.fst,将所述文本标注样本扩展为音素;
步骤4033、将所述LG.fst和上下文解码图C.fst组合生成CLG.fst;
步骤4034、根据HMM拓扑结构、转移概率和决策树,构建不包括自转移的声学模型Ha.fst,其中,每个转移的输入为一个HMM状态;
步骤4035、将所述Ha.fst和CLG.fst组合,通过确定化、去除空转移和最小化,得到HCLGa.fst;
步骤4036、通过增加每个HMM状态的自转移构建较大解码图,生成单音素解码图HCLG.fst。
半监督的音素强制对齐系统,应用于所述的半监督的音素强制对齐模型建立方法,包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块;
所述数据获取模块,用于获取训练据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;
所述音素转化模块,用于将所述的文本标注样本集中的文本标注样本转化成对应的音素标注样本;
所述特征提取模块,用于将原始语音样本集中的语音样本转化成MFCC特征;所述训练模块,用于将所述MFCC特征和对应的音素标注样本输入单音素和三音素GMM模型进行训练;
所述对齐预测模块,用于将所述MFCC特征和对应的音素标注样本在模型中进行转换和计算,输出对应的预测音素对齐状态序列;
所述模型建立模块,用于引入有对齐标记数据的有监督项对模型参数进行估计和更新,确定三音素GMM模型的参数,与所述单音素GMM模型组成目标音素强制对齐模型。
具体的是,所述训练模块包括声学特征获取单元、初始化单元、解码图编译单元、单音素模型训练单元及三音素模型训练单元;
所述声学特征获取单元,用于根据特征提取模块得到模型输入MFCC特征矩阵,将输入MFCC特征矩阵中的有对齐标记的特征数据进行计算,得到每一维均值和方差;
所述初始化单元,用于根据所述均值和方差初始化单音素GMM的均值和方差;
所述解码图编译单元,用于生成与MFCC特征对齐的HMM状态序列时所需的每个语音样本对应音素标注样本的解码图;
所述单音素模型训练单元,用于根据Viterbi训练单音素GMM模型,首先,通过初始模型对MFCC特征数据进行均匀对齐,得到每一帧特征对应的HMM状态序列,然后,根据特征序列和对应HMM状态序列计算转移概率矩阵更新HMM状态,得到一个HMM状态对应的所有GMM所对应观测样本,最后,根据GMM对应的所有观测样本和当前参数采用最大似然估计更新GMM参数;
所述三音素模型训练单元,用于根据Baum-Welch训练三音素GMM模型,首先,获取所有三音素,对于每一帧特征,通过其对应的对齐序列获取对应的HMM状态,计算其统计量,其中,统计量包括音素出现次数和该语音特征的均值和方差,然后,根据累计共享音素的统计量对所有三音素构建决策树进行聚类,最后,根据决策树和决策树统计量初始化三音素GMM模型,通过每个GMM概率密度所占分量分裂或合并高斯数目,直到指定数量,更新三音素GMM模型。
具体的是,所述对齐预测模块包括模型获取单元及对齐预测单元;
所述模型获取单元,用于获取训练模块训练好的单音素GMM模型、三音素GMM模型、决策树和初步音素对齐状态序列;
所述对齐预测单元,用于将单音素表示的初步音素对齐状态序列映射为三音素对齐状态序列,根据决策树将单音素模型中音素对应的HMM状态转换成三音素中的HMM状态,通过EM更新GMM模型参数,输出新的音素对齐状态序列。
本发明的有益效果是,通过上述半监督的音素强制对齐模型建立方法及系统,能够提高对齐准确度及语音数据利用率,并且提升了传统语音合成前端文本处理效果。
附图说明
图1为本发明半监督的音素强制对齐模型建立方法的流程图;
图2为本发明半监督的音素强制对齐系统的结构框图;
图3为实施例中生成音素标注样本的步骤的示意图;
图4为实施例中获取初步音素对齐状态序列的步骤示意图;
图5为实施例中获取预测三音素对齐状态序列的原理示意图;
图6为实施例中引入有监督项对GMM模型参数进行更新的原理示意图。
具体实施方式
下面结合实施例及附图,详细描述本发明的技术方案。
本发明所述半监督的音素强制对齐模型建立方法,其流程图参见图1,该方法包括如下步骤:
步骤1、获取训练数据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本。
步骤2、根据音素字典将所述文本标注样本集中的文本标注样本生成音素标注样本。
步骤3、将所述原始语音样本进行分帧,然后提取每一帧语音样本的MFCC特征序列。
步骤4、通过有对齐标记的语音样本对应的特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化,将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练,输出对应的初步音素对齐状态序列;这里,步骤4具体可包括如下步骤:
步骤401、根据所述有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差,即CMVN操作,然后根据所述音素标注样本创建共享音素列表,对每一组共享音素的每一个状态创建只有一个分量的GMM;
步骤402、通过所述特征的均值和方差初始化GMM模型参数,将GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为对齐标记语音样本特征的方差;
步骤403、根据所述每个原始语音样本特征构建解码图,然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列;实际中,步骤403具体可包括如下步骤:
步骤4031、根据所述音素标注样本、GMM模型生成字典解码图L.fst和语言模型解码图G.fst;
步骤4032、通过所述字典解码图L.fst和语言模型解码图G.fst生成LG.fst,将所述文本标注样本扩展为音素;
步骤4033、将所述LG.fst和上下文解码图C.fst组合生成CLG.fst;
步骤4034、根据HMM拓扑结构、转移概率和决策树,构建不包括自转移的声学模型Ha.fst,其中,每个转移的输入为一个HMM状态;
步骤4035、将所述Ha.fst和CLG.fst组合,通过确定化、去除空转移和最小化,得到HCLGa.fst;
步骤4036、通过增加每个HMM状态的自转移构建较大解码图,生成单音素解码图HCLG.fst;
步骤404、根据MFCC特征序列和对应的状态序列计算GMM训练所需的统计量,更新HMM转移概率矩阵;
步骤405、更新所述单音素GMM模型参数,并在每一轮训练时不断增加GMM分量直到指定对齐循环次数,输出初步音素对齐状态序列。
步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC及其补充特征输入三音素GMM进行训练,输出对应的预测音素对齐状态序列;这里,步骤5具体可包括如下步骤:
步骤501、将所述单音素复制为三音素,然后将单音素表示的初步音素对齐状态序列转换成三音素对齐状态序列;
步骤502、对于每一帧语音特征和与其相应的三音素对齐状态序列,计算GMM训练所需统计量;
步骤503、将固定某一中间音素的所有三音素的统计量累加,根据三音素累加统计量对所有三音素进行聚类,生成决策树问题集,构建决策树,其中,所述决策树问题集包括音素位置问题集和HMM状态位置问题集两个子集;
步骤504、根据所述决策树和累加统计量初始化三音素GMM模型;
步骤505、将所述初步音素对齐状态序列、决策树输入三音素GMM模型进行训练,分裂或合并单高斯直到指定高斯数目,输出对应的预测音素对齐状态序列。
步骤6、通过在模型参数估计过程中引入有监督项来对GMM模型参数进行更新,确定所述三音素GMM模型的参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型,其中音素强制对齐模型包括单音素GMM和三音素GMM两个子模型;这里,步骤6具体可包括如下步骤:
步骤601、计算三音素GMM模型输入样本的对数似然,其中,对数似然如下两个部分:基于有对齐标记样本的有监督项和基于待对齐样本的无监督项;
步骤602、通过EM算法求解高斯混合模型参数,迭代更新模型参数直到收敛,获得三音素GMM模型参数,得到对应的三音素GMM模型,与所述的单音素GMM模型组成目标音素强制对齐模型。
半监督的音素强制对齐系统,应用于所述的半监督的音素强制对齐模型建立方法,包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块,其结构框图参见图2,其中:
数据获取模块,用于获取训练据,训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;音素转化模块,用于将所述的文本标注样本集中的文本标注样本转化成对应的音素标注样本;特征提取模块,用于将原始语音样本集中的语音样本转化成MFCC特征;训练模块,用于将所述MFCC特征和对应的音素标注样本输入单音素和三音素GMM模型进行训练;对齐预测模块,用于将所述MFCC特征和对应的音素标注样本在模型中进行转换和计算,输出对应的预测音素对齐状态序列;模型建立模块,用于引入有对齐标记数据的有监督项对模型参数进行估计和更新,确定三音素GMM模型的参数,与所述单音素GMM模型组成目标音素强制对齐模型。
具体地,训练模块包括声学特征获取单元、初始化单元、解码图编译单元、单音素模型训练单元及三音素模型训练单元;声学特征获取单元,用于根据特征提取模块得到模型输入MFCC特征矩阵,将输入MFCC特征矩阵中的有对齐标记的特征数据进行计算,得到每一维均值和方差;初始化单元,用于根据所述均值和方差初始化单音素GMM的均值和方差;解码图编译单元,用于生成与MFCC特征对齐的HMM状态序列时所需的每个语音样本对应音素标注样本的解码图;单音素模型训练单元,用于根据Viterbi训练单音素GMM模型,首先,通过初始模型对MFCC特征数据进行均匀对齐,得到每一帧特征对应的HMM状态序列,然后,根据特征序列和对应HMM状态序列计算转移概率矩阵更新HMM状态,得到一个HMM状态对应的所有GMM所对应观测样本,最后,根据GMM对应的所有观测样本和当前参数采用最大似然估计更新GMM参数;三音素模型训练单元,用于根据Baum-Welch训练三音素GMM模型,首先,获取所有三音素,对于每一帧特征,通过其对应的对齐序列获取对应的HMM状态,计算其统计量,其中,统计量包括音素出现次数和该语音特征的均值和方差,然后,根据累计共享音素的统计量对所有三音素构建决策树进行聚类,最后,根据决策树和决策树统计量初始化三音素GMM模型,通过每个GMM概率密度所占分量分裂或合并高斯数目,直到指定数量,更新三音素GMM模型。
实际中,对齐预测模块可包括模型获取单元及对齐预测单元;模型获取单元,用于获取训练模块训练好的单音素GMM模型、三音素GMM模型、决策树和初步音素对齐状态序列;对齐预测单元,用于将单音素表示的初步音素对齐状态序列映射为三音素对齐状态序列,根据决策树将单音素模型中音素对应的HMM状态转换成三音素中的HMM状态,通过EM更新GMM模型参数,输出新的音素对齐状态序列。
实施例
本发明实施例半监督的音素强制对齐模型建立方法,在半监督的强制对齐系统的基础上,可包括如下具体步骤:
一、获取训练数据。
所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本。
二、根据音素字典生成音素标注样本。
具体地,如图3所示,对文本标注样本集中的文本信息标注进行处理,获得对应的拼音信息,通过给定中文音素字典对拼音信息进行处理,获得对应的音素状态信息,其中“zhang4”表示“丈”,“4”表示拼音对应的声调。“sil”表示语音样本前后的静音状态。
三、将所述原始语音样本进行分帧,然后提取每一帧语音样本的MFCC特征序列。
如图4所示,根据MFCC特征和声学特征训练单音素GMM模型,具体包括如下步骤:
1)根据有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差,即CMVN操作,然后根据所述音素标注样本创建共享音素列表,对每一组共享音素的每一个状态创建只有一个分量的GMM;
2)通过特征的均值和方差初始化GMM模型参数,将GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为对齐标记语音样本特征的方差;
3)根据所述每个原始语音样本特征构建解码图,然后根据原始语音样本的每一帧语音特征和对应的解码图获取音素均匀对齐状态序列;
4)根据MFCC特征序列和对应的状态序列计算GMM训练所需的统计量,更新HMM转移概率矩阵;
5)更新单音素GMM模型参数,并在每一轮训练时不断增加GMM分量直到指定对齐循环次数,输出初步音素对齐状态序列。
四、根据初步音素对齐状态序列构建三音素GMM模型。
如图5所示,通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC及其补充特征输入三音素GMM进行训练。
五、确定三音素GMM模型参数,得到目标音素强制对齐模型。
如图6所示,计算三音素GMM模型输入样本的对数似然,其中,对数似然由两部分组成:基于有对齐标记样本的有监督项和基于待对齐样本的无监督项,对数似然公式为:
Figure BDA0001893559520000081
其中,Dl表示有对齐标记的输入样本集,Du表示待对齐输入样本集,所有样本独立同分布,混合系数
Figure BDA0001893559520000082
p(xjii)表示样本xj属于第i个高斯混合分量的概率,μii表示该高斯混合分量的参数;
通过EM(Expectation-Maximization)算法求解高斯混合模型参数,迭代更新模型参数直到收敛,更新式如下:
E步:根据初始模型参数计算待对齐数据特征样本xj属于各GMM分量的后验概率;
M步:基于后验概率更新模型参数{(αi,μi,Σi)|1≤i≤N}。
每个GMM分量的混合系数αi由特征样本属于该分量的平均后验概率确定。上述过程迭代直至收敛,获得三音素GMM模型参数,得到对应的三音素GMM模型,与单音素GMM模型组成目标音素强制对齐模型。

Claims (7)

1.半监督的音素强制对齐模型建立方法,其特征在于,包括如下步骤:
步骤1、获取训练数据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;
步骤2、根据音素字典将所述文本标注样本集中的文本标注样本生成音素标注样本;
步骤3、将所述原始语音样本集进行分帧,然后提取每一帧语音样本的MFCC特征序列;
步骤4、通过有对齐标记的语音样本对应的MFCC特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化,将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练,输出对应的初步音素对齐状态序列;
步骤5、通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC特征及其补充特征输入三音素GMM进行训练,输出对应的预测音素对齐状态序列;
步骤6、通过在模型参数估计过程中引入有监督项来对三音素GMM模型参数进行更新,确定所述三音素GMM模型的参数,获取对应的三音素GMM模型,得到目标音素强制对齐模型,其中目标音素强制对齐模型包括单音素GMM和三音素GMM两个子模型;
所述通过在模型参数估计过程中引入有监督项来对三音素GMM模型参数进行更新,具体包括如下步骤:
步骤601、计算三音素GMM模型输入样本的对数似然,其中,对数似然包括如下两个部分:基于有对齐标记语音样本的有监督项和基于待对齐语音样本的无监督项,对数似然公式为:
Figure FDA0003354324540000011
其中,Dl表示有对齐标记的输入样本集,Du表示待对齐输入样本集,所有样本独立同分布,混合系数
Figure FDA0003354324540000012
p(xjii)表示样本xj属于第i个高斯混合分量的概率,μii表示该高斯混合分量的参数;
步骤602、通过EM算法求解高斯混合模型参数,更新式如下:
E步:根据初始模型参数计算待对齐数据特征样本xj属于各GMM分量的后验概率;
M步:基于后验概率更新模型参数{(αiii)|1≤i≤N};
每个GMM分量的混合系数αi由特征样本属于该分量的平均后验概率确定;
上述步骤601-602迭代直至收敛。
2.根据权利要求1所述的半监督的音素强制对齐模型建立方法,其特征在于,步骤4具体包括如下步骤:
步骤401、根据所述有对齐标记的语音样本对应的MFCC特征序列计算得到每一维特征的均值和方差,即CMVN操作,然后根据所述音素标注样本创建共享音素列表,对每一组共享音素的每一个状态创建只有一个分量的单音素GMM;
步骤402、通过所述均值和方差初始化单音素GMM模型参数,将单音素GMM均值初始化为有对齐标记语音样本特征的均值、方差初始化为有对齐标记语音样本特征的方差;
步骤403、根据每个原始语音样本构建解码图,然后根据原始语音样本的每一帧MFCC特征和对应的解码图获取音素均匀对齐状态序列;
步骤404、根据MFCC特征序列和对应的音素均匀对齐状态序列计算单音素GMM训练所需的统计量,更新HMM转移概率矩阵;
步骤405、更新所述单音素GMM模型参数,并在每一轮训练时不断增加单音素GMM分量直到指定对齐循环次数,输出初步音素对齐状态序列。
3.根据权利要求1所述的半监督的音素强制对齐模型建立方法,其特征在于,步骤5具体包括如下步骤:
步骤501、将单音素复制为三音素,然后将单音素表示的初步音素对齐状态序列转换成三音素对齐状态序列;
步骤502、对于每一帧MFCC特征和与其相应的三音素对齐状态序列,计算三音素GMM训练所需统计量;
步骤503、将固定某一中间音素的所有三音素的统计量累加,根据三音素累加统计量对所有三音素进行聚类,生成决策树问题集,构建决策树,其中,所述决策树问题集包括音素位置问题集和HMM状态位置问题集两个子集;
步骤504、根据所述决策树和累加统计量初始化三音素GMM模型;
步骤505、将所述初步音素对齐状态序列、决策树输入三音素GMM模型进行训练,分裂或合并单高斯直到指定高斯数目,输出对应的预测音素对齐状态序列。
4.根据权利要求2所述半监督的音素强制对齐模型建立方法,其特征在于,步骤403具体包括如下步骤:
步骤4031、根据所述音素标注样本、单音素GMM模型生成字典解码图L.fst和语言模型解码图G.fst;
步骤4032、通过所述字典解码图L.fst和语言模型解码图G.fst生成LG.fst,将所述文本标注样本扩展为音素;
步骤4033、将所述LG.fst和上下文解码图C.fst组合生成CLG.fst;
步骤4034、根据HMM拓扑结构、转移概率和决策树,构建不包括自转移的声学模型Ha.fst,其中,每个转移的输入为一个HMM状态;
步骤4035、将所述Ha.fst和CLG.fst组合,通过确定化、去除空转移和最小化,得到HCLGa.fst;
步骤4036、通过增加每个HMM状态的自转移构建较大解码图,生成单音素解码图HCLG.fst。
5.半监督的音素强制对齐系统,应用于权利要求1-4任意一项所述的半监督的音素强制对齐模型建立方法,其特征在于,包括数据获取模块、音素转化模块、特征提取模块、训练模块、对齐预测模块及模型建立模块;
所述数据获取模块,用于获取训练据,所述训练数据包括原始语音样本集和对应的文本标注样本集,其中原始语音样本集包括有对齐标记的语音样本和待对齐的语音样本;
所述音素转化模块,用于将所述的文本标注样本集中的文本标注样本转化成对应的音素标注样本;
所述特征提取模块,用于将原始语音样本集中的语音样本转化成MFCC特征序列;
所述训练模块,用于将所述MFCC特征和对应的音素标注样本输入单音素和三音素GMM模型进行训练,包括:通过有对齐标记的语音样本对应的MFCC特征序列对所述音素强制对齐模型中的单音素GMM参数进行初始化,将所述MFCC特征序列和对应的音素标注样本作为声学特征输入单音素GMM训练,输出对应的初步音素对齐状态序列;
所述对齐预测模块,用于通过所述初步音素对齐状态序列初始化音素强制对齐模型中的三音素GMM,将所述MFCC特征及其补充特征输入三音素GMM进行训练,输出对应的预测音素对齐状态序列;
所述模型建立模块,用于引入有对齐标记数据的有监督项对模型参数进行估计和更新,包括:
步骤601、计算三音素GMM模型输入样本的对数似然,其中,对数似然包括如下两个部分:基于有对齐标记语音样本的有监督项和基于待对齐语音样本的无监督项,对数似然公式为:
Figure FDA0003354324540000031
其中,Dl表示有对齐标记的输入样本集,Du表示待对齐输入样本集,所有样本独立同分布,混合系数αi≥0,
Figure FDA0003354324540000041
p(xjii)表示样本xj属于第i个高斯混合分量的概率,μii表示该高斯混合分量的参数;
步骤602、通过EM算法求解高斯混合模型参数,更新式如下:
E步:根据初始模型参数计算待对齐数据特征样本xj属于各GMM分量的后验概率;
M步:基于后验概率更新模型参数{(αiii)|1≤i≤N};
每个GMM分量的混合系数αi由特征样本属于该分量的平均后验概率确定;
上述步骤601-602迭代直至收敛,获得三音素GMM模型参数,得到对应的三音素GMM模型,与所述的单音素GMM模型组成目标音素强制对齐模型。
6.根据权利要求5所述的半监督的音素强制对齐系统,其特征在于,所述训练模块包括声学特征获取单元、初始化单元、解码图编译单元、单音素模型训练单元及三音素模型训练单元;
所述声学特征获取单元,用于根据特征提取模块得到模型输入MFCC特征矩阵,将输入MFCC特征矩阵中的有对齐标记的特征序列进行计算,得到每一维均值和方差;
所述初始化单元,用于根据所述均值和方差初始化单音素GMM的均值和方差;
所述解码图编译单元,用于生成与MFCC特征对齐的HMM状态序列时所需的每个语音样本对应音素标注样本的解码图;
所述单音素模型训练单元,用于根据Viterbi训练单音素GMM模型,首先,通过初始模型对MFCC特征数据进行均匀对齐,得到每一帧特征对应的HMM状态序列,然后,根据特征序列和对应HMM状态序列计算转移概率矩阵更新HMM状态,得到一个HMM状态对应的所有GMM所对应观测样本,最后,根据GMM对应的所有观测样本和当前参数采用最大似然估计更新GMM参数;
所述三音素模型训练单元,用于根据Baum-Welch训练三音素GMM模型,首先,获取所有三音素,对于每一帧MFCC特征,通过其对应的对齐序列获取对应的HMM状态,计算其统计量,其中,统计量包括音素出现次数,然后,根据累计共享音素的统计量对所有三音素构建决策树进行聚类,最后,根据决策树和决策树统计量初始化三音素GMM模型,通过每个GMM概率密度所占分量分裂或合并高斯数目,直到指定数量,更新三音素GMM模型。
7.根据权利要求6所述的半监督的音素强制对齐系统,其特征在于,所述对齐预测模块包括模型获取单元及对齐预测单元;
所述模型获取单元,用于获取训练模块训练好的单音素GMM模型、三音素GMM模型、决策树和初步音素对齐状态序列;
所述对齐预测单元,用于将单音素表示的初步音素对齐状态序列映射为三音素对齐状态序列,根据决策树将单音素GMM模型中音素对应的HMM状态转换成三音素中的HMM状态,通过EM更新三音素GMM模型参数,输出新的音素对齐状态序列。
CN201811481756.7A 2018-12-05 2018-12-05 半监督的音素强制对齐模型建立方法及系统 Active CN109326277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811481756.7A CN109326277B (zh) 2018-12-05 2018-12-05 半监督的音素强制对齐模型建立方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811481756.7A CN109326277B (zh) 2018-12-05 2018-12-05 半监督的音素强制对齐模型建立方法及系统

Publications (2)

Publication Number Publication Date
CN109326277A CN109326277A (zh) 2019-02-12
CN109326277B true CN109326277B (zh) 2022-02-08

Family

ID=65256303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811481756.7A Active CN109326277B (zh) 2018-12-05 2018-12-05 半监督的音素强制对齐模型建立方法及系统

Country Status (1)

Country Link
CN (1) CN109326277B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097193B (zh) * 2019-04-28 2021-03-19 第四范式(北京)技术有限公司 训练模型的方法及系统和预测序列数据的方法及系统
CN110556093B (zh) * 2019-09-17 2021-12-10 浙江同花顺智富软件有限公司 一种语音标注方法及其系统
CN111402893A (zh) * 2020-03-23 2020-07-10 北京达佳互联信息技术有限公司 语音识别模型确定方法、语音识别方法及装置、电子设备
CN111724769A (zh) * 2020-04-22 2020-09-29 深圳市伟文无线通讯技术有限公司 一种智能家居语音识别模型的生产方法
CN111798841B (zh) * 2020-05-13 2023-01-03 厦门快商通科技股份有限公司 声学模型训练方法、系统、移动终端及存储介质
CN111933116B (zh) * 2020-06-22 2023-02-14 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN111833844A (zh) * 2020-07-28 2020-10-27 苏州思必驰信息科技有限公司 用于语音识别和语种分类的混合模型的训练方法及系统
CN111798868B (zh) 2020-09-07 2020-12-08 北京世纪好未来教育科技有限公司 语音强制对齐模型评价方法、装置、电子设备及存储介质
CN112908308B (zh) * 2021-02-02 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及介质
CN113035247B (zh) * 2021-03-17 2022-12-23 广州虎牙科技有限公司 一种音频文本对齐方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103117060A (zh) * 2013-01-18 2013-05-22 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统
CN107680582A (zh) * 2017-07-28 2018-02-09 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
CN108496219A (zh) * 2015-11-04 2018-09-04 剑桥大学的校长、教师和学者 语音处理系统和方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7289958B2 (en) * 2003-10-07 2007-10-30 Texas Instruments Incorporated Automatic language independent triphone training using a phonetic table
US20070233481A1 (en) * 2006-04-03 2007-10-04 Texas Instruments Inc. System and method for developing high accuracy acoustic models based on an implicit phone-set determination-based state-tying technique
JP6495850B2 (ja) * 2016-03-14 2019-04-03 株式会社東芝 情報処理装置、情報処理方法、プログラムおよび認識システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103117060A (zh) * 2013-01-18 2013-05-22 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统
CN108496219A (zh) * 2015-11-04 2018-09-04 剑桥大学的校长、教师和学者 语音处理系统和方法
CN107680582A (zh) * 2017-07-28 2018-02-09 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109326277A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN109326277B (zh) 半监督的音素强制对齐模型建立方法及系统
US8972253B2 (en) Deep belief network for large vocabulary continuous speech recognition
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
CN108538285B (zh) 一种基于多任务神经网络的多样例关键词检测方法
EP0771461A1 (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
US20050228666A1 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
Kannadaguli et al. A comparison of Gaussian mixture modeling (GMM) and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in Kannada
US6173076B1 (en) Speech recognition pattern adaptation system using tree scheme
Li et al. Labeling unsegmented sequence data with DNN-HMM and its application for speech recognition
Kannadaguli et al. Phoneme modeling for speech recognition in Kannada using Hidden Markov Model
Bansal et al. Speech synthesis–automatic segmentation
JP3589044B2 (ja) 話者適応化装置
Ganitkevitch Speaker adaptation using maximum likelihood linear regression
Wang et al. Improved end-to-end speech recognition using adaptive per-dimensional learning rate methods
Gollan et al. Towards automatic learning in LVCSR: rapid development of a Persian broadcast transcription system.
Rasipuram et al. Probabilistic lexical modeling and unsupervised training for zero-resourced ASR
JP2000075885A (ja) 音声認識装置
Thandil et al. Automatic speech recognition system for utterances in Malayalam language
JPH1097273A (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
Shi et al. A study of irrelevant variability normalization based training and unsupervised online adaptation for LVCSR
Kadir et al. Bangla speech sentence recognition using hidden Markov models
Wang et al. Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching
JP6057170B2 (ja) 音声言語評価装置、パラメータ推定装置、方法、及びプログラム
Ramachandrula et al. Implementation of Discrete HMMs for Isolated Spoken Word Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant