CN102568477A - 一种半监督的发音模型建模系统及方法 - Google Patents
一种半监督的发音模型建模系统及方法 Download PDFInfo
- Publication number
- CN102568477A CN102568477A CN2010106117222A CN201010611722A CN102568477A CN 102568477 A CN102568477 A CN 102568477A CN 2010106117222 A CN2010106117222 A CN 2010106117222A CN 201010611722 A CN201010611722 A CN 201010611722A CN 102568477 A CN102568477 A CN 102568477A
- Authority
- CN
- China
- Prior art keywords
- model
- phoneme
- pronunciation
- distance
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开了一种半监督的发音模型建模方法,包括步骤:对音素的错误发音建立初始声学模型;强制对齐,获得该音素的时间边界;计算该音素错误发音的GMM模型;对GMM模型聚类;按照聚类结果重新训练该音素的错误发音的声学模型。本发明还公开了实现上述方法的系统。该发音模型建模系统及方法,先采用有监督的方法,把错误发音按照音素的不同分为大的类别,再在每个大类中用无监督的方法对错误发音聚类,从而解决了分布比较分散的发音的建模问题,提高了计算机辅助语言学习系统的性能。
Description
技术领域
本发明涉及一种半监督的发音模型建模方法。本发明还涉及实现该方法的系统。
背景技术
随着信息技术和全球化的迅速发展,国际交流越来越频繁,语言的学习需求呈现持续增长趋势,尤其是口语的交流能力,成了语言学习的重点。但是,传统的课堂教学偏重词汇和语法,学习者的口语能力难以得到有效地提高。为了适应语言学习的需求,人们开发了计算机辅助语言学习(Computer AssistantLanguage Learning,CALL)系统,通过计算机替代人来执行或辅助语言的教学,提高语言学习的效率。
发音错误自动检测是计算机辅助语言学习系统的关键技术,它在很大程度上决定了计算机辅助语言学习系统的性能。可靠的自动发音错误检测技术有助于计算机辅助语言学习系统了解学习者掌握语言的水平,分析出学习者的发音缺陷,并有针对性地给出改进意见及对应的学习材料,有效提高学习者的语言水平。
发音错误自动检测可以采用标准发音建立声学模型,也可以采用错误发音建立声学模型,但一般而言,采用错误发音建立的声学模型的性能更好。
发明内容
本发明要解决的技术问题是提供一种半监督的发音模型建模方法,它可以提高计算机辅助语言学习系统的性能。
为解决上述技术问题,本发明的半监督的发音模型建模方法,包括下步骤:
(1)对音素的错误发音建立初始声学模型;
(2)对训练数据做强制对齐,获得该音素的时间边界;
(3)对该音素的每一类错误发音,建立一个混合高斯模型;
(4)对步骤(3)建立的混合高斯模型进行聚类;
(5)按照步骤(4)的聚类结果,重新训练该音素的错误发音的声学模型。
所述步骤(4),进一步包括以下步骤:
(41)对步骤(3)建立的混合高斯模型,两两计算高斯概率分布函数的距离,并生成一张距离表;
(42)统计距离表的每一横行中,距离值小于预先设定的距离门限值的表项的个数;
(43)根据步骤(42)的统计结果,确定距离值小于距离门限值的表项个数最多的那一横行,将该横行所代表的高斯概率分布函数和这些表项所属纵行所代表的高斯概率分布函数合并为一类;
(44)计算剩余混合高斯模型的类别数,并把已分类个数的值加1;
(45)判断剩余混合高斯模型的类别是否为0或者已分类个数是否等于预先设定的已分类个数的上限值,若否,则转到步骤(42)。
本发明要解决的另一技术问题是提供一种实现上述方法的系统。
为解决上述技术问题,本发明的半监督的发音模型建模系统,包括:
初始建模模块,用于对音素的错误发音建立初始声学模型;
强制对齐模块,用于对训练数据做强制对齐,获得音素的时间边界;
高斯分布计算模块,用于对音素的每一类错误发音,分别建立一个混合高斯模型;
聚类模块,用于对高斯分布计算模块建立的混合高斯模型进行聚类;
建模模块,用于根据聚类模块得到的聚类结果,重新训练音素的错误发音的声学模型。
所述聚类模块进一步包括:
距离表生成模块,用于两两计算混合高斯模型的高斯概率分布函数的距离,并生成一张距离表;
统计模块,用于统计距离表的每一横行中,距离值小于预先设定的距离门限值的表项的个数;
类别合并模块,用于根据统计模块的统计结果,确定距离值小于距离门限值的表项个数最多的那一横行,将该横行所代表的高斯概率分布函数和这些表项所属纵行所代表的高斯概率分布函数合并为一类;
计算模块,用于计算剩余混合高斯模型的类别数和已分类个数;
判断模块,用于根据计算模块的计算结果,判断聚类是否完成。
本发明的半监督的发音模型建模系统及方法,先用有监督的方法,按照音素的不同,把错误发音分为大的类别,然后在每个大类中再用无监督的方法把错误发音聚类,从而解决了分布比较分散的发音的建模问题,提高了发音错误自动检测系统的性能。
附图说明
附图是本发明的方法流程图。
具体实施方式
为对本发明的技术内容、特点与功效有更具体的了解,现结合图示的实施方式,详述如下:
以错误发音建模为例,在使用本发明的半监督的发音模型建模系统及方法建立发音模型之前,需要预先采集一批语音数据,并对每个语音数据进行相应的文本标注,标注出其中的每个发音是正确的还是错误的。然后,按照以下步骤建立发音模型:
(1)根据语音识别中的最大似然准则(Maximum Likelihood Estimation,MLE),对每一种音素的错误发音建立初始的隐马尔科夫(Hidden Markov Model,HMM)声学模型。
(2)对训练数据进行强制对齐(Forced Alignment),获得每个音素的时间边界。
(3)假设某个音素有N个错误发音样本,并设定初始时,一个错误发音为一类,则该音素错误发音的类别数的初始值即为N。对每一类错误发音都用一个混合高斯模型(Gaussian Mixture Model,GMM)来表示其分布。由于一个音素的持续时间很短,因此,这里的GMM模型可以用单高斯或者双高斯来表示。
(4)对步骤(3)中建立的N个GMM模型,两两计算其概率分布函数的距离,生成一张距离表。例如,可以采用Bhattacharvya distance(巴塔恰里雅距离)来表示两个高斯概率分布函数Gi和Gj的距离,见下式:
其中,μi和∑i分别为高斯函数Gi的均值向量及协方差矩阵,μj和∑j分别为高斯函数Gj的均值向量及协方差矩阵。
(5)对每个高斯函数,统计距离表的每一横行中,距离值小于预先设定的距离门限值的表项的个数Mi。
(6)找出Mi中最大的一个,即距离值小于门限的表项个数最多的那一横行,将该横行所代表的高斯函数和与该高斯函数距离最近的这Mi个高斯函数合并为一类。
(7)用合并前GMM模型的类别数,减去合并后减少的GMM模型数,计算出剩余GMM模型的类别数(首次聚类后的剩余类别数为N-Mi),并把已分类个数k的值加1,该k的初始值为0。
(8)判断剩余GMM模型的类别是否为0,或者已分类个数是否等于预先设定的已分类个数的上限值K,若是,则继续进行步骤(9);若否,则转到步骤(5)。
(9)按照前述步骤中得到的错误发音的聚类结果,更新该音素的标注文件和音素列表,重新训练该音素的错误发音的HMM模型。
下面以中文发音“ch”为例,对上述建模方法再做进一步地说明。
首先,通过MLE的方法,对所有标注为正确发音的“ch”生成一个HMM模型,对所有标注为错误或不准确发音的“ch”生成另一个HMM模型。
然后,通过强制对齐,获得每个“ch”的发音的发音边界。
假设“ch”一共有80个错误发音的样本,那么,通过上一步骤获得的这80个发音的准确边界,可以生成80个GMM模型,来描述这80个错误发音。
对这80个GMM模型,两两计算其模型的距离,生成一张80×80的距离表。
在该距离表中,检查每一横行中,距离值小于预先设定的距离门限值的表项的个数,对距离值小于距离门限值的表项的个数最多(假设最多的个数为21个)的那一横行,将该横行所代表的模型和这21个模型合并为一类;计算剩余的GMM模型类别为:80-21=69类,已分类个数k为:0+1=1。
由于上述计算出的剩余GMM模型类别不为0,因此,需要再重复执行上一步骤,继续对“ch”的错误发音进行聚类,直到剩余的GMM模型类别为0,或者已分类个数等于预先设定的已分类个数的上限值K。
对“ch”的错误发音完成聚类后,按照聚类结果,更新其标注文件和音素列表,重新训练“ch”的错误发音的HMM模型,并进而建立发音错误自动检测系统的声学模型。
综上所述,本发明的半监督的发音模型建模系统及方法,先借助有监督的先验知识:某个音素的错误发音总有其类似的地方,与其他音素的错误发音差别会比较大,将错误发音按照音素的不同分为大的类别,然后在每个大类中再用无监督的方法把错误发音聚类,从而解决了分布比较分散的发音的建模问题,提高了发音错误自动检测系统的性能。
Claims (7)
1.一种半监督的发音模型建模方法,其特征在于,包括以下步骤:
(1)对音素的错误发音建立初始声学模型;
(2)对训练数据做强制对齐,获得该音素的时间边界;
(3)对该音素的每一类错误发音建立一个混合高斯模型;
(4)对步骤(3)建立的混合高斯模型进行聚类;
(5)按照步骤(4)的聚类结果,重新训练该音素的错误发音的声学模型。
2.如权利要求1所述的发音模型建模方法,其特征在于:所述步骤(1)的声学模型为隐马尔科夫模型。
3.如权利要求2所述的发音模型建模方法,其特征在于:所述隐马尔科夫模型根据最大似然准则建立。
4.如权利要求1所述的发音模型建模方法,其特征在于,所述步骤(4),进一步包括以下步骤:
(41)对步骤(3)建立的混合高斯模型,两两计算高斯概率分布函数的距离,并生成一张距离表;
(42)统计距离表的每一横行中,距离值小于预先设定的距离门限值的表项的个数;
(43)根据步骤(42)的统计结果,确定距离值小于距离门限值的表项个数最多的那一横行,将该横行所代表的高斯概率分布函数和这些表项所属纵行所代表的高斯概率分布函数合并为一类;
(44)计算剩余混合高斯模型的类别数,并把已分类个数的值加1;
(45)判断剩余混合高斯模型的类别是否为0或者已分类个数是否等于预先设定的已分类个数的上限值,若否,则转到步骤(42)。
5.如权利要求4所述的发音模型建模方法,其特征在于:所述步骤(44)中,已分类个数的初始值为0。
6.一种半监督的发音模型建模系统,其特征在于,包括:
初始建模模块,用于对音素的错误发音建立初始声学模型;
强制对齐模块,用于对训练数据做强制对齐,获得音素的时间边界;
高斯分布计算模块,用于对音素的每一类错误发音,分别建立一个混合高斯模型;
聚类模块,用于对高斯分布计算模块建立的混合高斯模型进行聚类;
建模模块,用于根据聚类模块得到的聚类结果,重新训练音素的错误发音的声学模型。
7.如权利要求6所述的发音模型建模系统,其特征在于,所述聚类模块进一步包括:
距离表生成模块,用于两两计算混合高斯模型的高斯概率分布函数的距离,并生成一张距离表;
统计模块,用于统计距离表的每一横行中,距离值小于预先设定的距离门限值的表项的个数;
类别合并模块,用于根据统计模块的统计结果,确定距离值小于距离门限值的表项个数最多的那一横行,将该横行所代表的高斯概率分布函数和这些表项所属纵行所代表的高斯概率分布函数合并为一类;
计算模块,用于计算剩余混合高斯模型的类别数和已分类个数;
判断模块,用于根据计算模块的计算结果,判断聚类是否完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106117222A CN102568477A (zh) | 2010-12-29 | 2010-12-29 | 一种半监督的发音模型建模系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106117222A CN102568477A (zh) | 2010-12-29 | 2010-12-29 | 一种半监督的发音模型建模系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102568477A true CN102568477A (zh) | 2012-07-11 |
Family
ID=46413733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010106117222A Pending CN102568477A (zh) | 2010-12-29 | 2010-12-29 | 一种半监督的发音模型建模系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102568477A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103956165A (zh) * | 2014-05-09 | 2014-07-30 | 德州学院 | 利用混合分量聚类Fisher得分算法提高音频分类准确率的方法 |
CN103971677A (zh) * | 2013-02-01 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声学语言模型训练方法和装置 |
CN105701482A (zh) * | 2016-02-29 | 2016-06-22 | 公安部第研究所 | 基于非平衡标签信息融合的人脸识别算法架构 |
US9396723B2 (en) | 2013-02-01 | 2016-07-19 | Tencent Technology (Shenzhen) Company Limited | Method and device for acoustic language model training |
CN108962229A (zh) * | 2018-07-26 | 2018-12-07 | 汕头大学 | 一种基于单通道、无监督式的目标说话人语音提取方法 |
-
2010
- 2010-12-29 CN CN2010106117222A patent/CN102568477A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971677A (zh) * | 2013-02-01 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声学语言模型训练方法和装置 |
CN103971677B (zh) * | 2013-02-01 | 2015-08-12 | 腾讯科技(深圳)有限公司 | 一种声学语言模型训练方法和装置 |
US9396723B2 (en) | 2013-02-01 | 2016-07-19 | Tencent Technology (Shenzhen) Company Limited | Method and device for acoustic language model training |
CN103956165A (zh) * | 2014-05-09 | 2014-07-30 | 德州学院 | 利用混合分量聚类Fisher得分算法提高音频分类准确率的方法 |
CN105701482A (zh) * | 2016-02-29 | 2016-06-22 | 公安部第研究所 | 基于非平衡标签信息融合的人脸识别算法架构 |
CN108962229A (zh) * | 2018-07-26 | 2018-12-07 | 汕头大学 | 一种基于单通道、无监督式的目标说话人语音提取方法 |
CN108962229B (zh) * | 2018-07-26 | 2020-11-13 | 汕头大学 | 一种基于单通道、无监督式的目标说话人语音提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101739869B (zh) | 一种基于先验知识的发音评估与诊断系统 | |
CN103761975B (zh) | 一种口语评测方法及装置 | |
CN1945693B (zh) | 训练韵律统计模型、韵律切分和语音合成的方法及装置 | |
CN101650942B (zh) | 基于韵律短语的韵律结构生成方法 | |
CN103559892B (zh) | 口语评测方法及系统 | |
CN105261246B (zh) | 一种基于大数据挖掘技术的英语口语纠错系统 | |
Cao et al. | Developing a Chinese L2 speech database of Japanese learners with narrow-phonetic labels for computer assisted pronunciation training. | |
CN102034475B (zh) | 一种运用计算机对开放式短对话进行交互式评分的方法 | |
CN101315733B (zh) | 一种针对计算机语言学习系统发音评测的自适应方法 | |
US10217457B2 (en) | Learning from interactions for a spoken dialog system | |
CN104867490B (zh) | 韵律结构预测方法和装置 | |
CN102253976B (zh) | 一种用于口语学习的元数据处理方法和系统 | |
CN101739868A (zh) | 一种用于口语测试的文本朗读水平自动评估诊断方法 | |
CN104756100A (zh) | 意图估计装置以及意图估计方法 | |
CN102568477A (zh) | 一种半监督的发音模型建模系统及方法 | |
US20140205974A1 (en) | Statistical machine translation framework for modeling phonological errors in computer assisted pronunciation training system | |
CN104240706B (zh) | 一种基于GMM Token配比相似度校正得分的说话人识别方法 | |
CN110415725B (zh) | 使用第一语言数据评估第二语言发音质量的方法及系统 | |
CN106856095A (zh) | 一种拼音拼读的发音质量评测系统 | |
Duan et al. | A Preliminary study on ASR-based detection of Chinese mispronunciation by Japanese learners | |
CN102203852A (zh) | 建立语音模型的方法 | |
CN104347071A (zh) | 生成口语考试参考答案的方法及系统 | |
CN104240699B (zh) | 一种简单有效的短语语音识别方法 | |
Novotney et al. | Analysis of low-resource acoustic model self-training | |
Campbell et al. | A comparison of subspace feature-domain methods for language recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120711 |