CN101840699B - 一种基于发音模型的语音质量评测方法 - Google Patents
一种基于发音模型的语音质量评测方法 Download PDFInfo
- Publication number
- CN101840699B CN101840699B CN2010101649961A CN201010164996A CN101840699B CN 101840699 B CN101840699 B CN 101840699B CN 2010101649961 A CN2010101649961 A CN 2010101649961A CN 201010164996 A CN201010164996 A CN 201010164996A CN 101840699 B CN101840699 B CN 101840699B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- pronunciation
- voice quality
- model
- pronunciation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000010276 construction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000011156 evaluation Methods 0.000 abstract description 5
- 230000011218 segmentation Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 17
- 238000012360 testing method Methods 0.000 description 8
- 101100299367 Arabidopsis thaliana PSK6 gene Proteins 0.000 description 3
- 101000838578 Homo sapiens Serine/threonine-protein kinase TAO2 Proteins 0.000 description 3
- 101150036717 PSK3 gene Proteins 0.000 description 3
- 102100028949 Serine/threonine-protein kinase TAO2 Human genes 0.000 description 3
- 238000001303 quality assessment method Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 101000838579 Homo sapiens Serine/threonine-protein kinase TAO1 Proteins 0.000 description 2
- 102100028948 Serine/threonine-protein kinase TAO1 Human genes 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种基于发音模型的语音质量评测方法,包括1.1)确定发音质量音素集;1.2)对训练数据划分发音质量等级;1.3)依据发音质量等级训练发音模型;2.1)提取待评测发音段的语音特征;2.2)构建基于所述发音模型的解码网络,进行Viterbi解码;2.3)对每个音素计算基于发音模型的置信度;2.4)根据所述置信度得出所述待评测发音段的发音质量。本发明不仅对不同的音素进行建模,还将发音质量的优劣加以区分。基于发音模型的语音质量评测方法中搭建的解码网络,可以充分利用发音质量的差异,从而获得更为准确的音素分割点,基于发音模型的置信度计算更接近理想的音素后验概率值,因此这种基于发音模型的语音质量评测方法具有更好的评估性能。
Description
技术领域
本发明属于发音质量评估技术领域,具体地说,本发明涉及一种基于发音模型的语音质量评测方法。
背景技术
在自然条件下使用发音质量评估系统,不同于在理想实验环境下的使用,这时发音质量评估系统的性能会有很大的降低。而且对于真实的口语,在语音中会参杂很多非语音,譬如非正常停顿、咳嗽声以及很多的环境噪声,这都给发音质量评估系统达到原有的评估精度造成了困难。另外,用户说的词汇如果不在发音质量评估系统预先设定的领域范围内或者用户的发音带有一定的方言特色,也较容易造成评估误差。总之,对于商业化的发音质量评估系统,用户的期望是尽可能的准确评估发音质量,与此同时还要求比较快的评估速度。因此,目前各种语音质量评测方法都是围绕这两点来展开的。
语音质量评测方法可以对连续语音进行音素段的切分,然后在特定音素段内对目标发音进行假设检验,通过预先训练的阈值对待评估发音段的准确性进行评价,从而判断出用户的发音水平。
目前,采用声学模型和语音识别的框架进行音素切分和置信度计算来进行语音质量评测是一种应用较广的做法。例如,图1为一种现有的语音质量评测方法的示意图。如图1所示,输入语音首先利用声学模型对目标词序列作强制对齐。在这个过程中,可以获得对应于输入语音的音素分割点以及状态分割点。然后,计算出目标文本在待评估语音下的音素后验概率作为置信度,最后通过分数预测器获得机器自动评估的发音质量分数。在现有方法中,解码和置信度计算均使用了声学模型。声学模型是对标准发音声学空间中各个音素单元的建模,因此它没有对不同的发音质量进行描述,所以当遇到发音水平比较差的用户时,采用声学模型不能获得较为准确的音素分割点和音素后验概率值,从而很不利于发音质量评估系统的在线使用和实际推广。
发明内容
本发明的目的在于克服现有技术的不足,在未明显增加计算量的情况下,以提高系统稳健性为主要目标,提出一种基于发音模型的语音质量评测方法。该方法充分利用发音质量评估和语音识别的差别,对不同的发音质量等级进行区分性建模,构建出一个比声学空间更为广阔的发音空间,从而在解码时获得更准确的音素分割点,在置信度计算时获得更精确的音素后验概率,从而提高评估性能。
为实现上述发明目的,本发明提供的基于发音模型的语音质量评测方法,该方法包括发音模型的构建步骤和语音质量评测步骤;
其中发音模型构建步骤包括下列子步骤:
1.1)确定发音质量音素集;
1.2)对训练数据划分发音质量等级;
1.3)依据发音质量等级训练发音模型;
语音质量评测步骤包括下列子步骤:
2.1)提取待评测发音段的语音特征;
2.2)构建基于所述发音模型的解码网络,进行Viterbi解码;
2.3)对每个音素计算基于发音模型的置信度;
2.4)根据所述置信度得出所述待评测发音段的发音质量。
所述步骤1.1)中对每个音素分为三个不同的发音质量等级。
所述步骤1.2)中训练数据的发音质量等级划分包括如下步骤:准备训练数据的原始语音和音素标注文本;采用Viterbi解码算法,将原始语音和音素标注进行强制对齐,计算每个音素的后验概率;按照音素后验概率值的大小划分发音质量等级。
所述步骤1.3)中,所述发音模型采用传统隐马尔可夫模型的框架构建。
所述步骤2.2)中搭建基于发音模型的解码网络包括如下步骤:利用发音字典将目标文本转换成音素串序列;对每个音素将其各个发音质量并联;将音素串序列转换成各个音素质量并联子网络的串联宏网络即获得基于发音模型的解码网络。
所述步骤2.3)中对每个音素计算基于发音模型的置信度包括如下步骤:利用步骤2.2)中Viterbi解码获得的音素分割点信息,在指定音素段间搭建音素混淆网络;在音素混淆网络的每条路径上利用Viterbi算法获得声学似然值;计算音素后验概率作为发音质量评价的依据,取目标音素最优质量对应的路径上的声学似然值作为所述音素后验概率的分子,混淆网络的所有路径上的声学似然值的和作为所述音素后验概率的分母。
所述步骤2.4)中采用线性预测器得出所述待评测发音段的发音质量。
本发明的优点是,将不同的发音质量引入到模型训练和评测过程中。在现有技术中,发音质量评估系统的解码和置信度计算均采用声学模型进行,声学模型通常都是以音素为基本单元训练的,训练数据为标准发音,这样不同发音质量信息没有被利用。本发明充分利用了发音质量评估和语音识别的应用目标差异,对不同的发音质量等级进行区分性建模,构建出一个比声学空间更为广阔的发音空间,是对发音质量评估系统的应用空间更为精细的描述,从而在解码时获得更准确的音素分割点,在置信度计算时获得更精确的音素后验概率值。
附图说明
图1是现有技术的语音质量评测方法的示意图;
图2是本发明的基于发音模型的语音质量评测方法一个实施例的流程图;
图3是本发明的基于发音模型的语音质量评测方法中的解码网络状态图的搭建示意图;
图4是本发明的基于发音模型的语音质量评测方法中的音素混淆网络的搭建示意图;
图5是本发明的基于发音模型的语音质量评测方法的基于状态图的强制对齐示意图。
具体实施方式
下面结合附图及具体实施例对本发明的基于发音模型的语音质量评测方法做进一步地描述。
图2是本发明的基于发音模型的语音质量评测方法一个实施例的流程图。如图2所示,该实施例提供的基于发音模型的语音质量评测方法包括如下步骤:
1)构建发音模型
1.1)确定发音质量音素集。对每一个音素建模单元,本实施例将其发音质量分为三个等级,即好、中、差。以音素“zh”为例,三个等级的音素分别标记为“zh_1”、“zh_2”和“zh_3”,“zh_1”为发音质量最好的,即音素“zh”的标准发音。假设目标语言有n个音素,这样发音模型的音素集中就定为n*3个建模单元。
1.2)对训练数据划分质量等级。人工标注发音质量劳动强度大,加之训练数据量很大,这样使得人工获取训练数据的音素发音质量等级有很大困难。本实施例按照音素后验概率大小的原则,采用机器自动划分的方式完成发音质量的划分,具体包含三个步骤:
1.2-1)准备训练数据的原始语音和音素标注文本;
1.2-2)提取语音特征,利用音素标注和声学模型,采用Viterbi解码算法,将原始语音和音素序列进行强制对齐。然后,在各个音素语音段内,计算音素后验概率值。
1.2-3)按照音素后验概率值的大小排序,从大到小划分发音质量等级,使得每个等级的数据个数均衡,采用相异的符号对不同音素的不同发音质量等级进行标记。
1.3)类似声学模型的训练过程,同样采用隐马尔科夫模型(HMM)的框架训练发音模型。
2)采用发音模型进行语音评测
2.1)提取语音特征;
2.2)利用目标文本和发音词典,构建发音空间的解码网络,进行Viterbi解码。
本步骤中解码网络状态图的构建方法如下:
图3是本发明的基于发音模型的语音质量评测方法中的解码网络状态图的搭建示意图。如图3所示,首先根据目标文本搭建起一个词串的搜索空间,即包含在目标文本中所有词的串联网络。然后,借助发音字典的信息,把词网展开成一个音素网络。在每个音素节点上,该音素对应的所有发音质量等级构成一个并联子网络。最后,每个音素再被发音模型中相对应的HMM所取代,每个HMM由三个状态组成。这样,最终的搜索空间就变成了一个状态图,状态图中的任意一条路径代表一个音素序列候选,该音素序列包含发音质量等级信息。通过比较不同路径上的累积概率值(似然概率与转移概率)来获得最优路径,从而获得音素分割点信息。
2.3)利用各个音素的时间分割点信息,计算每个音素基于发音模型的置信度。本步骤中可以采用基于音素混淆网络的音素后验概率、基于帧平均的音素后验概率或者传统的Goodness of Pronunciation概率作为置信度。图4是本发明的基于发音模型的语音质量评测方法中音素混淆网络的搭建示意图。如图4所示,以目标音素“zh”为例加以说明,在2.2)的解码结果中,该音素段的上文是“a1_1”,下文是“uo1_2”。因为“zh”是声母,因此本实施例选择所有声母的所有质量等级作为“zh”的易混淆音素,再利用解码结果的上下文进行三音子扩展,最后将所有扩展后的三音子并联,构成该音素段的混淆网络。在音素混淆网络的每条路径上,对语音帧和HMM状态作强制对齐处理,从而获得该语音段在该路径下的声学似然值。选取目标音素最优质量对应的路径上的声学似然值作为后验概率的分子,混淆网络的所有路径上的声学似然值之和作为后验概率的分母,如此获得基于混淆网络的音素后验概率作为每个音素基于发音模型的置信度。
该强制对齐过程也是一个简单的解码过程,只是这时的候选项是同一音素的所有状态序列,最佳状态序列作为最佳路径被解出来。图5是本发明的基于发音模型的语音质量评测方法中的基于状态图的强制对齐示意图。在图5中,虚线代表候选状态序列,而黑实线代表解出来的最优路径即最佳状态序列。如图5所示,当某一状态序列对观察序列(本实施例中的观察序列为特征向量)出现的似然概率P(X|S)最大时,认为该状态序列为最佳状态序列。
2.4)预测发音质量分数,本步骤是采用线性预测器完成的。
音素的置信度得分被用来衡量该音素发音质量的好坏。在评价语音质量评测方法的性能时,采用与专家评估作对比的方式进行,即对同一批语音数据机器评估和专家评估发音质量同时进行,以专家评估的结果作为标准,机器评估结果与其一致认为机器评估正确,否则认为机器评估错误,这样统计出一个打分正确率。比较打分正确率的变化即可获知不同评测方法性能的优劣。从音素的置信度得分到机器评估结果之间存在着影射关系的问题,在此采用了阈值分类的方法。按照打分正确率最高的原则,在开发集上训练出各个音素的置信度阈值;在测试过程中,当置信度高于该音素的置信度阈值时认为发音准确,反之则认为该发音存在缺陷。
使用香港普通话水平考试现场录制的三个数据集对本发明的基于发音模型的语音质量评测方法进行测试,分别为PSK1、PSK2和PSK3。PSK1中有182个女生和107个男生的数据,PSK2中有122个女生和79个男生的数据,PSK3中有64个女生和44个男生的数据。被试均是香港本地的大学毕业生,普通话水平普遍不太好。每位被试朗读的目标语音都是事先指定的50个单字和25个双字词,针对不同的数据集,事先指定的目标语音内容各不相同。在每个数据集中随机取出60%作为训练分数影射阈值的开发集,剩下的40%作为测试集。本试验通过比较打分正确率的高低来评价发音质量评估系统的性能优劣。对所有语音数据均以语言学专家的音素打分结果作为评价发音质量评估系统性能的依据。当机器自动评估获得的音素打分与语言学专家的打分结果一致时,机器打分正确;否则,机器打分错误。打分正确率越高,机器评估的准确性越好。
使用两种不同的语音评测方法进行性能比较。一种如图1所示,定义为现有方法;另一种为如图2所示,是本发明的基于发音模型的语音质量评测方法,定义为基于发音模型的方法。现有方法使用传统的声学模型,该声学模型包含217个音素,每个音素采用上下文相关三音子的隐马尔可夫模型描述,隐马尔可夫模型中每个状态的输出概率分布采用16个高斯分量的混合高斯模型来建模,共有5456个共享状态。而在基于发音模型的方法中,将声学模型替换成发音模型。该发音模型不仅描述了不同音素的声学特征分布情况,而且把发音质量的概念引入其中,将不同的发音质量等级区分建模,它包含217*3个音素质量等级单元,同样采用上下文相关的三音子结构和隐马尔可夫模型,共有5541个共享状态。
表1是本发明的基于发音模型的语音质量评测方法与现有技术的性能对比测试表。两种方法的性能对比测试结果如表1所示。
表1
从表中可以看出,本发明所使用的基于发音模型的语音质量评测方法的性能要好于现有方法,在PSK1、PSK2和PSK3上分别相对提高8.17%、8.72%和7.91%。
本发明对不同的发音质量等级进行区分性建模,构建出一个比声学空间更为广阔的发音空间,是对发音质量评估系统应用空间更为精细的描述。利用这种发音模型,在解码时获得更准确的音素分割点,在置信度计算时获得更精确的音素后验概率值,从而使语音质量评测的性能获得大幅度提升。
Claims (7)
1.一种基于发音模型的语音质量评测方法,其特征在于:该方法包括发音模型的构建步骤和语音质量评测步骤,按照音素后验概率大小的原则,采用机器自动划分的方式完成发音质量的划分;
其中发音模型构建步骤包括下列子步骤:
1.1)确定发音质量音素集;
1.2)对训练数据划分发音质量等级;
1.3)依据发音质量等级训练发音模型;
语音质量评测步骤包括下列子步骤:
2.1)提取待评测发音段的语音特征;
2.2)构建基于所述发音模型的解码网络,进行Viterbi解码;
2.3)对每个音素计算基于发音模型的置信度;
2.4)根据所述置信度得出所述待评测发音段的发音质量。
2.根据权利要求1所述的基于发音模型的语音质量评测方法,其特征在于,所述步骤11)中对每个音素分为三个不同的发音质量等级。
3.根据权利要求1所述的基于发音模型的语音质量评测方法,其特征在于,所述步骤1.2)中训练数据的发音质量等级划分包括如下步骤:准备训练数据的原始语音和音素标注文本;采用Viterbi解码算法,将原始语音和音素标注进行强制对齐,计算每个音素的后验概率;按照音素后验概率值的大小划分发音质量等级。
4.根据权利要求1所述的基于发音模型的语音质量评测方法,其特征在于,所述步骤1.3)中,所述发音模型采用传统隐马尔可夫模型的框架构建。
5.根据权利要求1所述的基于发音模型的语音质量评测方法,其特征在于,所述步骤2.2)中搭建基于发音模型的解码网络包括如下步骤:利用发音字典将目标文本转换成音素串序列;对每个音素将其各个发音质量并联;将音素串序列转换成各个音素质量并联子网络的串联宏网络即获得基于发音模型的解码网络。
6.根据权利要求1所述的基于发音模型的语音质量评测方法,其特征在于,所述步骤2.3)中对每个音素计算基于发音模型的置信度包括如下步骤:利用步骤2.2)中Viterbi解码获得的音素分割点信息,在指定音素段间搭建音素混淆网络;在音素混淆网络的每条路径上利用Viterbi算法获得声学似然值;计算音素后验概率作为发音质量评价的依据,取目标音素最优质量对应的路径上的声学似然值作为所述音素后验概率的分子,混淆网络的所有路径上的声学似然值的和作为所述音素后验概率的分母。
7.根据权利要求1所述的基于发音模型的语音质量评测方法,其特征在于,所述步骤2.4)中采用线性预测器得出所述待评测发音段的发音质量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101649961A CN101840699B (zh) | 2010-04-30 | 2010-04-30 | 一种基于发音模型的语音质量评测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101649961A CN101840699B (zh) | 2010-04-30 | 2010-04-30 | 一种基于发音模型的语音质量评测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101840699A CN101840699A (zh) | 2010-09-22 |
CN101840699B true CN101840699B (zh) | 2012-08-15 |
Family
ID=42744037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101649961A Expired - Fee Related CN101840699B (zh) | 2010-04-30 | 2010-04-30 | 一种基于发音模型的语音质量评测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101840699B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034475B (zh) * | 2010-12-08 | 2012-08-15 | 安徽科大讯飞信息科技股份有限公司 | 一种运用计算机对开放式短对话进行交互式评分的方法 |
CN103186658B (zh) * | 2012-12-24 | 2016-05-25 | 中国科学院声学研究所 | 用于英语口语考试自动评分的参考语法生成方法和设备 |
CN103177733B (zh) * | 2013-03-11 | 2015-09-09 | 哈尔滨师范大学 | 汉语普通话儿化音发音质量评测方法与系统 |
KR101459324B1 (ko) * | 2013-08-28 | 2014-11-07 | 이성호 | 음원 평가방법 및 이를 이용한 음원의 평가장치 |
CN104575490B (zh) * | 2014-12-30 | 2017-11-07 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
CN108615525B (zh) * | 2016-12-09 | 2020-10-09 | 中国移动通信有限公司研究院 | 一种语音识别方法及装置 |
CN106782536B (zh) * | 2016-12-26 | 2020-02-28 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
CN107123417B (zh) * | 2017-05-16 | 2020-06-09 | 上海交通大学 | 基于鉴别性训练的定制语音唤醒优化方法及系统 |
CN107767858B (zh) * | 2017-09-08 | 2021-05-04 | 科大讯飞股份有限公司 | 发音词典生成方法及装置、存储介质、电子设备 |
CN107644638B (zh) * | 2017-10-17 | 2019-01-04 | 北京智能管家科技有限公司 | 语音识别方法、装置、终端和计算机可读存储介质 |
CN109166569B (zh) * | 2018-07-25 | 2020-01-31 | 北京海天瑞声科技股份有限公司 | 音素误标注的检测方法和装置 |
CN110097193B (zh) * | 2019-04-28 | 2021-03-19 | 第四范式(北京)技术有限公司 | 训练模型的方法及系统和预测序列数据的方法及系统 |
CN110853627B (zh) * | 2019-11-07 | 2022-12-27 | 证通股份有限公司 | 用于语音标注的方法及系统 |
CN111161759B (zh) * | 2019-12-09 | 2022-12-06 | 科大讯飞股份有限公司 | 音频质量评价方法、装置、电子设备及计算机存储介质 |
CN111128238B (zh) * | 2019-12-31 | 2022-06-24 | 云知声智能科技股份有限公司 | 普通话评测方法及装置 |
CN111916108B (zh) * | 2020-07-24 | 2021-04-02 | 北京声智科技有限公司 | 一种语音评测方法及装置 |
CN112614479B (zh) * | 2020-11-26 | 2022-03-25 | 北京百度网讯科技有限公司 | 训练数据的处理方法、装置及电子设备 |
CN112908358B (zh) * | 2021-01-31 | 2022-10-18 | 云知声智能科技股份有限公司 | 一种开放式的语音评测方法和设备 |
CN113506559B (zh) * | 2021-07-21 | 2023-06-09 | 成都启英泰伦科技有限公司 | 一种根据越南语书写文本生成发音词典的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002156897A (ja) * | 2000-11-17 | 2002-05-31 | Fuji Xerox Co Ltd | 発音学習装置 |
CN101105939A (zh) * | 2007-09-04 | 2008-01-16 | 安徽科大讯飞信息科技股份有限公司 | 发音指导方法 |
CN101221761A (zh) * | 2007-01-12 | 2008-07-16 | 台达电子工业股份有限公司 | 具有智慧型鉴别调适功能的语音辨识方法及系统 |
CN101562012A (zh) * | 2008-04-16 | 2009-10-21 | 创而新(中国)科技有限公司 | 语音分级测定方法及系统 |
CN101645271A (zh) * | 2008-12-23 | 2010-02-10 | 中国科学院声学研究所 | 发音质量评估系统中的置信度快速求取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7219056B2 (en) * | 2000-04-20 | 2007-05-15 | International Business Machines Corporation | Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate |
US20040230431A1 (en) * | 2003-05-14 | 2004-11-18 | Gupta Sunil K. | Automatic assessment of phonological processes for speech therapy and language instruction |
-
2010
- 2010-04-30 CN CN2010101649961A patent/CN101840699B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002156897A (ja) * | 2000-11-17 | 2002-05-31 | Fuji Xerox Co Ltd | 発音学習装置 |
CN101221761A (zh) * | 2007-01-12 | 2008-07-16 | 台达电子工业股份有限公司 | 具有智慧型鉴别调适功能的语音辨识方法及系统 |
CN101105939A (zh) * | 2007-09-04 | 2008-01-16 | 安徽科大讯飞信息科技股份有限公司 | 发音指导方法 |
CN101562012A (zh) * | 2008-04-16 | 2009-10-21 | 创而新(中国)科技有限公司 | 语音分级测定方法及系统 |
CN101645271A (zh) * | 2008-12-23 | 2010-02-10 | 中国科学院声学研究所 | 发音质量评估系统中的置信度快速求取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101840699A (zh) | 2010-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101840699B (zh) | 一种基于发音模型的语音质量评测方法 | |
CN101645271B (zh) | 发音质量评估系统中的置信度快速求取方法 | |
CN109272992B (zh) | 一种口语测评方法、装置及一种生成口语测评模型的装置 | |
CN104575490B (zh) | 基于深度神经网络后验概率算法的口语发音评测方法 | |
CN105845134B (zh) | 自由朗读题型的口语评测方法及系统 | |
CN103971678B (zh) | 关键词检测方法和装置 | |
CN102800314B (zh) | 具有反馈指导的英语句子识别与评价系统及其方法 | |
CN106782603B (zh) | 智能语音评测方法及系统 | |
CN101887725A (zh) | 一种基于音素混淆网络的音素后验概率计算方法 | |
CN111739508A (zh) | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 | |
CN101650886B (zh) | 一种自动检测语言学习者朗读错误的方法 | |
CN101777347B (zh) | 一种模型互补的汉语重音识别方法及系统 | |
Kim et al. | Automatic pronunciation assessment using self-supervised speech representation learning | |
CN107886968B (zh) | 语音评测方法及系统 | |
CN108364634A (zh) | 基于深度神经网络后验概率算法的口语发音评测方法 | |
CN106205603B (zh) | 一种声调评估方法 | |
CN102439660A (zh) | 基于置信度得分的语音标签方法和装置 | |
CN112259083B (zh) | 音频处理方法及装置 | |
CN111640418A (zh) | 一种韵律短语识别方法、装置及电子设备 | |
Shaik et al. | Hierarchical hybrid language models for open vocabulary continuous speech recognition using WFST. | |
Yan et al. | Analysis and synthesis of formant spaces of British, Australian, and American accents | |
CN1741131B (zh) | 一种非特定人孤立词语音识别方法 | |
Basson et al. | Comparing grapheme-based and phoneme-based speech recognition for Afrikaans | |
CN111341346A (zh) | 融合深度语言生成模型的语言表达能力评价方法和系统 | |
Li et al. | Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120815 |