CN106205603A - 一种声调评估方法 - Google Patents
一种声调评估方法 Download PDFInfo
- Publication number
- CN106205603A CN106205603A CN201610757767.8A CN201610757767A CN106205603A CN 106205603 A CN106205603 A CN 106205603A CN 201610757767 A CN201610757767 A CN 201610757767A CN 106205603 A CN106205603 A CN 106205603A
- Authority
- CN
- China
- Prior art keywords
- tone
- identified
- voice
- posterior probability
- segment level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012360 testing method Methods 0.000 claims description 29
- 239000000284 extract Substances 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 claims description 5
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 101000709114 Homo sapiens SAFB-like transcription modulator Proteins 0.000 claims 1
- 102100032664 SAFB-like transcription modulator Human genes 0.000 claims 1
- 238000007689 inspection Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 8
- 208000005652 acute fatty liver of pregnancy Diseases 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- SYHGEUNFJIGTRX-UHFFFAOYSA-N methylenedioxypyrovalerone Chemical compound C=1C=C2OCOC2=CC=1C(=O)C(CCC)N1CCCC1 SYHGEUNFJIGTRX-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种声调评估方法,包括:分别建立基于帧级别特征的声调模型和基于音段级别特征的声调模型;根据所述基于帧级别特征的声调模型获取待识别语音的平均帧级别后验概率和对数后验比;根据基于音段级别特征的声调模型获取所述待识别语音的音段层级对数后验概率;根据所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率对所述待识别语音进行声调评估。根据本发明的声调评估方法,可以提高声调评估的鲁棒性。
Description
技术领域
本发明涉及声调识别技术领域,特别涉及一种声调评估方法。
背景技术
随着第二外语的大力推广和普及,加之课堂教学模式(时间地点固定,人员数量多)和教师主观测评(个体差异性大,稳定性差)存在的缺陷,急需一种更加便利和有效的手段,可以对外语学习者的发音质量进行及时有效的评估和反馈。CAPT(Computer-AidedPronunciation Training,计算机辅助发音教学)为以上问题的解决提供了可能性,其以人机交互智能技术为媒介,帮助或引导学生进行发音练习的教学方法。在CAPT系统中,比较重要的一块为“发音质量评价”,也就是计算机自动评估学习者发音的质量好坏,适合用于对发音者的整体语言发音能力进行评判,类似于教学中的考试环节。
在过去的几年里,CAPT系统中的“发音质量评价”研究取得了显著进展,主要集中在“音段”层级上的评估和检测。以汉语为例,由于其是“声调”语言,“声调”起到相当重要的词义区分角色以及韵律相关作用,如外国留学生的“洋腔洋调”现象,不仅与“音段”的发音偏误有关,而且与“声调”的异常也有很大关系。因此,对于一个汉语CAPT系统,“声调评测”也是非常关键的。而“声调识别”又是“声调评测”的基础。对于标准语音,如果声调识别系统的“调型”识别率很高,那么建立在该声调识别技术基础上的声调评测系统就能准确地分辨出声调的正确与否,从而比较可靠地评价出声调发音的水平。在“孤立音节”中,标准的声调发音基本符合其原有声调模式,声调评测可以根据是否符合声调的标准模式进行评价。相对于“孤立音节”的声调识别,在“连续语流”中,“声调识别”是非常困难的,原因是在连续语流中声调存在很多复杂变化,具体如下:
第一,在语音学中有一种sandi规则:由于声调间连接,声调曲线会发生改变。比如,相邻的上声+上声序列可能会变成阳平+上声;
第二,音节的声调曲线会受到它相邻音节基频曲线的影响,这种现象被称作“协同发音”影响,“协同发音”主要是由于人的发音器官的局限性,也就是说,发音器官不能够充分的活动以保持基频F0曲线为它们的标准模式;
第三,调阶与句子语调结构保持一致,如在陈述句中,基频F0曲线一般呈现逐渐下降的趋势。
除此之外,“调形”、“调阶”还会受到其他因素的影响,比如交叉话者,焦点变化,话题变换等等。
这些复杂的变化都为在连续语流中声调识别带来了困难,使得音节声调之间存在着不容忽视的连续性,而且普遍存在的变调现象又具有多样性,进一步导致了自然语流的声调识别难度的增加,进而也影响了声调评测系统的准确性。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种声调评估方法,能够提高声调评估的鲁棒性。
为达到上述目的,本发明提出了一种声调评估方法,包括:分别建立FLTM(FrameLevel Tone Model,基于帧级别特征的声调模型)和SLTM(Segment Level Tone Model,基于音段级别特征的声调模型);根据所述基于帧级别特征的声调模型获取待识别语音的平均帧级别后验概率和对数后验比;根据基于音段级别特征的声调模型获取所述待识别语音的音段层级对数后验概率;根据所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率对所述待识别语音进行声调评估。
根据本发明提出的声调识别方法,把韵律特征、频谱特征和发音特征融合在一起而建立基于帧级别特征的声调模型,与此同时,训练一个以音段特征为输入特征的基于音段级别特征的声调模型,根据上述两个声调模型,提取与声调相关的帧层级和音段层级的多层级置信度量而进行声调评测,实现了上述两个置信度量的互补性,提高了声调评估的鲁棒性。
具体地,所述根据所述基于帧级别特征的声调模型获取待识别语音的AFLP(Average Frame Level Probability,平均帧级别后验概率)和LPR(Log posteriorratio,对数后验比),包括:提取所述待识别语音的MFCC(Mel Frequency CepstrumCoefficient,梅尔频率倒谱系数)特征以及基频F0特征;基于提取的所述待识别语音的MFCC特征,利用DNN(Deep Neural Networks,深度神经网络)分类器获取所述待识别语音的发音特征;基于所述待识别语音的所述MFCC特征、所述基频F0特征以及所述发音特征,利用DNN-HMM(Deep Neural Networks-Hidden Markov Model,深度神经网络-隐马尔可夫模型)获取所述待识别语音的所述平均帧级别后验概率和所述对数后验比。
根据本发明的一个实施例,所述平均帧级别后验概率由以下公式估计:
其中,s是帧t对应的HMM状态标签,通过将所述待识别语音的音素p进行强制对齐得到,{s|s∈p}表示所有属于所述音素p的HMM状态集合,Ot是帧t输入观测向量参数,ts或te分别表示所述音素p的开始和结束的帧索引号。
所述对数后验比由以下公式得到:
LPR(pj|pi)=logp(pj|o;ts,te)-logp(pi|o;ts,te)
根据本发明的一个实施例,所述利用DNN分类器获取所述待识别语音的发音特征包括:所述DNN分类器通过预先定义的发音属性类别列表提取所述待识别语音的发音特征。
根据本发明的一个实施例,所述根据基于音段级别特征的声调模型获取所述待识别语音的SLP(Segment Log Probability,音段层级对数后验概率)包括:分别提取所述待识别语音的当前音节参数和相邻音节参数,其中,音节参数包括音节的基频F0曲线拟合参数、音节时长、音节基频均值和音节能量均值;基于所述待识别语音的所述当前音节参数和所述相邻音节参数,利用DNN模型获取所述待识别语音的所述音段层级对数后验概率。
根据本发明的一个实施例,所述音段层级对数后验概率通过以下公式得到:
SLP(tk)=logp(tk|o)
其中,tk表示所述待识别语音的声调标签,k={1,2,3,4},o表示相应的输入参数。
根据本发明的一个实施例,根据所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率对所述待识别语音进行声调评估包括:基于所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率、通过SVM(Support VectorMachine,支持向量机)建立声调评估模型;通过所述声调评估模型对所述待识别语音进行声调评估。
根据本发明的一个实施例,所述通过所述声调评估模型对所述待识别语音进行声调评估包括:将所述待识别语音的所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率作为输入量,基于所述声调评估模型获取针对所述待识别语音的检测结果;根据获取的检测结果分别计算FAR(False Acceptance Rate,错误接受率)、FRR(False Rejection Rate,错误拒绝率)和DA(Diagnostic Accurate Rate,诊断正确率),公式如下:
其中,TA表示正确接受的检测结果,TR表示正确拒绝的检测结果,FA表示错误接受的检测结果,FR表示错误拒绝的检测结果。
附图说明
图1为根据本发明一个实施例的声调评估方法的流程图;
图2为根据本发明一个实施例的基于帧级别特征的声调模型;
图3为根据本发明一个实施例的声调评估模型;
图4为根据本发明一个实施例的根据不同置信度量的不同声调的测试结果。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面结合附图来描述本发明实施例的声调评估方法。图1为根据本发明一个实施例的声调评估方法的流程图。如图1所示,一种声调评估方法包括以下步骤:
Step1:分别建立基于帧级别特征的声调模型和基于音段级别特征的声调模型。
1.1基于帧级别特征的声调模型
为获得优化的FLTM,首先需要探究音质参数与基频之间的关系,并以此为基础,设计和提取待识别语音的发音特征以用来进行声调识别。
以汉语为例,其音节可以分为两个部分:声母和韵母。音系学研究表明根据发音位置、发音方法等,可以进一步对声韵母进行详细分类。比如,对于声母,首先根据声带是否振动,可以将其划分为浊声母与清声母两大类;其次,鉴于清声母中塞擦音、塞音、擦音对所在音节的基频具有不同的影响,可以进一步将其划分为不同的子类,具体分类详情如表1。
表1:发音属性类别列表
然而,由于人工对语音信号标注AF(Acoustic feature,发音特征)是相当费时费力的,因此设计一种智能的AF分类器是必要的。优选的,一种合理产生AF分类器训练语料的方式可以通过基于音素的训练文本转换到发音特征文本,具体可以通过预先定义的音素和发音特征之间的转换表来实现。我们计划使用发音类别的后验概率作为AF。为了根据待识别语音得到AF,本发明计划使用一个“深度神经网络分类器”进行AF的提取。如图2所示,在本实施例中,AF“深度神经网络分类器”使用待识别语音的MFCC参数作为输入特征。
如附图2所示,训练好AF“深度神经网络分类器”后,产生的AF与从所述待识别语音提取的F0和MFCC拼接到一起,作为DNN-HMM模型的输入量。此处需要注意,在上述拼接操作之前,F0+MFCC特征需经过一系列特征变换,如其转换为LDA+MLLT+FMLLR。
1.2基于音段级别特征的声调模型
对于每一个音节,F0曲线拟合参数、音节时长、音节能量均值和基频均值均作为输入量以用来构建SLTM。F0使用ESPS工具中的get_f0命令(参数设置:wind_dur=0.01,min_f0=60,max_f0=650)得到,并且在话者层级上做了0均值1方差的规整。进一步的,使用f(x)=ax2+bx+c二阶线性回归来拟合F0曲线,参数{a,b,c}用来进行声调识别。考虑到“协同发音”对声调模式的影响,对于待识别语音的当前音节,与之相邻的音节的相应特征也需要被用来进行声调建模。上述所述待识别语音的当前音节参数和相邻音节参数均被用来作为基于DNN的SLTM的输入特征,如表2所示。
表2SLTM使用的输入特征
1 | 拟合F0曲线的参数 | 3维 |
2 | 当前音节的时长 | 1维 |
3 | 当前音节基频的均值 | 1维 |
4 | 当前音节能量的均值 | 1维 |
5 | 相邻音节上述特征 | 12维 |
Step2:根据所述基于帧级别特征的声调模型获取待识别语音的AFLP和LPR。
2.1平均帧级别后验概率
在训练基于DNN-HMM的FLTM时,多层的神经网络被训练用来提供HMM状态(也可以称作“senone”)的后验概率估计。给定观测参数向量,我们可以直接使用“senone”的后验概率,而不用转换成HMM的转移似然值。本文中声调音素的后验概率由以下公式估计:
其中,p(s|ot)是DNN模型最后的softmax层的输出,s是帧t对应的“senone”标签,通过给定文本中的音素p进行强制对齐得到的,{s|s∈p}表示所有属于音素p的“senone”集合,比如属于triphone(HMM模型)的所有状态。Ot是帧t输入观测向量参数,ts或te分别表示声调音素p的开始或结束的帧的索引号。
2.2对数后验比(LPR)
音素pj和pi的对数似然比定义如下:
LPR(pj|pi)=logp(pj|o;ts,te)-logp(pi|o;ts,te) (3)
其中,p(p|o)是通过公式(1)计算得到的。
Step3:根据基于音段级别特征的声调模型获取所述待识别语音的音段层级对数后验概率。
首先通过强制对齐得到每一个音节中声母和韵母的边界信息,然后提取在表1中描述的音段层级的特征。相应声调的后验概率是通过训练好的SLTM得到的,具体的,可以直接使用SLTM最后的softmax层的输出为相应声调的后验概率,用公式(4)表示如下:
SLP(tk)=logp(tk|o) (4)
其中,tk表示声调的标签,k={1,2,3,4},o表示相应的输入参数。
Step4:根据所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率对所述待识别语音进行声调评估。
首先,基于所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率、通过支持向量机SVM建立声调评估模型。
如附图3所示,提取相应的置信度量后,即“所述平均帧级别后验概率”、“所述对数后验比”以及“所述音段层级对数后验概率”,使用一个分类器对所提取的置信度量进行建模。优选的,所述声调评估模型可以使用SVM来对上述多层级置信度量进行建模,而所述SVM可以使用常用的“LibSVM”工具包进行实现。
每一个音段层级的特征由FLTM输出的帧后验矩阵(帧索引ts到帧索引te)和SLTM输出的音段层级的后验概率组成。最终,学习者声调音素对应的音段层级的特征定义如下:
[AFLP(p1),AFLP(p2),...,AFLP(pM),LPR(p1|pi),LPR(p2|pi),...,LPR(pM|pi),SLP(p1),SLP(p2),...,SLP(pM)]T
其中,M是所有音素的个数,此处优选M=4。
然后,通过所述声调评估模型对所述待识别语音进行声调评估。也就是说,将所述待识别语音的所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率作为输入量,基于所述声调评估模型获取针对所述待识别语音的检测结果。
根据本发明提出的声调识别方法,把韵律特征、频谱特征和发音特征融合在一起而建立基于帧级别特征的声调模型,与此同时,训练一个以音段特征为输入特征的基于音段级别特征的声调模型,根据上述两个声调模型,提取与声调相关的帧层级和音段层级的多层级置信度量而进行声调评测,实现了上述两个置信度量的互补性,提高了声调评估的鲁棒性。
为了进一步体现本发明实施例的声调评估方法相对于现有方法的优势,可以进行相关声调评估试验并将试验数据进行比对以直观体验。
如表3所示,其给出了FLTM和SLTM在母语语音上的识别结果。
表1不同声调模型在母语者数据上的声调错误率
由此可见,在FLTM中,特征级上融合AF后,声调识别的性能得到明显提升,相对错误率下降了大约10.1%。
为进一步验证本发明实施例的有益效果,可以将所述待识别语音的所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率作为输入量,基于所述声调评估模型获取针对所述待识别语音的检测结果,并根据获取的检测结果分别计算错误接受率FAR、错误拒绝率FRR和诊断正确率DA。具体的,可将上述检测结果划分为如表4所示的4类,即“正确发音检测为正确发音”、“偏误发音检测为正确发音”、“偏误发音检测为偏误发音”和“正确发音检测为偏误发音”。
表2检测结果分类
TA | 正确发音检测为正确发音 | FA | 偏误发音检测为正确发音 |
TR | 偏误发音检测为偏误发音 | FR | 正确发音检测为偏误发音 |
根据上述四种检测结果,我们选择了比较常用的评价指标来衡量提出的方法的性能,分别是FAR:学习者的错误发音被检测为正确发音的百分比;FRR:学习者的正确发音被系统检测为错误发音的百分比;以及,DA:系统的检测正确率,也就是系统的检测结果与标注结果一致性。
具体的计算公式如下:
我们设计了三个实验系统,分别对应不同的置信度量。“系统1”采用由FLTM得到的AFLP和LPR置信度量作为SVM输入特征,“系统2”采用由SLTM得到的SLP置信度量作为SVM输入特征,“系统3”采用AFLP+LPR+SLP组成的多层级置信度量作为SVM输入特征。
我们首先使用受试者工作特征曲线(ROC)比较是上述三个系统的性能。ROC曲线用来表示TPR(true positive rate,真正类率)和FPR(false positive rate,假正类率)之间的关系。TPR表示分类器所识别出的正实例占所有正实例的比例,对应图4中Y轴所示。FPR表示分类器错认为正类的负实例占所有负实例的比例,对应图4中X轴。这也意味着图4中左上角是最理想的数据。如图4所示,使用多层级置信度量的系统在每个声调评估中性能都是最好。这表明我们提出的方法的有效性显著高于现有方法,充分利用了不同层级上声调相关的信息,同时也体现了帧级别上得分与音段层级上的得分有一定的互补性。
尽管我们希望在保证诊断正确率高的同时,尽量降低两类错误率(即,FRR和FAR)。然而,错误拒绝率和错误接受率之间存在一种内在权衡。从CAPT的目的出发,关键是要避免把学习者的正确发音判为偏误发音而消减他们学习的信心。因此,实验中以高的诊断率和低的错误拒绝率为目标进行参数优化。
表5进一步给出了“系统3”在三个指标上的结果,整体性能取得了FRR为5.63%,FAR为49.2%,DA为82.45%。由于我们旨在最大化DA。实际上,我们的语料库中发音正确的样本要比发音错误的样本多很多,这也就导致了在计算DA时,FRR更起作用,这也是FAR高的原因,尤其是在Tone3中。
表3:系统3中各个声调三个评估指标的结果
Tone | FRR | FAR | DA |
Tone1 | 11.8% | 39.5% | 78.3% |
Tone2 | 7.1% | 38.8% | 80.0% |
Tone3 | 2.1% | 70% | 81.7% |
Tone4 | 1.5% | 48.4 | 89.8% |
Overall | 5.63% | 49.20 | 82.45 |
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种声调评估方法,其特征在于,包括:
分别建立基于帧级别特征的声调模型FLTM和基于音段级别特征的声调模型SLTM;
根据所述基于帧级别特征的声调模型获取待识别语音的平均帧级别后验概率和对数后验比;
根据基于音段级别特征的声调模型获取所述待识别语音的音段层级对数后验概率;
根据所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率对所述待识别语音进行声调评估。
2.如权利要求1所述的声调评估方法,其特征在于,所述根据所述基于帧级别特征的声调模型获取待识别语音的平均帧级别后验概率和对数后验比,包括:
提取所述待识别语音的梅尔频率倒谱系数MFCC特征以及基频F0特征;
基于提取的所述待识别语音的MFCC特征,利用深度神经网络DNN分类器获取所述待识别语音的发音特征;
基于所述待识别语音的所述MFCC特征、所述基频F0特征以及所述发音特征,利用深度神经网络-隐马尔可夫模型DNN-HMM获取所述待识别语音的所述平均帧级别后验概率和所述对数后验比。
3.如权利要求2所述的声调评估方法,其特征在于,所述平均帧级别后验概率由以下公式估计:
其中,s是帧t对应的HMM状态标签,通过将所述待识别语音的音素p进行强制对齐得到,{s/s∈p}表示所有属于所述音素p的HMM状态集合,Ot是帧t输入观测向量参数,ts或te分别表示所述音素p的开始和结束的帧索引号。
所述对数后验比由以下公式得到:
LPR(pj|pi)=logp(pj|o;ts,te)-logp(pi|o;ts,te)
4.如权利要求2所述的声调评估方法,其特征在于,所述利用DNN分类器获取所述待识别语音的发音特征包括:
所述DNN分类器通过预先定义的发音属性类别列表提取所述待识别语音的发音特征。
5.如权利要求1所述的声调评估方法,其特征在于,所述根据基于音段级别特征的声调模型获取所述待识别语音的音段层级对数后验概率包括:
分别提取所述待识别语音的当前音节参数和相邻音节参数,其中,音节参数包括音节的基频F0曲线拟合参数、音节时长、音节基频均值和音节能量均值;
基于所述待识别语音的所述当前音节参数和所述相邻音节参数,利用DNN模型获取所述待识别语音的所述音段层级对数后验概率。
6.如权利要求5所述的声调评估方法,其特征在于,所述音段层级对数后验概率通过以下公式得到:
SLP(tk)=logp(tk|o)
其中,tk表示所述待识别语音的声调标签,k={1,2,3,4},o表示相应的输入参数。
7.如权利要求1-6任一所述的声调评估方法,其特征在于,根据所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率对所述待识别语音进行声调评估包括:
基于所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率、通过支持向量机SVM建立声调评估模型;
通过所述声调评估模型对所述待识别语音进行声调评估。
8.如权利要求7所述的声调评估方法,其特征在于,所述通过所述声调评估模型对所述待识别语音进行声调评估包括:
将所述待识别语音的所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率作为输入量,基于所述声调评估模型获取针对所述待识别语音的检测结果;
根据获取的检测结果分别计算错误接受率FAR、错误拒绝率FRR和诊断正确率DA,公式如下:
其中,TA表示正确接受的检测结果,TR表示正确拒绝的检测结果,FA表示错误接受的检测结果,FR表示错误拒绝的检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610757767.8A CN106205603B (zh) | 2016-08-29 | 2016-08-29 | 一种声调评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610757767.8A CN106205603B (zh) | 2016-08-29 | 2016-08-29 | 一种声调评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106205603A true CN106205603A (zh) | 2016-12-07 |
CN106205603B CN106205603B (zh) | 2019-06-07 |
Family
ID=58088635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610757767.8A Active CN106205603B (zh) | 2016-08-29 | 2016-08-29 | 一种声调评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106205603B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452370A (zh) * | 2017-07-18 | 2017-12-08 | 太原理工大学 | 一种中文鼻韵母发音障碍患者的判断装置的使用方法 |
CN108182938A (zh) * | 2017-12-21 | 2018-06-19 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的训练方法 |
CN108288464A (zh) * | 2018-01-25 | 2018-07-17 | 苏州奇梦者网络科技有限公司 | 一种修正合成音中错误声调的方法 |
CN109101487A (zh) * | 2018-07-11 | 2018-12-28 | 广州杰赛科技股份有限公司 | 对话角色区分方法、装置、终端设备及存储介质 |
CN112365879A (zh) * | 2020-11-04 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN112927696A (zh) * | 2019-12-05 | 2021-06-08 | 中国科学院深圳先进技术研究院 | 一种基于语音识别的构音障碍自动评估系统和方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436403A (zh) * | 2007-11-16 | 2009-05-20 | 创新未来科技有限公司 | 声调识别方法和系统 |
CN101661675A (zh) * | 2009-09-29 | 2010-03-03 | 苏州思必驰信息科技有限公司 | 一种错误自感知的声调发音学习方法和系统 |
JP2010145855A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
CN101887725A (zh) * | 2010-04-30 | 2010-11-17 | 中国科学院声学研究所 | 一种基于音素混淆网络的音素后验概率计算方法 |
CN102122507A (zh) * | 2010-01-08 | 2011-07-13 | 龚澍 | 一种运用人工神经网络进行前端处理的语音检错方法 |
CN102723077A (zh) * | 2012-06-18 | 2012-10-10 | 北京语言大学 | 汉语教学语音合成方法及装置 |
CN103177733A (zh) * | 2013-03-11 | 2013-06-26 | 哈尔滨师范大学 | 汉语普通话儿化音发音质量评测方法与系统 |
CN105609114A (zh) * | 2014-11-25 | 2016-05-25 | 科大讯飞股份有限公司 | 一种发音检测方法及装置 |
-
2016
- 2016-08-29 CN CN201610757767.8A patent/CN106205603B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101436403A (zh) * | 2007-11-16 | 2009-05-20 | 创新未来科技有限公司 | 声调识别方法和系统 |
JP2010145855A (ja) * | 2008-12-19 | 2010-07-01 | Casio Computer Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
CN101661675A (zh) * | 2009-09-29 | 2010-03-03 | 苏州思必驰信息科技有限公司 | 一种错误自感知的声调发音学习方法和系统 |
CN102122507A (zh) * | 2010-01-08 | 2011-07-13 | 龚澍 | 一种运用人工神经网络进行前端处理的语音检错方法 |
CN101887725A (zh) * | 2010-04-30 | 2010-11-17 | 中国科学院声学研究所 | 一种基于音素混淆网络的音素后验概率计算方法 |
CN102723077A (zh) * | 2012-06-18 | 2012-10-10 | 北京语言大学 | 汉语教学语音合成方法及装置 |
CN103177733A (zh) * | 2013-03-11 | 2013-06-26 | 哈尔滨师范大学 | 汉语普通话儿化音发音质量评测方法与系统 |
CN105609114A (zh) * | 2014-11-25 | 2016-05-25 | 科大讯飞股份有限公司 | 一种发音检测方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452370A (zh) * | 2017-07-18 | 2017-12-08 | 太原理工大学 | 一种中文鼻韵母发音障碍患者的判断装置的使用方法 |
CN108182938A (zh) * | 2017-12-21 | 2018-06-19 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的训练方法 |
CN108288464A (zh) * | 2018-01-25 | 2018-07-17 | 苏州奇梦者网络科技有限公司 | 一种修正合成音中错误声调的方法 |
CN109101487A (zh) * | 2018-07-11 | 2018-12-28 | 广州杰赛科技股份有限公司 | 对话角色区分方法、装置、终端设备及存储介质 |
CN112927696A (zh) * | 2019-12-05 | 2021-06-08 | 中国科学院深圳先进技术研究院 | 一种基于语音识别的构音障碍自动评估系统和方法 |
CN112365879A (zh) * | 2020-11-04 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106205603B (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106205603A (zh) | 一种声调评估方法 | |
CN1790481B (zh) | 基于辨音成分的发音评估方法与系统 | |
Strik et al. | Comparing different approaches for automatic pronunciation error detection | |
CN101740024B (zh) | 基于广义流利的口语流利度自动评估方法 | |
CN102800314B (zh) | 具有反馈指导的英语句子识别与评价系统及其方法 | |
CN109545189A (zh) | 一种基于机器学习的口语发音检错与纠正系统 | |
CN103810996B (zh) | 待测试语音的处理方法、装置及系统 | |
CN106782603B (zh) | 智能语音评测方法及系统 | |
CN102426834B (zh) | 测试英文口语韵律水平的方法 | |
CN101996635B (zh) | 基于重音突显度的英语发音质量评价方法 | |
CN103559892A (zh) | 口语评测方法及系统 | |
CN110415725B (zh) | 使用第一语言数据评估第二语言发音质量的方法及系统 | |
CN103366735B (zh) | 语音数据的映射方法和装置 | |
Zhang et al. | Using computer speech recognition technology to evaluate spoken English. | |
CN107886968A (zh) | 语音评测方法及系统 | |
Tong et al. | Multi-Task Learning for Mispronunciation Detection on Singapore Children's Mandarin Speech. | |
CN104183236B (zh) | 一种测定感知参数的区分性的方法以及系统 | |
Bailly et al. | Automatic assessment of oral readings of young pupils | |
Loukina et al. | Automated assessment of pronunciation in spontaneous speech | |
Kyriakopoulos et al. | Automatic characterisation of the pronunciation of non-native English speakers using phone distance features | |
Patil et al. | Acoustic features for detection of aspirated stops | |
Kim et al. | Automatic assessment of American English lexical stress using machine learning algorithms | |
Zhao | Study on the effectiveness of the asr-based english teaching software in helping college students’ listening learning | |
Zheng | [Retracted] An Analysis and Research on Chinese College Students’ Psychological Barriers in Oral English Output from a Cross‐Cultural Perspective | |
Li et al. | English sentence pronunciation evaluation using rhythm and intonation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |