CN1790481A - 基于辨音成分的发音评估方法与系统 - Google Patents
基于辨音成分的发音评估方法与系统 Download PDFInfo
- Publication number
- CN1790481A CN1790481A CNA2005101076812A CN200510107681A CN1790481A CN 1790481 A CN1790481 A CN 1790481A CN A2005101076812 A CNA2005101076812 A CN A2005101076812A CN 200510107681 A CN200510107681 A CN 200510107681A CN 1790481 A CN1790481 A CN 1790481A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- sound
- sound composition
- phoneme
- distinguishing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000000203 mixture Substances 0.000 claims abstract description 147
- 238000011156 evaluation Methods 0.000 claims abstract description 46
- 238000001514 detection method Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- ODJQKYXPKWQWNK-UHFFFAOYSA-N 3,3'-Thiobispropanoic acid Chemical compound OC(=O)CCSCCC(O)=O ODJQKYXPKWQWNK-UHFFFAOYSA-N 0.000 description 1
- 241000350481 Pterogyne nitens Species 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007788 roughening Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于辨音成分的发音评估方法与系统。借由一个或多个辨音成分特征评估器来评估使用者的语音发音。利用多个辨音成分特征评估器的组合,可构建出音素评估器来评估使用者的音素发音,再由音素评估器构建出连续语音发音评估器,以获得字、词或句的最终的发音分数。每一辨音成分特征评估器包括特征参数提取器和辨音成分分类器,并可根据不同辨音成分的特性,以不同的方式来实现。分数匹配器将每一辨音成分特征评估器的输出标准化。每一音素的发音都可以用一组辨音成分来描述。本发明根据语音发音的辨音成分的发音评估,是一种创新且有效的解决方案。
Description
技术领域
本发明涉及语音发音评估(pronunciation assessment,PA),特别涉及一种基于辨音成分(distinctive feature,DF)的发音评估方法与系统。
背景技术
对于语言的学习者而言,拥有第二语言的沟通能力是个重要的目标。大量的谈话机会对于学生“说”的能力很有帮助,可是学生们都不太喜欢开口说话,因为不够好的发音导致信心不足。语音发音评估系统的目的是要为学习者诊断发音的问题和改善会话的能力。传统的计算机辅助(computer-assisted)语音发音评估,主要分为以下两个方法:与正文相关的语音发音评估(text-dependent PA,TDPA)和与正文无关的语音发音评估(text-independent PA,TIPA)。以上这两种方法都是使用语音识别(speechrecognition)技术来评估发音的质量,可是效果并不明显。
与正文相关的发音评估限制学习者要读的内容必须是事先预录的句子。将学习者的语音输入并与事先预录的语音作对比来评分。这样的评分法采用模板的语音识别技术,例如动态时间较准(dynamic time warping,DTW)。因此,与正文相关的发音评估方法有下列缺点:学习内容受限于教材、需要教师录制所有教材内容的示范读音、以及容易因学习者与教师音色的差异影响评估结果。
为了克服前述与正文相关的发音评估方法的缺点,与正文无关的发音评估方法通常采用与语者无关(speaker-independent)的语音识别技术,整合语音统计模型(speech statistical models)来评估任意句子的发音质量。与正文无关的发音评估方法允许增加新的学习内容。因为统计语音识别器(statistic speechrecognizer)需要语音单位的声学模型,比如音素(phonemes)或音节(syllables),所以与正文无关的发音评估方法是与语言相关的(language dependent)。此外,语音识别的几率分数无法完全适当的代表发音的好坏。如图1所示的语音识别几率分数的分布图,即使音素AE([])、AA([a])、和AH([Λ])的发音不一样,但是却有着非常相近的分布。所以,语音识别模型的识别几率分数不足以作为评估发音好坏的代表。并且,与正文无关的发音评估方法通过此种识别几率分数的评分,并不能为学习者提供有效的信息,来学到正确的发音。
发明内容
本发明是为克服前述与正文相关发音评估和与正文无关的发音评估的缺点。其主要目的是提供一种基于辨音成分的发音评估方法与系统。
与公知技术相比,本发明拥有下列的特点:(a)根据辨音成分的评估方法,而非根据语音识别的技术。(b)使用者可根据他们的学习目标,调整评估分数的计算机制。(c)此辨音成分可作为修正发音的反馈(feedback)的基础。(d)发音评估是与语言无关的。(e)语音发音评估是与正文无关的。换句话说,使用者能够不断地添加学习题材。(f)连续语音的音韵规则(phonological rules)可以容易地被纳入评估系统。
此发音评估系统以一个或多个辨音成分特征评估器(distinctive featureassessor)来鉴别使用者语音所具有的辨音成分。利用多个辨音成分特征评估器的组合,可构建出音素评估器(phone assessor)来评估使用者的音素发音,再由音素评估器构建出连续语音发音评估器(continuous speech pronunciationassessor)以获得字、词或句的最终的发音分数。发音评估系统分为三层:辨音成分评估、音素评估、和连续语音评估。根据每一辨音成分的特征不同的特性,每一辨音成分特征评估器以不同的方式来实现。
一个辨音成分特征评估器包括特征参数提取器(feature extractor),和辨音成分分类器(distinctive classifier)。音素评估器包括评估控制器(assessmentcontroller)和整合的音素发音分级器(integrated phone pronunciation grader)。连续语音发音评估器还包括字转音的转换器(text-to-phone convector)、音素排列器(phone aligner)、和整合的词语发音分级器(utterance pronunciation grader)。
根据本发明所述的基于辨音成分的发音评估系统,其中该音素评估器的辨音成分检测结果可选择性地被反馈至该音素排列器。
根据本发明所述的基于辨音成分的发音评估系统,其中该字转音转换器是用人工准备的信息来处理,或由计算机自动化处理。
辨音成分特征评估器的运作程序如下:首先,将语音波形输入到辨音成分特征评估器,经由特征参数提取器去检测该语音段所具有的不同的声学特征或语音区别(phonetic distinction)的特点。然后,辨音成分分类器利用先前提取的特征参数作为输入,并且计算其趋向该辨音成分的程度。可再加入分数匹配器(score mapper)将每一个辨音成分特征评估器的输出标准化,这样,不同设计的特征参数提取器和辨音成分分类器也能产生相同格式和意义的结果。如果所有的辨音成分的辩音成分分类器的输出结果具有相同的格式和意义,则此分数匹配器就非必要的。
音素评估器运作程序如下:评估控制器根据输入语音段所代表的音素,决定要采纳或是加重哪些辨音成分特征评估器的评估结果。最后,音素发音分级器整合辨音成分特征评估器的输出产生多种等级的结果(ranking result),以评估音素发音。借由设定辨音成分的权重因子(weighting factor),使用者也可以清楚地指定他们所希望加强的辨音成分,来练习发音。
连续语音发音评估器运作程序如下:输入连续语音段和其对应的正文。字转音转换器转换正文为音素字符串(phone string);接着,音素排列器参考此音素字符串在输入的连续语音波形中切割出每一音素所对应的语音段;然后,利用音素评估器取得每一音素语音段的评估分数;最后,整合所有的音素分数,得到字、词或句子的最终的发音分数。辨音成分的检测结果也能选择性地被反馈至音素排列器,以使其对语音波形的音素序列排列,调整得较好且较精准。
本发明根据语音的辨音成分,提供一种创新且有效率的解决方案。每一语音音素可以用一组辨音成分来描述。辨音成分可规范一音素或是音素的类别(class),并以此方式识别音素的不同点。
现配合下列附图、实施例的详细说明及权利要求书,将上述及本发明的其它目的与优点详述于后。
附图说明
图1为根据传统的与正文无关的发音评估方法,对音素AE,AA和AH所作的语音识别几率分数分布图。
图2为本发明的辨音成分特征评估器的一个方框示意图。
图3为本发明的音素评估器的一个方框示意图。
图4为本发明的连续语音发音的讦估器。
图5为根据本发明,对高斯混合模型分类器所做的分类误差率的实验结果。
图6为根据本发明,对支持向量机分类器所做的分类误差率的实验结果。
其中,附图标记说明如下:
201特征参数提取器 203辨音成分分类器 205分数匹配器
301评估控制器 303整合的音素发音分级器 401字转音转换器
403音素排列器 404词语发音分级器 405学习目标控制器
具体实施方式
辨音成分是区别两个音素的最小差异的基本语音特征。本发明的发音评估系统分析使用者的语音段(speech segment),鉴别是否具有符合正确发音的辨音成分的组合。利用提取每一个特定辨音成分的合适的声学特征,来建立一个或一个以上的辨音成分特征评估器。使用者可在此系统中机动性地调整每一辨音成分特征评估器的输出比重,去规范发音评估的焦点(focus)。一个可调整的音素评估器结果会更符合语言学习的目标。因此,最完整的发音评估系统是由下而上(bottom-up)的三个层次:辨音成分评估、音素评估和连续语音发音评估。
因此,发音评估系统可以包含一个或多个辨音成分特征评估器,或是由辨音成分特征评估器构建成的音素评估器,以评估使用者的音素发音,甚至由音素评估器构建成一连续语音发音评估器,以得到字、词或句的最终的发音分数。每一辨音成分特征评估器可以根据其特性的不同,以不同的方式来实现。
图2是本发明的一辨音成分特征评估器的一个方框示意图。参考图2,此辨音成分特征评估器包括特征参数提取201、一辨音成分分类器203、和分数匹配器205(可选择性的)。语音波形被输入辨音成分特征评估器,经由特征参数提取器201检测不同的声学上的特征或语音区别的特性。辨音成分分类器203运用先前提取的特征参数作为输入,并且计算其趋向此辨音成分的程度。最后,分数匹配器205标准化每一辨音成分特征评估器的输出(辨音成分分数),所以不同设计的特征参数提取器201和分类器203也能产生相同形式和意义的结果。设计分数匹配器205是用来标准化分类器分数(classifierscore),使分数落于一共同的区间。
辨音成分特征评估器的输出是一变量数值,通常,其范围从-1到1。极值1意指该语音具有此特定的辩音成分,并且信心十足,-1则迥然不同。辨音成分分数也可被定义为不同的数值范围,如[-∞,∞]、[0,1]或是[0,100]。以下进一步描述图2辨音成分特征评估器的每一部分。
特征参数提取器
辨音成分的描述或解译可以是采用发音(in articulatory)或是知觉(inperception)的观点。然而,对于辨音成分的自动检测和确认只有声觉是有用处的。因此,每一辨音成分适用的声学特征必须是有定义的或是被发觉出来的。不同的声学特征能够检测和辨认不同的辨音成分。所以,最相关的声学特征被提取后,被整合为代表任一特定辨音成分的特性。
以下范例为语言学者所定义的辨音成分。然而,从信号的观点而言,辨音成分的集合可被重新定义,如此,特征参数提取器可以更直接和有效率。
一些英文典型的辨音成分包括连续性(continuant)、颚龈前性(anterior)、舌叶提升性(coronal)、缓放性(delayed release)、粗糙性(strident)、浊音性(voiced)、鼻音性(nasal)、侧音性(lateral)、音节性(syllabic)、辅音性(consonantal)、响音性(sonorant)、高(high)、低(low)、后(back)、圆唇性(round)和紧音性(tense)。
可能有更多或不同辨音成分对于语音区别会更有效用。例如,塞音释放与声带开始振动的时间差距(voice onset time,VOT)为分辨多个种类的塞音(stops)的重要的辨音成分。不同的声学特征能检测和辨认不同的辨音成分。所以,最相关的声学特征被提取后,被整合为代表任一特定的辨音成分的特性。某些声学特征是很通常的,这些声学特征可供许多辨音成分所使用。
广泛应用在语音识别器的声学特征,梅尔倒频谱系数(Mel-frequencycepstral coefficients,MFCC),是一个明显的范例。另一方面,有些特征是更特别的,是特别用来决定某些的辨音成分。例如,自相关系数(auto-correlationcoefficients)可以帮助检测辨音成分,如浊音性、响音性、子音性、和音节性。
一些其它的声学特征的可能范例包括(但不限定)能量(低通(low-pass)、高通(high-pass)和/或带通(band-pass)、过零率(zero crossing rate)、音调(pitch)、时间(duration)等等。
辨音成分分类器
辨音成分分类器203是辨音成分特征评估器的核心。首先,训练用的语音素材是根据辨音成分作收集和分类。接着,分类的语音数据用来对每一辨音成分分类训练一个二进制分类器。建立分类器有许多方法,例如高斯混合模型(Gaussian Mixture Model,GMM)、隐藏式马可夫模型(Hidden MarkovModel,HMM)、人工神经网络(Artificial Neural Network,ANN)、支持向量机(Support Vector Machine,SVM)等等。辨音成分二进制分类器利用先前提取的参数作为输入,并且计算此输入趋向该辨音成分的程度。对不同的辨音成分,可以设计和使用不同的分类器,使分类错误最小化并使分类效率最佳化。
分数匹配器
不同的分类器以不同的参数去鉴别不同的辨音成分。所以,分数匹配器205是用来标准化分类器分数,使分数值落于一共同的区间。例如,分数匹配器可被设计成f(x)=tanh ax=2/(1+e-2ax)-1(a是一个正数值),并且将分类器分数值从[-∞,∞]标准化至一共同区间[-1,1]。这是为了标准化辨音成分特征评估器的结果,以使不同设计的特征参数提取器和分类器能够产生相同格式和意义的结果。这样以确保下一层里所有辨音成分特征评估器的整合。当所有的辨音成分使用相同格式的辨音成分分类器时,可以不使用分数匹配器。也就是说,对所有的辨音成分,若辨音成分分类器的输出是相同格式和意义的结果时,则分数匹配器是不必要的。所以,对辨音成分特征评估器而言,分数匹配器是可选择性的。
本发明的发音评估系统使用多个辨音成分特征评估器来构建一音素等级评估模块(层2),如图3所示。图3为发音评估系统的音素评估器的一个方框示意图。在图3中,评估控制器301依据输入语音的音素,机动性地决定采用或加强某些辨音成分特征评估器DFA1-DFAn。最后,整合的音素发音分级器303输出音素发音评估的多种等级的结果。借由辨音成分的权重,使用者也可以机动性地调整他们所希望加强的辨音成分,来练习发音(数值0代表关闭辨音成分)。此可用控制器来完成,如图4所示的学习目标控制器405。每一辨音成分的输出可以是柔性的决定(也就是在区间[-1,1]里的连续值)或是硬性的决定(二进制值-1和1)。最后,可以控制整合音素发音分级器303输出音素发音评估的多种等级的结果。此输出可以是一N级或N点等级结果(N>1),也可以是辨音成分的几种组别的一个等级的向量,以表示某些学习目标。
图4为本发明的连续语音发音评估器的一个方框示意图。参考图4,输入是连续性语音和其相对应的正文。字转音转换器401转换正文为音素字符串。音素排列器403利用此音素字符串在输入的连续语音波形中切割出每一音素所对应的语音段。再利用图3所示的音素评估器,取得每一音素语音段的评估分数,并整合这些分数,通过词语发音分级器404,而得到字、词或句的最终的发音分数。
值得注意的是,字转音转换器401可以用人工准备的信息来处理,或由计算机自动化处理。音素排列可由HMM校准或其它的校准方法来处理。辨音成分的检测结果也能选择性地被反馈至音素排列器,以使其对语音波形的音素序列排列,调整得较好并且较精准。
在本发明的一个实验里,由英文语言材料库华尔街期刊(Wall StreetJournal)中取出22000句作为训练语言材料。算出MFCC特征参数和16组辨音成分的高斯混合模型(Gaussian Mixture Models)及非高斯混合模型(AntiGaussian Mixture Models)作为分类器。为了测试目的,本发明使用1,385个与训练无关的语言材料,来观察辨音成分特征评估器是否可以正确地鉴别此辨音成分。实验结果如图5所示,分类结果的误差率为42.75%。
对于构建分类器的另一种方法,本发明也以支持向量机分类器来实施。如图6所示,此支持向量机分类器的误差率为28.87%。因为每一个辨音成分特征评估器可以是一个独立的模块,本发明选择的方法(GMM或SVM)给予每一辨音成分特征评估器较好的实现成果。整体的误差率下降至25.72%。
综上所述,本发明提供一种以辨音成分分析为基础的语音发音评估的方法和系统。此发音评估系统评估使用者的语音发音通过一个或多个辨音成分特征评估器,或一音素评估器,或一连续语音发音评估器。其输出结果能作为语音发音诊断和可能的修正导引。一个辨音成分特征评估器包括特征参数提取器、辨音成分分类器和可选择性的分数匹配器。每一个辨音成分特征评估器可以根据其不同的特征,以不同的方式来实现。
然而以上所述,仅为发明的最佳实施例而已,不能依此限定本发明实施的范围。凡是在本发明权利要求书的范围内所作的均等变化与修改,皆应属本发明权利要求书涵盖的范围内。
Claims (23)
1.一种基于辨音成分的发音评估系统,用来评估使用者的语音发音,该发音评估系统包含一个或多个辨音成分特征评估器,每一辨音成分特征评估器包括特征参数提取器和辨音成分分类器,每一该辨音成分特征评估器根据每一辨音成分的不同特性而实现。
2.如权利要求1所述的基于辨音成分的发音评估系统,其特征在于,该发音评估系统使用一个或多个该辨音成分特征评估器、一评估控制器、和一整合的音素分级器,来构建一音素评估器和评估使用者的语音发音。
3.如权利要求2所述的基于辨音成分的发音评估系统,其特征在于,该发音评估系统使用一字转音转换器、一音素排列器、该音素评估器和一词语发音分级器,来构建一连续语音发音评估器和评估使用者的语音发音。
4.如权利要求1所述的基于辨音成分的发音评估系统,其特征在于,每一辨音成分特征评估器还包括分数匹配器,将该辨音成分特征评估器的输出标准化。
5.如权利要求1所述的基于辨音成分的发音评估系统,其特征在于,该特征参数提取器检测不同的声学上的特征或语音区别的特性。
6.如权利要求1所述的基于辨音成分的发音评估系统,其特征在于,该辨音成分分类器对其相关联的辨音成分特征评估器的输入,计算其趋向该辨音成分的程度。
7.如权利要求1所述的基于辨音成分的发音评估系统,其特征在于,一辨音成分特征评估器的输出是一变量数值。
8.如权利要求2所述的基于辨音成分的发音评估系统,其特征在于,该评估控制器识别输入语音的音素和机动性地决定采用或加强某些该辨音成分特征评估器,该整合的音素发音分级器输出音素发音评估的多种等级的结果。
9.如权利要求1所述的基于辨音成分的发音评估系统,其特征在于,由使用者去指定辨音成分是可选择性的。
10.如权利要求3所述的基于辨音成分的发音评估系统,其特征在于,该语音评估系统的输入是连续性语音和其对应的正文。
11.如权利要求10所述的基于辨音成分的发音评估系统,其特征在于,该字转音转换器转换该正文为一音素字符串,且该音素排列器利用该音素字符串来排列语音波形为一音素序列。
12.如权利要求3所述的基于辨音成分的发音评估系统,其特征在于,该词语发音分级器整合所有音素的分数,得到字、词或句的最终的发音分数。
13.如权利要求3所述的基于辨音成分的发音评估系统,其特征在于,该音素评估器的辨音成分检测结果可选择性地被反馈至该音素排列器。
14.如权利要求3所述的基于辨音成分的发音评估系统,其特征在于,该字转音转换器是用人工准备的信息来处理,或由计算机自动化处理。
15.一种基于辨音成分的发音评估方法,该方法评估使用者的发音,该评估方法包含利用对每一个特定的辨音成分,去提取适当的声学特征,以构建一个或多个的辨音成分特征评估器的步骤,每一该辨音成分特征评估器根据该辨音成分的不同特性而被实现。
16.如权利要求15所述的基于辨音成分的发音评估方法,其特征在于,每一辨音成分特征评估器的运作程序包含下列步骤:
(a1)输入语音波形至该辨音成分特征评估器,经由特征参数提取器,以检测不同的声学特征;以及
(a2)利用该先前提取的参数作为输入,并且计算该输入趋向该辨音成分的程度。
17.如权利要求15所述的基于辨音成分的发音评估方法,其特征在于,该发音评估方法包含使用一个或多个该辨音成分特征评估器、一评估控制器、和一整合的音素发音分级器,来构建一音素评估器,去评估使用者发音的步骤。
18.如权利要求16所述的基于辨音成分的发音评估方法,其特征在于,该每一辨音成分特征评估器还包含标准化该辨音成分特征评估器的输出的步骤。
19.如权利要求17所述的基于辨音成分的发音评估方法,其特征在于,该音素评估器的运作程序包含下列步骤:
(b1)利用该评估控制器去识别输入语音的音素,和机动性地决定采用或加强一个或多个辨音成分特征评估器;以及
(b2)利用该整合的音素发音分级器去输出多种等级的结果,以评估音素发音。
20.如权利要求19所述的语音发音评估方法,其特征在于,该语音发音评估方法还包括通过连续语音评估器,来产生已输入连续的语音和其对应的正文的最终的发音分数。
21.如权利要求20所述的基于辨音成分的发音评估方法,其特征在于,该连续语音发音评估器的运作程序包含下列步骤:
(c1)输入连续的语音和其对应的正文,并且转换该正文为一音素字符串;
(c2)利用该音素字符串去排列语音波形为一音素序列;以及
(c3)利用该音素评估器去取得每一音素的分数,并整合每一音素的该分数,以得到字、词或句的最终的发音分数。
22.如权利要求21所述的基于辨音成分的发音评估方法,其特征在于,在步骤(c3)中,从该音素评估器所得的结果可选择性地被反馈至音素排列器,以使其对语音波形的音素序列排列,调整得较好且较精准。
23.如权利要求21所述的基于辨音成分的发音评估方法,其特征在于,在步骤(b1)之前,可选择地执行由使用者机动性地调整辨音成分的权重因子来规范发音评估重点的步骤。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63707504P | 2004-12-17 | 2004-12-17 | |
US60/637,075 | 2004-12-17 | ||
US11/157,606 | 2005-06-21 | ||
US11/157,606 US7962327B2 (en) | 2004-12-17 | 2005-06-21 | Pronunciation assessment method and system based on distinctive feature analysis |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1790481A true CN1790481A (zh) | 2006-06-21 |
CN1790481B CN1790481B (zh) | 2010-05-05 |
Family
ID=36597242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005101076812A Expired - Fee Related CN1790481B (zh) | 2004-12-17 | 2005-09-29 | 基于辨音成分的发音评估方法与系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7962327B2 (zh) |
CN (1) | CN1790481B (zh) |
TW (1) | TWI275072B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996635A (zh) * | 2010-08-30 | 2011-03-30 | 清华大学 | 基于重音突显度的英语发音质量评价方法 |
CN101246685B (zh) * | 2008-03-17 | 2011-03-30 | 清华大学 | 计算机辅助语言学习系统中的发音质量评价方法 |
CN102498485A (zh) * | 2009-01-23 | 2012-06-13 | 利纳基金会 | 用于有表现力的语言、发育失调和情绪评估的系统和方法 |
CN103778912A (zh) * | 2012-10-19 | 2014-05-07 | 财团法人工业技术研究院 | 引导式说话人自适应语音合成的系统与方法及程序产品 |
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN107958673A (zh) * | 2017-11-28 | 2018-04-24 | 北京先声教育科技有限公司 | 一种口语评分方法及装置 |
TWI622978B (zh) * | 2017-02-08 | 2018-05-01 | 宏碁股份有限公司 | 語音信號處理裝置及語音信號處理方法 |
CN108766415A (zh) * | 2018-05-22 | 2018-11-06 | 清华大学 | 一种语音测评方法 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4466585B2 (ja) * | 2006-02-21 | 2010-05-26 | セイコーエプソン株式会社 | 対象物が表現された画像の数の算出 |
US8271281B2 (en) * | 2007-12-28 | 2012-09-18 | Nuance Communications, Inc. | Method for assessing pronunciation abilities |
CN102237081B (zh) | 2010-04-30 | 2013-04-24 | 国际商业机器公司 | 语音韵律评估方法与系统 |
US8744856B1 (en) * | 2011-02-22 | 2014-06-03 | Carnegie Speech Company | Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US10586556B2 (en) | 2013-06-28 | 2020-03-10 | International Business Machines Corporation | Real-time speech analysis and method using speech recognition and comparison with standard pronunciation |
US20180082703A1 (en) * | 2015-04-30 | 2018-03-22 | Longsand Limited | Suitability score based on attribute scores |
WO2017196422A1 (en) * | 2016-05-12 | 2017-11-16 | Nuance Communications, Inc. | Voice activity detection feature based on modulation-phase differences |
CN108320740B (zh) * | 2017-12-29 | 2021-01-19 | 深圳和而泰数据资源与云技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
US10896763B2 (en) | 2018-01-12 | 2021-01-19 | Koninklijke Philips N.V. | System and method for providing model-based treatment recommendation via individual-specific machine learning models |
CN108648766B (zh) * | 2018-08-01 | 2021-03-19 | 云知声(上海)智能科技有限公司 | 语音评测方法及系统 |
CN109545189A (zh) * | 2018-12-14 | 2019-03-29 | 东华大学 | 一种基于机器学习的口语发音检错与纠正系统 |
TWI740086B (zh) | 2019-01-08 | 2021-09-21 | 安碁資訊股份有限公司 | 網域名稱辨識方法及網域名稱辨識裝置 |
CN113053395B (zh) * | 2021-03-05 | 2023-11-17 | 深圳市声希科技有限公司 | 发音纠错学习方法、装置、存储介质及电子设备 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5602960A (en) * | 1994-09-30 | 1997-02-11 | Apple Computer, Inc. | Continuous mandarin chinese speech recognition system having an integrated tone classifier |
WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
EP1027700A4 (en) * | 1997-11-03 | 2001-01-31 | T Netix Inc | MODEL ADAPTATION SYSTEM AND SPEAKER CHECKING METHOD |
US6411932B1 (en) * | 1998-06-12 | 2002-06-25 | Texas Instruments Incorporated | Rule-based learning of word pronunciations from training corpora |
US7062441B1 (en) * | 1999-05-13 | 2006-06-13 | Ordinate Corporation | Automated language assessment using speech recognition modeling |
US7080005B1 (en) * | 1999-07-19 | 2006-07-18 | Texas Instruments Incorporated | Compact text-to-phone pronunciation dictionary |
TW468120B (en) | 2000-04-24 | 2001-12-11 | Inventec Corp | Talk to learn system and method of foreign language |
US20030191645A1 (en) * | 2002-04-05 | 2003-10-09 | Guojun Zhou | Statistical pronunciation model for text to speech |
TW567450B (en) | 2002-05-17 | 2003-12-21 | Beauty Up Co Ltd | Web-based bi-directional audio interactive educational system |
TW556152B (en) | 2002-05-29 | 2003-10-01 | Labs Inc L | Interface of automatically labeling phonic symbols for correcting user's pronunciation, and systems and methods |
US6618702B1 (en) * | 2002-06-14 | 2003-09-09 | Mary Antoinette Kohler | Method of and device for phone-based speaker recognition |
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
TW580651B (en) | 2002-12-06 | 2004-03-21 | Inventec Corp | Language learning system and method using visualized corresponding pronunciation suggestion |
TW583610B (en) | 2003-01-08 | 2004-04-11 | Inventec Corp | System and method using computer to train listening comprehension and pronunciation |
TWI233589B (en) * | 2004-03-05 | 2005-06-01 | Ind Tech Res Inst | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously |
US7590533B2 (en) * | 2004-03-10 | 2009-09-15 | Microsoft Corporation | New-word pronunciation learning using a pronunciation graph |
-
2005
- 2005-06-21 US US11/157,606 patent/US7962327B2/en active Active
- 2005-09-27 TW TW094133571A patent/TWI275072B/zh active
- 2005-09-29 CN CN2005101076812A patent/CN1790481B/zh not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246685B (zh) * | 2008-03-17 | 2011-03-30 | 清华大学 | 计算机辅助语言学习系统中的发音质量评价方法 |
CN102498485A (zh) * | 2009-01-23 | 2012-06-13 | 利纳基金会 | 用于有表现力的语言、发育失调和情绪评估的系统和方法 |
CN102498485B (zh) * | 2009-01-23 | 2015-05-27 | 利纳基金会 | 用于有表现力的语言、发育失调和情绪评估的系统和方法 |
CN101996635A (zh) * | 2010-08-30 | 2011-03-30 | 清华大学 | 基于重音突显度的英语发音质量评价方法 |
CN103778912A (zh) * | 2012-10-19 | 2014-05-07 | 财团法人工业技术研究院 | 引导式说话人自适应语音合成的系统与方法及程序产品 |
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN104575490B (zh) * | 2014-12-30 | 2017-11-07 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
TWI622978B (zh) * | 2017-02-08 | 2018-05-01 | 宏碁股份有限公司 | 語音信號處理裝置及語音信號處理方法 |
CN107958673A (zh) * | 2017-11-28 | 2018-04-24 | 北京先声教育科技有限公司 | 一种口语评分方法及装置 |
CN108766415A (zh) * | 2018-05-22 | 2018-11-06 | 清华大学 | 一种语音测评方法 |
Also Published As
Publication number | Publication date |
---|---|
TW200623026A (en) | 2006-07-01 |
US20060136225A1 (en) | 2006-06-22 |
TWI275072B (en) | 2007-03-01 |
CN1790481B (zh) | 2010-05-05 |
US7962327B2 (en) | 2011-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1790481B (zh) | 基于辨音成分的发音评估方法与系统 | |
CN101346758B (zh) | 感情识别装置 | |
CN101740024B (zh) | 基于广义流利的口语流利度自动评估方法 | |
US20100004931A1 (en) | Apparatus and method for speech utterance verification | |
AU2003300130A1 (en) | Speech recognition method | |
Hernandez et al. | Dysarthria Detection and Severity Assessment Using Rhythm-Based Metrics. | |
Ahsiah et al. | Tajweed checking system to support recitation | |
US20210319786A1 (en) | Mispronunciation detection with phonological feedback | |
Ghanem et al. | Pronunciation features in rating criteria | |
Müller et al. | Combining short-term cepstral and long-term pitch features for automatic recognition of speaker age. | |
Lee et al. | Korean dialect identification based on intonation modeling | |
Middag et al. | Towards an ASR-free objective analysis of pathological speech | |
CN110246514A (zh) | 一种基于模式识别的英语单词发音学习系统 | |
Wang et al. | Putonghua proficiency test and evaluation | |
Kim et al. | Automatic assessment of American English lexical stress using machine learning algorithms | |
Li et al. | Improvement and Optimization Method of College English Teaching Level Based on Convolutional Neural Network Model in an Embedded Systems Context | |
Li et al. | English sentence pronunciation evaluation using rhythm and intonation | |
Barczewska et al. | Detection of disfluencies in speech signal | |
Amdal et al. | Automatic evaluation of quantity contrast in non-native Norwegian speech. | |
Kyriakopoulos | Deep learning for automatic assessment and feedback of spoken english | |
Wang et al. | A novel method for automatic tonal and non-tonal language classification | |
Verma et al. | Word independent model for syllable stress evaluation | |
Min et al. | Computer Based English Speaking Test Based on Artifical Neural Network | |
Speights et al. | Computer-assisted syllable analysis of continuous speech as a measure of child speech disorder | |
Andreae et al. | Genetic programming for detecting rhythmic stress in spoken english |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100505 |
|
CF01 | Termination of patent right due to non-payment of annual fee |