CN1790481A

CN1790481A - 基于辨音成分的发音评估方法与系统

Info

Publication number: CN1790481A
Application number: CNA2005101076812A
Authority: CN
Inventors: 郭志忠; 杨哲尧; 陈科旭; 许妙如
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2004-12-17
Filing date: 2005-09-29
Publication date: 2006-06-21
Anticipated expiration: 2025-09-29
Also published as: TW200623026A; US20060136225A1; TWI275072B; CN1790481B; US7962327B2

Abstract

本发明提供一种基于辨音成分的发音评估方法与系统。借由一个或多个辨音成分特征评估器来评估使用者的语音发音。利用多个辨音成分特征评估器的组合，可构建出音素评估器来评估使用者的音素发音，再由音素评估器构建出连续语音发音评估器，以获得字、词或句的最终的发音分数。每一辨音成分特征评估器包括特征参数提取器和辨音成分分类器，并可根据不同辨音成分的特性，以不同的方式来实现。分数匹配器将每一辨音成分特征评估器的输出标准化。每一音素的发音都可以用一组辨音成分来描述。本发明根据语音发音的辨音成分的发音评估，是一种创新且有效的解决方案。

Description

基于辨音成分的发音讦估方法与系统

技术领域

本发明涉及语音发音评估(pronunciation assessment，PA)，特别涉及一种基于辨音成分(distinctive feature，DF)的发音评估方法与系统。

背景技术

对于语言的学习者而言，拥有第二语言的沟通能力是个重要的目标。大量的谈话机会对于学生“说”的能力很有帮助，可是学生们都不太喜欢开口说话，因为不够好的发音导致信心不足。语音发音评估系统的目的是要为学习者诊断发音的问题和改善会话的能力。传统的计算机辅助(computer-assisted)语音发音评估，主要分为以下两个方法：与正文相关的语音发音评估(text-dependent PA，TDPA)和与正文无关的语音发音评估(text-independent PA，TIPA)。以上这两种方法都是使用语音识别(speechrecognition)技术来评估发音的质量，可是效果并不明显。

与正文相关的发音评估限制学习者要读的内容必须是事先预录的句子。将学习者的语音输入并与事先预录的语音作对比来评分。这样的评分法采用模板的语音识别技术，例如动态时间较准(dynamic time warping，DTW)。因此，与正文相关的发音评估方法有下列缺点：学习内容受限于教材、需要教师录制所有教材内容的示范读音、以及容易因学习者与教师音色的差异影响评估结果。

为了克服前述与正文相关的发音评估方法的缺点，与正文无关的发音评估方法通常采用与语者无关(speaker-independent)的语音识别技术，整合语音统计模型(speech statistical models)来评估任意句子的发音质量。与正文无关的发音评估方法允许增加新的学习内容。因为统计语音识别器(statistic speechrecognizer)需要语音单位的声学模型，比如音素(phonemes)或音节(syllables)，所以与正文无关的发音评估方法是与语言相关的(language dependent)。此外，语音识别的几率分数无法完全适当的代表发音的好坏。如图1所示的语音识别几率分数的分布图，即使音素AE([])、AA([a])、和AH([Λ])的发音不一样，但是却有着非常相近的分布。所以，语音识别模型的识别几率分数不足以作为评估发音好坏的代表。并且，与正文无关的发音评估方法通过此种识别几率分数的评分，并不能为学习者提供有效的信息，来学到正确的发音。

发明内容

本发明是为克服前述与正文相关发音评估和与正文无关的发音评估的缺点。其主要目的是提供一种基于辨音成分的发音评估方法与系统。

与公知技术相比，本发明拥有下列的特点：(a)根据辨音成分的评估方法，而非根据语音识别的技术。(b)使用者可根据他们的学习目标，调整评估分数的计算机制。(c)此辨音成分可作为修正发音的反馈(feedback)的基础。(d)发音评估是与语言无关的。(e)语音发音评估是与正文无关的。换句话说，使用者能够不断地添加学习题材。(f)连续语音的音韵规则(phonological rules)可以容易地被纳入评估系统。

此发音评估系统以一个或多个辨音成分特征评估器(distinctive featureassessor)来鉴别使用者语音所具有的辨音成分。利用多个辨音成分特征评估器的组合，可构建出音素评估器(phone assessor)来评估使用者的音素发音，再由音素评估器构建出连续语音发音评估器(continuous speech pronunciationassessor)以获得字、词或句的最终的发音分数。发音评估系统分为三层：辨音成分评估、音素评估、和连续语音评估。根据每一辨音成分的特征不同的特性，每一辨音成分特征评估器以不同的方式来实现。

一个辨音成分特征评估器包括特征参数提取器(feature extractor)，和辨音成分分类器(distinctive classifier)。音素评估器包括评估控制器(assessmentcontroller)和整合的音素发音分级器(integrated phone pronunciation grader)。连续语音发音评估器还包括字转音的转换器(text-to-phone convector)、音素排列器(phone aligner)、和整合的词语发音分级器(utterance pronunciation grader)。

根据本发明所述的基于辨音成分的发音评估系统，其中该音素评估器的辨音成分检测结果可选择性地被反馈至该音素排列器。

根据本发明所述的基于辨音成分的发音评估系统，其中该字转音转换器是用人工准备的信息来处理，或由计算机自动化处理。

辨音成分特征评估器的运作程序如下：首先，将语音波形输入到辨音成分特征评估器，经由特征参数提取器去检测该语音段所具有的不同的声学特征或语音区别(phonetic distinction)的特点。然后，辨音成分分类器利用先前提取的特征参数作为输入，并且计算其趋向该辨音成分的程度。可再加入分数匹配器(score mapper)将每一个辨音成分特征评估器的输出标准化，这样，不同设计的特征参数提取器和辨音成分分类器也能产生相同格式和意义的结果。如果所有的辨音成分的辩音成分分类器的输出结果具有相同的格式和意义，则此分数匹配器就非必要的。

音素评估器运作程序如下：评估控制器根据输入语音段所代表的音素，决定要采纳或是加重哪些辨音成分特征评估器的评估结果。最后，音素发音分级器整合辨音成分特征评估器的输出产生多种等级的结果(ranking result)，以评估音素发音。借由设定辨音成分的权重因子(weighting factor)，使用者也可以清楚地指定他们所希望加强的辨音成分，来练习发音。

连续语音发音评估器运作程序如下：输入连续语音段和其对应的正文。字转音转换器转换正文为音素字符串(phone string)；接着，音素排列器参考此音素字符串在输入的连续语音波形中切割出每一音素所对应的语音段；然后，利用音素评估器取得每一音素语音段的评估分数；最后，整合所有的音素分数，得到字、词或句子的最终的发音分数。辨音成分的检测结果也能选择性地被反馈至音素排列器，以使其对语音波形的音素序列排列，调整得较好且较精准。

本发明根据语音的辨音成分，提供一种创新且有效率的解决方案。每一语音音素可以用一组辨音成分来描述。辨音成分可规范一音素或是音素的类别(class)，并以此方式识别音素的不同点。

现配合下列附图、实施例的详细说明及权利要求书，将上述及本发明的其它目的与优点详述于后。

附图说明

图1为根据传统的与正文无关的发音评估方法，对音素AE，AA和AH所作的语音识别几率分数分布图。

图2为本发明的辨音成分特征评估器的一个方框示意图。

图3为本发明的音素评估器的一个方框示意图。

图4为本发明的连续语音发音的讦估器。

图5为根据本发明，对高斯混合模型分类器所做的分类误差率的实验结果。

图6为根据本发明，对支持向量机分类器所做的分类误差率的实验结果。

其中，附图标记说明如下：

201特征参数提取器 203辨音成分分类器 205分数匹配器

301评估控制器 303整合的音素发音分级器 401字转音转换器

403音素排列器 404词语发音分级器 405学习目标控制器

具体实施方式

辨音成分是区别两个音素的最小差异的基本语音特征。本发明的发音评估系统分析使用者的语音段(speech segment)，鉴别是否具有符合正确发音的辨音成分的组合。利用提取每一个特定辨音成分的合适的声学特征，来建立一个或一个以上的辨音成分特征评估器。使用者可在此系统中机动性地调整每一辨音成分特征评估器的输出比重，去规范发音评估的焦点(focus)。一个可调整的音素评估器结果会更符合语言学习的目标。因此，最完整的发音评估系统是由下而上(bottom-up)的三个层次：辨音成分评估、音素评估和连续语音发音评估。

因此，发音评估系统可以包含一个或多个辨音成分特征评估器，或是由辨音成分特征评估器构建成的音素评估器，以评估使用者的音素发音，甚至由音素评估器构建成一连续语音发音评估器，以得到字、词或句的最终的发音分数。每一辨音成分特征评估器可以根据其特性的不同，以不同的方式来实现。

图2是本发明的一辨音成分特征评估器的一个方框示意图。参考图2，此辨音成分特征评估器包括特征参数提取201、一辨音成分分类器203、和分数匹配器205(可选择性的)。语音波形被输入辨音成分特征评估器，经由特征参数提取器201检测不同的声学上的特征或语音区别的特性。辨音成分分类器203运用先前提取的特征参数作为输入，并且计算其趋向此辨音成分的程度。最后，分数匹配器205标准化每一辨音成分特征评估器的输出(辨音成分分数)，所以不同设计的特征参数提取器201和分类器203也能产生相同形式和意义的结果。设计分数匹配器205是用来标准化分类器分数(classifierscore)，使分数落于一共同的区间。

辨音成分特征评估器的输出是一变量数值，通常，其范围从-1到1。极值1意指该语音具有此特定的辩音成分，并且信心十足，-1则迥然不同。辨音成分分数也可被定义为不同的数值范围，如[-∞，∞]、[0，1]或是[0，100]。以下进一步描述图2辨音成分特征评估器的每一部分。

特征参数提取器

辨音成分的描述或解译可以是采用发音(in articulatory)或是知觉(inperception)的观点。然而，对于辨音成分的自动检测和确认只有声觉是有用处的。因此，每一辨音成分适用的声学特征必须是有定义的或是被发觉出来的。不同的声学特征能够检测和辨认不同的辨音成分。所以，最相关的声学特征被提取后，被整合为代表任一特定辨音成分的特性。

以下范例为语言学者所定义的辨音成分。然而，从信号的观点而言，辨音成分的集合可被重新定义，如此，特征参数提取器可以更直接和有效率。

一些英文典型的辨音成分包括连续性(continuant)、颚龈前性(anterior)、舌叶提升性(coronal)、缓放性(delayed release)、粗糙性(strident)、浊音性(voiced)、鼻音性(nasal)、侧音性(lateral)、音节性(syllabic)、辅音性(consonantal)、响音性(sonorant)、高(high)、低(low)、后(back)、圆唇性(round)和紧音性(tense)。

可能有更多或不同辨音成分对于语音区别会更有效用。例如，塞音释放与声带开始振动的时间差距(voice onset time，VOT)为分辨多个种类的塞音(stops)的重要的辨音成分。不同的声学特征能检测和辨认不同的辨音成分。所以，最相关的声学特征被提取后，被整合为代表任一特定的辨音成分的特性。某些声学特征是很通常的，这些声学特征可供许多辨音成分所使用。

广泛应用在语音识别器的声学特征，梅尔倒频谱系数(Mel-frequencycepstral coefficients，MFCC)，是一个明显的范例。另一方面，有些特征是更特别的，是特别用来决定某些的辨音成分。例如，自相关系数(auto-correlationcoefficients)可以帮助检测辨音成分，如浊音性、响音性、子音性、和音节性。

一些其它的声学特征的可能范例包括(但不限定)能量(低通(low-pass)、高通(high-pass)和/或带通(band-pass)、过零率(zero crossing rate)、音调(pitch)、时间(duration)等等。

辨音成分分类器

辨音成分分类器203是辨音成分特征评估器的核心。首先，训练用的语音素材是根据辨音成分作收集和分类。接着，分类的语音数据用来对每一辨音成分分类训练一个二进制分类器。建立分类器有许多方法，例如高斯混合模型(Gaussian Mixture Model，GMM)、隐藏式马可夫模型(Hidden MarkovModel，HMM)、人工神经网络(Artificial Neural Network，ANN)、支持向量机(Support Vector Machine，SVM)等等。辨音成分二进制分类器利用先前提取的参数作为输入，并且计算此输入趋向该辨音成分的程度。对不同的辨音成分，可以设计和使用不同的分类器，使分类错误最小化并使分类效率最佳化。

分数匹配器

不同的分类器以不同的参数去鉴别不同的辨音成分。所以，分数匹配器205是用来标准化分类器分数，使分数值落于一共同的区间。例如，分数匹配器可被设计成f(x)＝tanh ax＝2/(1+e^-2ax)-1(a是一个正数值)，并且将分类器分数值从[-∞，∞]标准化至一共同区间[-1，1]。这是为了标准化辨音成分特征评估器的结果，以使不同设计的特征参数提取器和分类器能够产生相同格式和意义的结果。这样以确保下一层里所有辨音成分特征评估器的整合。当所有的辨音成分使用相同格式的辨音成分分类器时，可以不使用分数匹配器。也就是说，对所有的辨音成分，若辨音成分分类器的输出是相同格式和意义的结果时，则分数匹配器是不必要的。所以，对辨音成分特征评估器而言，分数匹配器是可选择性的。

本发明的发音评估系统使用多个辨音成分特征评估器来构建一音素等级评估模块(层2)，如图3所示。图3为发音评估系统的音素评估器的一个方框示意图。在图3中，评估控制器301依据输入语音的音素，机动性地决定采用或加强某些辨音成分特征评估器DFA₁-DFA_n。最后，整合的音素发音分级器303输出音素发音评估的多种等级的结果。借由辨音成分的权重，使用者也可以机动性地调整他们所希望加强的辨音成分，来练习发音(数值0代表关闭辨音成分)。此可用控制器来完成，如图4所示的学习目标控制器405。每一辨音成分的输出可以是柔性的决定(也就是在区间[-1，1]里的连续值)或是硬性的决定(二进制值-1和1)。最后，可以控制整合音素发音分级器303输出音素发音评估的多种等级的结果。此输出可以是一N级或N点等级结果(N＞1)，也可以是辨音成分的几种组别的一个等级的向量，以表示某些学习目标。

图4为本发明的连续语音发音评估器的一个方框示意图。参考图4，输入是连续性语音和其相对应的正文。字转音转换器401转换正文为音素字符串。音素排列器403利用此音素字符串在输入的连续语音波形中切割出每一音素所对应的语音段。再利用图3所示的音素评估器，取得每一音素语音段的评估分数，并整合这些分数，通过词语发音分级器404，而得到字、词或句的最终的发音分数。

值得注意的是，字转音转换器401可以用人工准备的信息来处理，或由计算机自动化处理。音素排列可由HMM校准或其它的校准方法来处理。辨音成分的检测结果也能选择性地被反馈至音素排列器，以使其对语音波形的音素序列排列，调整得较好并且较精准。

在本发明的一个实验里，由英文语言材料库华尔街期刊(Wall StreetJournal)中取出22000句作为训练语言材料。算出MFCC特征参数和16组辨音成分的高斯混合模型(Gaussian Mixture Models)及非高斯混合模型(AntiGaussian Mixture Models)作为分类器。为了测试目的，本发明使用1,385个与训练无关的语言材料，来观察辨音成分特征评估器是否可以正确地鉴别此辨音成分。实验结果如图5所示，分类结果的误差率为42.75％。

对于构建分类器的另一种方法，本发明也以支持向量机分类器来实施。如图6所示，此支持向量机分类器的误差率为28.87％。因为每一个辨音成分特征评估器可以是一个独立的模块，本发明选择的方法(GMM或SVM)给予每一辨音成分特征评估器较好的实现成果。整体的误差率下降至25.72％。

综上所述，本发明提供一种以辨音成分分析为基础的语音发音评估的方法和系统。此发音评估系统评估使用者的语音发音通过一个或多个辨音成分特征评估器，或一音素评估器，或一连续语音发音评估器。其输出结果能作为语音发音诊断和可能的修正导引。一个辨音成分特征评估器包括特征参数提取器、辨音成分分类器和可选择性的分数匹配器。每一个辨音成分特征评估器可以根据其不同的特征，以不同的方式来实现。

然而以上所述，仅为发明的最佳实施例而已，不能依此限定本发明实施的范围。凡是在本发明权利要求书的范围内所作的均等变化与修改，皆应属本发明权利要求书涵盖的范围内。

Claims

1.一种基于辨音成分的发音评估系统，用来评估使用者的语音发音，该发音评估系统包含一个或多个辨音成分特征评估器，每一辨音成分特征评估器包括特征参数提取器和辨音成分分类器，每一该辨音成分特征评估器根据每一辨音成分的不同特性而实现。

2.如权利要求1所述的基于辨音成分的发音评估系统，其特征在于，该发音评估系统使用一个或多个该辨音成分特征评估器、一评估控制器、和一整合的音素分级器，来构建一音素评估器和评估使用者的语音发音。

3.如权利要求2所述的基于辨音成分的发音评估系统，其特征在于，该发音评估系统使用一字转音转换器、一音素排列器、该音素评估器和一词语发音分级器，来构建一连续语音发音评估器和评估使用者的语音发音。

4.如权利要求1所述的基于辨音成分的发音评估系统，其特征在于，每一辨音成分特征评估器还包括分数匹配器，将该辨音成分特征评估器的输出标准化。

5.如权利要求1所述的基于辨音成分的发音评估系统，其特征在于，该特征参数提取器检测不同的声学上的特征或语音区别的特性。

6.如权利要求1所述的基于辨音成分的发音评估系统，其特征在于，该辨音成分分类器对其相关联的辨音成分特征评估器的输入，计算其趋向该辨音成分的程度。

7.如权利要求1所述的基于辨音成分的发音评估系统，其特征在于，一辨音成分特征评估器的输出是一变量数值。

8.如权利要求2所述的基于辨音成分的发音评估系统，其特征在于，该评估控制器识别输入语音的音素和机动性地决定采用或加强某些该辨音成分特征评估器，该整合的音素发音分级器输出音素发音评估的多种等级的结果。

9.如权利要求1所述的基于辨音成分的发音评估系统，其特征在于，由使用者去指定辨音成分是可选择性的。

10.如权利要求3所述的基于辨音成分的发音评估系统，其特征在于，该语音评估系统的输入是连续性语音和其对应的正文。

11.如权利要求10所述的基于辨音成分的发音评估系统，其特征在于，该字转音转换器转换该正文为一音素字符串，且该音素排列器利用该音素字符串来排列语音波形为一音素序列。

12.如权利要求3所述的基于辨音成分的发音评估系统，其特征在于，该词语发音分级器整合所有音素的分数，得到字、词或句的最终的发音分数。

13.如权利要求3所述的基于辨音成分的发音评估系统，其特征在于，该音素评估器的辨音成分检测结果可选择性地被反馈至该音素排列器。

14.如权利要求3所述的基于辨音成分的发音评估系统，其特征在于，该字转音转换器是用人工准备的信息来处理，或由计算机自动化处理。

15.一种基于辨音成分的发音评估方法，该方法评估使用者的发音，该评估方法包含利用对每一个特定的辨音成分，去提取适当的声学特征，以构建一个或多个的辨音成分特征评估器的步骤，每一该辨音成分特征评估器根据该辨音成分的不同特性而被实现。

16.如权利要求15所述的基于辨音成分的发音评估方法，其特征在于，每一辨音成分特征评估器的运作程序包含下列步骤：

(a1)输入语音波形至该辨音成分特征评估器，经由特征参数提取器，以检测不同的声学特征；以及

(a2)利用该先前提取的参数作为输入，并且计算该输入趋向该辨音成分的程度。

17.如权利要求15所述的基于辨音成分的发音评估方法，其特征在于，该发音评估方法包含使用一个或多个该辨音成分特征评估器、一评估控制器、和一整合的音素发音分级器，来构建一音素评估器，去评估使用者发音的步骤。

18.如权利要求16所述的基于辨音成分的发音评估方法，其特征在于，该每一辨音成分特征评估器还包含标准化该辨音成分特征评估器的输出的步骤。

19.如权利要求17所述的基于辨音成分的发音评估方法，其特征在于，该音素评估器的运作程序包含下列步骤：

(b1)利用该评估控制器去识别输入语音的音素，和机动性地决定采用或加强一个或多个辨音成分特征评估器；以及

(b2)利用该整合的音素发音分级器去输出多种等级的结果，以评估音素发音。

20.如权利要求19所述的语音发音评估方法，其特征在于，该语音发音评估方法还包括通过连续语音评估器，来产生已输入连续的语音和其对应的正文的最终的发音分数。

21.如权利要求20所述的基于辨音成分的发音评估方法，其特征在于，该连续语音发音评估器的运作程序包含下列步骤：

(c1)输入连续的语音和其对应的正文，并且转换该正文为一音素字符串；

(c2)利用该音素字符串去排列语音波形为一音素序列；以及

(c3)利用该音素评估器去取得每一音素的分数，并整合每一音素的该分数，以得到字、词或句的最终的发音分数。

22.如权利要求21所述的基于辨音成分的发音评估方法，其特征在于，在步骤(c3)中，从该音素评估器所得的结果可选择性地被反馈至音素排列器，以使其对语音波形的音素序列排列，调整得较好且较精准。

23.如权利要求21所述的基于辨音成分的发音评估方法，其特征在于，在步骤(b1)之前，可选择地执行由使用者机动性地调整辨音成分的权重因子来规范发音评估重点的步骤。