CN103177733B

CN103177733B - 汉语普通话儿化音发音质量评测方法与系统

Info

Publication number: CN103177733B
Application number: CN201310075517.2A
Authority: CN
Inventors: 张珑; 单琳琳; 解瑞峰; 王建华; 季伟东; 梁鹏
Original assignee: Harbin Normal University
Current assignee: Harbin Normal University
Priority date: 2013-03-11
Filing date: 2013-03-11
Publication date: 2015-09-09
Anticipated expiration: 2033-03-11
Also published as: CN103177733A

Abstract

汉语普通话儿化音发音质量评测方法与系统，涉及一种语音评测方法及评测系统。本发明在现有发音质量评测方法基础上，一方面扩展标准的汉语声韵母发音空间，使其包括所有的儿化韵母，建立包含儿化韵母的扩展声韵母模型，并在包含儿化韵母的扩展发音空间内进行更大范围的发音质量评测；另一方面，在包含儿化韵母的扩展发音空间内进行发音质量评测时，把对儿化音发音质量评测问题转化为儿化音发音质量分类问题，建立儿化音发音质量分类模型，通过提取儿化音节及其前面音节的多种声学特征、语言学特征、以及它们的统计特征和动态变化特征，获取该儿化音的发音质量等级，进而完成儿化音发音质量评测，能有效提高汉语普通话儿化音发音质量评测的正确率。

Description

汉语普通话儿化音发音质量评测方法与系统

技术领域

本发明涉及一种语音评测方法及评测系统，尤其涉及一种汉语普通话儿化音发音质量评测方法及评测系统。

背景技术

在当前的汉语普通话发音质量评测方法中，一般只涉及到对汉语普通话声母、韵母和声调的发音质量评测，但对儿化音等特殊音变现象的发音质量评测却未见相关研究。

儿化是汉语普通话口语中颇具特色的一种音变现象，主要是由词尾“儿”变化而来。词尾“儿“本是一个独立音节，长期与其前面音节流利地连读而发生音变，“儿”失去独立性，“化”到前一个音节上，只保持一个卷舌动作，且使其前面音节里的韵母或多或少地发生变化，如“老头儿”、“鲜花儿”。儿化也是汉语普通话中一种非常重要的语言现象，经常在书面上出现，能起到区别词性和意义，表达不同感情色彩的作用。由于儿化音所在音节的韵母部分发生了比较复杂的变化，且明显带有卷舌特征，不同于其原韵母，因此，儿化音发音质量评测中需要对儿化韵母进行特殊处理。

现有主流的发音质量评测方法都是借助成熟的语音识别技术进行的。具体做法如图1所示，用标准语音识别器将待评测语音和已知对应文本在时间上强制对齐(Force Alignment)，然后提取强制对齐后识别的似然度分数（机器分），或者在该分的基础上进行一些置信度的计算，得到更可靠的机器分，并通过预设阈值或者分数映射把机器分转换成评测员给定的发音质量等级。可以看出，如何根据似然度分数计算更可靠的置信度分数是获得满意评测结果的关键。常见的置信度计算方法有，对数似然度分数、对数似然比分数、对数后验概率分数、归一化对数似然比和发音良好度(GOP)等形式。目前，GOP算法已成为最重要的置信度分数的计算方法，广泛用于各类发音质量自动评测系统中。

综上，采用现有的发音质量评测方法对儿化音进行发音质量评测时，会涉及到对儿化韵母进行有效建模，但也会存在儿化韵母、原韵母、“儿”音节之间的模型混淆问题，实际效果很不理想。

发明内容

针对采用现有的发音质量评测方法对儿化音进行发音质量评测时，存在儿化韵母、原韵母、“儿”音节之间的模型混淆，实际效果很不理想的问题，本发明提供了一种有效的汉语普通话儿化音发音质量评测方法与系统。该方法在现有发音质量评测方法的基础上，一方面扩展标准的汉语声韵母发音空间，使其包括所有的儿化韵母，建立包含儿化韵母的扩展声韵母模型，并在包含儿化韵母的扩展发音空间内进行更大范围的发音质量评测；另一方面，在包含儿化韵母的扩展发音空间内进行发音质量评测时，把对儿化音发音质量评测问题转化为儿化音发音质量的分类问题，建立儿化音发音质量分类模型，通过提取儿化音节及其前面音节的多种声学特征、语言学特征、以及它们的统计特征和动态变化特征，获取该儿化音的发音质量等级，进而完成儿化音发音质量的评测，能有效地提高汉语普通话中儿化音发音质量评测的正确率。

本发明的目的之一是提供一种汉语普通话儿化音发音质量评测方法，包括如下步骤：

第一步，搜集包含儿化音的标准发音语音库，建立包含儿化韵母的扩展声韵母模型；

第二步，搜集儿化音发音质量评测数据库，建立儿化音发音质量分类模型；

第三步，利用第一步获得的包含儿化韵母的扩展声韵母模型，对待评测发音及其对应文本进行强制对准，得到儿化音节及其前一音节的音节边界信息，包括它们所含声母、韵母、儿化韵母的边界信息；

第四步，提取该儿化音节及其前一音节所在语音段的多种声学特征和语言学特征，包括时长、音节类别、置信度、基频、音强、能量、共振峰，以及它们的统计特征和动态变化特征；

第五步，将第四步获得的所有特征输入到第二步获得的儿化音发音质量分类模型进行分类，获得该儿化音节的发音质量等级，输出高质量的评测结果。非儿化音节可按照现有的发音质量评测方法进行评测。

本发明的目的之二是提供一种汉语普通话儿化音发音质量评测系统，包括基于扩展声韵母模型的音节边界切分模块，儿化音节音段及其前一音节音段多种特征提取模块，基于儿化音发音质量分类模型的分类分级模块；该基于扩展声韵母模型的音节边界切分模块利用包含儿化韵母的扩展声韵母模型，对待评测语音及其对应文本，进行强制对准和Viterbi解码算法，得到各音素（包括声母、韵母、儿化韵母）等的边界信息；该儿化音节音段及其前一音节音段多种特征提取模块利用多种语音信号处理手段，得到和特定音节相关的多种特征，用于基于儿化音发音质量分类模型的分类分级模块的输入特征；基于儿化音发音质量分类模型的分类分级模块利用儿化音发音质量分类模型对待评测儿化音节进行发音质量等级分类，进而完成儿化音的发音质量评测。其它声母、韵母的发音质量评测可以采取现有的发音质量评测（需要使用包括儿化韵母的扩展声韵母模型）方法进行评测。

本发明的有益效果在于：儿化是汉语普通话中颇具特色的一种重要音变现象，儿化音并不是先发出一个普通音节，然后再发出一个“儿”音节，而是在发普通音节韵母的同时，叠加上卷舌动作，使得整个韵母都贯穿上儿化的色彩。因此，通常的发音质量检测系统一般无法对儿化音进行有效检测。通过构建包含儿化韵母的扩展声韵母模型可以在一定程度上实现对儿化音的发音质量检测，但是，在包含儿化韵母的发音空间内，儿化韵母与其对应的原韵母有很大的混淆，声学模型的区分度很差，这也直接影响儿化音发音质量评测系统的实际性能。为此，本发明在不改变现有发音质量检测与评价系统的基础上，加上针对儿化音的发音质量分类系统，提取儿化音节音段及其前一音节音段的多种特征，建立儿化音发音质量分类模型，实现对儿化音发音质量的有效分类分级，并取得非常好的评测效果。

附图说明

图1是现有主流的发音质量评测方法示意图；

图2是本发明汉语普通话儿化音发音质量评测方法示意图；

图3是本发明建立包含儿化韵母的扩展声韵母模型示意图；

图4是本发明建立儿化音发音质量分类模型示意图；

图5是本发明提取特定语音段多种特征的流程示意图；

图6是本发明汉语普通话儿化音发音质量评测系统的模块示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的解释说明，但并不局限如此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

具体实施方式一：一种汉语普通话儿化音发音质量评测方法，如图2所示，具体包括如下步骤：

第三步，利用第一步获得的包含儿化韵母的扩展声韵母模型，对待评测发音及其对应文本进行强制对准，得到儿化音节及其前一音节的音节边界信息，包含它们所含的声母、韵母、儿化韵母的边界信息；

如图3所示，第一步具体包括如下步骤：

步骤1，搜集汉语普通话标准发音语音库，训练标准的声韵母声学模型。本发明使用实验室自行录制的新闻联播语音数据，约80小时，16 KHz采样，16 bit量化，以下简记为CCTV。声学模型采用上下文无关的声韵母模型(Mono-phone)。特征采用39 维 MFCC_0_D_A_Z 特征，帧长25 毫秒，帧移10 毫秒。音素集共计64 个音素(即64 个HMM)，包括6 个零声母，21个声母，37个韵母，其中声母采用自左向右的3 状态HMM，韵母采用自左向右的5 状态HMM，每个状态都训练到16 混合高斯作为其概率密度函数。

步骤2，搜集包含儿化音的汉语普通话标准发音语音库，用于训练含有儿化韵母的扩展声韵母模型。本发明使用实验室自行录制的普通话水平为一级甲等的2个说话人，1男1女，按照国家普通话水平测试大纲提供的普通话测试儿化词语表朗读2遍的录音。该儿化词语表包含36个儿化韵母，共188个双音节儿化词语。以下简记为ERHUA。

步骤3，扩展标准的汉语声韵母发音空间，使其在原有声母、韵母的基础上，加入所有的儿化韵母，即把汉语普通话的音素集合扩展为所有的声韵母，再加上所有韵母的儿化韵母，比如“a”的儿化韵母记为“a_r”，“e”的儿化韵母记为“e_r”等等。韵母“er”没有儿化韵母，因此，共36个儿化韵母。

步骤4，训练包含儿化韵母的扩展声韵母模型。虽然理论上说所有韵母都可能发生儿化，但实际上有些韵母发生儿化的机会很少，因此也很难收集完整的儿化音数据。考虑到CCTV中儿化音数据基本没有，ERHUA中的儿化音数据也非常少，因此，在训练包含儿化韵母的扩展声韵母模型时，我们采取的策略是，首先复制步骤1中获得的原韵母的声学模型，然后再利用步骤2中获得的儿化音数据，在步骤3中获得的新的扩展发音空间内，对包含儿化韵母的扩展声韵母模型做进一步的迭代训练。

步骤5，利用步骤4获得的包含儿化韵母的扩展声韵母模型，利用现有的发音质量评测方法建立发音质量评测模型，并设置音素相关的阈值，对声母、韵母及儿化韵母分别进行发音质量评测。评测得到的置信度分数可用作第四步步骤3的发音质量置信度特征。音素相关的阈值设定有多种方法，可以利用步骤2中获得的包含儿化音的汉语普通话标准发音语音库(ERHUA)进行计算和设定，也可以利用第二步步骤1中获得的儿化音发音质量评测数据库(PSC)进行计算和设定。

为检验这种方法对儿化音发音质量评测的实际性能，对第二步步骤1中获得的PSC语音库的304个发音正确的双音节儿化词语进行评测。首先利用第三步的方法对每个儿化韵母进行强制切分，得到相应的语音段，并利用在第一步步骤4中获得的扩展的声韵母模型（只使用所有韵母和儿化韵母）分别对该语音段进行了识别，并把识别的结果做统计，列为表1。

表1 PSC语音库中儿化韵母所在语音段的识别结果排名表（部分）

表1分为四大部分。第一部分为切分后儿化韵母语音段的统计信，包含儿化韵母的名称、占所有语料的百分比、以及在所有语料中出现的次数。后面三个部分分别为该儿化韵母语音段前三高容易被识别成的韵母，也就是该儿化韵母最容易被混淆的韵母中的前三名，包含被混淆的韵母名称、被混淆的百分比、以及被混淆的次数。

实验结果表明，被识别的结果常常并不是相应的儿化韵母，很多情况是其对应的原韵母，或者是其原韵母的易混淆韵母，或者是“儿”音节（er）。这可能主要是因为儿化韵母模型的训练数据太少，与其原韵母模型的混淆度很大，或者由于儿化韵母中“儿”尾过长等因素导致。对于这样的识别结果，在采用已有的发音质量评测方法计算置信度分数时，儿化韵母与原韵母，或者原韵母的易混淆韵母，或者“儿”音节（er），分值都可能很相近，使我们很难判断出儿化韵母发音是否正确，因此，会严重影响对儿化音发音质量的评测性能，不适合在实际的儿化音发音质量评测系统中采用。

如图4所示，第二步具体包括如下步骤：

步骤1，搜集儿化音发音质量评测数据库，可用于训练儿化音发音质量评测模型及儿化音发音质量分类模型。本发明使用实验室自行采集的哈尔滨市某高校国家普通话水平考试的现场语音，共89名学生，每人包括100个单音节字和50个多音节词，共178段。分别由三个国家级评测员对每个声韵母的发音质量进行评价，所有评测员的评价结果采用投票的方式进行了融合，并采用此结果作为评判系统的依据。在89段多音节词中，共包含双音节词4450个，其中儿化词356个，评测员认定发音正确的儿化词304个，发音错误的儿化词52个。以下简记为PSC。

步骤2，建立儿化音发音质量分类模型。对步骤1搜集的儿化音发音质量评测数据库，提取相应儿化音节及其前一音节的多种声学特征和语言学特征，包括时长、音节类别、置信度、基频、音强、能量、共振峰，以及它们的统计特征和动态变化特征，提取方法同第四步中的方法相同。结合评测员对其发音质量的评测等级，训练儿化音发音质量分类模型。儿化音发音质量分类模型可以选择多种不同种类的分类模型，比如分类回归树(CART)、神经网络(NN)、支持向量机(SVM)和集成分类回归树(Boosting CART)等，进而根据分类结果完成对儿化音的高质量评测。

如图5所示，第四步具体包括如下步骤：

步骤1，根据第三步的音节边界信息，提取音节的时长特征：

(a) SyDur. 当前音节的时长；

(b) FiDur. 当前音节的韵母时长；

同时，考虑到双音节词语的结构特征，计算时长信息的动态变化特征。设SyDur_i 、 FiDur_i(i=1,2)分别表示第一音节和第二音节的时长，和它们所包含的韵母的时长。按照如下的方法计算其动态变化特征。

(a) SyDur₂ / SyDur₁ ；

(b) FiDur₂ / FiDur₁ ；

步骤2，根据发音对应的文本，提取音节的类别特征：

(a) ToneTy. 当前音节的声调类别，分为5个声调(含轻声)；

(b) ErTy. 当前音节的韵母 (原韵母或者儿化韵母)，所属儿化韵母的类别信息，本发明将儿化韵母按照其发音规律将其分为9个类别，如表2所示；

表2 汉语普通话儿化韵母分类表

此表中韵母代号主要为工程上表述方便，其中 ii代表-i，iii代表-i，v代表ü [y]，等等。

第三类e_r 比较复杂，包含较多变体，，但已有逐渐合并为[ər]的趋势，这里暂归为一类。

本分类将仅用于表征音节的类别特征信息。

主要考虑双音节词语中第二个音节的音节类别特征。

步骤3，根据第三步的音节边界信息，利用第一步步骤5的方法，提取音节的置信度特征：

(a) GopFi. 当前音节的韵母音段对其原韵母的置信度(GOP分数)；

(b) GopErFi. 当前音节的韵母音段对其儿化韵母的置信度(GOP分数)；

(c) GopEr. 当前音节的韵母音段对韵母er的置信度(GOP分数)；

(d) bErFi . 以上三个值中，如果GopErFi 的值最大，则取值为1，否则为0；

步骤4，根据第三步的音节边界信息，提取音节的基频、能量、音强等特征：

(a) PiMax. 当前音节基频的最大值;

(b) PiMin. 当前音节基频的最小值;

(c) PiMean. 当前音节基频的平均值;

(d) PiRMS. 当前音节基频的均方根;

(e) PiDev. 当前音节基频的标准差;

类似于基频相关特征，我们可以计算能量和音强相关的统计特征。同时，考虑到双音节词语的结构特征，计算双音节词语中前后音节的基频、能量和音强相关的动态变化特征，并归一化。设PiMax_i 、PiMin_i 、PiMean_i 、PiDev_i(i=1,2) ，分别表示第一音节和第二音节范围内的基频、能量和音强的最大值、最小值、平均值和标准差。按照如下的方法计算它们的动态变化特征。

(a) (PiMean₂ – PiMean₁ ) / PiDev₁ ;

(b) (PiMax₂ – PiMean₁ ) / PiDev₁;

(c) (PiMax₂ – PiMax₁ ) / PiDev₁;

(d) PiMax₂ / (PiMax₁ – PiMin₁ );

(e) PiMean₂ / (PiMax₁ – PiMin₁ );

步骤5，根据第三步的音节边界信息，提取音节的共振峰特征：

由于儿化音的第三共振峰有明显的下降趋势，并向第二共振峰接近，是显著的区分性特征。为此，我们引入音节的共振峰数据。首先，需要计算音节的第二、三共振峰数值，分记为F2(i)和F3(i),(i=1,2, … ,N)。N是对该音节语音段进行等分的数目。然后，为了便于比较，我们对数值进行归一化，方法如下式:

NF3( i) = ( F3(i) - F3Max ) / ( F3Max- F3Min)

其中F3Max 、 F3Min是F3(i)的最大值和最小值。选取第三共振峰的中值和终值，作为重要特征。

(a) NF3(int (N div 2)) ;

(b) NF3(N) ;

同时，我们计算第三共振峰相对于第二共振峰的动态变化特征。

(a) (F3(int (N div 2)) – F2(int (N div 2)) )/ F3(int (N div 2)) ;

(b) (F3(N) – F2(N) ) / F3(N);

本发明的儿化音发音质量评测方法的实验结果及分析：

选取ERHUA语音库及PSC语音库的前20段作为训练集，使用前面的儿化音节及其前一音节的多种相关特征作为分类特征，分别训练分类回归树、神经网络、支持向量机和集成分类回归树等分类模型，并在PSC语音库的后69段上进行儿化音发音质量的分类，结果见表3。可以看到，分类回归树模型的分类效果最差，神经网络模型和支持向量机模型的分类效果差不多，而集成分类回归树模型的分类效果明显好于其它分类器，分类正确率达到92.41。由此可见，本方法具有很高的分类正确率，可用于实际汉语普通话儿化音的发音质量评测系统。

表3　不同的分类模型的儿化音检测结果

我们将通过语音库对时长、音节类别、置信度、基频、能量、音强和共振峰等特征在儿化音感知中的作用进行深入分析，进一步揭示不同种类的特征在儿化音感知上的重要程度，有利于对多种特征进行选择优化。

我们分别利用时长、音节类别、置信度、基频、能量、音强和共振峰等特征在训练集上训练分类模型，并在测试集上进行测试。表4列出了测试集上，不同的特征组在儿化音检测中的分类效果。

表4　不同的特征组在儿化音检测中的分类效果

从表4可以看到：(1)对汉语儿化音检测来说，共振峰特征的区分性最好，分类正确率可达到78.4%，这也从另一个侧面说明了其在汉语儿化音感知中的重要作用。(2)音节的置信度(GOP分数)是比较稳定的，一直是评价发音准确度的重要指标，虽然训练集中包含的儿化音数据有限，使得儿化韵母和原韵母的混淆度很大，但利用一组GOP分数作为特征进行分类时，也取得非常好的效果，分类正确率达到76.5%。(3)虽然儿化韵母的音节时长与其原韵母的音节时长大体相同，但是在双音节词的分类任务中，其分类效果也很不错，分类正确率达到71.6%。(4)基频、能量以及音强方面的声学特征对儿化音检测也具有一定的区分性，其重要性依次为：基频、能量和音强。(5)音节类别特征对儿化音检测的贡献不是很大。因此，在计算能力受限的应用领域，比如在智能手机和平板电脑上进行发音质量评测时，本发明可以优选部分声学特征作为儿化音发音质量分类器的输入，可以实现比较好的评测性能，并提高系统的实时响应能力。

具体实施方式二：一种汉语普通话儿化音发音质量评测系统，如图6所示，包括基于扩展声韵母模型的音节边界切分模块，儿化音节音段及其前一音节音段多种特征提取模块，基于儿化音发音质量分类模型的分类分级模块；该基于扩展声韵母模型的音节边界切分模块利用包含儿化韵母的扩展声韵母模型，对待评测语音及其对应文本，进行强制对准和Viterbi解码算法，得到各音素（包括声母、韵母、儿化韵母）等的边界信息；该儿化音节音段及其前一音节音段多种特征提取模块利用多种语音信号处理手段，得到和特定音节相关的多种声学特征和语言学特征，用于基于儿化音发音质量分类模型的分类分级模块的输入特征；基于儿化音发音质量分类模型的分类分级模块利用儿化音发音质量分类模型对待评测儿化音节进行发音质量等级分类，进而完成儿化音的发音质量评测。其它声母、韵母的发音质量评测可以采取现有的发音质量评测（需要使用包括儿化韵母的扩展声韵母模型）方法进行评测。

所述的基于扩展声韵母模型的音节边界切分模块包括扩展声韵母模型的训练模块、基于Viterbi的音节边界切分模块；该扩展声韵母模型的训练模块是对声母、韵母、儿化韵母模型的相关参数进行最大似然估计；该基于Viterbi的音节边界切分模块是针对待评测语音和相对应的文本，利用扩展声韵母模型进行强制对准，通过Viterbi解码，获得各个声母、韵母（包含儿化韵母）及整个音节的相关边界信息。

所述的儿化音节音段及其前一音节音段多种特征提取模块包括音段时长特征提取模块、音节类别特征提取模块、置信度特征提取模块、基频特征提取模块、音强特征提取模块、能量特征提取模块、共振峰特征提取模块；该时长特征提取模块提取音段的时长信息，归一化时长信息，以及前后音节、韵母时长的动态变化特征；该音节类别特征提取模块提取音节的声调信息和儿化韵母的类别；该置信度特征提取模块提取音段的原韵母置信度分数、儿化韵母的置信度分数、儿音节的置信度分数以及它们的一些统计特性；该基频特征提取模块提取音段的基频及其统计特征和动态变化特征；该音强特征提取模块提取音段的音强及其统计特征和动态变化特征；该能量特征提取模块提取音段的能量及其统计特征和动态变化特征；该共振峰特征提取模块提取音段的第三共振峰、第二共振峰及其统计特征和动态变化特征；

所述的基于儿化音发音质量分类模型的分类分级模块包括儿化音发音质量分类模型训练模块、儿化音发音质量分类模型分类模块；该儿化音发音质量分类模型训练模块用于训练一个可用于儿化音发音质量分类的分类器；该儿化音发音质量分类模型分类模块可利用儿化音节音段及其前一音节音段多种特征提取模块作输入，输出该儿化音的发音质量等级，进而完成对儿化音发音质量的有效评价。

Claims

1.汉语普通话儿化音发音质量评测方法，其特征在于所述方法步骤如下：

第四步，提取该儿化音节及其前一音节所在语音段的声学特征、语言学特征、以及它们的统计特征和动态变化特征；

第五步，将第四步获得的所有特征输入到第二步获得的儿化音发音质量分类模型进行分类，获得该儿化音节的发音质量等级，输出高质量的评测结果。

2.根据权利要求1所述的汉语普通话儿化音发音质量评测方法，其特征在于所述第一步的具体步骤如下：

步骤1，搜集汉语普通话标准发音语音库，用于训练标准的声韵母声学模型；

步骤2，搜集包含儿化音的汉语普通话标准发音语音库，用于训练含有儿化韵母的扩展声韵母模型；

步骤3，扩展标准的汉语声韵母发音空间，使其包括所有的儿化韵母，建立包含儿化韵母的新的发音空间；

步骤4，训练包含儿化韵母的扩展声韵母模型；

步骤5，利用步骤4获得的包含儿化韵母的扩展声韵母模型，利用已有的发音质量评测方法建立发音质量评测模型，并设置音素相关的阈值，对声母、韵母及儿化韵母分别进行发音质量评测。

3.根据权利要求1所述的汉语普通话儿化音发音质量评测方法，其特征在于所述第二步的具体步骤如下：

步骤1，搜集儿化音发音质量评测数据库，用于训练儿化音发音质量评测模型及儿化音发音质量分类模型；

步骤2，建立儿化音发音质量分类模型。

4.根据权利要求3所述的汉语普通话儿化音发音质量评测方法，其特征在于所述步骤2的具体步骤如下：

对步骤1搜集的儿化音发音质量评测数据库，提取相应儿化音节及其前一音节的声学特征、语言学特征、以及它们的统计特征和动态变化特征，结合其发音质量评测等级，训练儿化音发音质量分类模型。

5.根据权利要求3所述的汉语普通话儿化音发音质量评测方法，其特征在于所述儿化音发音质量分类模型可选择分类回归树、神经网络、支持向量机和集成分类回归树多种不同种类的分类模型。

6.根据权利要求1或4所述的汉语普通话儿化音发音质量评测方法，其特征在于所述提取相应儿化音节及其前一音节的声学特征、语言学特征、以及它们的统计特征和动态变化特征的具体步骤如下：

步骤1，根据第三步的音节边界信息，提取音节的时长特征，归一化时长信息，以及提取前后音节、韵母时长的动态变化特征：

步骤2，根据发音对应的文本，提取音节的声调信息和儿化韵母的类别：

步骤3，根据音节边界信息，提取音节的置信度特征以及它们的统计特性：

步骤4，根据音节边界信息，提取音节的基频、能量、音强特征及其统计特征和动态变化特征；

步骤5，根据音节边界信息，提取音节的第三共振峰、第二共振峰及其统计特征和动态变化特征。

7.一种汉语普通话儿化音发音质量评测系统，其特征在于所述评测系统包括：基于扩展声韵母模型的音节边界切分模块，儿化音节音段及其前一音节音段多种特征提取模块，基于儿化音发音质量分类模型的分类分级模块；

该基于扩展声韵母模型的音节边界切分模块利用包含儿化韵母的扩展声韵母模型，对待评测语音及其对应文本，进行强制对准和Viterbi解码算法，得到各音节的边界信息，包括它们所含声母、韵母、儿化韵母的边界信息；

该儿化音节音段及其前一音节音段多种特征提取模块利用多种语音信号处理手段，以及其对应的文本，得到和特定音节相关的多种声学特征和语言学特征，用于基于儿化音发音质量分类模型的分类分级模块的输入特征；

该基于儿化音发音质量分类模型的分类分级模块利用儿化音发音质量分类模型对待评测儿化音节进行发音质量等级分类，进而完成儿化音的发音质量评测。

8.根据权利要求7所述的汉语普通话儿化音发音质量评测系统，其特征在于所述基于扩展声韵母模型的音节边界切分模块包括扩展声韵母模型的训练模块、基于Viterbi的音节边界切分模块；

该扩展声韵母模型的训练模块是对声母、韵母、儿化韵母模型的相关参数进行最大似然估计；

该基于Viterbi的音节边界切分模块是针对待评测语音和相对应的文本，利用扩展声韵母模型进行强制对准，通过Viterbi解码，获得各音节的边界信息，包括它们所含声母、韵母、儿化韵母的边界信息。

9.根据权利要求7所述的汉语普通话儿化音发音质量评测系统，其特征在于所述儿化音节音段及其前一音节音段多种特征提取模块包括音段时长特征提取模块、音节类别特征提取模块、置信度特征提取模块、基频特征提取模块、音强特征提取模块、能量特征提取模块、共振峰特征提取模块；

该时长特征提取模块提取音段的时长信息，归一化时长信息，以及前后音节、韵母时长的动态变化特征；

该音节类别特征提取模块提取音节的声调信息和儿化韵母的类别；

该置信度特征提取模块提取音段的原韵母置信度分数、儿化韵母的置信度分数、儿音节的置信度分数以及它们的统计特性；

该基频特征提取模块提取音段的基频及其统计特征和动态变化特征；

该音强特征提取模块提取音段的音强及其统计特征和动态变化特征；

该能量特征提取模块提取音段的能量及其统计特征和动态变化特征；

该共振峰特征提取模块提取音段的第三共振峰、第二共振峰及其统计特征和动态变化特征。

10.根据权利要求7所述的汉语普通话儿化音发音质量评测系统，其特征在于所述基于儿化音发音质量分类模型的分类分级模块包括儿化音发音质量分类模型训练模块、儿化音发音质量分类模型分类模块；

该儿化音发音质量分类模型训练模块用于训练用于儿化音发音质量分类的分类器；

该儿化音发音质量分类模型分类模块利用儿化音节音段及其前一音节音段多种特征提取模块作输入，输出该儿化音的发音质量等级，进而完成对儿化音发音质量的有效评价。