CN101740024A

CN101740024A - 基于广义流利的口语流利度自动评估方法

Info

Publication number: CN101740024A
Application number: CN200810226672A
Authority: CN
Inventors: 徐波; 黄申; 梁家恩; 高鹏; 王士进; 李鹏
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: iFlytek Co Ltd
Priority date: 2008-11-19
Filing date: 2008-11-19
Publication date: 2010-06-16
Anticipated expiration: 2028-11-19
Also published as: CN101740024B

Abstract

本发明为基于广义流利的口语流利度自动化评估方法，包括：利用语音输入设备，分不同年龄和口语水平收集语音数据；采用基于广义流利度的特征和机器学习训练流利度评测模型；根据语音数据不同话题的脚本和发音者的性别，配置相应参数的语音识别系统；利用对语音数据中语速连贯、内容理解、高级技巧和重构标特征进行量化，从专家评估角度综合提取语音数据中流利度的特征；采用回归拟合分析和数据挖掘中的决策树方法对异常流利度错误的检测和流利度评分、诊断。得到的机器流利度分数可以达到与评分专家接近的水平，在相关度指标上超过一般5个专家中的2-3个；速度快，可以嵌入到口语自动化评分系统中，作为重要模块评测发音质量中流利度指标。

Description

基于广义流利的口语流利度自动评估方法

技术领域

本发明属于语音识别领域，涉及一种基于语音识别的多种流利度特征融合得到分数并结合规则进行诊断的方法。

背景技术

多项口语评分的研究表明，流利度和准确性是衡量口语发音质量评估的两个重要指标。以英语为例，传统的英语口语考试评分主要采用人工对以上两种指标进行综合考察，得到考生的总体分数，这种方法有以下缺点：1)速度慢，批阅一段发音需要基本将发音听完，然后根据教师的经验和考纲要求进行批阅；在一场大型的考试中，如果人数超过10万人，老师的工作量是非常繁缛的；2)全面性差，教师不可能将一段发音完整的听完，然后根据各个词汇和短语，音素的发音细节综合评分，而更多见的是只根据一小段发音的印象进行评分，这种“以偏概全”的方法显然会带来误差；3)尺度不统一，口语考试评分是一种主观性很强的评估，各个教师尺度的不同势必带来评分的偏颇.

近年来，围绕口语流利度自动评估进行了很多研究，而传统的发音流利度评估方法仅仅从识别的特征层次考虑流利质量，而随着语言学研究的进展，发现流利度不再是一个单纯的衡量发音顺畅的指标，而需要对包括发音的准确，主观认知性等多种技能的掌握进行评估比较，从而衡量在丰富表达意思的前提下个体对于语言的连贯产生和准确表达的驾驭能力。

传统的口语自动评估方法主要以发音质量的各项指标为出发，如Catia等人的方法。该方法以评分人对于口语发音流利度所关注的指标出发，譬如在规定时间内发音词数的发音速度，突然变快或变慢的发音次数，停顿的频率和停顿长度等等。之后利用人工评分对各项指标进行训练，构造线性回归或者神经网络等非线性模型，之后对于新的发音，同样提取相同的语音质量特征，采用先前构造的模型进行测试，得到发音人的流利度得分。但是，这些方法不能用训练出来模型进行更深入的推广。因为，流利度指标依赖的因素很多，譬如话题内容，脚本的难度，词汇，语法，口音等，在这之中一个重要的指标就是交流和理解的准确程度。一些研究表明，发音的准确程度和流利程度是互相制约，此消彼涨的两个方面，这就决定了流利度的评估不能仅仅停留在发音的流畅上；另一方面，在口语发音自动评估中，由于面向的对象大多是非英语母语的学生，如何在流畅而准确的表达下最大程度的进行英语交流才是教学和考试的任务。传统的流利度评估方法在实际应用中和人工评分的相关度较低，这也说明了对于非英语为母语的学生来讲，流利度不是单纯衡量学生的发音有多么流畅，而是针对本国学生的特点，在考察基本流利度指标的基础上，探索学生在一些可能的高级技巧上的发挥程度，使之更趋近于正规的英语会话。

口语考试的各项指标有很多，一般采用10分为满分，评分采用多位老师的评分取平均。不用分数段代表的流利度水平为：

很少甚至没有语言交际	0-2
很少甚至没有语言交际	0-2	十分犹豫，话语简单，语流不正常中断，犹豫，很难听懂，词序容易引起混乱或歧义	2-4
基本能表达意义，语流不正常中断，犹豫，影响理解，内容简单，内容丰富者给5	4-6	十分犹豫，话语简单，语流不正常中断，犹豫，很难听懂，词序容易引起混乱或歧义	2-4
基本能表达意义，语流不正常中断，犹豫，影响理解，内容简单，内容丰富者给5	4-6	语流有点象母语，用较短篇幅进行了有效的交际，语速快，停顿犹豫有点突然，不自然，每分钟产出12到13个句子以上者得7分	6-8
交流轻松，高效率，篇幅长，语言流畅，表达象母语般轻松	8-10	语流有点象母语，用较短篇幅进行了有效的交际，语速快，停顿犹豫有点突然，不自然，每分钟产出12到13个句子以上者得7分	6-8

发明内容

为了解决现有口语考试尤其是英语口语考试中人工评分速度慢、全面性差和尺度不统一的问题，以及当前自动口语发音流利度评估中考察指标单一，和人工评分相关性差的缺点，本发明的目的是针对口语教学和口语自动化考试，提出一种基于广义流利的口语流利度自动评估方法和系统实现。

为达成所述目的，本发明的一种基于广义流利的口语流利度自动化评估方法，包括以下步骤：

步骤S1：利用语音输入设备，分不同年龄和口语水平收集语音数据；

步骤S2：采用基于广义流利度的特征和机器学习的方法训练异常流利度错误决策树分类模型、流利度评分回归分析模型和流利度诊断规则模型；

步骤S3：根据语音数据不同话题的脚本和发音者的性别，配置相应参数的语音识别系统；

步骤S4：利用对语音数据中语速连贯、内容理解、高级技巧和重构标特征进行量化，计算机自动从专家评估角度综合提取语音数据中流利度的特征；

步骤S5：采用回归拟合分析和数据挖掘中的决策树方法对异常流利度错误的检测和流利度评分、诊断。

本发明的有益效果：

本发明是针对口语教学和口语自动化考试，提出的一种新的基于语音识别多种特征融合得到分数并结合规则进行诊断的方法，解决口语发音的流利度计算机自动评估问题。

由于本发明的方法采用大词汇量连续语音识别系统进行识别，以及更全面更趋近与人的特征提取方式，在评分过程中采用现代信号处理技术和统计机器学习理论相结合的方法，使得机器评分更加趋进与专家的评分。

在测试中，按照国际上专家系统一般的评分管理，每个发音录制脚本由5个专家打分，由于专家之间存在评分尺度差异的情况，专家个人打分也存在一定误差，故最后该脚本的分数为5个专家的平均分决定。

经过对不同专家和平均分之间的相关性(Inter-correlation)，同一个专家对相同一批打分重复打分的相关性(Intra-correlation)进行测试，本方法得到的机器流利度分数可以达到与专家接近的水平。在相关度指标上可以超过一般5个专家中的2-3个。

同时，该方法评分速度快，在0.1倍实时性以下，大大节省了人工评分的时间，不仅可以取代专家评分，而且可以针对不同发音脚本给出诊断报告，对测试者在流利度中流畅性，停顿，连读和失去爆破上的发音意见，以及一些今后改进和矫正方面的建议。同时，该系统可以嵌入到口语自动化评分考试系统中，作为一个重要模块评测发音质量中流利度这一指标。

本发明可以针对口语考试中朗读，跟读和话题简述等开放题型。提取发音内容的可接受性与广义流利中的可接受性相关，强调产生的语言符合目标语标准的程度，重视语言的用法而非使用，将会话的话题和阅读的内容指标引入到流利度特征指标中来，避免学生因为提前背诵与主题无关的段落，或者乱说一段无意义的片段而得到高分。系统分两种情况来进行，1)如果题目为阅读或者跟读题型，由于朗读中有修正现象，则匹配算法采用反向动态规划，同时，为了避免诸如“the，an”等高频词在动态规划过程中出现错位的匹配，匹配过程中只有连续两个词同时和脚本相同才计入正确，之后计算正确表达内容所占的比率。2)如果题目为话题简述等开放题型，则计算N-gram命中率加权得分。

本发明的专家系统模拟教师对学生口语流利度进行评分。该系统适用于阅读，跟读和话题简述等多种题型，利用基于客观流畅性和主观认知性的多种特征进行评估，利用决策树和回归模型融合的方法得到评分结果，并给出具体的诊断报告和改进方向。如：

语速适中，能平稳顺畅地朗读全文，可保持这样的语速；朗读时有些重复或自我更正，有部分不自然的停顿和流不应有的插入语，表明考生在某些词汇和语法的掌握方面利 B 可能存在问题，需加强对短文某些句子的理解；节奏掌握性一般，有一定的朗读节奏感，重读、弱读掌握一般，对于有些句子的表达过于平缓；连读掌握一般，意群的连贯性有些欠缺，基本能掌握失爆、同化等朗读技巧。

附图说明

图1为本发明方法模拟专家建立模型，评分和诊断的总流程框图

图2为本发明系统训练流利度各个模型的流程框图

图3为本发明计算可接受性得分的流程框图

图4为本发明Trap特征和匹配规整的流程框图

图5为本发明重读和弱读的检测流程框图

图6为本发明Miscues检测中的语法拓扑结构图

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

在口语质量评测中，虽然准确性(包括发音错误)是最重要的指标，而流利性和总分也呈现出很强的相关性。经过统计表明，流利度也影响准确性的衡量，如果会话不流利，那么准确性错误的发生概率为37.2％到57.8％之间(p＜0.001).所以，针对当前流利度自动评估的发展现状和实际要求，本发明力求在各个方面对考生的流利度进行综合评估，其特点在于：

1)以准确性的准绳衡量下的流利度评估，发明根据英语语言学总结出的专家系统对于流利度的各项指标要求，充分考虑了语境，脚本，话题内容，利用最前沿的语音识别技术和多年来我们在英语口语考试中获得的样本作为数据驱动，定量计算出受试者发音的各项指标。同时利用大量英语教育者对于不同层次英语学习者发音流利度的打分作为参照，采用机器学习的方法对先验知道的英语学习者水平和其真实得分进行训练，建立评分模型，自动给出流利度综合评价，并且也可应用到汉语等其他语言的流利度评估中。

2)不仅给出流利度的综合评价，本系统尤其针对中国人学习英语的特点，对于中国人在流利表达英语的特点上进行研究，在音素个数种类选取，声学模型训练，诊断易错点上，都采用从大量中国不同水平发音者的真实样本中统计出的规律进行建模。

3)输出诊断结果报告，分不同的考察点以分数形式定量给出发音者流利度不足反映在哪些方面，给出发音者应该从哪些方面提高流利度的措施。

4)从”广义流利”出发，特征提取更加全面，不仅提取诸如基本的语速，停顿等特征，还利用连读，失去爆破，自我修正，重复，节奏韵律特征，重读，弱读等多项高阶特征，同时设计了一种新的语法模型，提取错读和修正(Miscues)特征.综合考察高水平阅读者的流利程度，试图在高分段建立统计学习模型，达到和专家评分相关度的一致性。

一.语音识别系统搭建简述

本发明的实施例，所述语音识别系统根据不同话题脚本、发音者性别配置相应语言模型和声学模型，采用常用的声学解码器得到识别结果；识别器同时输出每个词和音素对应的起止时间以及对应的可信度，供流利度特征提取使用，其中：

声学模型训练步骤如下：

1)：使用相同年龄段男女生的标准发音数据及其对应不同话题脚本，对每条训练语音提取39维梅尔倒谱(MFCC)和一阶，二阶差分，规一化能量特征；

2)：通过强制对齐算法和前后向算法对各音子对应帧特征进行估计，得到单音子声学模型；

3)：通过设计决策树和前后向算法，训练得到三音子声学模型；

4)：通过区分度模型训练算法，训练得到具有区分度信息的三音子模型；

语言模型训练步骤如下：

1)：对每个话题脚本收集对应词汇范围内的各个衍生词与脚本中词汇训练得到对应的三元语言模型；

2)：为了增加对话题脚本外内容的识别兼容性，采用大规模话题无关语料训练得到一个垃圾语言模型(Garbage Model)；

3)：每个话题脚本对应的语言模型通过与通用语言模型融合得到对应题目的最终语言模型。

识别过程是这样的，语音需要送进大词汇量连续语音识别系统进行识别。采用10ms帧移，25ms帧长的分帧策略，对每帧提取39维MFCC特征，包括规一化能量特征，一阶差分和二阶差分；然后进入语音识别模块，根据被测试人的性别和当前口语内容，选择使用的语言模型(trigram)和声学模型以及词表，其中，词表包含该话题口语中可能出现的词汇发音音节序列。而针对发音对象多为学生这一特点，声学模型训练采用发音标准的中学生数据，特征共形成16个混合GMM，训练出每个连续HMM中包含三个状态，另外还有两个额外的HMM，一个代表静音，一个代表其他非语音的声音。利用语音识别引擎对特征序列进行识别；输出每个词和音素对应的起止时间以及对应的可信度等信息后进入流利度特征提取模块。

二.流利度特征提取

本发明的实施例，所述流利度自动评估方法，选取特征力求更能反映教育研究者提出的“广义流利”。系统利用语音识别系统输出的每个词和音素对应的起止时间以及对应的可信度等信息，提取四大类特征为会话的语速连贯特征，内容理解特征，高级技巧特征，重构特征：

1.会话的语速连贯特征，强调时间性和言语的流畅延续。其最高标准是达到母语般的速度，所以这里我们提取的特征为能够直观反映会话速度的特征，如整体语速，句子语速，平均语流长、有效停顿比率等。

1)语速(ROS)：每时间段发音音素(Phone)个数，计算方法为：

N_phone/(T_rec-T_sil-T_pau)

其中N_phone代表识别出Phone个数，T_rec代表识别结果总时间，T_sil代表静音时间，I_pau代表停顿时长。系统将根据整篇脚本或者单个句子分别进行统计

2)平均语流长(AUD)指以某一时间长度为阈值指定为停顿时间长度，所有停顿和停顿之间时间的平均长度：

当然，句子和句子之间是有稍许停顿的，而影响人听觉的停顿阈值通常要比这个长。

3)有效停顿比例：

统计有效停顿总数占所有需要停顿总数的比例

2.会话的内容理解特征，强调语言的可接受性。如果一段对话与主题跟本无关，但是流利度的打分却很高，显然是不可取的，所以流利性的打分会依据内容相应调整。所述内容理解特征与广义流利度中的可接受性相关，分不同题型来进行提取；

1)如果题目为阅读或者跟读题型，由于朗读中有修正现象，故匹配算法采用反向动态规划，如下计算MWR：

正确表达语句比率(MWR)：如图3，通过对识别出的内容和脚本中的正确内容做匹配，由于测试人可能出现自我修正等现象，所以匹配算法采用反向DP：

d_i，j＝min{d_i+1，j+w(x_i，e)，d_i，j+1+w(e，y_j)，d_i+1，j+1+w(x_i，y_i)}

d_i，j代表匹配过程中的距离函数，w代表插入，删除或替换过程中的耗费函数。

同时，为了避免诸如“the，an”等高频词在DP过程中出现错位的匹配，匹配回溯过程中只有连续两个词同时和脚本相同才计入正确。

2)如果题目为话题简述或开放题型，则计算N-gram命中率加权得分。

衡量识别结果中N元词汇在几个候选正确脚本中的命中概率得分，

此处使用近似于机器翻译中Bleu打分的策略，其中w_n为第n-gram得分的权重，p_n为第n-gram的概率得分。

3.提取高级技巧特征，考察语言抑扬顿挫衡量的三个指标。1)流利的发音并不代表一味得读快，而是要考虑在恰当的词汇和句群，段落进行适当长度的停顿，2)在某些影响表达感情和意思的重点词汇上采用重读，3)在一些辅助性词汇上采用弱读，同时考虑一些高级特性，即连读(link)和失去爆破(assimilation)，如“And you？”如果没有考虑连读的读法是“ae n d y uw”，考虑连读的读法是“ae n dh uw”，“d”和”y”连成一个发音，这样的发音如果比较多，应该考虑适当加分，在识别的时候也要对容易连读的词汇单独考虑，失去爆破指对于一些单词尾部的辅音，采用不读和弱读的方式，以更快地增加语速，这种技能为多见于流利度掌握很好的母语者或优秀的发音者，系统将根据评分专家标注的流利度诊断模型，对以上特征分别进行提取。

1)正确停顿得分：计算该特征前需要预先根据句群结构标注应该正确停顿的地方，之后对识别脚本进行分析，判断实际正确停顿个数占所有应正确停顿个数的比例。其他停顿诊断特征为：

ptr(音素率Phone Time Ratio)：所有phone持续时间/录音总时间

art(清晰发音率Articulaion Ratio)：总音节个数/去处静音和其他音后的录音时间

spc(静音率Silence Pause Count)：大于0.2s的所有停顿长度

tdp(停顿时长Total duraion of pause)：所有大于0.2s的句子和句子的停顿长度

mlp(停顿平均长度Mean length of pauses)：所有大于0.2s的平均停顿长度

2)连读(Link)和失去爆破(Assimilation)：采用对于脚本中可能产生连读和失爆的词汇进行标注，同时扩展该词的词表或者合并多个词组成连接词词表，识别过程中采用新的词表进行，由于解码过程总是采用DP并裁减掉其他路径，如果测试者在阅读中有连读或失去爆破的技巧，则对应词表的词会优先识别出来，之后对识别结果进行分析，统计连读或失爆词汇占所有应连读或失爆词汇的比率。

3)重读或弱读得分：由于重读或者弱读的音节表现为能量，时长和基频，而其中前两者占据主导地位，这里我们发明了一种将时长模型得分，能量强度模型得分，神经网络(NN)后验概率得分相融合的方法，如图5所示：

计算段长得分前，应该将该音节的段长进行规一化，消除不同人发音快慢的差异，以英语为例，模型的训练采用发音标准的中国学生和英语母语者，需要采用维特比(Viterbi)切分确定每个音节的时长，而某一段Phone的段长得分如下：

f(d_i)为消除不同说话人快慢差异的段长规一化函数，q_i代表第i段的phone。而概率得计算采用16个高斯的混合模型。同样方法，计算该段Phone的能量强度模型得分。

而NN得到Phone后验概率方法近年来被广泛采用，本方法如图4所示，利用多层感知NN的方法，特征提取时采用Trap形式，即MFCC中每一个Band采用帧前和帧后几帧做为整体，对每个Band采用不同的神经网络进行识别，第二层再利用NN对识别结果进行合并。得到当前帧的后验概率得分。而Phone的后验概率得分采用将整句话利用神经网络后验概率得分进行动态规划切分，得到每个Phone的边界，并确定每个Phone的后验概率得分。

另外一个显著特征就是Phone在一段话元音中的特征度量排序，试想如果该Phone为重读，那么其周围的元音Phone必然就会减弱，所以，假设一段话中有N个元音，那么第i个元音的能量排序特征为：

其中Rank_i为第i个Phone在所有Phone中的能量排序

同样，我们提取该元音的基频排序特征。而重读分数得出也是通过对大量标注好的重读和弱读Phone以上述特征进行训练，每个Phone得到两类的支持向量机(SVM)模型，训练过程中，由于训练样本多数Phone会出现正负类分布差异悬殊的的情况，影响识别结果。所以这里我们提出一种将诊断Phone进行归类的方法，以归类后Phone按照类别为单位训练模型。

新的测试样本重读和弱读得分是这样得到的：首先，通过专家对脚本中应该重读或弱读会提高流利程度的地方进行标注，之后对测试语音在这些可能发生重读或弱读的地方分别对其包括的所有Phone提取特征进行判别，每个Phone的得分是其对应群类别(Group)的SVM得分，如果SVM判别类别和标注答案相同，则取正分，相反，则取负分。最后，该段重读或弱读得分为所有考察点Phone得分的平均值。如下所示：

4.会话的重构特征，考察错读或修正(Miscues)，我们称这种方式为重构模式。即语言学习者对于内容没有在大脑中预先形成完整的构思，随着时间的推移，逐渐形成语句，于是伴随发音后进行语句重组。所述重构特征的提取，主要包括以下两部分：一是异常停顿和回溯词率，回溯词定义为拖延时间用来使大脑形成重构语句的词汇，通过在识别结果中统计这些词的分布得到特征；二是只在阅读题型中出现的，需要已知阅读脚本的先验知识，提取自我修正率(Self correction)、单词不完整性(Partial word)、慢读(Sounding out)、拖音(Stalling)、疑问(QuestioningIntonation)。

1)异常停顿和回溯词率：前者指发音者欲说出某一句子，停顿一段时间，再说出.反映了发音者对于语言没有预先形成构思。后者指一些辅助性发语词所占比率，包括well，mhm等词以及发音者因为不熟悉语句轻声发出的微语。如：

“Many teenagers suffer，mhm，from stress，well，there are some simpleways to deal with this problem”

其中well，mhm都算作辅助性词汇。

识别前我们将所有回溯词的发音也放入到发音词典中去，同时在声学训练中训练背景音模型，识别结束后，统计该指标计算方法为：

T_Pau为停顿时长，即单词和单词之间的时间长度.T_thre为停顿时长门限，w为常数权重，N_GarbageWord为回溯词汇个数，N_Word为识别出的总词个数.

2)自我修正率：是指自我修正的次数，以下是自我修正的例子：

“Many teenagers have from，suffer from stress，there are some simpleways to do with，to deal with this problem”

其中”suffer from”和”to deal with”都算作修正词汇，在计算发音内容时，应该以修正后的内容为准。

3)单词不完整(Partial Word)：如果一个单词只念出一半，之后再念出完整的单词或直接放弃，我们将这种现象称为单词不完整。

4)慢读(Sounding-Out)：指发音者对于词汇不熟悉，在每一个音素发音中间带有较长的间隙。

这三种特征只适用于阅读题型，即在已知目标脚本情况下利用强制切分(Force Alignment)判断，因为在自我修正，单词不完整或者慢读的语音中，依靠识别结果判断自我修正和单词不完整是不可取的，因为对于自我修正的语句，念错的第一遍内容在识别过程中很容易发生错误；而对于单词不完整，通过在词典中加入不完整的词汇，这个工作量也是非常大的，所以这里我们提出一种新的语法结构.主要用来识别不完整和重复的词汇，如图6所示，假设部分词模型只有三个phone.在识别出大致的句子起止和中止点后，利用图中的语法结构进行强制切分.BG模块指训练得到的背景模型，而切分中仍然保留传统完整的词切分模型，在之前需要过一个部分词模型，可以按照顺序任意跳转切分出词中的单个Phone，同时，为了识别慢读错误，Phone和Phone之间也有一个背景模型进行连接.

之后，运用统计学和拓扑的方法计算Partial Word模型经过的次数，跳转的方式和拓扑结构，以及在词内部Phone模型跳转和词间跳转时BG模型的数量和分布等指标，来确定自我修正，单词不完整的程度以及慢读单词的数量.

5)拖音(Stalling)：指发音者经常对于某个单词的第一个Phone发很长的音。

6)疑问(Questioning Intonation)：指发音者带着疑问的语调说出单词的结尾，也反映了其对于单词的不确定。

在这些Miscues特征中，Stalling和Questioning和总体评分相关度很小，而测试样本中这些现象并不多见，所以在本发明中只提取前4种Miscues特征。

三.流利度模型训练

本发明的实施例，在模型训练方面，通过对特征提取模块得到的流利度的特征和评分专家在考察点上的打分平均值建立对应回归分析模型；对评分专家评价出的典型错误样本进行特征分析，训练得到针对典型错误流利度的决策树分类模型；由评分专家根据发音者的发音特点，对不同话题的脚本中容易发生连读、失去爆破、停顿、重读或弱读的词汇或短语进行标记，取多数专家认同的诊断点，得到诊断规则模型。具体步骤如下：

1.挑选发音脚本，统计各个候选脚本的各项考察特征，利用特征分布的熵，尽量保证能够考察到发音者在流利度各项高级技巧充分表现的短语或句群；同时，选取各个层次的发音者进行训练样本录制，每个发音者随机录制多个脚本，并保存为供训练的录音文件。

2.所述异常流利度错误决策树分类模型，是为了避免非常明显的错误(如与主题无关错误)，旨在通过的决策树规则将评分诊断容易出错的典型会话区分开来。系统对专家评价出的一些典型错误样本进行特征分析，训练得到决策树分类模型，这样做的目的旨在消除回归模型对特征进行拟合得到的分数不能真正反映典型流利度错误样本的情况，当典型错误发生时，直接得到对应错误的诊断结果。其步骤如下：

1)选取所有专家评价出的典型流利度异常样本，并对其进行归类，同时将流利度正常和大致正常脚本归为一类。

2)提取特征并规一化后，用决策树训练软件得到多个RuleSet组成的流利度决策树模型。模型训练中应该将流利度正常模型的权重设置偏大，以在测试中使大部分样本进行流利度回归模型的测试。

3.所述流利度回归分析模型，通过对特征提取模块所提取的流利度各项特征和专家在各项考察点打分平均值建立对应关系，通过回归训练得到流利度评分模型。该回归模型可以是多项式线性回归模型，也可以是支持向量回归机(SVR)模型或神经网络模型(NN)，但是实际过程中发现SVR和NN模型虽然得到的评分和人工评分相关度高，但是对于一些流利度非常好或者非常差的发音不能够得到客观的反映。故在此我们根据线性回归拟合出分数的特点，即8分以上拟合的分数会比专家打分略低，4分以下拟合的分数会比专家打分略高，采用分段线性回归(Segmental LR)模型。得到考生语速连贯，内容理解，高级技巧，重构上的模型LRModel_jk，k＝1，2，3，4

4.所述流利度诊断规则模型，由专家对脚本中容易发生连读，失去爆破，停顿，重读或弱读的词汇或短语进行标记后，取多数专家认同的诊断点，得到诊断规则模型，该模型用来诊断测试者在一些高级流利度技巧上的发挥。

四.模拟专家评分和诊断

本发明的实施例，所述对异常流利度错误的检测和流利度评分、诊断，强调评分和诊断在系统中的结合，并利用机器学习和数字信号处理技术，使得计算机评分和人工评分在最大程度上相关，具体步骤如下：

步骤51：对发音者发音文件进行语速连贯，内容理解，高级技巧，重构等特征的提取并归一化，存储特征。对于第i个发音者朗读的第j个脚本，特征文件记为feature_ij。

步骤52：运用第j个脚本的典型流利度错误规则决策树模型DTModel_j，对特征文件进行测试；如果落入决策树的某个典型错误分支，则直接给出典型错误判决结果，否则，进行步骤3；

步骤53：训练好的第j个脚本在第k个考察点的分段流利度回归模型LRModel_jk，k＝1，2，3，4，对决策树判别流利度基本正常的发音进行测试，得到发音者在流利度语速连贯，内容理解，高级技巧，重构考察点上规一化到0-10分之间的得分Score_k，k＝1，2，3，4。之后，根据考试需要考察各项指标的权重，得到发音者在流利度上的总得分：

步骤54：将第i个发音者在所有脚本发音流利度的平均分作为其最终流利度得分；同时，也根据该发音者在不同特征上表现的平均值作为其在该诊断项目上的分项得分；

步骤55：利用最终流利度得分和分项得分，结合训练数据中对这一分数段发音者会话流利度总体的客观评价，给出该发音者的诊断报告，综合评价，希望以后的改进措施等等。

实施例1

参照附图1-6所示：

所述流利度自动化评估系统具体实施如图1所示，虚线模块标号对应实施方式中1-5个步骤，图2是对步骤1，2即系统离线部分，包括数据准备和各种模型训练的具体阐述；图3是对步骤4-2中提取发音内容的可接受性特征的具体阐述；图4是对步骤4-3中神经网络后验概率得分的具体阐述；图5是对步骤4-3中重读和弱读提取方法的具体阐述；图6是对步骤4-4中重复和自我修正特征提取中语言模型建立的具体阐述。

1.如图2所示，收集供训练流利度模型用发音数据，其步骤如下：

1)挑选发音脚本，利用脚本中各项特征分布熵，选取能够考察到发音者在流利度各项高级技巧充分表现的短语或句群。如优先考虑对各个音素涵盖全面，既有停顿，又有连读，失去爆破等高级流利度技巧的脚本。

2)挑选发音人，保证各个层次，不同性别和年龄人群的均匀分布。如针对的测试人群是学生，则发音人群的选取中学生的比例应该占大部分，同时应该尽量选取发音标准的录音。

3)制作符合上述要求的录音工具和标注工具，指定人按照发音文本进行录音。录音工具操作应该考虑快捷键，回放，重录，时频域实时显示，随时更新配置脚本等功能。录制过程中，音量一定适中，并保证录制的发音清晰而标准。而标注工具也应该考虑进行多项特征的标注，同时允许多个专家同时进行标注，输出分数和诊断点结果。

2.如图2所示，训练流利度评测需要的各项模型。包括异常流利度错误决策树模型，流利度评分的回归模型和流利度诊断模型，其具体步骤如下：

1)通过对特征提取模块得到的流利度各项特征和专家在各项考察点打分平均值建立对应回归分析模型。实施过程中，提取的各项特征要进行规一化，如可以采用均值方差归一化方法；在对应回归分析建模中，采用分段线性回归模型，每一分数段内采用支持向量回归机模型进行训练。得到考生语速连贯，内容理解，高级技巧，重构上的模型LRModel_jk，k＝1，2，3，4，其中j代表阅读或者话题脚本，k代表各项考察点。

2)对专家评价出的一些典型错误样本进行特征分析，训练得到针对典型错误流利度的决策树分类模型。如对于每一个录制的发音，由5个专家进行判断，当3个或以上专家判断为某一种形式的流利度错误(如太多的自我修正错误)时，则将这种典型的流利度错误样本挑选出来。训练决策树模型过程中，可采用数据挖掘软件See5.0，采用RuleSet决策形式，通过大量的训练样本得到判决的RuleSet，而测试样本的判决结果由这些RuleSet的结果融合决定。

3)由专家对脚本中容易发生连读，失去爆破，停顿，重读或弱读的词汇或短语进行标记后，取多数专家认同的诊断点，得到诊断规则模型。实施过程中，有一个单独的诊断规则模型生成器模块，生成的模型中不同的高级特征诊断点由不同的符号进行标记。

3.根据不同话题，配置相应参数的语音识别系统，

1)识别解码可以采用剑桥大学的语音识别工具HTK(http://htk.eng.cam.ac.uk)。识别器同时输出每个词和音素对应的起止时间以及对应的可信度。

2)在声学模型训练时，使用相同年龄段男女生的标准发音数据及其对应脚本。如使用大词汇连续语音声学模型训练平台训练得到三音子模型，步骤如下：

a.对每条训练语音提取39维MFCC和一阶，二阶差分，规一化能量特征。

b.通过强制对齐算法和前后向算法估计，得到单音子声学模型。

c.通过设计决策树和前后向算法，训练得到三音子声学模型。

d.通过区分度模型训练算法，训练得到具有区分度信息的三音子。

3)在语言模型训练时，步骤如下：

a.对每个脚本收集对应词汇范围内的衍生词与所有脚本中词汇训练得到对应的三元语言模型。

b.为了增加脚本外内容的识别兼容性，采用中学生课本语料训练得到一个与主题无关(Garbage)语言模型。

每个脚本对应语言模型通过与通用语言模型融合得到对应题目的最终语言模型。

4.根据原始语音和识别结果提取流利度各项特征。具体提取四方面特征，步骤如下：

1)提取时间和会话的流畅性特征，主要包括整体语速，平均语流长，有效停顿比率。

2)提取发音内容的可接受性特征，这项特征的输入就是语音识别系统的识别结果。分两种情况来进行，1)如果题目为阅读或者跟读题型，由于朗读中有修正现象，故匹配算法采用反向动态规划，如图3所示，首先将识别结果和正确脚本做动态规划，得到编辑距离矩阵，通过该矩阵统计出插入，删除，替换词汇的比率，之后将这三个指标做加权平均：

S_Accept＝0.6·S_Ins+0.2·S_Del+0.2·S_Sub

同时，为了避免诸如“the，an”等高频词在动态规划过程中出现错位的匹配，匹配过程中只有连续两个词同时和脚本相同才计入正确，之后计算正确表达内容所占的比率；2)如果题目为话题简述等开放题型，则计算N-gram命中率加权得分。

3)提取能够考察流利度抑扬顿挫等高级特征，主要包括连读和失去爆破，重读和弱读，影响韵律的适当停顿等特征，其中重读和弱读的提取如图5所示，这里，通过提取特征，将时长模型得分，能量强度模型得分，神经网络(NN)后验概率得分相融合，利用SVM分类器得到音节的类别(重读，次重读，弱读)，详细过程参见说明书重读和弱读得分部分。

4)提取自我修正和自我重复特征，主要包括回溯词率和自我修正率，单词不完整和慢读，其中语言模型建模如图6所示，详细阐述过程见说明书自我修正，单词不完整和慢读部分。

最后，统计各项特征的均值和方差，进行归一化。归一化的方式要和训练数据的归一化方式相同

5.异常流利度错误的检测和流利度评分，诊断，具体步骤如下：

1)利用步骤4的特征提取方法提取发音者流利度发音特征并规一化，存储特征，对于第i个发音者朗读的第j个脚本，特征文件记为feature_ij。

2)运用第j个脚本的典型流利度错误规则决策树模型DTModel_j，对特征文件进行测试。如果落入决策树的某个典型错误分支，则直接给出判决结果，否则，视为近似正常流利度语音.进行第3步。

3)运用第2步训练好的第j个脚本的分段流利度回归模型LRModel_jk，k＝1，2，3，4，对决策树判别流利度基本正常及其以上的发音进行测试，得到发音者在流利度语速连贯，内容理解，高级技巧，重构考察点上的分别得分Score_k，k＝1，2，3，4。之后，根据考试需要考察各项指标的权重，得到发音者在流利度上的总得分：

4)将第i个考生在所有脚本发音的流利度的平均分作为其最终流利度得分。同时，也根据该考生在不同特征上表现的平均值作为其在该诊断项目上的分项得分。

5)利用第4)步得到的结果，结合之前对这一分数段发音者会话流利度的客观评价，给出该学生的诊断报告。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于广义流利的口语流利度自动化评估方法，其特征在于，以下步骤：

2.根据权利要求1所述口语流利度评估方法，其特征在于，所述提取流利度特征的步骤如下：

步骤S41：利用语音识别结果提取会话的流畅性特征，该流畅性特征为整体语速、句子语速、平均语流长、有效停顿比率；

步骤S42：采用动态规划提取发音的内容可接受性特征，该可接受性特征为正确表达比率、N元语法(N-gram)命中率加权得分；

步骤S43：采用基于带回溯和跳转的语言模型词图提取能够考察流利度抑扬顿挫的高级特征，该高级特征为连读和失去爆破、重读和弱读以及影响韵律的适当停顿特征；

步骤S44：采用正反双向动态规划方法提取错读或修正特征为回溯词率和自我修正率。

3.根据权利要求2所述流利度特征的提取方法，其特征在于，所述抑扬顿挫高级技巧特征的提取，统计三方面特性：1)在恰当的词汇、句群和段落进行适当长度的停顿，2)在影响表达感情和意思的重点词汇上采用重读或弱读，3)在某些连词之间采用连读(link)和失去爆破(assimilation)，根据评分专家标注的流利度诊断模型，对感兴趣的词汇、短语和句群进行特征提取。

4.根据权利要求1所述口语流利度评估方法，其特征在于：所述重构特征的提取，统计如下特性：一是异常停顿和回溯词率，回溯词定义为拖延时间用来使大脑形成重构语句的词汇，通过在识别结果中统计这些词的分布得到特征；二是只在阅读题型中出现的，需要已知阅读脚本内容这个先验知识，提取自我修正、不完整单词性、慢读、拖音、疑问特征。

5.根据权利要求1所述流利度特征的提取方法，其特征在于，所述内容理解特征与广义流利度中的可接受性相关，分不同题型来进行提取；

步骤S31：如果题目为阅读或者跟读题型，则匹配算法采用反向动态规划，匹配过程中只有连续两个或两个以上的词与脚本匹配才计入正确，并计算正确表达内容所占的比率；

步骤S32：如果题目为话题简述或开放题型，则计算N-gram命中率加权得分。

6.根据权利要求1所述的口语流利度评估方法，其特征在于，所述训练流利度评测模型包括：异常流利度错误决策树分类模型、流利度评分的回归分析模型和流利度诊断规则模型；训练流利度各评测模型步骤如下：

步骤S41：通过对特征提取模块得到的流利度的特征和评分专家在考察点上的打分平均值建立对应回归分析模型；

步骤S42：对评分专家评价出的典型错误样本进行特征分析，训练得到异常流利度错误决策树分类模型；

步骤S43：由评分专家根据发音者的发音特点，对不同话题的脚本中容易发生连读、失去爆破、停顿、重读或弱读的词汇或短语进行标记，取多数专家认同的诊断点，得到诊断规则模型。

7.根据权利要求6所述的口语流利度评估方法，其特征在于，所述异常流利度错误决策树分类模型，是强调语言主题有关的流畅会话的可接受性，系统选取容易使评分诊断出错的典型会话进行特征提取，通过数据挖掘训练工具进行训练，建立决策树分类模型，旨在通过的决策树规则将评分诊断容易出错的典型会话区分开来。

8.根据权利要求1所述的口语流利度评估方法，其特征在于：所述语音识别系统根据不同话题脚本、发音者性别配置相应语言模型和声学模型，采用声学解码得到识别结果；识别器同时输出每个词和音素对应的起止时间以及对应的可信度，其中：

声学模型训练步骤如下：

步骤S31：使用相同年龄段男女生的标准发音数据及其对应不同话题脚本，对每条训练语音提取39维梅尔倒谱(MFCC)和一阶，二阶差分，规一化能量特征；

步骤S32：通过强制对齐算法和前后向算法对各音子对应帧特征进行估计，得到单音子声学模型；

步骤S33：通过设计决策树和前后向算法，训练得到三音子声学模型；

步骤S34：通过区分度模型训练算法，训练得到具有区分度信息的三音子模型；

语言模型训练步骤如下：

步骤S35：对每个话题脚本收集对应词汇范围内的各个衍生词与脚本中词汇训练得到对应的三元语言模型；

步骤S36：为了增加对话题脚本外内容的识别兼容性，采用大规模话题无关语料训练得到一个垃圾语言模型(Garbage Model)；

步骤S37：每个话题脚本对应的语言模型通过与通用语言模型融合得到对应题目的最终语言模型。

9.根据权利要求1所述的口语流利度评估方法，其特征在于：所述对异常流利度错误的检测和流利度评分、诊断，强调评分和诊断在系统中的结合，并利用机器学习和数字信号处理技术，使得计算机评分和人工评分在最大程度上相关，具体步骤如下：

步骤S51：利用特征提取方法提取发音者流利度发音特征并规一化，存储特征，对于第i个发音者朗读的第j个脚本，特征文件记为feature_ij；

步骤S52：运用第j个脚本的典型流利度错误规则决策树模型DTModel_j，对特征文件进行测试；如果落入决策树的某个典型错误分支，则直接给出典型错误判决结果，否则，进行步骤S53；

步骤S53：运用训练好的第j个脚本的分段流利度得分回归模型LRModel_jk，k＝1，2，3，4，对决策树判别结果在近似正常以上阈值的发音进行测试，分别得到发音者在流利度语速连贯、内容理解、高级技巧和重构考察点上的得分Score_k，k＝1，2，3，4；再根据考试需要考察指标的权重，通过加权和得到发音者在流利度上的总得分；

步骤S54：将第i个发音者在所有脚本发音流利度的平均分作为其最终流利度得分；同时，也根据该发音者在不同特征上表现的平均值作为其在该诊断项目上的分项得分；

步骤S55：利用最终流利度得分和分项得分，结合训练数据中对这一分数段发音者会话流利度总体的客观评价，给出该发音者的诊断报告。