CN102034475B

CN102034475B - 一种运用计算机对开放式短对话进行交互式评分的方法

Info

Publication number: CN102034475B
Application number: CN2010105914913A
Authority: CN
Inventors: 王士进; 梁家恩; 徐波
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2010-12-08
Filing date: 2010-12-08
Publication date: 2012-08-15
Anticipated expiration: 2030-12-08
Also published as: CN102034475A

Abstract

本发明提出了一种运用计算机对开放式短对话进行交互式评分的方法，包括以下步骤：语音数据库的收集和声学模型的训练、专家知识的获取和评分模型的训练、样本语音信号的特征提取和关键内容检索、未检测到合法专家知识的语音内容聚类和类的内容表示、人工校验和专家知识的补充、综合得到所有语音样本的内容得分和反馈意见。本发明针对口语开放式题型中专家知识很难完全覆盖样本库内容的特点，使用人机交互的形式，在耗费极少量人工的情况下已经基本达到与专家打分接近的水平，同时还可以在评测过程中给出被测试人员词汇使用、句型使用的一些意见，指导被测试人员矫正，在大规模考试系统中有较大的应用价值，并且不受语种的限制。

Description

一种运用计算机对开放式短对话进行交互式评分的方法

技术领域

本发明属于语音识别、语言评估、计算机辅助语言学习领域，提出了一种运用计算机对开放式短对话进行交互式评分的方法，具体涉及语音关键词检索技术、语音内容聚类技术、高精度音素识别技术。

背景技术

社会生活的信息化和经济的全球化，使语言学习的重要性日益突出。语言作为最重要的信息载体之一，已成为人类生活各个领域中使用最广泛的语言。

以英语为例，国内采用最多的口语学习形式是面对面的课堂教学，由于英语老师的缺乏，学生很难获得一对一的英语学习环境。面对这种情况，多家单位开发了使用计算机进行英语口语发音诊断的系统，这些系统一般判断指定的朗读内容有没有说，发音是否流利，发音是否正确，但是这些技能是比较初级的，很难满足英语学习者越来越高的要求。

由于开放式题型比高度结构化的客观题更能了解被测试人员的思维过程和语言能力，在语言学习和考核上具有很积极的意义。在开放式题型中，口语短对话是一个常见的题型，近年来，国内外计算机辅助语言学习领域针对开放式题型也做了一些尝试，如美国教育考试服务中心(ETS)开发出对口语作文评分的系统SpeechRater，但这些系统存在的问题是由于专家知识覆盖不全面而导致识别率很差，对于专家知识之外的内容则无法处理(或者效果很差)，针对更有难度的开放式口语短对话进行评分则无成熟的产品和技术解决方案。开放式口语短对话是一种常见的口语练习、口语考试的题型。

发明内容

鉴于国内外还没有对开放式口语短对话进行评分的计算机系统，本发明的目的是提供一种采用人机交互的形式、在少量人工的辅助下，生成完备的专家知识，不受时间地点限制的运用计算机对开放式短对话进行交互式评分的方法。

为达成所述目的，本发明提供的一种运用计算机对开放式短对话进行交互式评分的方法，包括以下步骤：

步骤S1：收集并建立有被测试对象人群特点的语音数据库；

步骤S2：在语音数据库基础上使用连续声学模型训练平台，得到声学模型；

步骤S3：对每个开放式短对话题型收集对应的文本形式的专家知识；

步骤S4：利用文本形式的专家知识生成用于内容检测的评分特征模型；

步骤S5：提取答题样本数据库原始语音信号的语音特征；

步骤S6：将专家知识编译成语法网络，使用计算机语音关键词检索技术，装载对应题型的评分特征模型并对答题样本数据库原始语音信号的语音特征进行内容检测，分别得到答题样本与专家知识匹配的内容及答题样本与专家知识不匹配的内容；

步骤S7：使用语音内容聚类技术对检测不到答题样本与专家知识匹配的内容进行聚类，得到答题样本分类，并通过音素识别技术对答题样本分类中的语音做音素识别，得到每类答题样本的音素内容；

步骤S8：人工对每类答题样本的音素内容进行校验修正，得到新的专家知识，并将新的专家知识充实到评分特征模型中；

步骤S9：综合步骤S6检测到答题样本与专家知识匹配的答题样本和步骤S8经过聚类、校验修正的答题样本，给出被测试对象所有语音的内容信息得分，并给出反馈意见。

其中，所述建立有被测试对象人群特点的语音数据库使用策略如下：分性别寻找一批按照被测试对象年龄分布的人群，并根据设计好的音素平衡的录音脚本对被测试对象年龄分布的人群进行语音录制，得到被测试对象年龄分布的人群的语音特征。

其中，所述对检测不到答题样本与专家知识匹配的内容进行聚类的具体步骤如下：

步骤31：提取出语音数据库中每个语音样本的特征，并保存成特征文件；

步骤32：对特征文件进行两两之间距离的运算；

步骤33：根据两两特征文件之间的距离，对语音样本进行聚类；

步骤34：对聚成的每个类，自动生成一个语音内容表示供人工校验。

依据两两特征文件之间的距离，保证聚类内各个语音样本距离都小于一个预定的阀值，预定的阀值通过实验确定。

其中，所述检测不到答题样本与专家知识匹配的内容是专家事先无法估计的语法、词汇用法形式，对每类答题样本的内容信息使用音素识别器，用以避免超出专家知识的语音内容到对大词汇连续语音识别的影响。

其中，为了加快人工校验确认的速度，首先对每类中的语音样本进行音素识别，然后对每类利用与该类内所有答题样本识别出来的音素文本平均相似度最高的原则选择一个音素文本作为该类的语音内容提交给人工校验，由人工校验判断出该类的语音内容是否完全符合语法、应该如何补充到专家知识及如何对此类内容给出反馈的意见。

其中，所述给出反馈意见是给出词汇使用、句型使用的反馈意见，达到以测试推动学习的目的。

本发明的一种利用所述运用计算机对开放式短对话进行交互式评分的方法根据答题样本数据库的题型，可以用于大规模口语考试中的开放式短对话、开放式口语作文及各种开放式口语题型的内容评分；从语种上来说，可以运用于汉语、英语及各种语言的开放式题型内容评分，所述开放式口语作文包括看文本提示的口语作文、看图口语作文及看视频口语作文。

本发明的有益效果：

1)本发明使用极少量的人工介入，可以获得较为完备的开放题型的专家知识，弥补单独靠专家编写的不足和困难；

2)本发明在获取每个分类的内容信息供专家修正的时候，使用了高精度音素识别器，而且通过综合类内所有识别结果得出最合适的内容，加快了专家人机交互的速度；

3)本发明充分利用了积累的大量具有人工标注的语音数据，考虑了不同性别、不同年龄和不同地域的差异性，评检方法具有良好的推广性；

4)本发明涉及的距离测度的距离阀值等参数均可以根据实际情况进行调节，便于用户使用；

5)本发明不仅可以进行评分，还可以在评测过程中给出被测试人员词汇使用、句型使用的一些意见，指导被测试人员矫正。

综合使用了计算机语音关键词检索技术、语音内容聚类技术、高精度音素识别技术得到被测试人群的开放式短对话答题内容质量。本发明针对口语开放式题型中专家知识很难完全覆盖样本库内容的特点，使用人机交互的形式，在耗费极少量人工的情况下已经基本达到与专家打分接近的水平，在大规模考试系统中有较大的应用价值，并且不受语种的限制。本发明可以用于大规模口语考试中的开放式短对话和开放式口语作文等相似题型的内容评分。

音素识别器必须选择基于神经网络的高精度音素识别器，普遍使用的基于隐马科夫模型的音素识别器准确率只能达到30％左右，而基于神经网络的高精度音素识别器则可以达到约70％，而且通过6中所述的寻找与本类内相似度的样本可以得到更高的进度，这些方法的引入可以极大的加快人工交互的速度。

附图说明

图1为本发明实施例的评分方法的系统框图。

图2为本发明实施例方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细描述。

如图1示出的本发明实施例的评分方法的系统框图，实现本实施例的计算机评分系统运行于微软视窗操作系统，包括语音数据库步骤S1、声学模型步骤S2、文本形式的专家知识步骤S3、评分特征模型步骤S4、提取语音特征步骤S5、内容检测步骤S6、样本聚类和内容表示步骤S7、人工校验确认步骤S8、样本的内容评分和反馈步骤S9。测试样本库首先进入提取语音特征步骤S4提取分帧的特征，该语音特征包含梅尔倒谱系数特征，每帧共39维梅尔倒谱系数特征；然后进入内容检测步骤S6，根据被测试人员的性别和当前题型，选择使用的声学模型步骤S2、评分特征模型步骤S4，利用语音关键词检索技术对特征序列进行语法网络的匹配；然后让没有检测到合法内容的样本集进入样本聚类和内容表示步骤S7，各分类的结果通过人工确认步骤S8后得到新的专家知识，补充进评分特征模型步骤S4：最终，根据样本的内容评分和反馈步骤S9把所有被测试样本的内容评分和词汇使用、句型使用的一些意见反馈出来。还包括将得到的评分特征模型步骤S4保存下来，每次使用只需要重新装载现有模型，不需要重新训练模型。

完整的流程由两个部分组成：

训练部分：训练部分包括训练声学模型步骤S2、评分特征模型步骤S4。

评分部分：运用数字信号处理理论和计算机语言处理技术对被测试样本库的录音进行评分，使得系统给出的结果反馈步骤S9尽可能的接近专家的人工评分，并给出反馈意见。

本发明是通过以下技术方案实现的：

此评分方法包括声学模型训练部分，训练过程包括以下步骤：

步骤S1：收集并建立针对被测试对象人群特点的语音数据库使用策略如下：

a.1 分性别，按照对应被测试对象人群的年龄分布寻找一批年龄相近的人群；

a.2 按照音素平衡的原则设计录音样本；

a.3 指定人员按照录音文本进行录音，并将语音与对应的文本建立关联，语音文件名和文本文件取相同的文件名，不同的文件后缀，这样可以迅速从语音文件获得其对应的文本内容；

步骤S2：在语音数据库基础上使用连续语音声学模型训练平台，训练得到声学模型：

b.1 对每条训练语音提取12阶Mel倒谱、归一化能量构成共13维作为基本特征，然后通过一阶和二阶差分得到39维特征；

b.2 通过强制对齐算法和前后向算法估计，得到单音子声学模型；

b.3 通过设计决策树和前后向算法，训练得到三音子声学模型；

b.4 通过区分度模型训练算法，训练得到具有区分度信息的三音子声学模型；

b.5 使用改区分度信息的三音子声学模型对训练数据进行切分，得到音素状态一级的对应信息；

b.6 使用上一步得到的对应信息，训练高精度音素识别用神经网络模型。至此，2套声学模型训练完毕

步骤S3：对每个开放式短对话题型收集对应的文本形式的专家知识；步骤S4：利用文本形式的专家知识用以生成评分需要的内容检测的评分特征模型；

c.1 每个题型收集对应的专家文本语料首先编译成词图的格式；

c.2 将词图形式的标准答案编译成评分特征模型；

步骤S5：提取答题样本数据库原始语音信号的语音特征；

对答题样本数据库语音进行内容检测，其步骤为：

d.1样本的语音分帧后，提取语音帧的用于内容检测的特征；

d.2调用语音内容检索，对输入特征的序列，输出检测结果和结果对应的置信度；

d.3对于置信度高于预定阀值的样本，说明检测到合法内容，根据预定义的专家知识，可以给出样本的内容评分和反馈结果；

d.4对于置信度低于预定阀值的样本进行聚类，然后提交给人工进行校验确认供生成部分新的专家知识；将新的专家知识加入到评分模型后，重新对这些样本进行内容检测。

步骤S7：使用语音内容聚类技术对检测不到答题样本与专家知识匹配的内容进行聚类，得到答题样本分类，并通过音素识别技术对答题样本分类的语音做音素识别，得到每类答题样本的音素内容；

步骤S9：综合步骤检测到答题样本与专家知识匹配的答题样本和步骤？经过聚类、校验修正的答题样本，给出被测试对象所有语音的内容信息得分，并给出反馈意见。

对于检测不到合法内容的样本之间进行距离的聚类，其步骤为：

e.1对这些样本分帧，提取特征；

e.2计算两个样本帧数差超过一个预定的最大值则退出，表示这两个样本不可能聚成一类；

e.3使用动态规划计算两个样本的距离，并且将这个距离作为分类的依据；

e.4综合考虑这些距离，将距离接近的作为一类，从而完成聚类；

e.5对类内每条样本使用高精度音素识别器得到音素串，寻找到与其他所有类内样本平均编辑距离最小的样本对应的音素串作为这类的内容信息，供人工进行处理；

e.6人工确认后，新的文本级专家知识按照生成评分模型的步骤，补充进初始的评分模型中。

综合这些流程的结果，获得所有样本的最终内容评分，并且给出反馈意见。

图2是本实施例的流程图，如图所示，包括以下步骤：

步骤101，收集被测试人员答题样本库。

步骤102，进行语音信号采集，将被测试人员发音的模拟信号转变为数字信号，并保存在计算机中。对语音的数字信号分帧处理，分帧处理以25ms为帧长度，10ms为帧间隔，重复处理直至语音信号结束，并且每帧提取能量，MFCC参数共39维特征。在本实施例中，此特征采用现有技术手段提取，如英国剑桥大学发布的Hidden Makov Model Toolkit3.4(http://htk.eng.cam.ac.uk/)版本中有工具HCopy分帧和提取特征。当然以上信息的提取也可用所属技术领域人员知悉的其他方法获取。

步骤103，根据被测试人员的性别和当前开放式英语短对话题型，选择使用的评分特征模型2和声学模型3，利用内容检测对特征序列进行处理，检索得到最佳匹配的语法内容，同时生成内容中每个单词的置信度，起始终止时间，以及单词中每个音素的置信度，起始终止时间。内容检测可以通过现有技术手段获得，如通过英国剑桥大学发布的HiddenMakov Model Toolkit 3.4版本中有工具HVite或者HDecode生成的词图后进行文本级的检索，或者通过类似于发明人之一提出的“An ImprovedMandarin Keyword Spotting System Using MCE Training andContext-Enhanced Verification”进行在线搜索。当然以上信息的提取也可用所属技术领域人员知悉的其他方法获取。

步骤104，根据步骤103得到结果的置信度与预定的阀值进行对比，高于阀值的进入步骤109，低于阀值的进入步骤105。

步骤105，对样本提取特征，然后使用动态规划计算两个样本的距离，综合考虑这些距离，将距离接近的样本分配到一类从而完成聚类；对类内每条样本使用高精度音素识别器得到音素串，寻找到与其他所有类内样本平均编辑距离最小的样本对应的音素串作为这类的内容信息，供人工进行处理和修正。高精度音素识别器可以通过现有技术手段获得，如通过捷克布鲁诺大学提出的基于TRAP-NN的神经网络识别器；动态规划可以通过现有技术手段获得，如通过Lawrence Rabiner和Biing-HwangJuang编写的《FUNDERMENTALS OF SPEECH RECOGNITION》第四节提到的方法实现，其中动态规划涉及到的距离运算可以通过多种技术手段获得，如通过两个向量的均方差。

步骤106，人工对聚类结果的内容进行确认，包括简单修正步骤105生成的类脚本、判断此脚本是否属于合法内容、给出这样的回答对应的词汇、句型、语法使用意见等。

步骤107，人工确认后，新的文本级专家知识按照生成评分模型的步骤，补充进初始的评分模型中。

步骤108，对于检索得到符合专家知识语法内容的答题样本，根据检索结果把内容评分、词汇使用、句型使用的一些意见反馈给对应的被测试样本。

步骤109，对于经过聚类和人工校验的答题样本，根据聚类信息和人工校验结果把内容评分、词汇使用、句型使用的一些意见反馈给对应的被测试样本。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种运用计算机对开放式短对话进行交互式评分的方法，其特征在于：包含步骤如下：

步骤S1：收集并建立有被测试对象人群特点的语音数据库；

步骤S5：提取答题样本数据库原始语音信号的语音特征；

步骤S7：使用语音内容聚类技术对检测不到答题样本与专家知识匹配的内容进行聚类，得到答题样本分类，并对类内每条样本使用基于神经网络的高精度音素识别器得到音素串，寻找到与其他所有类内样本平均编辑距离最小的样本对应的音素串作为这类的内容信息，得到每类答题样本的音素内容；步骤S8：人工对每类答题样本的音素内容进行校验修正，得到新的专家知识，并将新的专家知识充实到评分特征模型中；

2.根据权利要求1所述交互式评的方法，其特征在于：所述检测不到答题样本与专家知识匹配的内容是专家事先无法估计的语法、词汇用法形式，对每类答题样本的内容信息使用音素识别器，用以避免超出专家知识的语音内容到对大词汇连续语音识别的影响。

3.根据权利要求1所述交互式评分的方法，其特征在于：为了加快人工校验确认的速度，首先对每类中的语音样本进行音素识别，然后对每类利用与该类内所有答题样本识别出来的音素文本平均相似度最高的原则选择一个音素文本作为该类的语音内容提交给人工校验，由人工校验判断出该类的语音内容是否完全符合语法、应该如何补充到专家知识及如何对此类内容给出反馈的意见。