CN104347071A

CN104347071A - 生成口语考试参考答案的方法及系统

Info

Publication number: CN104347071A
Application number: CN201310332699.7A
Authority: CN
Inventors: 刘丹; 魏思; 陈进; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2013-08-02
Filing date: 2013-08-02
Publication date: 2015-02-11
Anticipated expiration: 2033-08-02
Also published as: CN104347071B

Abstract

本发明涉及语音信号处理技术领域，公开了一种生成口语考试参考答案的方法及系统。该方法包括：获取考生答题语音数据；对所述考生答题语音数据进行语音识别，获得考生答题文本；根据所述考生答题文本生成参考答案样本。利用本发明，可以基于实际考生答题语音数据自动生成参考答案，并提高参考答案的覆盖度。

Description

生成口语考试参考答案的方法及系统

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种生成口语考试参考答案的方法及系统。

背景技术

作为人际交流的重要媒介，口语语言在实际生活中占有极其重要的地位。随着社会经济的不断发展和全球化趋势的加剧，人们对语言学习的效率以及语言评估的客观性、公正性和规模化测试提出了越来越高的要求。而半开放式题型，如问答题或限定内容表述题等，实际考察了考生交流及表述能力，因而也成为口语考试的重点内容。在对半开放式题型的评测中，考生对考题内容表述的准确度或与参考答案一致度是评价答题水平的重点指标。相应的参考答案的质量及完善程度是实现半开放题型客观评价的关键所在。

传统半开放题型通常由专家人工编辑获得参考答案。一般来说为了保证参考答案尽可能覆盖大多数考生的正确表述，需要制作尽可能完善的参考答案表述方式，实际操作时常采用多位专家（通常30位左右）对同一考题分别独立编写答案并最后汇总获得相应考题的参考答案。

半开放题型答案由于表述方式多种多样，基于少数专家人工制作答案的方式显然无法满足参考答案多样化和完善化的需求，依然无法避免因参考答案覆盖度问题导致表述准确程度评分不当的现象。此外由于年龄、文化程度等差异，试卷制作人员提供的表述方式往往和考生实际可能的表述方式也存在较大差异，和实际应用需求存在一定的差距。进一步地，由于缺乏有效的检查手段客观评价试卷制作人员提供参考答案的质量，从而影响了口语评分的有效性。

发明内容

本发明实施例提供一种生成口语考试参考答案的方法及系统，能够基于实际考生答题语音数据自动生成参考答案，并提高参考答案的覆盖度。

为此，本发明提供如下技术方案：

一种生成口语考试参考答案的方法，包括：

获取考生答题语音数据；

对所述考生答题语音数据进行语音识别，获得考生答题文本；

根据所述考生答题文本生成参考答案样本。

优选地，所述根据所述考生答题文本生成参考答案样本包括：

对所述考生答题文本聚类，得到所述考生答题文本的数据子类，每个数据子类包含至少一个考生答题文本；

确定所述数据子类中可以作为参考答案的有效子类；

选择所述有效子类中的考生答题文本作为参考答案样本。

优选地，所述对所述考生答题文本聚类，得到所述考生答题文本的数据子类包括：

将每个考生答题文本作为一个数据子类；

依次计算两个数据子类间的距离，并合并具有最小距离的两个数据子类得到新合并的数据子类，直到满足预设的聚类结束条件；

将聚类结束后得到的数据子类作为所述考生答题文本数据的数据子类。

优选地，所述计算两个数据子类间的距离包括：

分别提取两个数据子类的文本特征矢量；

计算两个文本特征矢量的余弦距离，并将所述余弦距离作为所述两个数据子类间的距离。

优选地，所述提取数据子类的文本特征矢量包括：

提取所有考生答题文本中的主题词；

计算所述主题词的逆文档概率；

根据所述逆文档概率提取各数据子类的主题词的相关特征，得到所述数据子类的文本特征矢量。

优选地，所述确定所述数据子类中可以作为参考答案的有效子类包括：

计算每个考生答题语音数据的发音水平；

根据所述发音水平计算所述数据子类中答案正确的置信度；

如果所述置信度高于设定门限，则将所述数据子类作为参考答案的有效子类。

选择考生答题文本数据量超过设定阈值的数据子类作为参考答案的有效子类。

优选地，所述选择所述有效子类中的考生答题文本作为参考答案样本包括：

选择所述有效子类中具有最高发音水平的考生答题文本作为参考答案样本；和/或

选择所述有效子类中具有最小样本距离的考生答题文本作为参考答案样本。

一种生成口语考试参考答案的系统，包括：

获取模块，用于获取考生答题语音数据；

识别模块，用于对所述考生答题语音数据进行语音识别，获得考生答题文本；

样本生成模块，用于根据所述考生答题文本生成参考答案样本。

优选地，所述样本生成模块包括：

聚类单元，用于对所述考生答题文本聚类，得到所述考生答题文本的数据子类，每个数据子类包含至少一个考生答题文本；

子类确定单元，用于确定所述数据子类中可以作为参考答案的有效子类；

选择单元，用于选择所述有效子类中的考生答题文本作为参考答案样本。

优选地，所述聚类单元包括：

子类获取单元，用于将每个考生答题文本作为一个数据子类；

距离计算单元，用于依次计算两个数据子类间的距离；

合并单元，用于合并具有最小距离的两个数据子类得到新合并的数据子类，直到满足预设的聚类结束条件；

输出单元，用于将聚类结束后得到的数据子类作为所述考生答题文本数据的数据子类。

优选地，所述距离计算单元包括：

文本特征矢量提取单元，用于分别提取两个数据子类的文本特征矢量；

余弦距离计算单元，用于计算两个文本特征矢量的余弦距离，并将所述余弦距离作为所述两个数据子类间的距离。

优选地，所述文本特征矢量提取单元包括：

主题词提取单元，用于提取所有考生答题文本中的主题词；

概率计算单元，用于计算所述主题词的逆文档概率；

文本特征矢量确定单元，用于根据所述逆文档概率提取各数据子类的主题词的相关特征，得到所述数据子类的文本特征矢量。

优选地，所述子类确定单元包括：

发音水平计算单元，用于计算每个考生答题语音数据的发音水平；

置信度计算单元，用于根据所述发音水平计算所述数据子类中答案正确的置信度；并在所述置信度高于设定门限时，将所述数据子类作为参考答案的有效子类。

优选地，所述子类确定单元，具体用于选择考生答题文本数据量超过设定阈值的数据子类作为参考答案的有效子类。

优选地，所述选择单元，具体用于选择所述有效子类中具有最高发音水平的考生答题文本作为参考答案样本；和/或选择所述有效子类中具有最小样本距离的考生答题文本作为参考答案样本。

本发明实施例提供的生成口语考试参考答案的方法及系统，通过对考生答题语音数据进行语音识别，获得考生答题文本，根据所述考生答题文本生成参考答案样本，从而不需要人工，而是通过对实际考生答题语音数据的分析和提取，自动获得具有较高代表价值的参考答案，大大降低了人工工作量，并提高了参考答案的覆盖度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例生成口语考试参考答案的方法的流程图；

图2是本发明实施例中根据考生答题文本生成参考答案样本的流程图；

图3是本发明实施例中计算数据子类间的距离的流程图；

图4是本发明实施例生成口语考试参考答案的系统的结构示意图；

图5是本发明实施例生成口语考试参考答案的系统中样本生成模块的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对现有技术中受环境因素影响语音识别准确率下降会导致口语评测过程中出现一定比例的异常评分语音的问题，本发明实施例提供一种口语评测方法及系统，首先对待评测的语音信号采用多种语音识别方式进行识别，得到多种识别结果；然后分别从每种识别结果中提取基于不同特征类型的评测特征，根据所述评测特征分别计算评分，并按照特征类型对所述评分进行优化融合得到不同特征类型的综合评分；最后对不同特征类型的综合评分进行转换确定所述语音信号的最终得分。

如图1所示，是本发明实施例生成口语考试参考答案的方法的流程图，包括以下步骤：

步骤101，获取考生答题语音数据。

在大规模口语考试中，对每道试题一般都可以获得数万份实际考生答题语音数据。针对每道试题，都可以按照本发明实施例的方法自动生成参考答案样本。

步骤102，对所述考生答题语音数据进行语音识别，获得考生答题文本。

具体地，可以采用传统大词汇量连续语音识别对各考生答题语音数据进行识别，得到与之相应的考生答题文本。

步骤103，根据所述考生答题文本生成参考答案样本。

具体地，可以对所述考生答题文本聚类，得到所述考生答题文本的数据子类，每个数据子类包含至少一个考生答题文本，确定所述数据子类中可以作为参考答案的有效子类，选择所述有效子类中的考生答题文本作为参考答案样本。具体过程将在后面详细说明。

可见，本发明实施例提供的生成口语考试参考答案的方法，通过对实际考生答题语音数据的分析和提取，可以自动获得具有较高代表价值的参考答案，大大降低了人工工作量，并提高了参考答案的覆盖度。

需要说明的是，在实际应用中，为了确保自动生成的参考答案样本的正确性和有效性，还可以在根据考生答题语音数据自动生成的参考答案样基础上，进一步由人工进行复检，然后将检测有效的参考答案样本汇总作为相应考题的参考答案。

如图2所示，是本发明实施例中根据考生答题文本生成参考答案样本的流程图，包括以下步骤：

步骤201，对所述考生答题文本聚类，得到所述考生答题文本的数据子类，每个数据子类包含至少一个考生答题文本。

在初始化时，可以将对应一道试题的每个考生答题文本作为一个独立的数据子类，也就是说，每个数据子类仅包含一个考生答题文本。

比如，获取了N份考生答题语音数据，通过语音识别得到N份考生答题文本，则初始化设置N个数据子类{C₁,C₂,...,C_N}。

然后，依次计算每两个数据子类间的距离dist(C_i,C_j)，并合并具有最小距离的两个数据子类得到新合并的数据子类，直到满足预设的聚类结束条件。

所述数据子类合并即对各数据子类包含的考生答题文本合并为一个新的数据子类，而原有的两个数据子类则不再保留。当然，为了进一步提高运算效率，可以不必分别计算两两数据子类间的距离，而仅计算新合并的数据子类和其他数据子类间的距离。

比如，对于上述N个数据子类{C₁,C₂,...,C_N}，在计算得到C₁和C₂的距离dist(C₁,C₂)、以及C₂和C₃的距离dist(C₂,C₃)后，经过比较得知dist(C₂,C₃)<dist(C₁,C₂),则可以将C₂和C₃合并，得到新的数据子类，假设为C₂'，则后续无需再分别计算C₂和C₃与其他数据子类间的距离，而仅计算C₂'与其他数据子类间的距离即可。两个数据子类间的距离的计算过程将在后面详细描述。

最后，将聚类结束后得到的数据子类作为所述考生答题文本数据的数据子类。

需要说明的是，上述聚类结束条件可以根据实际应用需要来设定，比如，可以是各数据子类间距离最小值大于设定的门限时结束聚类过程，当然，也可以是其他条件，对此本发明实施例不做限定。

步骤202，确定所述数据子类中可以作为参考答案的有效子类。

具体过程包括：

（1）分别计算每个考生答题语音数据的发音水平Q_t。

可以结合考生答题语音数据的发音流畅度及发音准确性综合评价。具体地，分别提取发音流畅度特征（如平均语速，每句话包含的单词数等）及发音准确度特征（如音素单元的声学模型后验概率等）后，通过预置的得分预测模型计算相应得分。

（2）根据所述发音水平计算所述数据子类中答案正确的置信度。

由于考生答案样本的准确程度直接和本考生实际的语言掌握、口语水平相关，因此发音水平较好的考生一般表述准确程度也较高。对此，可以定义数据子类C_i中答案正确的置信度为：

{cm}_{C_{i}} = \frac{\underset{t &Element; C_{i}}{Σ} {Q_{t}}^{α}}{\underset{t &Element; C}{Σ} {Q_{t}}^{α}}

其中，参数α用来调节考生发音水平得分重要程度，其值可以在开发集数据（即带有标注信息的训练数据）上设置得到。

（3）如果所述置信度高于设定门限，则将所述数据子类作为参考答案的有效子类。

进一步地，考虑到对同一信息点的正确表述方式往往有限，因此大量考生应用的表述方式很大程度上是正确的表述方式，为此，在实际应用中，还可以选择文本数据量超过设定阈值的数据子类作为有效子类。

步骤203，选择所述有效子类中的考生答题文本作为参考答案样本。

具体地，可以选择所述有效子类中具有最高发音水平的考生答题文本作为参考答案样本；和/或选择所述有效子类中具有最小样本距离的考生答题文本作为参考答案样本，所述样本距离是指所述有效子类中一个考生答题文本到其他所有考生答题文本的平均距离。

由于每个数据子类都包含至少一个考生答题文本，因此，在本发明实施例中，可以通过文本距离计算数据子类间的距离。

如图3所示，是本发明实施例中计算数据子类间的距离的流程图，包括以下步骤：

步骤301，分别提取两个数据子类的文本特征矢量。

对每个数据子类都提取一个D维的文本特征矢量，其中D为对应所有考生答题文本中汇总后的主题词总个数。具体包括以下步骤：

（1）提取所有考生答题文本中的主题词。

需要说明的是，主题词提取过程包括对连续的考生答题文本进行分词，去除其中无意义的用词，以及获取词根等规整化操作。所述无意义的用词是指词频高于预设门限的用词。所述词根是指英语等语言中单词的原型，如单词“waited”、“waiter”等词根为“wait”。

（2）计算所述主题词的逆文档概率IDF；

具体地，IDF定义如下：

{IDF}_{i} = \log \frac{N}{n_{i}};

其中，N为考生答题文本总数，n_i为包括主题词i的考生答题文本个数。其中i=1,2,…,D，D为主题词的总个数。

（3）根据所述逆文档概率提取各数据子类的主题词的相关特征，得到所述数据子类的文本特征矢量。

对于主题词i，提取的相关特征为T_i：

T_i=[w_1,i,w_2,i,...,w_j,i,...,w_D,i]；

其中，tf_j,i为主题词j在数据子类C_i中出现次数。

步骤302，计算两个文本特征矢量的余弦距离，并将所述余弦距离作为所述两个数据子类间的距离。

数据子类C_i的特征矢量T_i和数据子类C_j的特征矢量T_j的余弦距离为：

dist (C_{i}, C_{j}) = \frac{T_{i} \cdot T_{j}}{| T_{i} | | T_{j} |} .

本发明实施例提供的生成口语考试参考答案的方法，通过对实际考生答题语音数据的分析和提取，可以自动获得具有较高代表价值的参考答案，大大降低了人工工作量，并提高了参考答案的覆盖度。

相应地，本发明实施例还提供一种生成口语考试参考答案的系统，如图4所示，是该系统的结构示意图。

在该实施例中，所述系统包括：

获取模块401，用于获取考生答题语音数据；

识别模块402，用于对所述考生答题语音数据进行语音识别，获得考生答题文本；

样本生成模块403，用于根据所述考生答题文本生成参考答案样本。

样本生成模块403具体可以对所述考生答题文本聚类，得到所述考生答题文本的数据子类，每个数据子类包含至少一个考生答题文本，确定所述数据子类中可以作为参考答案的有效子类，选择所述有效子类中的考生答题文本作为参考答案样本。具体过程将在后面详细说明。

本发明实施例的系统，可以在大规模口语考试中，针对每道试题，通过对实际考生答题语音数据的分析和提取，自动获得具有较高代表价值的参考答案，大大降低了人工工作量，并提高了参考答案的覆盖度。

如图5所示，是本发明实施例生成口语考试参考答案的系统中样本生成模块的一种结构示意图。

在该实施例中，所述样本生成模块包括：

聚类单元501，用于对考生答题文本聚类，得到所述考生答题文本的数据子类，每个数据子类包含至少一个考生答题文本；

子类确定单元502，用于确定所述数据子类中可以作为参考答案的有效子类；

选择单元503，用于选择所述有效子类中的考生答题文本作为参考答案样本。

选择单元503具体可以选择所述有效子类中具有最高发音水平的考生答题文本作为参考答案样本；和/或选择所述有效子类中具有最小样本距离的考生答题文本作为参考答案样本，所述样本距离是指所述有效子类中一个考生答题文本到其他所有考生答题文本的平均距离。

在本发明实施例中，所述聚类单元501具体可以包括：子类获取单元、距离计算单元、合并单元和输出单元，其中：

所述子类获取单元用于将每个考生答题文本作为一个数据子类，也就是说，每个数据子类仅包含一个考生答题文本。

所述距离计算单元用于依次计算两个数据子类间的距离。

所述合并单元用于合并具有最小距离的两个数据子类得到新合并的数据子类，直到满足预设的聚类结束条件。

比如，获取模块401获取了N份考生答题语音数据，通过语音识别得到N份考生答题文本，则初始化设置N个数据子类{C₁,C₂,...,C_N}。

所述距离计算单元依次计算每两个数据子类间的距离dist(C_i,C_j)，所述合并单元合并具有最小距离的两个数据子类得到新合并的数据子类，直到满足预设的聚类结束条件。

所述数据子类合并即对各数据子类包含的考生答题文本合并为一个新的数据子类，而原有的两个数据子类则不再保留。当然，为了进一步提高运算效率，所述距离计算单元可以不必分别计算两两数据子类间的距离，而仅计算新合并的数据子类和其他数据子类间的距离。

所述输出单元用于将聚类结束后得到的数据子类作为所述考生答题文本数据的数据子类。

在该实施例中，所述距离计算单元具体可以将两个数据子类的文本特征矢量的余弦距离作为这两个数据子类间的距离。为此，所述距离计算单元可以包括：文本特征矢量提取单元和余弦距离计算单元。其中：

所述文本特征矢量提取单元，用于分别提取两个数据子类的文本特征矢量；

所述余弦距离计算单元，用于计算两个文本特征矢量的余弦距离，并将所述余弦距离作为所述两个数据子类间的距离。

在该实施例中，所述文本特征矢量提取单元对每个数据子类都提取一个D维的文本特征矢量，其中D为对应所有考生答题文本中汇总后的主题词总个数。

所述文本特征矢量提取单元的一种具体实现方式包括：主题词提取单元、概率计算单元和文本特征矢量确定单元。其中：

所述主题词提取单元，用于提取所有考生答题文本中的主题词；主题词提取过程包括对连续的考生答题文本进行分词，去除其中无意义的用词，以及获取词根等规整化操作。所述无意义的用词是指词频高于预设门限的用词。

所述概率计算单元，用于计算所述主题词的逆文档概率；逆文档概率的计算具体可以参照前面本发明实施例的方法中的描述，在此不再赘述。

所述文本特征矢量确定单元，用于根据所述逆文档概率提取各数据子类的主题词的相关特征，得到所述数据子类的文本特征矢量。

在本发明实施例中，所述子类确定单元502可以包括：发音水平计算单元和置信度计算单元。其中：

所述发音水平计算单元，用于计算每个考生答题语音数据的发音水平。

具体地，所述发音水平计算单元可以结合考生答题语音数据的发音流畅度及发音准确性综合评价。具体地，分别提取发音流畅度特征（如平均语速，每句话包含的单词数等）及发音准确度特征（如音素单元的声学模型后验概率等）后，通过预置的得分预测模型计算相应得分。

所述置信度计算单元，用于根据所述发音水平计算所述数据子类中答案正确的置信度；并在所述置信度高于设定门限时，将所述数据子类作为参考答案的有效子类。

具体地，由于考生答案样本的准确程度直接和本考生实际的语言掌握、口语水平相关，因此发音水平较好的考生一般表述准确程度也较高。对此，可以定义数据子类C_i中答案正确的置信度为：

{cm}_{C_{i}} = \frac{\underset{t &Element; C_{i}}{Σ} {Q_{t}}^{α}}{\underset{t &Element; C}{Σ} {Q_{t}}^{α}}

考虑到对同一信息点的正确表述方式往往有限，因此大量考生应用的表述方式很大程度上是正确的表述方式，为此，在本发明系统的另一实施例中，所述子类确定单元502还可以选择考生答题文本数据量超过设定阈值的数据子类作为参考答案的有效子类。

本发明实施例提供的生成口语考试参考答案的系统，通过对实际考生答题语音数据的分析和提取，可以自动获得具有较高代表价值的参考答案，大大降低了人工工作量，并提高了参考答案的覆盖度。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种生成口语考试参考答案的方法，其特征在于，包括：

获取考生答题语音数据；

根据所述考生答题文本生成参考答案样本。

2.根据权利要求1所述的方法，其特征在于，所述根据所述考生答题文本生成参考答案样本包括：

确定所述数据子类中可以作为参考答案的有效子类；

选择所述有效子类中的考生答题文本作为参考答案样本。

3.根据权利要求2所述的方法，其特征在于，所述对所述考生答题文本聚类，得到所述考生答题文本的数据子类包括：

将每个考生答题文本作为一个数据子类；

4.根据权利要求3所述的方法，其特征在于，所述计算两个数据子类间的距离包括：

分别提取两个数据子类的文本特征矢量；

5.根据权利要求4所述的方法，其特征在于，所述提取数据子类的文本特征矢量包括：

提取所有考生答题文本中的主题词；

计算所述主题词的逆文档概率；

6.根据权利要求2所述的方法，其特征在于，所述确定所述数据子类中可以作为参考答案的有效子类包括：

计算每个考生答题语音数据的发音水平；

根据所述发音水平计算所述数据子类中答案正确的置信度；

7.根据权利要求2所述的方法，其特征在于，所述确定所述数据子类中可以作为参考答案的有效子类包括：

8.根据权利要求2所述的方法，其特征在于，所述选择所述有效子类中的考生答题文本作为参考答案样本包括：

9.一种生成口语考试参考答案的系统，其特征在于，包括：

获取模块，用于获取考生答题语音数据；

10.根据权利要求9所述的系统，其特征在于，所述样本生成模块包括：

11.根据权利要求10所述的系统，其特征在于，所述聚类单元包括：

距离计算单元，用于依次计算两个数据子类间的距离；

12.根据权利要求11所述的系统，其特征在于，所述距离计算单元包括：

13.根据权利要求12所述的系统，其特征在于，所述文本特征矢量提取单元包括：

主题词提取单元，用于提取所有考生答题文本中的主题词；

概率计算单元，用于计算所述主题词的逆文档概率；

14.根据权利要求10所述的系统，其特征在于，所述子类确定单元包括：

15.根据权利要求10所述的系统，其特征在于，

所述子类确定单元，具体用于选择考生答题文本数据量超过设定阈值的数据子类作为参考答案的有效子类。

16.根据权利要求10所述的系统，其特征在于，

所述选择单元，具体用于选择所述有效子类中具有最高发音水平的考生答题文本作为参考答案样本；和/或选择所述有效子类中具有最小样本距离的考生答题文本作为参考答案样本。