CN103065626A

CN103065626A - 英语口语考试系统中的朗读题自动评分方法和设备

Info

Publication number: CN103065626A
Application number: CN2012105573636A
Authority: CN
Inventors: 颜永红; 张俊博; 潘复平
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2012-12-20
Filing date: 2012-12-20
Publication date: 2013-04-24
Anticipated expiration: 2032-12-20
Also published as: CN103065626B

Abstract

本发明提供一种英语口语朗读自动评分的方法和设备。该方法包括：对输入语音进行预处理，该预处理中包括分帧处理；从预处理的语音中提取语音特征；利用朗读文本搭建的线性语法网络和声学模型，对语音特征向量序列进行强制对齐，得到各音素分割点信息；按照各音素分割点信息，计算每个音素的后验概率；基于音素的后验概率，提取多维评分特征；根据评分特征和人工评分信息，使用支持向量回归法训练非线性回归模型，以便利用该非线性回归模型对英语口语朗读进行评分。使用专家打分数据训练评分模型，从统计上保证了机器评分的结果不会偏离人工评分，从而达到计算机对专家评分的高度模拟。

Description

英语口语考试系统中的朗读题自动评分方法和设备

技术领域

本发明属于语言考试自动评分技术领域，具体地说，本发明涉及一种用于非英语母语考生参加的英语口语考试中的朗读题自动评测方法。

背景技术

随着人们对英语口语的重视逐渐加强，目前，口语测试己经成为大多数英语水平考试的重要组成部分。口语考试规模的日益增大使大量考生的口语数据需要进行评分，这需要大量的人力资源。人工评分是传统的评分方法，但有很多不易解决的问题，如评分员资源短缺、人工评测成本高、评分较主观，即使是同一个评分者对相同的样本，在不同的时间受各种条件的影响也可能评出不同的分数。尤其是对超大规模的评测，人工评测已难以满足其需求。因此，一种能够客观地、可批量化处理的机器评分方法是目前所急需的。

英语口语考试中的一个常见的题型是段落朗读。在此题型中，考生被要求大声朗读一段语段，语段的长度通常不少于100个单词。该题型由于朗读的文本固定，因此相对于其他题型，更适于使用机器进行自动批量评分。

正是关于这些及其他考虑才作出了本发明。

发明内容

本发明的目的是对非英语母语考生参加英语口语考试的朗读题录音样本，提供一种机器自动评分的方法，该方法是一种通过从基于隐马尔科夫模型的强制对齐结果中提取评分特征，使用训练数据训练评分模型，使用评分模型进行评分的统计性方法。

为实现上述发明目的，本发明在第一方面提供一种英语口语朗读自动评分方法，其特征在于，包括如下步骤：

对输入语音进行预处理，该预处理中包括分帧处理；

从预处理的语音中提取语音特征；

利用朗读文本搭建的线性语法网络和声学模型，对语音特征向量序列进行强制对齐，得到各音素分割点信息；

按照各音素分割点信息，计算每个音素的后验概率；

基于音素的后验概率，提取多维评分特征；

根据评分特征和人工评分信息，训练非线性回归模型，以便利用该非线性回归模型对英语口语朗读进行评分。

优选地，所述预处理包括预加重和/加窗处理。

优选地，所述提取语音特征包括计算每帧语音的感知加权线性预测参数或者美尔域倒谱参数系数；计算每帧语音的能量特征；计算能量特征和倒谱特征的差分;对于每一帧语音，生成语音特征的特征向量。

优选地，所述利用线性语法网络和声学模型，对语音特征向量序列进行强制对齐的步骤包括利用朗读文本搭建单词串联网络，把单词网络展开成音素网络；以便利用该音素网络对语音特征向量序列强制对齐。

优选地，所述根据强制对齐结果，提取多维评分特征包括用单位时间的音素通过率作为一个评分特征。

优选地，所述基于每个音素的后验概率，提取多维评分特征包括用音素后验概率均值作为评分特征。

优选地，所述基于每个音素的后验概率，提取多维评分特征包括：对带环境信息的三音子按照良好发音数据的后验概率均值聚成多个类别，得到三音子聚类表；利用根据三音子聚类表，对输入语音数据中的多个类别的音素的后验概率分别求平均值，得到多维评分特征。

在第二方面，本发明提供一种英语口语朗读自动评分方法，其特征在于，包括如下步骤：

对输入语音进行预处理，该预处理中包括分帧处理；

从输入语音中提取语音特征；

按照各音素分割点信息，计算每个音素的后验概率；

基于音素的后验概率，提取多维评分特征；

利用训练过的非线性回归模型根据评分特征进行评分。

优选地，所述提取语音特征包括计算每帧语音的感知加权线性预测参数或者美尔域倒谱参数系数；计算每帧语音的能量特征；计算能量特征的差分和倒谱特征的差分;对于每一帧语音，生成语音特征的特征向量。

优选地，所述利用线性语法网络和声学模型，对语音特征向量序列进行强制对齐的步骤包括利用朗读文本搭建单词串联网络，把单词网络展开成音素网络，再扩展为状态网络；以便利用该状态网络对语音特征向量序列强制对齐。

优选地，所述基于音素的后验概率，提取多维评分特征包括用基于聚类表的音素后验概率均值作为评分特征。

优选地，所述基于音素的后验概率，提取多维评分特征包括：对带环境信息的三音子按照良好发音数据的后验概率均值聚成M个类别，得到三音子聚类表；利用根据三音子聚类表，对考生数据中的M个类别的音素的后验概率分别求平均值，得到多维评分特征。

在第三方面，本发明提供一种英语口语朗读自动评分设备，其特征在于，包括：

对输入语音进行预处理的模块，该预处理中包括分帧处理；

从预处理的语音中提取语音特征的模块；

利用朗读文本搭建的线性语法网络和声学模型，对语音特征向量序列进行强制对齐，得到各音素分割点信息的模块；

按照各音素分割点信息，计算每个音素的后验概率的模块；

基于音素的后验概率，提取多维评分特征的模块；

对训练数据，根据评分特征和人工评分信息，训练非线性回归模型，以便利用该非线性回归模型对英语口语朗读进行评分的模块。

在第四方面，本发明提供一种英语口语朗读自动评分设备，其特征在于，包括：

对输入语音进行预处理的模块，该预处理中包括分帧处理；

从预处理的语音中提取语音特征的模块；

按照各音素分割点信息，计算每个音素的后验概率的模块；

基于音素的后验概率，提取多维评分特征的模块；

利用该非线性回归模型根据评分特征对英语口语朗读进行评分的模块。

本发明的优点是，使用专家打分数据训练评分模型，从统计上保证了机器评分的结果不会偏离人工评分，从而达到计算机对专家评分的高度模拟，并且由于计算机相对于人类的不受干扰的优势，机器评分有可能比专家打分更加稳定。

附图说明

图1是本发明第一实施例的评分模型获取方法的流程图；

图2是本发明第二实施例的对考生数据进行评分的流程图；

图3是朗读题自动评分所用状态图的搭建示意图。

具体实施方式

下面结合附图及具体实施例对本发明的朗读评分方法做进一步地描述。

图1是本发明第一实施例的朗读评分方法的流程图。如图1所示，按照该朗读题自动评分方法，在步骤102,将待识别语音输入语音识别系统中。

在步骤104，对输入语音进行预处理，主要是进行分帧处理。

在一个例子中，预处理可以采用如下流程：

2-1）首先，将语音信号按照16K（或8K）采样率进行数字化；

2-2）然后，通过预加重进行高频提升。一个预加重滤波器的例子是：H(z)=1-αz^-1，其中α=0.98；

2-3）接着，将数据进行分帧处理：取帧长25ms、帧间重叠15ms，可根据需要适当调整；

2-4）最后，加窗处理。窗函数采用常用的hamming窗函数：

w (n) = 0.54 - 0.46 \cos (\frac{2 πn}{N - 1})

其中，0≤n≤N-1。

需要说明，上述流程仅属举例，本发明还可以采用其它形式的预处理。比如仅仅进行预加重或者加窗处理。

在步骤106，提取语音特征。可采用PLP（Perceptual LinearPredictive,感知加权线性预测）或者MFCC（mel-frequency cepstralcoefficient,美尔域倒谱系数）参数特征提取方法。

在一个例子中，一个提取语音特征的具体流程如下：

3-1）首先，计算每帧语音的PLP或MFCC参数系数c(m)，1≤m≤N_c，其中N_c为倒谱系数的个数，N_c＝12。

3-2）计算每帧语音的能量特征；

3-3）计算能量特征和倒谱特征的一阶和二阶差分。采用如下的回归公式计算差分倒谱系数：

\frac{&PartialD; c (t)}{&PartialD; t} = μ Σ_{τ = - T}^{T} τc (t + τ),

其中μ是归一化因子，τ为整数，2T+1为用于计算差分倒谱系数的语音帧数，其中：T＝2，μ＝0.375；

3-4）对于每一帧语音，生成39维的特征向量。

在步骤110，利用线性语法网络和声学模型，对特征向量序列进行强制对齐，得到各音素分割点信息。

在步骤120，按照步骤110中得到的音素分割点，计算每个音素的后验概率：

p (p_{i} | x_{i}) = \frac{p (x_{i} | p_{i})}{\underset{p_{k} &Element; D}{Σ} p (x_{i} | p_{k})},

其中，p_i为当前音素，x_i为从强制对齐结果中获得的对应于音素p_i的语音段，D为全部音素的集合。

对各类的音素分别计算后验概率均值，作为M维评分特征。在一个优选的例子中，利用三音子聚类表，对各类的音素分别计算后验概率均值，作为M维评分特征。为此，与步骤120的同时或者预先地，在步骤124，选择发音良好的数据，按照步骤120描述的方法，计算所有三音子的后验概率，并分别求出平均值；定义任意两个三音子x、y的距离为：

D(x,y)=|p(x)-p(y)|

其中，D(x,y)为定义的x、y的距离，p(x)、p(y)为x、y的后验概率；

使用通用的K均值聚类方法，按照最小距离的准则，将发音良好的数据中的所有三音子聚成M类，得到三音子聚类表。

对每个训练数据样本，按照步骤7）得到的三音子聚类表，对各类的音素分别计算后验概率均值，作为M维评分特征。用音素后验概率均值作为发音准确度特征。在另一个例子中，特别地，可设定M=1，即不聚类，直接计算所有音素的后验概率平均值作为发音准确度特征。

优选地，与此同时或者预先地，统计单位时间内通过的音素个数，作为另一维评分特征。用单位时间的音素通过率作为流利度信息。

在本发明实施例中提取的评分特征，同时包括了发音准确度特征和发音流利度特征，从而对考生的发音质量有了较全面的评价；对发音准确度特征，对不同类别的三音子区别对待，提取多维评分特征，避免了对后验概率理想值不同的三音子直接求平均而带来的性能损失，从而提高了发音准确度特征的区分度。

在步骤126，使用前述步骤中得到的评分特征，以及专家对训练样本的评分，使用支持向量回归训练方法训练，得到评分模型。

最后，按照评分模型进行评分。

图2是本发明第二实施例的朗读评分方法的流程图。对比图1和图2可见，图1侧重在评分模型的获取流程，图2则侧重在评分流程。获取评分模型获取流程和对考生录音的评分流程十分近似，仅在流程后端有所不同。对图2所示的评分流程，仅将图1的使用人工评分训练评分模型，替换成使用评分模型对考生的录音评分即可。因此，对图2的说明将予以省略。

图3是本发明的强制对齐过程中的状态图的搭建示意图。如图3所示，首先根据朗读文本搭建起一个线性的单词串联网络。借助识别系统中字典的信息，把单词的网络展开成一个最小单位是音素的音素网络。每个节点由单词变为音素，然后每个音素再被声学模型中相对应的隐马尔科夫模型(HMM)所取代，每个马尔科夫模型(HMM)由若干个状态组成，其中每个状态都是可重入的。这样，最终的搜索空间就变成了一个状态图，状态图中的任意一条路径代表一个状态序列候选，通过比较不同路径上的累积概率值（似然概率与转移概率）来获得最优路径作为识别结果。本实施例中，在解码过程中采用了传统的维特比搜索策略；

在第三实施例中，本发明提供一种英语口语朗读自动评分方法，其特征在于，包括如下步骤：

对输入语音进行预处理，该预处理中包括分帧处理；

从输入语音中提取语音特征；

按照各音素分割点信息，计算每个音素的后验概率；

基于音素的后验概率，提取多维评分特征；

利用训练过的非线性回归模型根据评分特征进行评分。

优选地，所述利用线性语法网络和声学模型，对语音特征向量序列进行强制对齐的步骤包括利用朗读文本搭建单词串联网络，把单词网络展开成音素网络再扩展为状态网络；以便利用该状态网络对语音特征向量序列强制对齐。

优选地，所述基于音素的后验概率，提取多维评分特征包括用音素后验概率均值作为评分特征。

在第四实施例，本发明提供一种英语口语朗读自动评分设备，其特征在于，包括：

对输入语音进行预处理的模块，该预处理中包括分帧处理；

提取语音特征的模块；

按照各音素分割点信息，计算每个音素的后验概率的模块；

基于音素的后验概率，提取多维评分特征的模块；

根据评分特征和人工评分信息，使用支持向量回归法训练非线性回归模型，以便利用该非线性回归模型对英语口语朗读进行评分的模块。

在第五实施例，本发明提供一种英语口语朗读自动评分设备，其特征在于，包括：

对输入语音进行预处理的模块，该预处理中包括分帧处理；

提取方法提取语音特征的模块；

按照各音素分割点信息，计算每个音素的后验概率的模块；

基于音素的后验概率，提取多维评分特征的模块；

第三、第四和第五实施例的各方面细节可以参考前文结合图1所做的描述。这里不复赘述。

测试试验：

为测试本发明的效果，录制了7000个母语为汉语普通话的中学学生的英语篇章朗读数据，学生中男女比例为1:1。每个学生被要求朗读一段长约100个单词的英文语料，语料来自于中学英文课本。聘请了教学一线的英语教师对这些录制的语音评分。这7000个学生的数据中的4000个用于训练，另外3000个学生的数据用于测试。通过整理数据，使训练集和测试集的人工分数的分布情况和朗读者性别比例一致。我们的目标是提高评分正确率，即尽可能使机器评估的准确性接近或超过专家评估的准确性。

使用平均分差和相关系数两个指标来评价评分的准确性。

平均分差为各样本的待测分与最终分分差的绝对值平均：

d = \frac{1}{N} \underset{N}{Σ} | {sc}_{i} - {sh}_{i} |,

其中，N为样本个数，sc_i为第i个样本的待测分数，sh_i为第i个样本的最终分数。

相关系数指样本的待测分和最终分的相关系数，使用下述公式计算两个序列X和Y的相关系数：

r = \frac{ΣXY - \frac{1}{N} ΣXΣY}{\sqrt{(Σ X^{2} - \frac{1}{N} {(ΣX)}^{2}) (Σ Y^{2} - \frac{1}{N} {(ΣY)}^{2})}}

为了和机器评分的准确性进行对比，测试了人工评分的准确性，作为测试机器评分准确性的参照。测试试验中使用了四位评分教师作评分，任取其中的三位教师的评分确定最终分，确定方法是，对每个样本，如果有两位老师或超过两位老师给出相同的分数，则以此分数作为该样本的最终分数；如果三位老师给出的分数各不相同，则取中间的分数作为最终分数。用其余一位教师评分和最终分比较，计算该教师的评分准确性。本文轮流选择一位教师的评分作测试，另三位教师的综合评分做最终分，测试四次取平均值，四次测试的平均结果如表1所示。

表1：

表2给出了机器评分的测试结果，从表中可见，机器评分在分差和相关系数上的表现好过人工评分。

表2：

表3给出了使用音素和不使用音素聚类（即聚类类别数为1）的测试结果对比，从表中可见，音素聚类后，系统的评分性能被明显地改进了。

表3：

本领域技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。另外，软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种英语口语朗读自动评分方法，其特征在于，包括如下步骤：

对输入语音进行预处理，该预处理中包括分帧处理；

从预处理的语音中提取语音特征；

按照各音素分割点信息，计算每个音素的后验概率；

基于音素的后验概率，提取多维评分特征；

根据评分特征和人工评分信息，使用支持向量回归法训练非线性回归模型，以便利用该非线性回归模型对英语口语朗读进行评分。

2.根据权利要求1所述的自动评分方法，其特征在于，所述预处理包括预加重和/加窗处理。

3.根据权利要求1所述的自动评分方法，其特征在于，所述提取语音特征包括计算每帧语音的感知加权线性预测参数或者美尔域倒谱参数系数；计算每帧语音的能量特征；计算能量特征的差分和倒谱特征的差分；对于每一帧语音，生成语音特征的特征向量。

4.根据权利要求1所述的自动评分方法，其特征在于，所述利用线性语法网络和声学模型，对语音特征向量序列进行强制对齐的步骤包括利用朗读文本搭建单词串联网络，把单词网络展开成音素网络，再扩展为状态网络；以便利用该状态网络对语音特征向量序列强制对齐。

5.根据权利要求1所述的自动评分方法，其特征在于，所述根据强制对齐结果，提取多维评分特征包括用单位时间的音素通过率作为一个评分特征。

6.根据权利要求1所述的自动评分方法，其特征在于，所述基于音素的后验概率，提取多维评分特征包括用基于聚类表的音素后验概率均值作为评分特征。

7.根据权利要求6所述的自动评分方法，其特征在于，所述基于音素的后验概率，提取多维评分特征包括：对带环境信息的三音子按照良好发音数据的后验概率均值聚成多个类别，得到三音子聚类表；利用根据三音子聚类表，对输入语音数据中的多个类别的音素的后验概率分别求平均值，得到多维评分特征。

8.一种英语口语朗读自动评分方法，其特征在于，包括如下步骤：

对输入语音进行预处理，该预处理中包括分帧处理；

从输入语音中提取语音特征；

按照各音素分割点信息，计算每个音素的后验概率；

基于音素的后验概率，提取多维评分特征；

利用训练过的非线性回归模型根据评分特征进行评分。

9.根据权利要求8所述的自动评分方法，其特征在于，所述提取语音特征包括计算每帧语音的感知加权线性预测参数或者美尔域倒谱参数系数；计算每帧语音的能量特征；计算能量特征和倒谱特征的差分；对于每一帧语音，生成语音特征的特征向量。

10.根据权利要求8所述的自动评分方法，其特征在于，所述利用线性语法网络和声学模型，对语音特征向量序列进行强制对齐的步骤包括利用朗读文本搭建单词串联网络，把单词网络展开成音素网络，再将音素网络展开成状态网络；以便利用该状态网络对语音特征向量序列强制对齐。

11.根据权利要求8所述的自动评分方法，其特征在于，所述根据强制对齐结果，提取多维评分特征包括用单位时间的音素通过率作为一个评分特征。

12.根据权利要求8所述的自动评分方法，其特征在于，所述基于音素的后验概率，提取多维评分特征包括用音素后验概率均值作为评分特征。

13.根据权利要求12所述的自动评分方法，其特征在于，所述基于音素的后验概率，提取多维评分特征包括：对带环境信息的三音子按照良好发音数据的后验概率均值聚成M个类别，得到三音子聚类表；利用根据三音子聚类表，对考生数据中的M个类别的音素的后验概率分别求平均值，得到多维评分特征。

14.一种英语口语朗读自动评分设备，其特征在于，包括：

对输入语音进行预处理的模块，该预处理中包括分帧处理；

提取语音特征的模块；

按照各音素分割点信息，计算每个音素的后验概率的模块；

基于音素的后验概率，提取多维评分特征的模块；

对训练数据，根据评分特征和人工评分信息，使用支持向量回归法训练非线性回归模型，以便利用该非线性回归模型对英语口语朗读进行评分的模块。

15.一种英语口语朗读自动评分设备，其特征在于，包括：

对输入语音进行预处理的模块，该预处理中包括分帧处理；

从预处理的语音中提取语音特征的模块；

按照各音素分割点信息，计算音素的后验概率的模块；

基于音素的后验概率，提取多维评分特征的模块；