CN106847260B

CN106847260B - 一种基于特征融合的英语口语自动评分方法

Info

Publication number: CN106847260B
Application number: CN201611183935.3A
Authority: CN
Inventors: 马磊; 陈义学; 陈霞
Original assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Current assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2020-02-21
Anticipated expiration: 2036-12-20
Also published as: CN106847260A

Abstract

本发明提供一种基于特征融合的英语口语自动评分方法，针对大规模英语口语考试朗读题型，采用多特征融合的方法进行评分。以连续语音信号及语音识别文本作为研究对象，从语音和文本两个不同角度对口语考试朗读题型进行分析。一方面，通过分析输入语音,提取语音特征并与参考标准进行匹配比较；另一方面通过文本对齐方法比较语音识别文本与朗读文本，由评分机制根据相似程度大小给出评价得分。实验证明该方法的算法复杂度较低,评分结果符合人的主观感觉。

Description

一种基于特征融合的英语口语自动评分方法

技术领域

本发明涉及音频处理领域，尤其涉及一种基于特征融合的英语口语自动评分方法。

背景技术

当前计算机辅助评估系统已经逐渐成为研究的热点之一。尤其在大规模考试中，它已经开始逐渐取代老师，这将成为教育界的一场重大变革。随着语音识别技术的发展，语音评估系统也逐渐发展起来。它主要通过计算机给人的发音进行评测，这样的系统不仅评分准确，而且可以大大提高效率，节约人力。

针对口语考试题型的评分大体分为两类：一类是从语音的角度评分，一类是从文本的角度评分。纯粹基于语音的评分主要涉及到发音、频率和韵律等声学层面的特征。如果一个评分系统仅仅从语音的角度评分，而不考虑所表达内容的语法结构，那么这个自动评分系统仍旧不是一个完整的理想系统。

发明内容

为了克服上述现有技术中的不足，本发明的目的在于，提供一种评测效率且降低了对人力工作的依赖程度的基于特征融合的英语口语自动评分方法，方法包括：

S1：输入语音信号和文本；

S2：对输入的语音信号提取特征参数；

S3：利用模式对比的方式对标准语音和待评语音的特征参数进行比较；

S4：利用文本对齐方式对朗读文本和待评语音识别文本进行特征比较；

S4.1获取标准答案A，查看标准答案中是否存在缩略词，若存在则将缩略词展开，统计标准答案单词个数N，获取词频向量V，标记每个单词的实际位置及单词本身、前向单词和后向单词在向量V中的位置，判断标准答案中是否有重复单词；

S4.2获取考生答案a，查看考生答案中是否存在缩略词，若存在则将缩略词展开，统计考生答案单词个数n，将其在标准答案中不存在的单词补充到向量V的后面形成新的词频向量v，标记有效单词的实际位置及单词本身、前向单词和后向单词在向量v中的位置，判断考生答案中是否有重复单词；

S4.3创建长度为n的数组R用来标记考生答案中重复单词的位置，逐个比较考生答案词频向量v与标准答案词频向量V的单词位置信息，若v中某一单词的前向单词或后向单词在向量中的位置与V中同一单词的前向单词或后向单词在向量中的位置相同，则统计其出现的次数，当单词出现次数大于1时则将该单词实际位置标记为1表示重复，反之与V中同一单词的前向单词和后向单词在向量中的位置都不相同，也将该单词实际位置标记为1表示重复；

S4.4依据标记数组R去掉考生答案中的重复单词，更新考生答案字符串a和考生答案单词个数n；

S4.5比较标准答案和考生答案的单词个数，若是n/N<0.2，或N/n>1.5，则该考生答案判分为0，评分结束；否则继续向下执行步骤S4.6；

S4.6设置长度为N的空字符数组B,并初始化为0的两计数器C、D分别统计考生答案中有效单词的个数和无效单词的个数，且设置考生答案中的任一单词与标答中的单词最大比较次数为L；

S4.7将字符串a中的第一个单词a₀与字符串A中的第一个单词A₀进行比较，若相等，将a₀赋值给B₀，有效单词个数C加1；若不相等，则继续与标答中单词A_j,(0<j<N)进行比较，直到比较结果相等或比较次数大于L或j＝N则比较结束，若比较结果相等，则将a₀赋值到B_j,(0<j<N)中，有效单词个数C加1，若比较次数大于L或j＝N则无效单词个数D加1；

S4.8循环对字符串a中剩余的单词a_i,(0<i<n)与标答A中A_j之后的单词进行比较，直到循环比较结束获得新的字符数组B，有效单词个数C和无效单词个数D；

S4.9比较标准答案和有效单词及无效单词的个数，若是C/N<0.2，或D/N>0.5,则该考生答案判分为0，评分结束；否则继续向下执行步骤S4.10；

S4.10统计R中连续单词的个数，非连续单词则认为是无效单词；

S4.11有效单词个数C与标准答案单词个数N的百分比表示正确率，若考生答案单词个数n减去重复单词个数后长度仍大于标准答案单词个数N则需要先计算标准答案单词个数N与有效单词个数C的差d，然后无效单词D减去d得到长度与标答相同后，无效单词D中仍存在多余的无效单词c，用有效单词个数C减去c的结果与标准答案单词个数N的百分比表示正确率；

S5：评分机制根据特征相似度对语音作出评价。

优选地，所述步骤S1包括如下步骤：

S1.1输入标准语音信号；

S1.2输入标准朗读文本；

S1.3输入英语缩略词及完整形式对照.

优选地，所述步骤S2还包括如下步骤：

S2.1提取梅尔倒谱参数特征；

S2.2提取基频变化轨迹特征；

优选地，所述步骤S2.1还包括如下步骤：

S2.11将信号进行分帧，预加重和加汉明窗处理，然后进行短时傅里叶变换并得到其频谱；

S2.12求出频谱平方，即能量谱，并用M个Mel带通滤波器进行滤波；由于每一个频带中分量的作用在人耳中是叠加的。因此将每个滤波器频带内的能量进行叠加，这时第k个滤波器输出功率谱x'(k)；

S2.13将每个滤波器的输出取对数，得到相应频带的对数功率谱；并进行反离散余弦变换，得到L个MFCC系数，L取12～16个左右；MFCC系数为

S2.14将这种直接得到的MFCC特征作为静态特征，再将这种静态特征做一阶和二阶差分，得到相应的动态特征。

优选地，所述步骤S3还包括如下步骤：

利用梅尔倒谱参数特征比较方式以及基音变化轨迹特征比较方式对标准语音和待评语音的特征参数进行比较。

优选地，所述利用梅尔倒谱参数特征比较方式包括：

(1)假设参考标准语音的MFCC特征向量为M₁＝[m₁(1),m₁(2),…,m₁(T)],T为参考语音的长度；

(2)待评价语音的MFCC特征向量为M₂＝[m₂(1),m₂(2),…,m₂(S)],S为待评价语音的长度；

(3)使用改进的DTW算法，得到一条误差最小的对齐路径和对应的DTW距离；

(4)该距离是待评价的输入语音与参考标准语音的MFCC特征参数的比较结果，反映了两段语音在内容上的发音差别。

优选地，所述利用基音变化轨迹特征比较方式包括：

(1)假设参考标准语音的基音特征向量为P₁＝[p₁(1),p₁(2),…,p₁(R)]，其一阶差分向量为P_Δ1＝[p_Δ1(1),p_Δ1(2),…,p_Δ1(R)]R为参考语音的长度，P_Δ1(n)＝|p₁(n)-p₁(n-1)|,n＝1,2,…,R,p₁(0)＝0；

(2)待评价的输入语音的基音特征向量为P₂＝[p₂(1),p₂(2),…,p₂(T)]，其一阶差分向量为P_Δ2＝[p_Δ2(1),p_Δ2(2),…,p_Δ2(T)]T为待评价语音的长度，P_Δ2(n)＝|p₂(n)-p₂(n-1)|,n＝1,2,…,T,p₂(0)＝0；

(3)基于上节得到的DTW最佳对齐路径，在对齐的位置进行基音特征比较；

(4)求取基音的差距d_p，与其变化量的差距Δd_p，来获得输入语音与参考标准语音的基音的相似度，即：

d_p＝|p₁(n)-p₂(n)| (2)

Δd_p＝|Δp₁(n)-Δp₂(n)| (3)

其中，Δp_i(n)＝|p_i(n)-p_i(n-1) (4)。

优选地，所述步骤S4还包括：

进行规定和假设，方式包括：

考生作答的答案均是字母字符、数字字符和标点符号字符，不包括图形、图案、图片；

评分时考生答案与标准答案严格匹配，不考虑近义词、同义词或语义问题；

考生得分只与考生答案的答对字符数、漏字字符数和加字字符数有关。

优选地，所述步骤S5还包括：

评分参数相互独立，并进行加权组合；

或，基于评分参数之间的相互联系性，作为评分的一部分。

从以上技术方案可以看出，本发明具有以下优点：

本发明针对英语口语考试朗读题型提出了基于特征融合的英语口语自动评分方法，综合从语音角度和文本角度进行评分；提出了文本对齐比较的具体算法；设计了基于多个特征的关联性评分机制，从一个比较全面的角度去衡量语音的朗读质量。

附图说明

为了更清楚地说明本发明的技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为英语口语自动评分系统流程图。

图2为MFCC提取流程框图。

图3为文本评测方法流程图。

图4为DTW算法流程图。

图5为MFCC特征比较流程图。

图6为基音变化轨迹比较流程图。

图7为评分流程图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将运用具体的实施例及附图，对本发明保护的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本专利中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本专利保护的范围。

本发明提供一种基于特征融合的英语口语自动评分方法，如图1至7所示，方法包括：

目前，通过语音识别将语音转写为文本已不是难题，但由于参加考试的考生口语水平参差不齐，考生答案文本必定也是多种多样，漏写、加词、换词都是可能存在的情况，因此，在对考生答案文本进行判分之前，必须先对其进行词对齐。

S1：输入语音信号和文本；

S2：对输入的语音信号提取特征参数；

S5：评分机制根据特征相似度对语音作出评价。

其中，所述步骤S1包括如下步骤：

S1.1输入标准语音信号；

S1.2输入标准朗读文本；

S1.3输入英语缩略词及完整形式对照.

本实施例中，所述步骤S2还包括如下步骤：

S2.1提取梅尔倒谱参数特征；

S2.2提取基频变化轨迹特征；

本实施例中，所述步骤S2.1还包括如下步骤：

S2.13将每个滤波器的输出取对数，得到相应频带的对数功率谱；并进行反离散余弦变换，得到L个MFCC系数，一般L取12～16个左右。MFCC系数为

本实施例中，所述步骤S3还包括如下步骤：

本实施例中，所述利用梅尔倒谱参数特征比较方式包括：

(1)假设参考标准语音的MFCC特征向量为M₁＝[m₁(1),m₁(2),…,m₁(T)],(T为参考语音的长度)；

(2)待评价语音的MFCC特征向量为M₂＝[m₂(1),m₂(2),…,m₂(S)],(S为待评价语音的长度)；

本实施例中，所述利用基音变化轨迹特征比较方式包括：

(1)假设参考标准语音的基音特征向量为P₁＝[p₁(1),p₁(2),…,p₁(R)]，其一阶差分向量为P_Δ1＝[p_Δ1(1),p_Δ1(2),…,p_Δ1(R)](R为参考语音的长度)，P_Δ1(n)＝|p₁(n)-p₁(n-1)|,n＝1,2,…,R,p₁(0)＝0；

(2)待评价的输入语音的基音特征向量为P₂＝[p₂(1),p₂(2),…,p₂(T)]，其一阶差分向量为P_Δ2＝[p_Δ2(1),p_Δ2(2),…,p_Δ2(T)](T为待评价语音的长度)，P_Δ2(n)＝|p₂(n)-p₂(n-1)|,n＝1,2,…,T,p₂(0)＝0；

d_p＝|p₁(n)-p₂(n)| (2)

Δd_p＝|Δp₁(n)-Δp₂(n)| (3)

其中，Δp_Δi(n)＝|p_i(n)-p_i(n-1)| (4)。

本实施例中，所述步骤S4文本进行单词填充对齐之前所做规定和假设为：

本实施例中，在实际的英语口语考试中录音中，经常会出现考生漏读、重读的问题，针对这种情况，需要特殊处理。所述步骤S4还包括如下步骤：

S4.1获取标准答案A，查看标准答案中是否存在缩略词(如I’m)，若存在则将缩略词展开(I am)，统计标准答案单词个数N(定冠词、不定冠词、标点符号不计)，获取词频(即某一个给定的词语在文件中出现的次数)向量V，标记每个单词的实际位置及单词本身、前向单词和后向单词在向量V中的位置，判断标准答案中是否有重复单词；

S4.2获取考生答案a，查看考生答案中是否存在缩略词(如I’m)，若存在则将缩略词展开(I am)，统计考生答案单词个数n(定冠词、不定冠词、标点符号不计)，将其在标准答案中不存在的单词(即无效单词)补充到向量V的后面形成新的词频向量v，标记有效单词的实际位置及单词本身、前向单词和后向单词在向量v中的位置，判断考生答案中是否有重复单词；

S4.5比较标准答案和考生答案的单词个数，若是n/N<0.2，或N/n>1.5，则该考生答案判分为0，评分结束；否则继续向下执行步骤S4.6

语音评分的目的是为了显示这段声音的发音是否正确规范,语调是否符合要求。分数越高,则表明对这段声音的满意度越高,反之,低分数表明这段声音的发音不够准确或没达到满意的要求。评分机制除了把评分参数相互独立的加权组合，还把评分参数之间的相互联系性作为评分的一部分,从一个比较全面的角度去衡量语音的朗读质量。

评价分数可定义为:

scores(P,M,T)＝k1P+k2M+k3T+K4PMT (5)

其中k1,k2,k3,k4为各评分参数在评分中的权值,P为基频变化相似度,M为MFCC特征相似度,T为文本相似度。权值的选择可以根据不同的要求或评分的侧重点不同而有所不同。为了使计算机能够更好地模拟语言专家的评分,可以对权值进行训练,找出计算机评分和人工评分的一个最佳映射关系。

本实施例中，所述步骤S5还包括：

评分参数相互独立，并进行加权组合；

或，基于评分参数之间的相互联系性，作为评分的一部分。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参考即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于特征融合的英语口语自动评分方法，其特征在于，方法包括：

S1：输入语音信号和文本；

S2：对输入的语音信号提取特征参数；

S5：评分机制根据特征相似度对语音作出评价。

2.根据权利要求1所述的基于特征融合的英语口语自动评分方法，其特征在于，

所述步骤S1包括如下步骤：

S1.1输入标准语音信号；

S1.2输入标准朗读文本；

S1.3输入英语缩略词及完整形式对照。

3.根据权利要求1所述的基于特征融合的英语口语自动评分方法，其特征在于，所述步骤S2还包括如下步骤：

S2.1提取梅尔倒谱参数特征；

S2.2提取基频变化轨迹特征。

4.根据权利要求3所述的基于特征融合的英语口语自动评分方法，其特征在于，

所述步骤S2.1还包括如下步骤：

S2.12求出频谱平方，即能量谱，并用M个Mel带通滤波器进行滤波；由于每一个频带中分量的作用在人耳中是叠加的；将每个滤波器频带内的能量进行叠加，这时第k个滤波器输出功率谱x'(k)；

5.根据权利要求1所述的基于特征融合的英语口语自动评分方法，其特征在于，

所述步骤S3还包括如下步骤：

6.根据权利要求5所述的基于特征融合的英语口语自动评分方法，其特征在于，

所述利用梅尔倒谱参数特征比较方式包括：

7.根据权利要求5所述的基于特征融合的英语口语自动评分方法，其特征在于，

所述利用基音变化轨迹特征比较方式包括：

d_p＝|p₁(n)-p₂(n)| (2)

Δd_p＝|Δp₁(n)-Δp₂(n)| (3)

其中，Δp_i(n)＝|p_i(n)-p_i(n-1)| (4)。

8.根据权利要求1所述的基于特征融合的英语口语自动评分方法，其特征在于，

所述步骤S4还包括：

进行规定和假设，方式包括：

9.根据权利要求1所述的基于特征融合的英语口语自动评分方法，其特征在于，

所述步骤S5还包括：

评分参数相互独立，并进行加权组合；

或，基于评分参数之间的相互联系性，作为评分的一部分。