CN106847260B - 一种基于特征融合的英语口语自动评分方法 - Google Patents
一种基于特征融合的英语口语自动评分方法 Download PDFInfo
- Publication number
- CN106847260B CN106847260B CN201611183935.3A CN201611183935A CN106847260B CN 106847260 B CN106847260 B CN 106847260B CN 201611183935 A CN201611183935 A CN 201611183935A CN 106847260 B CN106847260 B CN 106847260B
- Authority
- CN
- China
- Prior art keywords
- words
- answer
- word
- standard
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 15
- 238000013077 scoring method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 8
- 230000003068 static effect Effects 0.000 claims description 6
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract 1
- 238000007500 overflow downdraw method Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种基于特征融合的英语口语自动评分方法,针对大规模英语口语考试朗读题型,采用多特征融合的方法进行评分。以连续语音信号及语音识别文本作为研究对象,从语音和文本两个不同角度对口语考试朗读题型进行分析。一方面,通过分析输入语音,提取语音特征并与参考标准进行匹配比较;另一方面通过文本对齐方法比较语音识别文本与朗读文本,由评分机制根据相似程度大小给出评价得分。实验证明该方法的算法复杂度较低,评分结果符合人的主观感觉。
Description
技术领域
本发明涉及音频处理领域,尤其涉及一种基于特征融合的英语口语自动评分方法。
背景技术
当前计算机辅助评估系统已经逐渐成为研究的热点之一。尤其在大规模考试中,它已经开始逐渐取代老师,这将成为教育界的一场重大变革。随着语音识别技术的发展,语音评估系统也逐渐发展起来。它主要通过计算机给人的发音进行评测,这样的系统不仅评分准确,而且可以大大提高效率,节约人力。
针对口语考试题型的评分大体分为两类:一类是从语音的角度评分,一类是从文本的角度评分。纯粹基于语音的评分主要涉及到发音、频率和韵律等声学层面的特征。如果一个评分系统仅仅从语音的角度评分,而不考虑所表达内容的语法结构,那么这个自动评分系统仍旧不是一个完整的理想系统。
发明内容
为了克服上述现有技术中的不足,本发明的目的在于,提供一种评测效率且降低了对人力工作的依赖程度的基于特征融合的英语口语自动评分方法,方法包括:
S1:输入语音信号和文本;
S2:对输入的语音信号提取特征参数;
S3:利用模式对比的方式对标准语音和待评语音的特征参数进行比较;
S4:利用文本对齐方式对朗读文本和待评语音识别文本进行特征比较;
S4.1获取标准答案A,查看标准答案中是否存在缩略词,若存在则将缩略词展开,统计标准答案单词个数N,获取词频向量V,标记每个单词的实际位置及单词本身、前向单词和后向单词在向量V中的位置,判断标准答案中是否有重复单词;
S4.2获取考生答案a,查看考生答案中是否存在缩略词,若存在则将缩略词展开,统计考生答案单词个数n,将其在标准答案中不存在的单词补充到向量V的后面形成新的词频向量v,标记有效单词的实际位置及单词本身、前向单词和后向单词在向量v中的位置,判断考生答案中是否有重复单词;
S4.3创建长度为n的数组R用来标记考生答案中重复单词的位置,逐个比较考生答案词频向量v与标准答案词频向量V的单词位置信息,若v中某一单词的前向单词或后向单词在向量中的位置与V中同一单词的前向单词或后向单词在向量中的位置相同,则统计其出现的次数,当单词出现次数大于1时则将该单词实际位置标记为1表示重复,反之与V中同一单词的前向单词和后向单词在向量中的位置都不相同,也将该单词实际位置标记为1表示重复;
S4.4依据标记数组R去掉考生答案中的重复单词,更新考生答案字符串a和考生答案单词个数n;
S4.5比较标准答案和考生答案的单词个数,若是n/N<0.2,或N/n>1.5,则该考生答案判分为0,评分结束;否则继续向下执行步骤S4.6;
S4.6设置长度为N的空字符数组B,并初始化为0的两计数器C、D分别统计考生答案中有效单词的个数和无效单词的个数,且设置考生答案中的任一单词与标答中的单词最大比较次数为L;
S4.7将字符串a中的第一个单词a0与字符串A中的第一个单词A0进行比较,若相等,将a0赋值给B0,有效单词个数C加1;若不相等,则继续与标答中单词Aj,(0<j<N)进行比较,直到比较结果相等或比较次数大于L或j=N则比较结束,若比较结果相等,则将a0赋值到Bj,(0<j<N)中,有效单词个数C加1,若比较次数大于L或j=N则无效单词个数D加1;
S4.8循环对字符串a中剩余的单词ai,(0<i<n)与标答A中Aj之后的单词进行比较,直到循环比较结束获得新的字符数组B,有效单词个数C和无效单词个数D;
S4.9比较标准答案和有效单词及无效单词的个数,若是C/N<0.2,或D/N>0.5,则该考生答案判分为0,评分结束;否则继续向下执行步骤S4.10;
S4.10统计R中连续单词的个数,非连续单词则认为是无效单词;
S4.11有效单词个数C与标准答案单词个数N的百分比表示正确率,若考生答案单词个数n减去重复单词个数后长度仍大于标准答案单词个数N则需要先计算标准答案单词个数N与有效单词个数C的差d,然后无效单词D减去d得到长度与标答相同后,无效单词D中仍存在多余的无效单词c,用有效单词个数C减去c的结果与标准答案单词个数N的百分比表示正确率;
S5:评分机制根据特征相似度对语音作出评价。
优选地,所述步骤S1包括如下步骤:
S1.1输入标准语音信号;
S1.2输入标准朗读文本;
S1.3输入英语缩略词及完整形式对照.
优选地,所述步骤S2还包括如下步骤:
S2.1提取梅尔倒谱参数特征;
S2.2提取基频变化轨迹特征;
优选地,所述步骤S2.1还包括如下步骤:
S2.11将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换并得到其频谱;
S2.12求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中是叠加的。因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱x'(k);
S2.13将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,L取12~16个左右;MFCC系数为
S2.14将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。
优选地,所述步骤S3还包括如下步骤:
利用梅尔倒谱参数特征比较方式以及基音变化轨迹特征比较方式对标准语音和待评语音的特征参数进行比较。
优选地,所述利用梅尔倒谱参数特征比较方式包括:
(1)假设参考标准语音的MFCC特征向量为M1=[m1(1),m1(2),…,m1(T)],T为参考语音的长度;
(2)待评价语音的MFCC特征向量为M2=[m2(1),m2(2),…,m2(S)],S为待评价语音的长度;
(3)使用改进的DTW算法,得到一条误差最小的对齐路径和对应的DTW距离;
(4)该距离是待评价的输入语音与参考标准语音的MFCC特征参数的比较结果,反映了两段语音在内容上的发音差别。
优选地,所述利用基音变化轨迹特征比较方式包括:
(1)假设参考标准语音的基音特征向量为P1=[p1(1),p1(2),…,p1(R)],其一阶差分向量为PΔ1=[pΔ1(1),pΔ1(2),…,pΔ1(R)]R为参考语音的长度,PΔ1(n)=|p1(n)-p1(n-1)|,n=1,2,…,R,p1(0)=0;
(2)待评价的输入语音的基音特征向量为P2=[p2(1),p2(2),…,p2(T)],其一阶差分向量为PΔ2=[pΔ2(1),pΔ2(2),…,pΔ2(T)]T为待评价语音的长度,PΔ2(n)=|p2(n)-p2(n-1)|,n=1,2,…,T,p2(0)=0;
(3)基于上节得到的DTW最佳对齐路径,在对齐的位置进行基音特征比较;
(4)求取基音的差距dp,与其变化量的差距Δdp,来获得输入语音与参考标准语音的基音的相似度,即:
dp=|p1(n)-p2(n)| (2)
Δdp=|Δp1(n)-Δp2(n)| (3)
其中,Δpi(n)=|pi(n)-pi(n-1) (4)。
优选地,所述步骤S4还包括:
进行规定和假设,方式包括:
考生作答的答案均是字母字符、数字字符和标点符号字符,不包括图形、图案、图片;
评分时考生答案与标准答案严格匹配,不考虑近义词、同义词或语义问题;
考生得分只与考生答案的答对字符数、漏字字符数和加字字符数有关。
优选地,所述步骤S5还包括:
评分参数相互独立,并进行加权组合;
或,基于评分参数之间的相互联系性,作为评分的一部分。
从以上技术方案可以看出,本发明具有以下优点:
本发明针对英语口语考试朗读题型提出了基于特征融合的英语口语自动评分方法,综合从语音角度和文本角度进行评分;提出了文本对齐比较的具体算法;设计了基于多个特征的关联性评分机制,从一个比较全面的角度去衡量语音的朗读质量。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为英语口语自动评分系统流程图。
图2为MFCC提取流程框图。
图3为文本评测方法流程图。
图4为DTW算法流程图。
图5为MFCC特征比较流程图。
图6为基音变化轨迹比较流程图。
图7为评分流程图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将运用具体的实施例及附图,对本发明保护的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利保护的范围。
本发明提供一种基于特征融合的英语口语自动评分方法,如图1至7所示,方法包括:
目前,通过语音识别将语音转写为文本已不是难题,但由于参加考试的考生口语水平参差不齐,考生答案文本必定也是多种多样,漏写、加词、换词都是可能存在的情况,因此,在对考生答案文本进行判分之前,必须先对其进行词对齐。
S1:输入语音信号和文本;
S2:对输入的语音信号提取特征参数;
S3:利用模式对比的方式对标准语音和待评语音的特征参数进行比较;
S4:利用文本对齐方式对朗读文本和待评语音识别文本进行特征比较;
S5:评分机制根据特征相似度对语音作出评价。
其中,所述步骤S1包括如下步骤:
S1.1输入标准语音信号;
S1.2输入标准朗读文本;
S1.3输入英语缩略词及完整形式对照.
本实施例中,所述步骤S2还包括如下步骤:
S2.1提取梅尔倒谱参数特征;
S2.2提取基频变化轨迹特征;
本实施例中,所述步骤S2.1还包括如下步骤:
S2.11将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换并得到其频谱;
S2.12求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中是叠加的。因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱x'(k);
S2.13将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,一般L取12~16个左右。MFCC系数为
S2.14将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。
本实施例中,所述步骤S3还包括如下步骤:
利用梅尔倒谱参数特征比较方式以及基音变化轨迹特征比较方式对标准语音和待评语音的特征参数进行比较。
本实施例中,所述利用梅尔倒谱参数特征比较方式包括:
(1)假设参考标准语音的MFCC特征向量为M1=[m1(1),m1(2),…,m1(T)],(T为参考语音的长度);
(2)待评价语音的MFCC特征向量为M2=[m2(1),m2(2),…,m2(S)],(S为待评价语音的长度);
(3)使用改进的DTW算法,得到一条误差最小的对齐路径和对应的DTW距离;
(4)该距离是待评价的输入语音与参考标准语音的MFCC特征参数的比较结果,反映了两段语音在内容上的发音差别。
本实施例中,所述利用基音变化轨迹特征比较方式包括:
(1)假设参考标准语音的基音特征向量为P1=[p1(1),p1(2),…,p1(R)],其一阶差分向量为PΔ1=[pΔ1(1),pΔ1(2),…,pΔ1(R)](R为参考语音的长度),PΔ1(n)=|p1(n)-p1(n-1)|,n=1,2,…,R,p1(0)=0;
(2)待评价的输入语音的基音特征向量为P2=[p2(1),p2(2),…,p2(T)],其一阶差分向量为PΔ2=[pΔ2(1),pΔ2(2),…,pΔ2(T)](T为待评价语音的长度),PΔ2(n)=|p2(n)-p2(n-1)|,n=1,2,…,T,p2(0)=0;
(3)基于上节得到的DTW最佳对齐路径,在对齐的位置进行基音特征比较;
(4)求取基音的差距dp,与其变化量的差距Δdp,来获得输入语音与参考标准语音的基音的相似度,即:
dp=|p1(n)-p2(n)| (2)
Δdp=|Δp1(n)-Δp2(n)| (3)
其中,ΔpΔi(n)=|pi(n)-pi(n-1)| (4)。
本实施例中,所述步骤S4文本进行单词填充对齐之前所做规定和假设为:
考生作答的答案均是字母字符、数字字符和标点符号字符,不包括图形、图案、图片;
评分时考生答案与标准答案严格匹配,不考虑近义词、同义词或语义问题;
考生得分只与考生答案的答对字符数、漏字字符数和加字字符数有关。
本实施例中,在实际的英语口语考试中录音中,经常会出现考生漏读、重读的问题,针对这种情况,需要特殊处理。所述步骤S4还包括如下步骤:
S4.1获取标准答案A,查看标准答案中是否存在缩略词(如I’m),若存在则将缩略词展开(I am),统计标准答案单词个数N(定冠词、不定冠词、标点符号不计),获取词频(即某一个给定的词语在文件中出现的次数)向量V,标记每个单词的实际位置及单词本身、前向单词和后向单词在向量V中的位置,判断标准答案中是否有重复单词;
S4.2获取考生答案a,查看考生答案中是否存在缩略词(如I’m),若存在则将缩略词展开(I am),统计考生答案单词个数n(定冠词、不定冠词、标点符号不计),将其在标准答案中不存在的单词(即无效单词)补充到向量V的后面形成新的词频向量v,标记有效单词的实际位置及单词本身、前向单词和后向单词在向量v中的位置,判断考生答案中是否有重复单词;
S4.3创建长度为n的数组R用来标记考生答案中重复单词的位置,逐个比较考生答案词频向量v与标准答案词频向量V的单词位置信息,若v中某一单词的前向单词或后向单词在向量中的位置与V中同一单词的前向单词或后向单词在向量中的位置相同,则统计其出现的次数,当单词出现次数大于1时则将该单词实际位置标记为1表示重复,反之与V中同一单词的前向单词和后向单词在向量中的位置都不相同,也将该单词实际位置标记为1表示重复;
S4.4依据标记数组R去掉考生答案中的重复单词,更新考生答案字符串a和考生答案单词个数n;
S4.5比较标准答案和考生答案的单词个数,若是n/N<0.2,或N/n>1.5,则该考生答案判分为0,评分结束;否则继续向下执行步骤S4.6
S4.6设置长度为N的空字符数组B,并初始化为0的两计数器C、D分别统计考生答案中有效单词的个数和无效单词的个数,且设置考生答案中的任一单词与标答中的单词最大比较次数为L;
S4.7将字符串a中的第一个单词a0与字符串A中的第一个单词A0进行比较,若相等,将a0赋值给B0,有效单词个数C加1;若不相等,则继续与标答中单词Aj,(0<j<N)进行比较,直到比较结果相等或比较次数大于L或j=N则比较结束,若比较结果相等,则将a0赋值到Bj,(0<j<N)中,有效单词个数C加1,若比较次数大于L或j=N则无效单词个数D加1;
S4.8循环对字符串a中剩余的单词ai,(0<i<n)与标答A中Aj之后的单词进行比较,直到循环比较结束获得新的字符数组B,有效单词个数C和无效单词个数D;
S4.9比较标准答案和有效单词及无效单词的个数,若是C/N<0.2,或D/N>0.5,则该考生答案判分为0,评分结束;否则继续向下执行步骤S4.10;
S4.10统计R中连续单词的个数,非连续单词则认为是无效单词;
S4.11有效单词个数C与标准答案单词个数N的百分比表示正确率,若考生答案单词个数n减去重复单词个数后长度仍大于标准答案单词个数N则需要先计算标准答案单词个数N与有效单词个数C的差d,然后无效单词D减去d得到长度与标答相同后,无效单词D中仍存在多余的无效单词c,用有效单词个数C减去c的结果与标准答案单词个数N的百分比表示正确率;
语音评分的目的是为了显示这段声音的发音是否正确规范,语调是否符合要求。分数越高,则表明对这段声音的满意度越高,反之,低分数表明这段声音的发音不够准确或没达到满意的要求。评分机制除了把评分参数相互独立的加权组合,还把评分参数之间的相互联系性作为评分的一部分,从一个比较全面的角度去衡量语音的朗读质量。
评价分数可定义为:
scores(P,M,T)=k1P+k2M+k3T+K4PMT (5)
其中k1,k2,k3,k4为各评分参数在评分中的权值,P为基频变化相似度,M为MFCC特征相似度,T为文本相似度。权值的选择可以根据不同的要求或评分的侧重点不同而有所不同。为了使计算机能够更好地模拟语言专家的评分,可以对权值进行训练,找出计算机评分和人工评分的一个最佳映射关系。
本实施例中,所述步骤S5还包括:
评分参数相互独立,并进行加权组合;
或,基于评分参数之间的相互联系性,作为评分的一部分。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参考即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于特征融合的英语口语自动评分方法,其特征在于,方法包括:
S1:输入语音信号和文本;
S2:对输入的语音信号提取特征参数;
S3:利用模式对比的方式对标准语音和待评语音的特征参数进行比较;
S4:利用文本对齐方式对朗读文本和待评语音识别文本进行特征比较;
S4.1获取标准答案A,查看标准答案中是否存在缩略词,若存在则将缩略词展开,统计标准答案单词个数N,获取词频向量V,标记每个单词的实际位置及单词本身、前向单词和后向单词在向量V中的位置,判断标准答案中是否有重复单词;
S4.2获取考生答案a,查看考生答案中是否存在缩略词,若存在则将缩略词展开,统计考生答案单词个数n,将其在标准答案中不存在的单词补充到向量V的后面形成新的词频向量v,标记有效单词的实际位置及单词本身、前向单词和后向单词在向量v中的位置,判断考生答案中是否有重复单词;
S4.3创建长度为n的数组R用来标记考生答案中重复单词的位置,逐个比较考生答案词频向量v与标准答案词频向量V的单词位置信息,若v中某一单词的前向单词或后向单词在向量中的位置与V中同一单词的前向单词或后向单词在向量中的位置相同,则统计其出现的次数,当单词出现次数大于1时则将该单词实际位置标记为1表示重复,反之与V中同一单词的前向单词和后向单词在向量中的位置都不相同,也将该单词实际位置标记为1表示重复;
S4.4依据标记数组R去掉考生答案中的重复单词,更新考生答案字符串a和考生答案单词个数n;
S4.5比较标准答案和考生答案的单词个数,若是n/N<0.2,或N/n>1.5,则该考生答案判分为0,评分结束;否则继续向下执行步骤S4.6;
S4.6设置长度为N的空字符数组B,并初始化为0的两计数器C、D分别统计考生答案中有效单词的个数和无效单词的个数,且设置考生答案中的任一单词与标答中的单词最大比较次数为L;
S4.7将字符串a中的第一个单词a0与字符串A中的第一个单词A0进行比较,若相等,将a0赋值给B0,有效单词个数C加1;若不相等,则继续与标答中单词Aj,(0<j<N)进行比较,直到比较结果相等或比较次数大于L或j=N则比较结束,若比较结果相等,则将a0赋值到Bj,(0<j<N)中,有效单词个数C加1,若比较次数大于L或j=N则无效单词个数D加1;
S4.8循环对字符串a中剩余的单词ai,(0<i<n)与标答A中Aj之后的单词进行比较,直到循环比较结束获得新的字符数组B,有效单词个数C和无效单词个数D;
S4.9比较标准答案和有效单词及无效单词的个数,若是C/N<0.2,或D/N>0.5,则该考生答案判分为0,评分结束;否则继续向下执行步骤S4.10;
S4.10统计R中连续单词的个数,非连续单词则认为是无效单词;
S4.11有效单词个数C与标准答案单词个数N的百分比表示正确率,若考生答案单词个数n减去重复单词个数后长度仍大于标准答案单词个数N则需要先计算标准答案单词个数N与有效单词个数C的差d,然后无效单词D减去d得到长度与标答相同后,无效单词D中仍存在多余的无效单词c,用有效单词个数C减去c的结果与标准答案单词个数N的百分比表示正确率;
S5:评分机制根据特征相似度对语音作出评价。
2.根据权利要求1所述的基于特征融合的英语口语自动评分方法,其特征在于,
所述步骤S1包括如下步骤:
S1.1输入标准语音信号;
S1.2输入标准朗读文本;
S1.3输入英语缩略词及完整形式对照。
3.根据权利要求1所述的基于特征融合的英语口语自动评分方法,其特征在于,所述步骤S2还包括如下步骤:
S2.1提取梅尔倒谱参数特征;
S2.2提取基频变化轨迹特征。
4.根据权利要求3所述的基于特征融合的英语口语自动评分方法,其特征在于,
所述步骤S2.1还包括如下步骤:
S2.11将信号进行分帧,预加重和加汉明窗处理,然后进行短时傅里叶变换并得到其频谱;
S2.12求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中是叠加的;将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱x'(k);
S2.13将每个滤波器的输出取对数,得到相应频带的对数功率谱;并进行反离散余弦变换,得到L个MFCC系数,L取12~16个左右;MFCC系数为
S2.14将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。
5.根据权利要求1所述的基于特征融合的英语口语自动评分方法,其特征在于,
所述步骤S3还包括如下步骤:
利用梅尔倒谱参数特征比较方式以及基音变化轨迹特征比较方式对标准语音和待评语音的特征参数进行比较。
6.根据权利要求5所述的基于特征融合的英语口语自动评分方法,其特征在于,
所述利用梅尔倒谱参数特征比较方式包括:
(1)假设参考标准语音的MFCC特征向量为M1=[m1(1),m1(2),…,m1(T)],T为参考语音的长度;
(2)待评价语音的MFCC特征向量为M2=[m2(1),m2(2),…,m2(S)],S为待评价语音的长度;
(3)使用改进的DTW算法,得到一条误差最小的对齐路径和对应的DTW距离;
(4)该距离是待评价的输入语音与参考标准语音的MFCC特征参数的比较结果,反映了两段语音在内容上的发音差别。
7.根据权利要求5所述的基于特征融合的英语口语自动评分方法,其特征在于,
所述利用基音变化轨迹特征比较方式包括:
(1)假设参考标准语音的基音特征向量为P1=[p1(1),p1(2),…,p1(R)],其一阶差分向量为PΔ1=[pΔ1(1),pΔ1(2),…,pΔ1(R)]R为参考语音的长度,PΔ1(n)=|p1(n)-p1(n-1)|,n=1,2,…,R,p1(0)=0;
(2)待评价的输入语音的基音特征向量为P2=[p2(1),p2(2),…,p2(T)],其一阶差分向量为PΔ2=[pΔ2(1),pΔ2(2),…,pΔ2(T)]T为待评价语音的长度,PΔ2(n)=|p2(n)-p2(n-1)|,n=1,2,…,T,p2(0)=0;
(3)基于上节得到的DTW最佳对齐路径,在对齐的位置进行基音特征比较;
(4)求取基音的差距dp,与其变化量的差距Δdp,来获得输入语音与参考标准语音的基音的相似度,即:
dp=|p1(n)-p2(n)| (2)
Δdp=|Δp1(n)-Δp2(n)| (3)
其中,Δpi(n)=|pi(n)-pi(n-1)| (4)。
8.根据权利要求1所述的基于特征融合的英语口语自动评分方法,其特征在于,
所述步骤S4还包括:
进行规定和假设,方式包括:
考生作答的答案均是字母字符、数字字符和标点符号字符,不包括图形、图案、图片;
评分时考生答案与标准答案严格匹配,不考虑近义词、同义词或语义问题;
考生得分只与考生答案的答对字符数、漏字字符数和加字字符数有关。
9.根据权利要求1所述的基于特征融合的英语口语自动评分方法,其特征在于,
所述步骤S5还包括:
评分参数相互独立,并进行加权组合;
或,基于评分参数之间的相互联系性,作为评分的一部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611183935.3A CN106847260B (zh) | 2016-12-20 | 2016-12-20 | 一种基于特征融合的英语口语自动评分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611183935.3A CN106847260B (zh) | 2016-12-20 | 2016-12-20 | 一种基于特征融合的英语口语自动评分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106847260A CN106847260A (zh) | 2017-06-13 |
CN106847260B true CN106847260B (zh) | 2020-02-21 |
Family
ID=59140760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611183935.3A Active CN106847260B (zh) | 2016-12-20 | 2016-12-20 | 一种基于特征融合的英语口语自动评分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106847260B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945788B (zh) * | 2017-11-27 | 2021-11-02 | 桂林电子科技大学 | 一种文本相关的英语口语发音错误检测与质量评分方法 |
CN109493853B (zh) * | 2018-09-30 | 2022-03-22 | 福建星网视易信息系统有限公司 | 一种音频相似度的确定方法及终端 |
CN109215632B (zh) * | 2018-09-30 | 2021-10-08 | 科大讯飞股份有限公司 | 一种语音评测方法、装置、设备及可读存储介质 |
CN109326162A (zh) * | 2018-11-16 | 2019-02-12 | 深圳信息职业技术学院 | 一种口语练习自动评测方法及装置 |
CN109410984B (zh) * | 2018-12-20 | 2022-12-27 | 广东小天才科技有限公司 | 一种朗读评分的方法及电子设备 |
CN109740515B (zh) * | 2018-12-29 | 2021-08-17 | 科大讯飞股份有限公司 | 一种评阅方法及装置 |
CN110164447B (zh) * | 2019-04-03 | 2021-07-27 | 苏州驰声信息科技有限公司 | 一种口语评分方法及装置 |
CN110136721A (zh) * | 2019-04-09 | 2019-08-16 | 北京大米科技有限公司 | 一种评分生成方法、装置、存储介质及电子设备 |
CN110087129B (zh) * | 2019-04-18 | 2022-07-01 | 平安科技(深圳)有限公司 | 视频节目配音效果评估方法、装置及计算机可读存储介质 |
CN110797010A (zh) * | 2019-10-31 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答评分方法、装置、设备及存储介质 |
CN112287083A (zh) * | 2020-10-29 | 2021-01-29 | 北京乐学帮网络技术有限公司 | 一种评阅方法、装置、计算机设备及存储装置 |
CN112951274A (zh) * | 2021-02-07 | 2021-06-11 | 脸萌有限公司 | 语音相似度确定方法及设备、程序产品 |
CN113506585A (zh) * | 2021-09-09 | 2021-10-15 | 深圳市一号互联科技有限公司 | 一种语音通话的质量评估方法及系统 |
CN115798519B (zh) * | 2023-02-10 | 2023-05-05 | 山东山大鸥玛软件股份有限公司 | 一种英语多题型口语发音评估方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1316083A (zh) * | 1999-05-13 | 2001-10-03 | 奥迪纳特公司 | 使用语音识别模型的自动的语言评估 |
CN1750121A (zh) * | 2004-09-16 | 2006-03-22 | 北京中科信利技术有限公司 | 一种基于语音识别及语音分析的发音评估方法 |
CN1815522A (zh) * | 2006-02-28 | 2006-08-09 | 安徽中科大讯飞信息科技有限公司 | 运用计算机进行普通话水平测试和指导学习的方法 |
CN201993924U (zh) * | 2011-01-26 | 2011-09-28 | 深圳市高德讯科技有限公司 | 一种点读教材学习机 |
CN104732968A (zh) * | 2013-12-20 | 2015-06-24 | 携程计算机技术(上海)有限公司 | 语音操控系统的评价系统及方法 |
CN105741831A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于语法分析的口语评测方法和系统 |
-
2016
- 2016-12-20 CN CN201611183935.3A patent/CN106847260B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1316083A (zh) * | 1999-05-13 | 2001-10-03 | 奥迪纳特公司 | 使用语音识别模型的自动的语言评估 |
CN1750121A (zh) * | 2004-09-16 | 2006-03-22 | 北京中科信利技术有限公司 | 一种基于语音识别及语音分析的发音评估方法 |
CN1815522A (zh) * | 2006-02-28 | 2006-08-09 | 安徽中科大讯飞信息科技有限公司 | 运用计算机进行普通话水平测试和指导学习的方法 |
CN201993924U (zh) * | 2011-01-26 | 2011-09-28 | 深圳市高德讯科技有限公司 | 一种点读教材学习机 |
CN104732968A (zh) * | 2013-12-20 | 2015-06-24 | 携程计算机技术(上海)有限公司 | 语音操控系统的评价系统及方法 |
CN105741831A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于语法分析的口语评测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106847260A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106847260B (zh) | 一种基于特征融合的英语口语自动评分方法 | |
CN104200804B (zh) | 一种面向人机交互的多类信息耦合的情感识别方法 | |
CN105845134B (zh) | 自由朗读题型的口语评测方法及系统 | |
CN102800314B (zh) | 具有反馈指导的英语句子识别与评价系统及其方法 | |
CN103617799B (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
CN101751919B (zh) | 一种汉语口语重音自动检测方法 | |
CN109272992A (zh) | 一种口语测评方法、装置及一种生成口语测评模型的装置 | |
CN108766415B (zh) | 一种语音测评方法 | |
CN103594087B (zh) | 提高口语评测性能的方法及系统 | |
CN104050965A (zh) | 具有情感识别功能的英语语音发音质量评价系统及方法 | |
CN101246685A (zh) | 计算机辅助语言学习系统中的发音质量评价方法 | |
CN103366759A (zh) | 语音数据的测评方法和装置 | |
CN107886968B (zh) | 语音评测方法及系统 | |
CN106875943A (zh) | 一种用于大数据分析的语音识别系统 | |
CN112614510B (zh) | 一种音频质量评估方法及装置 | |
CN103366735A (zh) | 语音数据的映射方法和装置 | |
CN109300339A (zh) | 一种英语口语的练习方法及系统 | |
CN112802456A (zh) | 一种语音评测打分方法、装置、电子设备及存储介质 | |
CN113111151A (zh) | 一种基于智能语音问答的跨模态抑郁症检测方法 | |
CN113205729A (zh) | 一种面向外国留学生的演讲评测方法、装置及系统 | |
Wang | Detecting pronunciation errors in spoken English tests based on multifeature fusion algorithm | |
CN113782032A (zh) | 一种声纹识别方法及相关装置 | |
CN202758611U (zh) | 语音数据的测评装置 | |
Khanal et al. | Mispronunciation detection and diagnosis for Mandarin accented English speech | |
CN111341346A (zh) | 融合深度语言生成模型的语言表达能力评价方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |