CN111653292A - 一种中国学生英语朗读质量分析方法 - Google Patents

一种中国学生英语朗读质量分析方法 Download PDF

Info

Publication number
CN111653292A
CN111653292A CN202010573319.9A CN202010573319A CN111653292A CN 111653292 A CN111653292 A CN 111653292A CN 202010573319 A CN202010573319 A CN 202010573319A CN 111653292 A CN111653292 A CN 111653292A
Authority
CN
China
Prior art keywords
english reading
pronunciation
english
speech
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010573319.9A
Other languages
English (en)
Other versions
CN111653292B (zh
Inventor
黄桂敏
朱洪涛
李俊
周娅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010573319.9A priority Critical patent/CN111653292B/zh
Publication of CN111653292A publication Critical patent/CN111653292A/zh
Application granted granted Critical
Publication of CN111653292B publication Critical patent/CN111653292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种中国学生英语朗读质量分析方法,该方法是一个由顺序连接的英语朗读发音预处理模块、英语朗读发音错误检测模块、英语朗读发音质量分析模块、英语朗读发音质量输出模块组成的分析模型。一段英语朗读语音通过该分析模型和分析方法处理后,最后能够得到这段英语朗读语音的质量分析结果。本发明分析方法解决了中国学生英语朗读发音的发音质量自动分析问题,其分析结果比传统的中国学生英语朗读发音的发音质量分析方法的分析结果更好。

Description

一种中国学生英语朗读质量分析方法
技术领域
本发明涉及语音识别、信号处理和机器学习技术,具体是一种中国学生英语朗读质量分析方法。
背景技术
英语朗读质量分析是让计算机模拟英语教师对学生英语发音进行分析的过程,主要包括英语发音错误检测和英语发音质量评测两方面。其中,英语发音错误检测是检查出学生英语发音中的错误,并就错误反馈纠错建议;英语发音质量评测是以评分方式来评估学生英语发音是否标准。现有的英语朗读质量分析方法主要建立在统计语音识别框架基础上,利用提取出的对数后验概率特征进行英语朗读质量分析。但是,这种英语朗读质量分析方法对度量特征性能的依赖性较大,当度量特征覆盖的维度较少时难以全面分析学生的英语朗读发音质量。针对上述问题,本发明提出了一种中国学生英语朗读质量分析方法,解决了现有的英语朗读质量分析方法的上述问题。
发明内容
本发明的一种中国学生英语朗读质量分析方法的总体处理流程如图1所示,其中包括英语朗读发音预处理模块、英语朗读发音错误检测模块、英语朗读发音质量分析模块和英语朗读发音质量输出模块。
其中的英语朗读发音预处理模块的处理流程是:第一,输入英语朗读语音,对英语朗读语音进行预加重、分帧、加窗处理;第二,对预加重、分帧、加窗处理后的英语朗读语音进行快速傅里叶变换、梅尔滤波、取对数、离散余弦变换,得到英语朗读语音的梅尔频率倒谱系数;第三,对英语朗读语音的梅尔频率倒谱系数进行一阶和二阶时域差分,得到一阶和二阶差分系数,并将梅尔频率倒谱系数及其一阶和二阶差分系数拼接,得到英语朗读语音的声学特征,并输出英语朗读语音的声学特征。
其中的英语朗读发音错误检测模块的处理流程是:第一,输入英语朗读语音的声学特征和英语朗读文本;第二,根据英语朗读文本搭建搜索网络,并使用识别器在搭建好的搜索网络中将英语朗读语音的声学特征和英语朗读文本进行自动对齐切分,得到英语朗读语音的音素边界信息;第三,使用英语朗读语音的音素边界信息,根据公式计算英语朗读语音单词发音标准度,并和单词预设阀值进行比较,标记发音错误单词;第四,根据公式计算英语朗读语音音素发音标准度,遍历发音错误单词中的所有音素,并和音素预设阀值进行比较,标记发音错误单词中的发音错误音素;第五,将英语朗读语音中的发音错误单词及其对应的发音错误音素拼接,得到英语朗读发音错误检测结果,并输出英语朗读发音错误检测结果。
其中的英语朗读发音质量分析模块的处理流程是:第一,输入英语朗读语音音素发音标准度和标准英语朗读语音,基于自动对齐切分得到的英语朗读语音音素边界信息,根据公式计算英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值;第二,将计算得到的英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值输入到预先训练好的支持向量回归评分模型中,输出英语朗读发音质量得分,并输出英语朗读发音质量分析结果。
其中的英语朗读发音质量输出模块的处理流程是:第一,输入英语朗读发音错误检测模块的结果、英语朗读发音质量分析模块的结果;第二,根据英语朗读发音错误检测模块的结果、英语朗读发音质量分析模块的结果生成英语朗读发音质量评语。
本发明的计算公式定义如下:
1.英语语音帧观测矢量与音素似然度计算公式
英语语音帧观测矢量与音素似然度是指英语语音帧观测矢量对应的声学特征与音素对应的声学模型之间的相似程度,它的计算公式如下:
英语语音帧观测矢量与音素似然度=状态转移概率×观测概率 (1)
在计算公式(1)中,状态转移概率是指音素对应的声学模型中不同状态之间相互转移的概率;观测概率是指音素对应的声学模型处于某一状态时生成语音帧观测矢量的概率。
2.英语朗读语音音素发音标准度计算公式
英语朗读语音音素发音标准度是指英语朗读语音中当前音素发音的标准程度,它的计算公式如下:
Figure BDA0002550164880000021
在计算公式(2)中,s=1,2,…,M,s是英语朗读语音中的第s个音素,M是声学模型中的音素总数;t=t0,…,t1,t是英语朗读语音中第s个音素所处的时刻,t0是英语朗读语音中第s个音素的起始时刻,t1是英语朗读语音中第s个音素的结束时刻;英语语音帧观测矢量t是指英语朗读语音中第s个音素在时刻t对应的观测矢量;英语语音帧观测矢量t与音素s似然度由计算公式(1)计算得出。
3.英语朗读语音单词发音标准度计算公式
英语朗读语音单词发音标准度是指英语朗读语音中当前单词发音的标准程度,它的计算公式如下:
Figure BDA0002550164880000022
在计算公式(3)中,i=1,2,…,m,i是英语朗读语音当前单词中每个音素对应的序号,m是英语朗读语音中当前单词包括的音素总数;英语朗读语音音素i发音标准度由计算公式(2)计算得出。
4.英语朗读语音整体发音标准度计算公式
英语朗读语音整体发音标准度是指英语朗读语音中所有音素发音标准度的平均值,它的计算公式如下:
Figure BDA0002550164880000031
在计算公式(4)中,j=1,2,…,n,j是英语朗读语音中每个音素对应的序号,n是英语朗读语音中的音素总数;英语朗读语音音素j发音标准度由计算公式(2)计算得出。
5.英语朗读语速计算公式
英语朗读语速是指英语朗读语音中音素总数和英语朗读语音总时长的比值,它的计算公式如下:
Figure BDA0002550164880000032
6.英语朗读发音速度计算公式
英语朗读发音速度是指英语朗读语音中音素总数和不包括停顿总时长在内的英语朗读语音总时长的比值,它的计算公式如下:
Figure BDA0002550164880000033
7.英语朗读发音时长比值计算公式
英语朗读发音时长比值是指不包括停顿总时长在内的英语朗读语音总时长和英语朗读语音总时长的比值,它的计算公式如下:
Figure BDA0002550164880000034
8.英语朗读平均语流时长计算公式
英语朗读平均语流时长是指英语朗读语音中音素总数和英语朗读语音中停顿总次数的比值,它的计算公式如下:
Figure BDA0002550164880000035
9.英语朗读平均停顿时长计算公式
英语朗读平均停顿时长是指英语朗读语音中停顿总时长和英语朗读语音中停顿总次数的比值,它的计算公式如下:
Figure BDA0002550164880000036
10.英语音素标准发音时长均值计算公式
英语音素标准发音时长均值是指标准英语朗读语音中所有音素样本的平均发音时长,它的计算公式如下:
Figure BDA0002550164880000037
在计算公式(10)中,k=1,2,…,p,k是标准英语朗读语音中每个音素样本对应的序号,p是标准英语朗读语音中的音素样本总数;英语音素k标准发音时长是指标准英语朗读语音中第k个音素样本的发音时长。
11.英语单词标准发音时长计算公式
英语单词标准发音时长是指标准英语朗读语音中单词对应的发音时长,它的计算公式如下:
Figure BDA0002550164880000041
在计算公式(11)中,q=1,2,…,c,q是标准英语朗读语音中当前单词的每个音素对应的序号,c是标准英语朗读语音中当前单词包括的音素总数;英语音素q标准发音时长均值由计算公式(10)计算得出。
12.英语朗读单词发音时长比值计算公式
英语朗读单词发音时长比值衡量了英语朗读语音中所有单词的发音时长与标准英语朗读语音中单词发音时长之间的偏离程度,它的计算公式如下:
Figure BDA0002550164880000042
在计算公式(12)中,w=1,2,…,d,w是英语朗读语音中每个单词对应的序号,d是英语朗读语音中的单词总数;e是指自然对数的底数;英语单词w发音时长是指英语朗读语音中第w个英语单词的发音时长;英语单词w标准发音时长由计算公式(11)计算得出。
本发明方法的英语朗读发音预处理模块、英语朗读发音错误检测模块、英语朗读发音质量分析模块和英语朗读发音质量输出模块的处理流程图如下所述。
如图2所示,所述的英语朗读发音预处理模块处理流程如下:
P201开始;
P202读入英语朗读语音;
P203对英语朗读语音进行预加重;
P204对预加重后的英语朗读语音进行分帧;
P205使用汉明窗对分帧后的英语朗读语音进行加窗;
P206对加窗后的每帧英语朗读语音进行快速傅里叶变换,转换到线性频域并计算得到每帧英语朗读语音的功率谱;
P207将每帧英语朗读语音的功率谱通过由一系列三角带通滤波器构成的梅尔滤波器组,得到梅尔频域的功率谱;
P208对梅尔频域的功率谱取对数;
P209对取对数后的梅尔频域的功率谱进行离散余弦变换,得到梅尔频率倒谱系数;
P210对梅尔频率倒谱系数进行一阶和二阶时域差分,得到一阶和二阶差分系数;
P211将梅尔频率倒谱系数及其一阶和二阶差分系数拼接,得到每帧英语朗读语音的声学特征;
P212输出英语朗读语音的声学特征;
P213结束。
如图3所示,所述的英语朗读发音错误检测模块处理流程如下:
P301开始;
P302读入英语朗读语音的声学特征;
P303读入英语朗读文本;
P304加载识别器的声学模型、语言模型和发音词典,并根据英语朗读文本搭建搜索网络;
P305利用识别器在搭建好的搜索网络中对英语朗读语音的声学特征和英语朗读文本进行自动对齐切分,得到英语朗读语音的音素边界信息、英语朗读语音的单词集合和英语朗读语音的音素集合;
P306将英语朗读语音的单词集合和英语朗读语音的音素集合进行匹配对齐,使得英语朗读语音的单词集合中的每一个单词在英语朗读语音的音素集合中都有与之对应的音素序列;
P307使用英语朗读语音的音素边界信息和英语朗读语音的音素集合,根据公式(1)与公式(2)计算出英语朗读语音音素发音标准度并输出;
P308使用英语朗读语音的音素边界信息和英语朗读语音的单词集合,根据公式(3)计算出英语朗读语音单词发音标准度;
P309遍历英语朗读语音的单词集合中的所有单词;
P310判断英语朗读语音当前单词发音标准度是否小于单词预设阀值,如果是则转P311,否则转P309;
P311将当前单词标记为发音错误;
P312遍历当前发音错误单词在英语朗读语音的音素集合中对应的音素序列中的所有音素;
P313判断英语朗读语音当前音素发音标准度是否小于音素预设阀值,如果是则转P314,否则转P312;
P314将当前音素标记为发音错误;
P315判断当前发音错误单词中的所有音素是否已经遍历完成,如果是则转P316,否则转P312;
P316判断英语朗读语音的单词集合中的所有单词是否已经遍历完成,如果是则转P317,否则转P309;
P317将英语朗读语音中标记为发音错误的单词及发音错误单词中标记为发音错误的音素拼接,得到英语朗读发音错误检测结果;
P318输出英语朗读发音错误检测结果;
P319结束。
如图4所示,所述的英语朗读发音质量分析模块处理流程如下:
P401开始;
P402读入标准英语朗读语音;
P403读入英语朗读语音音素发音标准度;
P404将英语朗读语音音素发音标准度代入英语朗读语音整体发音标准度计算公式(4)计算英语朗读语音整体发音标准度;
P405根据公式(5)计算出英语朗读语速;
P406根据公式(6)计算出英语朗读发音速度;
P407根据公式(7)计算出英语朗读发音时长比值;
P408根据公式(8)计算出英语朗读平均语流时长;
P409根据公式(9)计算出英语朗读平均停顿时长;
P410使用标准英语朗读语音,根据公式(10)计算出英语音素标准发音时长均值;
P411将英语音素标准发音时长均值代入公式(11)计算出英语单词标准发音时长;
P412根据公式(12)计算出英语朗读单词发音时长比值;
P413将计算得到的英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值输入到预先训练好的支持向量回归评分模型中,输出英语朗读发音质量得分;
P414将英语朗读发音质量得分作为英语朗读发音质量分析结果并输出;
P415结束。
如图5所示,所述的英语朗读发音质量输出模块处理流程如下:
P501开始;
P502读入英语朗读发音错误检测模块的结果;
P503读入英语朗读发音质量分析模块的结果;
P504根据英语朗读发音错误检测模块的结果和英语朗读发音质量分析模块的结果,生成英语朗读发音质量评语;
P505结束。
附图说明
图1是本发明方法的总体处理流程图;
图2是本发明方法的英语朗读发音预处理模块处理流程图;
图3是本发明方法的英语朗读发音错误检测模块处理流程图;
图4是本发明方法的英语朗读发音质量分析模块处理流程图;
图5是本发明方法的英语朗读发音质量输出模块处理流程图。
具体实施方式
本发明的一种中国学生英语朗读质量分析方法的具体实施方式分为如下四个步骤。
第一步骤:执行“英语朗读发音预处理模块”
本发明实施方式中的英语朗读文本取材于“The North Wind and the Sun”。
英语朗读文本如下:
The north wind and the sun were disputing which was the stronger whena traveller came along wrapped in a warm cloak.They agreed that the one whofirst succeeded in making the traveller take his cloak off should beconsidered stronger than the other.Then the north wind blew as hard as hecould,but the more he blew the more closely did the traveller fold his cloakaround him;and at last the north wind gave up the attempt.Then the sun shoneout warmly,and immediately the traveller took off his cloak.And so the northwind was obliged to confess that the sun was the stronger of the two.
中国学生按照英语朗读文本进行朗读,保存为英语朗读语音,英语朗读发音预处理模块是对英语朗读语音进行预处理,输出英语朗读语音对应的声学特征,由于英语朗读语音的声学特征是以语音帧为最小单位输出的,而英语朗读语音对应的语音帧较多,这里只展示部分语音帧的声学特征如下:
第一帧英语朗读语音的声学特征:
-4.5306187 -0.033346508 0.13914044 -0.24061018 0.06609621 -0.10716413-0.35173824 -0.12383762 -0.14573036 -0.034903053 0.038313203 -0.00529749370.22997668 0.8587342 1.5623965 0.6544059 0.74832684 0.33850008 -0.2988346 -0.0023785469 -0.29794854 -0.31130028 0.102206685 0.17450549 -0.049738947 -0.10712357 1.3861265 0.86969274 0.39532742 0.6267833 -0.15680586 -0.1132751260.217953 -0.20184806 -0.60130805 0.04850387 -0.038344555 0.5238987 -0.0457931
第二帧英语朗读语音的声学特征:
-4.567439 0.5247453 0.43133062 0.13487186 0.3232072 0.034722246 -0.25652137 -0.16921622 -0.19932735 -0.20539238 -0.07424929 -0.339888420.08142755 0.82407445 1.5168111 0.5345255 0.9741101 0.36923504 0.020419080.23964916 -0.21374424 -0.53243697 -0.010808364 0.07590704 0.16992806 -0.09859829 -0.17426863 -0.27886432 -0.11560384 0.008854469 -0.381081640.08017427 0.40727744 0.35329565 -0.26864046 -0.22678539 -0.26454714 -0.023738984 -0.18800043
……
最后一帧英语朗读语音的声学特征:
-0.9583953 -0.066414386 0.8386799 0.13767792 0.42359883 0.04095115 -0.20584118 -0.26350206 -0.028271724 0.0040584635 0.0912805 -0.255382570.011318008 -2.7647226 -0.88480675 0.87608975 -0.34798643 0.51126593 -0.030278053 -0.12710334 0.1451123 0.15186594 0.18029599 -0.0146404350.22890307 -0.07180862 1.2732649 0.5122964 -0.65612406 0.16422561 -0.54373795-0.05995856 0.035951715 -0.1848074 -0.06839472 -0.00572948 0.20084415 -0.06502374 0.10896335
第二步骤:执行“英语朗读发音错误检测模块”
英语朗读发音错误检测模块利用第一步骤生成的英语朗读语音的声学特征,在根据英语朗读文本搭建好的搜索网络中对英语朗读语音的声学特征和英语朗读文本进行自动对齐切分,得到英语朗读语音的音素边界信息、英语朗读语音的单词集合和英语朗读语音的音素集合,在自动对齐切分结果中将英语朗读语音的单词集合和英语朗读语音的音素集合匹配对齐的结果如下:
the[DH,AH]north[N,AO,R,TH]wind[W,AY,N,D]and[AH,N,D]the[DH,AH]sun[S,AH,N]were[W,ER]disputing[D,IH,S,P,Y,UW,T,IH,NG]which[W,IH,CH]was[W,AA,Z]the[DH,AH]stronger[S,T,R,AO,NG,G,ER]when[HH,W,EH,N]a[AH]traveller[T,R,AE,V,AH,L,ER]came[K,EY,M]along[AH,L,AO,NG]wrapped[R,AE,P,T]in[IH,N]a[EY]warm[W,AO,R,M]cloak[K,L,OW,K]agreed[AH,G,R,IY,D]that[DH,AE,T]the[DH,AH]one[W,AH,N]who[HH,UW]first[F,ER,S,T]succeeded[S,AH,K,S,IY,D,IH,D]in[IH,N]making[M,EY,K,IH,NG]the[DH,AH]traveller[T,R,AE,V,AH,L,ER]take[T,EY,K]his[HH,IH,Z]cloak[K,L,OW,K]off[AO,F]should[SH,UH,D]be[B,IY]considered[K,AH,N,S,IH,D,ER,D]stronger[S,T,R,AO,NG,G,ER]than[DH,AE,N]the[DH,AH]other[AH,DH,ER]then[DH,EH,N]the[DH,IY]north[N,AO,R,TH]wind[W,AY,N,D]blew[B,L,UW]as[AE,Z]hard[HH,AA,R,D]as[AE,Z]he[HH,IY]could[K,UH,D]but[B,AH,T]the[DH,AH]more[M,AO,R]he[HH,IY]blew[B,L,UW]the[DH,AH]more[M,AO,R]closely[K,L,OW,S,L,IY]did[D,IH,D]the[DH,AH]traveller[T,R,AE,V,AH,L,ER]fold[F,OW,L,D]his[HH,IH,Z]cloak[K,L,OW,K]around[ER,AW,N,D]him[HH,IH,M]and[AE,N,D]at[AE,T]last[L,AE,S,T]the[DH,AH]north[N,AO,R,TH]wind[W,AY,N,D]gave[G,EY,V]up[AH,P]the[DH,AH]attempt[AH,T,EH,M,P,T]then[DH,EH,N]the[DH,AH]sun[S,AH,N]shone[SH,OW,N]shone[SH,OW,N]out[AW,T]warmly[W,AO,R,M,L,IY]and[AE,N,D]immediately[IH,M,IY,D,IY,AH,T,L,IY]the[DH,AH]traveller[T,R,AE,V,AH,L,ER]took[T,UH,K]off[AO,F]his[HH,IH,Z]cloak[K,L,OW,K]and[AE,N,D]so[S,OW]the[DH,AH]north[N,AO,R,TH]wind[W,AY,N,D]was[W,AA,Z]obliged[AH,B,L,AY,JH,D]to[T,UW]confess[K,AH,N,F,EH,S]that[DH,AE,T]the[DH,AH]sun[S,AH,N]was[W,AA,Z]the[DH,AH]stronger[S,T,R,AO,NG,G,ER]of[AH,V]the[DH,AH]two[T,UW]
使用英语朗读语音的音素边界信息、英语朗读语音的单词集合和英语朗读语音的音素集合,根据公式(1)、公式(2)计算得到英语朗读语音音素发音标准度,根据公式(3)进一步计算得到英语朗读语音单词发音标准度,之后遍历英语朗读语音的单词集合中的所有单词,标记发音错误单词,并遍历发音错误单词中的所有音素,标记发音错误单词中的发音错误音素,最后英语朗读发音错误检测模块的结果如下:
The north wind and the sun were disputing which was the stronger whena traveller came along wrapped in a warm cloak.
发音错误单词:north
Figure BDA0002550164880000091
sun
Figure BDA0002550164880000092
They agreed that the one who first succeeded in making the travellertake his cloak off should be considered stronger than the other.
发音错误单词:that
Figure BDA0002550164880000093
the
Figure BDA0002550164880000094
traveller
Figure BDA0002550164880000095
than
Figure BDA00025501648800000922
Figure BDA00025501648800000923
Then the north wind blew as hard as he could,but the more he blew themore closely did the traveller fold his cloak around him;and at last thenorth wind gave up the attempt.
发音错误单词:the
Figure BDA0002550164880000096
north
Figure BDA0002550164880000097
more
Figure BDA0002550164880000098
the
Figure BDA0002550164880000099
the
Figure BDA00025501648800000911
Figure BDA00025501648800000910
at
Figure BDA00025501648800000912
north
Figure BDA00025501648800000913
gave
Figure BDA00025501648800000914
up
Figure BDA00025501648800000915
Then the sun shone out warmly,and immediately the traveller took offhis cloak.
发音错误单词:the
Figure BDA00025501648800000916
out
Figure BDA00025501648800000917
immediately
Figure BDA00025501648800000918
traveller
Figure BDA00025501648800000919
And so the north wind was obliged to confess that the sun was thestronger of the two.
发音错误单词:north
Figure BDA00025501648800000920
the
Figure BDA00025501648800000921
第三步骤:执行“英语朗读发音质量分析模块”
英语朗读发音质量分析模块利用第二步骤生成的英语朗读语音的音素边界信息,根据公式计算得到各评分特征,包括英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值,结果如下:
英语朗读语音整体发音标准度:-19525.668
英语朗读语速:9.18
英语朗读发音速度:10.568
英语朗读发音时长比值:0.869
英语朗读平均语流时长:42.778
英语朗读平均停顿时长:0.36
英语朗读单词发音时长比值:-0.023
将上述评分特征输入到支持向量回归评分模型中,得到英语朗读发音质量评分,最后英语朗读发音质量分析模块的结果如下:
英语朗读发音质量评分:64.8。
第四步骤:执行“英语朗读发音质量输出模块”
英语朗读发音质量输出模块是根据第二步骤输出的英语朗读发音错误检测模块的结果、第三步骤输出的英语朗读发音质量分析模块的结果生成英语朗读发音质量评语。本实施方式的英语朗读质量分析结果生成格式如下所示:
英语朗读发音质量评语:发音基本标准,发音错误单词较少,朗读时偶尔出现停顿,朗读内容较为完整。

Claims (7)

1.一种中国学生英语朗读质量分析方法,其特征是:包括一个由顺序连接的英语朗读发音预处理模块、英语朗读发音错误检测模块、英语朗读发音质量分析模块、英语朗读发音质量输出模块组成的分析模型,其分析方法包括如下步骤:
(1)英语朗读发音预处理模块输入英语朗读语音,对英语朗读语音进行预加重、分帧、加窗处理;对预加重、分帧、加窗处理后的英语朗读语音进行快速傅里叶变换、梅尔滤波、取对数、离散余弦变换,得到英语朗读语音的梅尔频率倒谱系数;对英语朗读语音的梅尔频率倒谱系数进行一阶和二阶时域差分,得到一阶和二阶差分系数,并将梅尔频率倒谱系数及其一阶和二阶差分系数拼接,得到英语朗读语音的声学特征,并输出英语朗读语音的声学特征;
(2)英语朗读发音错误检测模块输入英语朗读语音的声学特征和英语朗读文本;根据英语朗读文本搭建搜索网络,并使用识别器在搭建好的搜索网络中将英语朗读语音的声学特征和英语朗读文本进行自动对齐切分,得到英语朗读语音的音素边界信息;使用英语朗读语音的音素边界信息,根据公式计算英语朗读语音单词发音标准度,并和单词预设阀值进行比较,标记发音错误单词;根据公式计算英语朗读语音音素发音标准度,遍历发音错误单词中的所有音素,并和音素预设阀值进行比较,标记发音错误单词中的发音错误音素;将英语朗读语音中的发音错误单词及其对应的发音错误音素拼接,得到英语朗读发音错误检测结果,并输出英语朗读发音错误检测结果;
(3)英语朗读发音质量分析模块输入英语朗读语音音素发音标准度和标准英语朗读语音,基于自动对齐切分得到的英语朗读语音音素边界信息,根据公式计算英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值;将计算得到的英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值输入到预先训练好的支持向量回归评分模型中,输出英语朗读发音质量得分,并输出英语朗读发音质量分析结果;
(4)英语朗读发音质量输出模块输入英语朗读发音错误检测模块的结果、英语朗读发音质量分析模块的结果;根据英语朗读发音错误检测模块的结果、英语朗读发音质量分析模块的结果生成英语朗读发音质量评语。
2.根据权利要求1所述的质量分析方法,其特征是:所述的英语朗读发音预处理模块处理步骤如下:
P201开始;
P202读入英语朗读语音;
P203对英语朗读语音进行预加重;
P204对预加重后的英语朗读语音进行分帧;
P205使用汉明窗对分帧后的英语朗读语音进行加窗;
P206对加窗后的每帧英语朗读语音进行快速傅里叶变换,转换到线性频域并计算得到每帧英语朗读语音的功率谱;
P207将每帧英语朗读语音的功率谱通过由一系列三角带通滤波器构成的梅尔滤波器组,得到梅尔频域的功率谱;
P208对梅尔频域的功率谱取对数;
P209对取对数后的梅尔频域的功率谱进行离散余弦变换,得到梅尔频率倒谱系数;
P210对梅尔频率倒谱系数进行一阶和二阶时域差分,得到一阶和二阶差分系数;
P211将梅尔频率倒谱系数及其一阶和二阶差分系数拼接,得到每帧英语朗读语音的声学特征;
P212输出英语朗读语音的声学特征;
P213结束。
3.根据权利要求1所述的质量分析方法,其特征是:所述的英语朗读发音错误检测模块的计算公式定义如下:
(1)英语语音帧观测矢量与音素似然度计算公式
英语语音帧观测矢量与音素似然度是指英语语音帧观测矢量对应的声学特征与音素对应的声学模型之间的相似程度,它的计算公式如下:
英语语音帧观测矢量与音素似然度=状态转移概率×观测概率 (1)
在计算公式(1)中,状态转移概率是指音素对应的声学模型中不同状态之间相互转移的概率;观测概率是指音素对应的声学模型处于某一状态时生成语音帧观测矢量的概率;
(2)英语朗读语音音素发音标准度计算公式
英语朗读语音音素发音标准度是指英语朗读语音中当前音素发音的标准程度,它的计算公式如下:
Figure FDA0002550164870000021
在计算公式(2)中,s=1,2,…,M,s是英语朗读语音中的第s个音素,M是声学模型中的音素总数;t=t0,…,t1,t是英语朗读语音中第s个音素所处的时刻,t0是英语朗读语音中第s个音素的起始时刻,t1是英语朗读语音中第s个音素的结束时刻;英语语音帧观测矢量t是指英语朗读语音中第s个音素在时刻t对应的观测矢量;英语语音帧观测矢量t与音素s似然度由计算公式(1)计算得出;
(3)英语朗读语音单词发音标准度计算公式
英语朗读语音单词发音标准度是指英语朗读语音中当前单词发音的标准程度,它的计算公式如下:
Figure FDA0002550164870000031
在计算公式(3)中,i=1,2,…,m,i是英语朗读语音当前单词中每个音素对应的序号,m是英语朗读语音中当前单词包括的音素总数;英语朗读语音音素i发音标准度由计算公式(2)计算得出。
4.根据权利要求1或3所述的质量分析方法,其特征是:所述的英语朗读发音错误检测模块处理步骤如下:
P301开始;
P302读入英语朗读语音的声学特征;
P303读入英语朗读文本;
P304加载识别器的声学模型、语言模型和发音词典,并根据英语朗读文本搭建搜索网络;
P305利用识别器在搭建好的搜索网络中对英语朗读语音的声学特征和英语朗读文本进行自动对齐切分,得到英语朗读语音的音素边界信息、英语朗读语音的单词集合和英语朗读语音的音素集合;
P306将英语朗读语音的单词集合和英语朗读语音的音素集合进行匹配对齐,使得英语朗读语音的单词集合中的每一个单词在英语朗读语音的音素集合中都有与之对应的音素序列;
P307使用英语朗读语音的音素边界信息和英语朗读语音的音素集合,根据公式(1)与公式(2)计算出英语朗读语音音素发音标准度并输出;
P308使用英语朗读语音的音素边界信息和英语朗读语音的单词集合,根据公式(3)计算出英语朗读语音单词发音标准度;
P309遍历英语朗读语音的单词集合中的所有单词;
P310判断英语朗读语音当前单词发音标准度是否小于单词预设阀值,如果是则转P311,否则转P309;
P311将当前单词标记为发音错误;
P312遍历当前发音错误单词在英语朗读语音的音素集合中对应的音素序列中的所有音素;
P313判断英语朗读语音当前音素发音标准度是否小于音素预设阀值,如果是则转P314,否则转P312;
P314将当前音素标记为发音错误;
P315判断当前发音错误单词中的所有音素是否已经遍历完成,如果是则转P316,否则转P312;
P316判断英语朗读语音的单词集合中的所有单词是否已经遍历完成,如果是则转P317,否则转P309;
P317将英语朗读语音中标记为发音错误的单词及发音错误单词中标记为发音错误的音素拼接,得到英语朗读发音错误检测结果;
P318输出英语朗读发音错误检测结果;
P319结束。
5.根据权利要求1所述的质量分析方法,其特征是:所述的英语朗读发音质量分析模块的计算公式定义如下:
(1)英语朗读语音整体发音标准度计算公式
英语朗读语音整体发音标准度是指英语朗读语音中所有音素发音标准度的平均值,它的计算公式如下:
Figure FDA0002550164870000041
在计算公式(4)中,j=1,2,…,n,j是英语朗读语音中每个音素对应的序号,n是英语朗读语音中的音素总数;英语朗读语音音素j发音标准度由计算公式(2)计算得出;
(2)英语朗读语速计算公式
英语朗读语速是指英语朗读语音中音素总数和英语朗读语音总时长的比值,它的计算公式如下:
Figure FDA0002550164870000042
(3)英语朗读发音速度计算公式
英语朗读发音速度是指英语朗读语音中音素总数和不包括停顿总时长在内的英语朗读语音总时长的比值,它的计算公式如下:
Figure FDA0002550164870000043
(4)英语朗读发音时长比值计算公式
英语朗读发音时长比值是指不包括停顿总时长在内的英语朗读语音总时长和英语朗读语音总时长的比值,它的计算公式如下:
Figure FDA0002550164870000051
(5)英语朗读平均语流时长计算公式
英语朗读平均语流时长是指英语朗读语音中音素总数和英语朗读语音中停顿总次数的比值,它的计算公式如下:
Figure FDA0002550164870000052
(6)英语朗读平均停顿时长计算公式
英语朗读平均停顿时长是指英语朗读语音中停顿总时长和英语朗读语音中停顿总次数的比值,它的计算公式如下:
Figure FDA0002550164870000053
(7)英语音素标准发音时长均值计算公式
英语音素标准发音时长均值是指标准英语朗读语音中所有音素样本的平均发音时长,它的计算公式如下:
Figure FDA0002550164870000054
在计算公式(10)中,k=1,2,…,p,k是标准英语朗读语音中每个音素样本对应的序号,p是标准英语朗读语音中的音素样本总数;英语音素k标准发音时长是指标准英语朗读语音中第k个音素样本的发音时长;
(8)英语单词标准发音时长计算公式
英语单词标准发音时长是指标准英语朗读语音中单词对应的发音时长,它的计算公式如下:
Figure FDA0002550164870000055
在计算公式(11)中,q=1,2,…,c,q是标准英语朗读语音中当前单词的每个音素对应的序号,c是标准英语朗读语音中当前单词包括的音素总数;英语音素q标准发音时长均值由计算公式(10)计算得出;
(9)英语朗读单词发音时长比值计算公式
英语朗读单词发音时长比值衡量了英语朗读语音中所有单词的发音时长与标准英语朗读语音中单词发音时长之间的偏离程度,它的计算公式如下:
Figure FDA0002550164870000061
在计算公式(12)中,w=1,2,…,d,w是英语朗读语音中每个单词对应的序号,d是英语朗读语音中的单词总数;e是指自然对数的底数;英语单词w发音时长是指英语朗读语音中第w个英语单词的发音时长;英语单词w标准发音时长由计算公式(11)计算得出。
6.根据权利要求1或5所述的质量分析方法,其特征是:所述的英语朗读发音质量分析模块处理步骤如下:
P401开始;
P402读入标准英语朗读语音;
P403读入英语朗读语音音素发音标准度;
P404将英语朗读语音音素发音标准度代入英语朗读语音整体发音标准度计算公式(4)计算英语朗读语音整体发音标准度;
P405根据公式(5)计算出英语朗读语速;
P406根据公式(6)计算出英语朗读发音速度;
P407根据公式(7)计算出英语朗读发音时长比值;
P408根据公式(8)计算出英语朗读平均语流时长;
P409根据公式(9)计算出英语朗读平均停顿时长;
P410使用标准英语朗读语音,根据公式(10)计算出英语音素标准发音时长均值;
P411将英语音素标准发音时长均值代入公式(11)计算出英语单词标准发音时长;
P412根据公式(12)计算出英语朗读单词发音时长比值;
P413将计算得到的英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值输入到预先训练好的支持向量回归评分模型中,输出英语朗读发音质量得分;
P414将英语朗读发音质量得分作为英语朗读发音质量分析结果并输出;
P415结束。
7.根据权利要求1所述的质量分析方法,其特征是:所述的英语朗读发音质量输出模块处理步骤如下:
P501开始;
P502读入英语朗读发音错误检测模块的结果;
P503读入英语朗读发音质量分析模块的结果;
P504根据英语朗读发音错误检测模块的结果和英语朗读发音质量分析模块的结果,生成英语朗读发音质量评语;
P505结束。
CN202010573319.9A 2020-06-22 2020-06-22 一种中国学生英语朗读质量分析方法 Active CN111653292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010573319.9A CN111653292B (zh) 2020-06-22 2020-06-22 一种中国学生英语朗读质量分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010573319.9A CN111653292B (zh) 2020-06-22 2020-06-22 一种中国学生英语朗读质量分析方法

Publications (2)

Publication Number Publication Date
CN111653292A true CN111653292A (zh) 2020-09-11
CN111653292B CN111653292B (zh) 2023-03-31

Family

ID=72348966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010573319.9A Active CN111653292B (zh) 2020-06-22 2020-06-22 一种中国学生英语朗读质量分析方法

Country Status (1)

Country Link
CN (1) CN111653292B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133325A (zh) * 2020-10-14 2020-12-25 北京猿力未来科技有限公司 错误音素识别方法及装置
WO2022148176A1 (en) * 2021-01-08 2022-07-14 Ping An Technology (Shenzhen) Co., Ltd. Method, device, and computer program product for english pronunciation assessment

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090068856A (ko) * 2007-12-24 2009-06-29 한국정보통신대학교 산학협력단 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법
US20100145698A1 (en) * 2008-12-01 2010-06-10 Educational Testing Service Systems and Methods for Assessment of Non-Native Spontaneous Speech
CN101739868A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 一种用于口语测试的文本朗读水平自动评估诊断方法
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
CN104952444A (zh) * 2015-04-27 2015-09-30 桂林电子科技大学 一种文本无关的中国人英语口语质量评估方法
KR20170056253A (ko) * 2015-11-13 2017-05-23 이호진 영어 발음 평가 방법 및 시스템
CN107680609A (zh) * 2017-09-12 2018-02-09 桂林电子科技大学 一种基于噪声功率谱密度的双通道语音增强方法
CN107945788A (zh) * 2017-11-27 2018-04-20 桂林电子科技大学 一种文本相关的英语口语发音错误检测与质量评分方法
CN107958673A (zh) * 2017-11-28 2018-04-24 北京先声教育科技有限公司 一种口语评分方法及装置
US20180366111A1 (en) * 2017-06-16 2018-12-20 Hankuk University Of Foreign Studies Research & Business Foundation Method for automatic evaluation of non-native pronunciation
WO2019065263A1 (ja) * 2017-09-26 2019-04-04 日本電信電話株式会社 発音誤り検出装置、発音誤り検出方法、プログラム
CN109584906A (zh) * 2019-01-31 2019-04-05 成都良师益友科技有限公司 口语发音评测方法、装置、设备及存储设备
CN110992986A (zh) * 2019-12-04 2020-04-10 南京大学 单词音节重读检错方法、装置、电子设备和存储介质
CN111292769A (zh) * 2020-03-04 2020-06-16 苏州驰声信息科技有限公司 一种口语发音的纠音方法、系统、装置、存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090068856A (ko) * 2007-12-24 2009-06-29 한국정보통신대학교 산학협력단 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법
CN101739868A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 一种用于口语测试的文本朗读水平自动评估诊断方法
US20100145698A1 (en) * 2008-12-01 2010-06-10 Educational Testing Service Systems and Methods for Assessment of Non-Native Spontaneous Speech
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
CN104952444A (zh) * 2015-04-27 2015-09-30 桂林电子科技大学 一种文本无关的中国人英语口语质量评估方法
KR20170056253A (ko) * 2015-11-13 2017-05-23 이호진 영어 발음 평가 방법 및 시스템
US20180366111A1 (en) * 2017-06-16 2018-12-20 Hankuk University Of Foreign Studies Research & Business Foundation Method for automatic evaluation of non-native pronunciation
CN107680609A (zh) * 2017-09-12 2018-02-09 桂林电子科技大学 一种基于噪声功率谱密度的双通道语音增强方法
WO2019065263A1 (ja) * 2017-09-26 2019-04-04 日本電信電話株式会社 発音誤り検出装置、発音誤り検出方法、プログラム
CN107945788A (zh) * 2017-11-27 2018-04-20 桂林电子科技大学 一种文本相关的英语口语发音错误检测与质量评分方法
CN107958673A (zh) * 2017-11-28 2018-04-24 北京先声教育科技有限公司 一种口语评分方法及装置
CN109584906A (zh) * 2019-01-31 2019-04-05 成都良师益友科技有限公司 口语发音评测方法、装置、设备及存储设备
CN110992986A (zh) * 2019-12-04 2020-04-10 南京大学 单词音节重读检错方法、装置、电子设备和存储介质
CN111292769A (zh) * 2020-03-04 2020-06-16 苏州驰声信息科技有限公司 一种口语发音的纠音方法、系统、装置、存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUIMIN HUANG ET AL: "English mispronunciation detection based on improved GOP methods for Chinese students", 《2017 INTERNATIONAL CONFERENCE ON PROGRESS IN INFORMATICS AND COMPUTING》 *
MEI-YUH HWANG,ET AL.: "Predicting unseen triphones with senones", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING 》 *
徐鹰等: "中国英语学习者朗读语音特征和分数预测模型研究", 《西安外国语大学学报》 *
朱洪涛: "英语朗读发音质量评价模型的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133325A (zh) * 2020-10-14 2020-12-25 北京猿力未来科技有限公司 错误音素识别方法及装置
CN112133325B (zh) * 2020-10-14 2024-05-07 北京猿力未来科技有限公司 错误音素识别方法及装置
WO2022148176A1 (en) * 2021-01-08 2022-07-14 Ping An Technology (Shenzhen) Co., Ltd. Method, device, and computer program product for english pronunciation assessment

Also Published As

Publication number Publication date
CN111653292B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN107945788B (zh) 一种文本相关的英语口语发音错误检测与质量评分方法
CN111653292B (zh) 一种中国学生英语朗读质量分析方法
CN106847260B (zh) 一种基于特征融合的英语口语自动评分方法
Franco et al. EduSpeak®: A speech recognition and pronunciation scoring toolkit for computer-aided language learning applications
Das et al. Bengali speech corpus for continuous auutomatic speech recognition system
CN111862954B (zh) 一种语音识别模型的获取方法及装置
CN110047466B (zh) 一种开放性创建语音朗读标准参考模型的方法
CN111640418A (zh) 一种韵律短语识别方法、装置及电子设备
Shaneh et al. Voice command recognition system based on MFCC and VQ algorithms
Ahsiah et al. Tajweed checking system to support recitation
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
CN111915940A (zh) 一种口语发音评测和教学方法、系统、终端及存储介质
CN106653055A (zh) 在线英语口语评估系统
Minematsu et al. Structural representation of the pronunciation and its use for CALL
CN112802456A (zh) 一种语音评测打分方法、装置、电子设备及存储介质
Englund Speech recognition in the JAS 39 Gripen aircraft-adaptation to speech at different G-loads
Black et al. Optimizing segment label boundaries for statistical speech synthesis
Al-Bakeri et al. ASR for Tajweed rules: integrated with self-learning environments
Khanal et al. Mispronunciation detection and diagnosis for Mandarin accented English speech
Maseri et al. Performance analysis of implemented MFCC and HMM-based speech recognition system
Huang et al. A evaluating model of English pronunciation for Chinese students
Wu et al. An environment-compensated minimum classification error training approach based on stochastic vector mapping
Necibi et al. An arabic mispronunciation detection system by means of automatic speech recognition technology
Kitamura et al. Tree-based clustering of vowel duration ratio toward dictionary-based automatic assessment of prosody in l2 english word utterances
Luo et al. Regularized-MLLR speaker adaptation for computer-assisted language learning system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant