CN102354495A - 半开放式口语试题的测试方法及系统 - Google Patents
半开放式口语试题的测试方法及系统 Download PDFInfo
- Publication number
- CN102354495A CN102354495A CN2011102542114A CN201110254211A CN102354495A CN 102354495 A CN102354495 A CN 102354495A CN 2011102542114 A CN2011102542114 A CN 2011102542114A CN 201110254211 A CN201110254211 A CN 201110254211A CN 102354495 A CN102354495 A CN 102354495A
- Authority
- CN
- China
- Prior art keywords
- scoring
- tested
- characteristic
- model
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 58
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 230000033764 rhythmic process Effects 0.000 claims abstract description 32
- 238000011156 evaluation Methods 0.000 claims abstract description 28
- 238000005516 engineering process Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 36
- 239000000284 extract Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 10
- 238000010998 test method Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000004880 explosion Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000012631 diagnostic technique Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012956 testing procedure Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种半开放式口语试题的测试方法及系统,从关键内容检测和文本无关评估技术入手,跳过了对语音识别的依赖,实现了对半开放口语试题的全自动评分。本发明提出把口语语音的评估分成内容、发音、流利、韵律四个部分,为口语评估工作奠定了基础。
Description
技术领域
本发明涉及语音识别、语音信号处理、计算机辅助语言学习等领域,尤其涉及一种运用计算机对半开放式口语试题的待测试人员进行录音,然后通过计算机处理,得到待测试人员半开放式口语试题的总体评分的方法及系统。
背景技术
语音是信息交流和传播的主要途径之一。作为人际交流的重要媒介,口语语言学习在实际生活中占有极其重要的地位。标准的语音是口语和听力的基础,它能够增强日常交流的可靠性,提高交流的流畅度。随着社会经济的不断发展和全球化趋势的加剧,人们对语言学习的效率以及语言评估测试的客观性、公正性和规模化测试提出了越来越高的要求。
口语的自动评估是根据语音信号的生理特征(如发音准确度、声调、重音、连读、同化、失去爆破、语调、韵律等)和行为特征(如词汇、语法和句法等语言层次上的运用)对口语质量进行自动化的评估和诊断。口语自动评估和诊断技术以人的语音和语言特征为基础,以信号处理和模式识别等信息处理技术为手段,融合语音学、语言学和教育学等多学科的理论和知识,具有巨大的发展潜力和应用前景,因此,近年来得到了研究人员的广泛关注。
目前现有的全自动口语评估主要集中在朗读试题、跟读试题这类封闭试题中,对半开放式试题、开放式试题则主要靠人工评分完成,其原因在于传统的评估技术首先进行语音识别,然后在识别结果的基础上进行发音、流利、韵律等信息的评估。
申请人意识到现有技术存在如下技术缺陷:语音识别技术在半开放式口语中识别率较低,造成了在口语半开放式试题中无法真正的应用。
发明内容
(一)要解决的技术问题
为解决上述缺陷,本发明提供了一种半开放式口语试题的测试方法及系统,从关键内容检测和文本无关评估技术入手,跳过了对语音识别的依赖,实现了对半开放口语试题的全自动评分。
(二)技术方案
根据本发明的一个方面,提供了一种半开放式口语试题的测试方法。该测试方法包括:选择与被测试对象匹配的声学模型,利用声学模型对被测试人员的口语语音进行语音关键内容检测;由检测结果和得分点数据库中得分点内容进行匹配;根据匹配情况结合得分点权重获得被测试人员的内容评分;由检测结果获取被测试人员的口语发音质量特征;口语发音质量特征结合发音预测模型,获得被测试人员的发音评分;对被测试人员的语音进行文本无关流利度评估,获得语音流利度特征;由语音流利度特征结合流利度预测模型,获得被测试人员的流利度评分;对被测试人员的语音进行文本无关语音韵律评估,获得语音韵律特征;由语音韵律特征结合语音韵律预测模型,获得被测试人员的语音韵律评分;利用被测试人员的内容评分、发音评分、流利度评分和语音韵律评分,利用总体预测模型,获得被测试人员对口语半开放试题的总体评分。
优选地,本发明半开放式口语试题的测试方法中,选择与被测试对象匹配的声学模型,利用声学模型对被测试人员的口语语音进行语音关键内容检测的步骤之前还包括:构建针对被测试对象特点的语音数据库;对语音数据库使用连续语音声学模型训练平台训练得到声学模型;构建包含半开放式口语试题的得分点内容与得分点权重的得分点数据库;构建发音评估特征到发音评分的发音预测模型;构建语音流利度特征到语音流利度评分的流利度预测模型;构建语音韵律特征到语音韵律评分的语音韵律预测模型;构建内容评分、发音评分、流利度评分和语音韵律评分至总体评分的预测模型。
优选地,本发明半开放式口语试题的测试方法中,构建针对被测试对象特点的语音数据库的步骤包括:分性别,按照对应被测试对象人群的年龄分布寻找年龄相近人群;按照音素平衡的原则设计录音样本;人群中的指定人员按照录音文本进行录音,并将语音与对应的文本建立关联,构建语音数据库;对语音数据库使用连续语音声学模型训练平台训练得到声学模型的步骤包括:对语音数据库中的每条训练语音提取12阶Mel倒谱、归一化能量构成共13维作为基本特征;对基本特征通过一阶和二阶差分得到39维特征;利用训练语音的特征和语音对应的文本,通过强制对齐算法和前后向算法估计,得到单音子声学模型;在单音子声学模型的基础上,通过设计决策树和前后向算法,训练得到三音子声学模型;在三音子声学模型的基础上,通过区分度模型训练算法,训练得到具有区分度信息的三音子声学模型。
优选地,本发明半开放式口语试题的测试方法中,构建包含半开放式口语试题的得分点内容与得分点权重的得分点数据库的步骤具体包括:对每个半开放式口语试题收集得分点内容以及得分点的权重,生成关键内容检测需要的得分点数据库。
优选地,本发明半开放式口语试题的测试方法中,选择与被测试对象特点相符合的声学模型,利用声学模型对被测试人员的口语语音进行语音关键内容提取与检测的步骤包括:根据被测试人的性别和口语试题,选择对应的声学模型、得分点数据库;对答题语音进行特征提取;运行声学模型和得分点数据库,通过语音特征的关键内容检测得到其得分点内容的检测结果;利用每个单词的置信度,以及这个单词每个音素的置信度,使用识别的置信度技术抑制错误检测情况的发生。
优选地,本发明半开放式口语试题的测试方法中,由检测结果获取被测试人员的口语发音质量特征,通过发音预测模型,获得被测试人员的发音评分的步骤包括:根据关键内容检测的结果中的利用每个单词的置信度,以及这个单词每个音素的置信度,得到发音评估的特征;使用发音评估特征到发音评分的预测模型,得到当前语音的发音评分。
优选地,本发明半开放式口语试题的测试方法中,对被测试人员的语音进行文本无关流利度评估,获得语音的流利度特征,由语音的流利度特征和流利度预测模型,获得被测试人员的流利度评分的步骤包括:对句子进行文本无关韵律特征的切分,然后提取广义流利度特征,该广义流利度特征包括犹豫度、通顺性、连读和失去爆破;由广义流利度特征获取句子的流利度特征,并加权得到篇章总体的流利度特征;提取篇章一级全局广义流利度特征、文本无关错误停顿特征、文本无关重复修正特征;使用流利评估特征到流利评分的预测模型,得到当前语音的流利评分。
优选地,本发明半开放式口语试题的测试方法中,对被测试人员的语音进行文本无关语音韵律评估,获得语音韵律特征,由语音韵律特征和语音韵律预测模型,获得被测试人员的语音韵律评分的步骤包括:提取篇章一级全局韵律特征;使用韵律评估特征到韵律评分预测模型,得到当前语音的韵律评分
优选地,本发明半开放式口语试题的测试方法中,获得被测试人员对口语半开放试题的总体评分的步骤之后还包括:将被测试人员的发音、词汇使用、句型使用、韵律的意见反馈至被测试人员。
根据本发明的另一个方面,还提供了一种半开放式口语试题的测试系统。该测试系统包括:声学模型模块,用于构建针对被测试对象特点的语音数据库,对语音数据库使用连续语音声学模型训练平台训练得到声学模型;得分点数据库模块,用于构建包含半开放式口语试题的得分点内容与得分点权重的得分点数据库;特征提取模块,用于选择与被测试对象特点相符合的声学模型,利用声学模型对被测试人员的口语语音进行语音关键内容提取;关键内容检测模块,用于关键内容检测,并由检测结果和得分点数据库中得分点内容的匹配情况,结合得分点权重获得被测试人员的内容评分;发音评分模块,用于由检测结果获取被测试人员的口语发音质量特征,通过预存的发音评估特征到发音评分的发音预测模型,获得被测试人员的发音评分;流利度评分模块,用于对被测试人员的语音进行文本无关流利度评估,获得语音流利度特征,通过预存的语音流利度特征和流利度预测模型,获得被测试人员的流利度评分;语音韵律评分模块,用于对被测试人员的语音进行文本无关语音韵律评估,获得语音韵律特征;通过预存的语音韵律特征和语音韵律预测模型,获得被测试人员的语音韵律评分;总体评分模块,用于利用被测试人员的内容评分、发音评分、流利度评分和语音韵律评分,通过预存的内容评分、发音评分、流利度评分和语音韵律评分至总体评分的预测模型,获得被测试人员对口语半开放试题的总体评分。
优选地,本发明半开放式口语试题的测试系统中,关键内容检测模块,与特征提取模块、声学模型模块和得分点数据库模块相连接;发音评分模块与关键内容检测模块相连接;流利度评分模块与特征提取模块相连接;语音韵律评分模块与特征提取模块相连接;总体评分模块与内容评分模块、发音评分模块、流利度评分模块、语音韵律评分模块相连接。
(三)有益效果
本发明的半开放式口语试题的测试方法及系统具有以下有益效果:
(1)本发明提出把口语语音的评估分成内容、发音、流利、韵律四个部分,为口语评估工作奠定了基础;
(2)本发明提出了使用语音关键内容检测技术用于半开放式口语试题自动评分,避免了由于口语语音识别的不鲁棒性影响评估的准确性;
(3)本发明提出了语音关键内容检测技术框架下的发音质量、流利度、韵律评估技术以提升评估的准确性,对口语评估起到了重要的补充;
(4)本发明充分利用了积累的大量具有人工标注的语音数据,考虑了不同性别、不同年龄和不同地域的差异性,测试方法具有良好的推广性;
(5)本发明涉及的检测出关键内容的置信度等参数均可以根据实际情况进行调节,便于用户使用;
(6)本发明不仅可以进行评分,还可以在评测过程中给出被测试人员词汇使用、句型使用、韵律的一些意见,指导被测试人员矫正。
附图说明
图1为本分明实施例半开放式口语试题测试方法的流程图;
图2为本发明实施例半开放式口语试题测试系统的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本分明半开放式口语试题测试方法的完整流程由两个阶段组成:
模型训练阶段:训练部分包括训练声学模型、发音评估特征到发音评分的预测模型、流利度特征到流利评分的预测模型、韵律特征到韵律评分的预测模型、四个模块评分到总体评分的预测模型。
口语半开放式试题全自动评分的方法包括一个模型训练部分,模型训练过程包括以下步骤:
(A)构建针对被测试对象人群特点的语音数据库,具体包括:
a.1:分性别,按照对应被测试对象人群的年龄分布寻找一批年龄相近的人群;
a.2:按照音素平衡的原则设计录音样本;
a.3:指定人员按照录音文本进行录音,并将语音与对应的文本建立关联,语音文件名和文本文件取相同的文件名,不同的文件后缀,这样可以迅速从语音文件获得其对应的文本内容,从而构建语音数据库。
(B)使用连续语音声学模型训练平台训练得到声学模型:
b.1:对每条训练语音提取12阶Mel倒谱、归一化能量构成共13维作为基本特征,然后通过一阶和二阶差分得到39维特征;
b.2:利用b.1生成的训练语音的特征和语音对应的文本,通过强制对齐算法和前后向算法估计,得到单音子声学模型;
b.3:在单音子声学模型的基础上,通过设计决策树和前后向算法,训练得到三音子声学模型;
b.4:在三音子声学模型的基础上,通过区分度模型训练算法,训练得到具有区分度信息的三音子声学模型。
(C)对每个半开放式口语试题收集专家制作的得分点内容以及得分点的权重,生成关键内容检测需要的得分点数据库。
(D)预测模型的构建:使用已有考题的专家打分和对应的各项特征进行机器打分预测模型估计,用于提高系统性能,对每类口语翻译试题收集M道被考生试题,通过L个专家给出评分,并将专家的平均分作为每道题的人工评分,然后引入基于预测的方法,构建各个参数到人工分数的映射关系,并将得到的参数保存,作为各个特征到评分的映射模型,这个过程是一个标准调整的过程。这些参数和模型将起到调整和校正的作用。本发明方法涉及的预测模型包括发音评估特征到发音评分的预测模型、流利度特征到流利评分的预测模型、韵律特征到韵律评分的预测模型、四个模块评分到总体评分的预测模型。此预测模型可以是线性模型,也可以是非线性模型(如支持向量机模型、神经网络模型),以线性模型为例,得到相应模型的步骤如下公式一所示:
上述公式一中,β0是常数项,βj(j=1,2,3,……k)是第j个特征xj的回归系数,表示在其它特征不变的情况下,特征xj每变动一个单位所引起的因变量的变化率;y就是人工分数。训练步骤中通过对训练数据各项特征的提取和人工分数的标注,可以通过上述公式计算得到各个回归系数,这些回归系数作为预测模型保存在系统中。测试步骤中,提取测试语音的各项特征,代入公式即可得到该语音的预测评分。
需要说明的是,步骤B得到具有区分度信息的三音子声学模型、步骤D使用的各分数预测模型保存到系统中,每次使用只需要重新装载现有模型,不需要重新训练模型。
口语半开放式试题全自动评分的方法包括一个评分部分,用于利用上述的发音评估特征到发音评分的预测模型、流利度特征到流利评分的预测模型、韵律特征到韵律评分的预测模型、四个模块评分到总体评分的预测模型对被测试人员的口语水平进行测试,评分过程包括以下步骤:
(E)语音关键内容检测和内容评分获取:
E.1:根据被测试人的性别和试题,选择对应的声学模型、得分点数据库;
E.2:对答题语音进行特征提取;
E.3:运行声学模型和得分点数据库,通过语音特征的关键内容检测得到其得分点内容的检测结果;
E.4:输出每个单词的置信度,以及这个单词每个音素的置信度。(注:置信度信息主要是为了据识)系统使用了拒识功能,使用识别的置信度技术来抑制错误检测情况的发生。根据通过拒识后的检测内容与得分点数据库的匹配情况,得到内容评分。
其中,检测结果跟内容得分点的匹配情况是:首先得到每道题得分点内容的分组和每个组的分数权重,然后生成一个带加权信息的标准答案网络,这个加权网络作为得分点数据库进行保存,在测试过程中根据关键内容检测结果与此得分点数据库进行匹配,将匹配率作为内容评分的来源。
(F)发音评分的获取:
F.1:根据(E)中关键内容检测的结果(单词、时间点、置信度),得到发音评估的特征;
F.2:使用发音评估特征到发音评分的预测模型,得到当前语音的发音评分。
(G)流利评分的获取:
G.1:采用多层次融合方法,首先对句子进行文本无关韵律特征的切分,然后提取句子级的广义流利度特征,在这个基础上对句子一级特征进行加权得到篇章总体的流利度特征,句子级广义流利度特征包括:
G.1.1句子表述通顺性:如句子语速、句子平均语流长、句子有效停顿比例等。
G.1.2句子表达的音素段长:这个步骤是为了补偿各发音人在语速上的差异对所有发音部分进行归一化。然后,通过统计相应的上下文无关音素的时长的离散概率分布计算归一化后时长评分的对数概率,得到某个音素的段长评分。
G.1.3句子表述的韵律性:根据检测结果,选取匹配的单词和标准发音对应单词进行韵律距离的比较,分能量、基频、段长对所有音素进行打分,得到在能量、基频、段长和标准音的距离得分,然后进行加权。
G.2:提取篇章一级全局广义流利度特征(如整体语速、整体平均语流长、整体有效停顿比例等信息)、文本无关错误停顿特征、文本无关重复修正特征;
G.3:使用流利评估特征到流利评分的预测模型,得到当前语音的流利评分。
(H)韵律评分的获取:
H.1:提取篇章一级全局韵律特征,其中包括4类特征:
H.1.1语调类型特征:包括发音者发音过程中基频随时间的变化信息;
H.1.2重音类型特征:包含词汇重音和韵律重音的准确性;
H.1.3停顿类型特征:包含句子和意群停顿的准确性;
H.1.4段长类型特征:整体语流中各音素段长的宏观分布情况。
H.2:使用韵律评估特征到韵律评分的预测模型,得到当前语音的韵律评分。
需要说明的是,综合E、F、G、H提到的四项评分,通过使用四个模块评分到总体评分的预测模型,获得最终评分,并且给出反馈意见。需要说明的是,以上利用预测模型对各项评分的顺序可以根据需要调整,并不一定按照上述的顺序进行,同样应包含在本发明的保护范围之内。
此外,步骤F、G、H涉及的被测试人员发音质量、流利度、韵律的评估是用于具备一定口语能力的被测试人员,如果测试过程步骤E中内容得分低于一个阀值,将不进行这三项评估。
评分阶段:运用数字信号处理理论和计算机语言处理技术对被测试人的口语翻译录音进行评分,使得系统给出的最终评分尽可能的接近专家的人工评分。
以上步骤A-H从原理角度对本发明的模型准备、训练、测试各阶段进行了说明。以下从具体实施测试的角度,对本发明进行具体阐述。图1是本发明实施例半开放式口语试题测试方法的流程图,如图1所示,本实施例包括以下步骤:
步骤100,被测试人员根据显示的文字或者一组图片(视频)进行口语半开放试题的作答;
步骤101,进行语音信号采集,将被测试人员发音的模拟信号转变为数字信号,并保存在计算机中;
步骤102,对语音的数字信号分帧处理,并且对每帧提取相应的特征。其中特征分成三类:用于关键内容检测引擎的特征包括能量,MFCC参数等共39维,在本实施例中,此特征采用现有技术手段提取,如英国剑桥大学发布的Hidden Makov Model Toolkit 3.4版本中有工具HCopy提取39维特征;用于文本无关流利评估引擎的特征包括时长特征、基频特征、能量特征、停顿特征,这些特征都采用现有技术手段提取;用于文本无关韵律评估引擎的特征包括语调类型特征、重音类型特征、停顿类型特征、段长类型特征,这些特征都采用现有技术手段提取。
步骤103,根据被测试人员的性别和当前口语半开放式试题,选择使用的声学模型和得分点数据库,利用语音关键内容检测引擎对特征序列进行检测,识别得到一系列得分点内容,同时生成每个内容的置信度,起始终止时间,以及内容中每个音素的置信度、起始终止时间,通过得分点内容和置信度可以获得答题的内容得分,关键内容检测可以通过现有关键词检测技术手段获得,如通过发明人之一的已发表文献“A SystemCombination Based Keyword-spotting Method Using ComplementaryAcoustic Models(Meng MENG,Xiao-Rui WANG,Jia-En LIANG,Bo XU,Journal:Acta Automatica Sinica,vol.35,no.1,pp.39-45,2009)”进行,通过对检测出内容的发音评估可以获取发音评分。同时利用文本无关流利评估引擎对答题语音进行文本无关流利度评估,可以获得流利评分,此技术可以通过现有技术手段获得,如通过发明人之一的已发表文献“辅助语音测试系统中一种流利度自动测试方法(黄申,李宏言,王士进,梁家恩,徐波,第十届全国人机语音通讯学术会议,2009)”;同时利用文本无关韵律评估引擎对答题语音进行文本无关韵律评估,可以获得韵律评分,此技术可以通过现有技术手段获得,如通过发明人之一的已发表文献“automaticreference independent evaluation of prosody quality using multiple knowledgefusions(Shen Huang,Hongyan Li,Shijin Wang,Jiaen Liang,Bo Xu,InINTERSPEECH-2010,610-613,2010)”。当然以上信息的提取也可用所属技术领域人员知悉的其他方法获取。
步骤104,根据步骤103得到的四项评分,使用相应的标准调校模型得到最终的评分。此模型可以是线性回归预测模型、SVM预测模型、人工神经网络预测模型或者其他所属技术领域人员知悉的方法实现。
步骤105,根据以上结果对本次测试做出评判,同时根据发音评分的结果给出发音的指导意见;根据关键内容检测的结果给出词汇、句型使用的指导意见;根据韵律评分的结果给出韵律的指导意见。
图2为本发明实施例半开放式口语试题测试系统的结构框图。实现本实施例的半开放式口语试题测试系统运行于微软视窗操作系统,包括声学模型模块202、得分点数据库模块204、语音特征提取模块206、关键内容检测模块208、发音评分模块210、流利度评分模块212、语音韵律评分模块214、总体评分模块216、评价反馈模块218。
其中,声学模型模块202,用于构建针对被测试对象特点的语音数据库,对语音数据库使用连续语音声学模型训练平台训练得到声学模型。得分点数据库模块204,用于构建包含半开放式口语试题的得分点内容与得分点权重的得分点数据库。特征提取模块202,用于选择与被测试对象特点相符合的声学模型,利用声学模型对被测试人员的口语语音进行语音关键内容提取。关键内容检测模块208,与特征提取模块、声学模型模块和得分点数据库模块相连接,用于关键内容检测,并由检测结果和得分点数据库中得分点内容的匹配情况,结合得分点权重获得被测试人员的内容评分。发音评分模块210,与关键内容检测模块相连接,用于由检测结果获取被测试人员的口语发音质量特征,通过预存的发音评估特征到发音评分的发音预测模型,获得被测试人员的发音评分。流利度评分模块212,与特征提取模块相连接,用于对被测试人员的语音进行文本无关流利度评估,获得语音流利度特征,通过预存的语音流利度特征和流利度预测模型,获得被测试人员的流利度评分。语音韵律评分模块214,与特征提取模块相连接,用于对被测试人员的语音进行文本无关语音韵律评估,获得语音韵律特征;通过预存的语音韵律特征和语音韵律预测模型,获得被测试人员的语音韵律评分。总体评分模块216,与内容评分模块、发音评分模块、流利度评分模块、语音韵律评分模块相连接,用于利用被测试人员的内容评分、发音评分、流利度评分和语音韵律评分,通过预存的内容评分、发音评分、流利度评分和语音韵律评分至总体评分的预测模型,获得被测试人员对口语半开放试题的总体评分。评价反馈模块218,与总体评分模块相连接,用于将被测试人员的发音、词汇使用、句型使用、韵律的意见反馈至被测试人员。
本发明半开放式口语试题测试系统对被测试人员的口语进行评测的过程包括:
步骤一:被测试人员口语半开放式试题被录音后,首先进入语音特征提取模块206提取分帧的特征,该语音特征包含供关键内容检测模块208使用的特征、供流利度评分模块212使用的特征、供语音韵律评分模块214使用的特征;
步骤二:进入关键内容检测模块208,根据被测试人员的性别和当前试题,选择合适的声学模型202、得分点数据库模块204,对提取出的供关键内容检测模块208使用的特征,利用语音关键内容检测引擎对特征序列进行关键内容检测,流转至内容评分模块,得到内容评分;
步骤三:发音评分模块210对检测到的内容进行发音评估,得到发音评分;
步骤四:对提取出的供流利度评分模块212使用的特征,流利度评分模块212进行文本无关的流利度评估,得到流利度评分;
步骤五:对提取出的供语音韵律评分模块214使用的特征,文本无关的语音韵律评分模块210进行文本无关的韵律评估,得到韵律评分;
步骤六:最后,进入总体评分模块216,根据四个模块的评分,得到被测试人员的语音总体评分;
步骤七:评价反馈模块218把被测试人员的发音、词汇使用、句型使用、韵律的一些意见反馈出来。
综上所述,本发明针对口语半开放式试题中语音识别准确率低的特点,综合使用了计算机语音关键内容检测技术、发音评估技术、文本无关流利度评估技术、文本无关韵律评估技术得到被测试人员的半开放式口语试题答题的总体评分,可以达到与专家打分接近的水平,在大规模考试系统中有较大的应用价值,并且不受语种的限制。本发明可以用于口语考试或者口语训练软件中的口语问答试题、看图说话、看视频说话和相似试题的口语评分;可以运用于汉语、英语等各种语言的口语半开放式试题评分。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种半开放式口语试题的测试方法,其特征在于,该测试方法包括:
步骤A,选择与被测试对象匹配的声学模型,利用所述声学模型对被测试人员的口语语音进行语音关键内容提取与检测;
步骤B,由所述检测结果和得分点数据库中得分点内容进行匹配;根据匹配情况结合得分点权重获得所述被测试人员的内容评分;
步骤C,由所述检测结果获取所述被测试人员的口语发音质量特征;所述口语发音质量特征结合发音预测模型,获得所述被测试人员的发音评分;
步骤D,对所述被测试人员的语音进行文本无关流利度评估,获得语音流利度特征;由所述语音流利度特征结合流利度预测模型,获得所述被测试人员的流利度评分;
步骤E,对所述被测试人员的语音进行文本无关语音韵律评估,获得语音韵律特征;由所述语音韵律特征结合语音韵律预测模型,获得所述被测试人员的语音韵律评分;
步骤F,利用所述被测试人员的内容评分、发音评分、流利度评分和语音韵律评分,利用总体预测模型,获得所述被测试人员对所述口语半开放试题的总体评分。
2.根据权利要求1所述的半开放式口语试题的测试方法,其特征在于,所述步骤A之前还包括构建声学模型、发音预测模型、流利度预测模型、语音韵律预测模型及预测模型,该构建过程具体包括:
步骤A′,构建针对被测试对象特点的语音数据库;对所述语音数据库使用连续语音声学模型训练平台训练得到声学模型;
步骤B′,构建包含所述半开放式口语试题的得分点内容与得分点权重的得分点数据库;
步骤C′,构建发音评估特征到发音评分的发音预测模型;
步骤D′,构建语音流利度特征到语音流利度评分的流利度预测模型;
步骤E′,构建语音韵律特征到语音韵律评分的语音韵律预测模型;
步骤F′,构建所述内容评分、发音评分、流利度评分和语音韵律评分至总体评分的预测模型。
3.根据权利要求2所述的半开放式口语试题的测试方法,其特征在于,所述步骤A′中:
所述构建针对被测试对象特点的语音数据库的步骤包括:分性别,按照对应被测试对象人群的年龄分布寻找年龄相近人群;按照音素平衡的原则设计录音样本;所述人群中的指定人员按照录音文本进行录音,并将语音与对应的文本建立关联,构建语音数据库;
所述对语音数据库使用连续语音声学模型训练平台训练得到声学模型的步骤包括:对所述语音数据库中的每条训练语音提取12阶Mel倒谱、归一化能量构成共13维作为基本特征;对所述基本特征通过一阶和二阶差分得到39维特征;利用训练语音的特征和语音对应的文本,通过强制对齐算法和前后向算法估计,得到单音子声学模型;在单音子声学模型的基础上,通过设计决策树和前后向算法,训练得到三音子声学模型;在三音子声学模型的基础上,通过区分度模型训练算法,训练得到具有区分度信息的三音子声学模型。
4.根据权利要求3所述的半开放式口语试题的测试方法,其特征在于,所述步骤B′具体包括:
对每个半开放式口语试题收集得分点内容以及得分点的权重,生成关键内容检测需要的得分点数据库。
5.根据权利要求1所述的半开放式口语试题的测试方法,其特征在于,所述步骤A包括:
根据被测试人的性别和口语试题,选择对应的声学模型、得分点数据库;
对答题语音进行特征提取;
运行声学模型和得分点数据库,通过语音特征的关键内容检测得到其得分点内容的检测结果;
利用所述每个单词的置信度,以及这个单词每个音素的置信度,使用识别的置信度技术抑制错误检测情况的发生。
6.根据权利要求5所述的半开放式口语试题的测试方法,其特征在于,所述步骤C包括:
根据关键内容检测的结果中的所述每个单词的置信度,以及这个单词每个音素的置信度,得到发音评估的特征;
使用发音评估特征到发音评分的预测模型,得到当前语音的发音评分。
7.根据权利要求6所述的半开放式口语试题的测试方法,其特征在于,所述步骤D包括:
对句子进行文本无关韵律特征的切分,然后提取广义流利度特征,该广义流利度特征包括犹豫度、通顺性、连读和失去爆破;
由所述广义流利度特征获取句子的流利度特征,并加权得到篇章总体的流利度特征;
提取篇章一级全局广义流利度特征、文本无关错误停顿特征、文本无关重复修正特征;
使用所述语音流利度特征和流利度预测模型,得到当前语音的流利评分。
8.根据权利要求7所述的半开放式口语试题的测试方法,其特征在于,所述步骤E中,所述语音韵律特征为篇章一级全局韵律特征。
9.根据权利要求8所述的半开放式口语试题的测试方法,其特征在于,所述获得所述被测试人员对所述口语半开放试题的总体评分的步骤之后还包括:
将被测试人员的发音、词汇使用、句型使用、韵律的意见反馈至被测试人员。
10.一种半开放式口语试题的测试系统,其特征在于,该测试系统包括:
声学模型模块,用于构建针对被测试对象特点的语音数据库,对所述语音数据库使用连续语音声学模型训练平台训练得到声学模型;
得分点数据库模块,用于构建包含所述半开放式口语试题的得分点内容与得分点权重的得分点数据库;
特征提取模块,用于选择与被测试对象特点相符合的声学模型,利用所述声学模型对被测试人员的口语语音进行语音关键内容提取;
关键内容检测模块,用于关键内容检测,并由所述检测结果和得分点数据库中得分点内容的匹配情况,结合得分点权重获得所述被测试人员的内容评分;
发音评分模块,用于由所述检测结果获取所述被测试人员的口语发音质量特征,通过预存的发音评估特征到发音评分的发音预测模型,获得所述被测试人员的发音评分;
所述流利度评分模块,用于对所述被测试人员的语音进行文本无关流利度评估,获得语音流利度特征,通过预存的所述语音流利度特征和所述流利度预测模型,获得所述被测试人员的流利度评分;
语音韵律评分模块,用于对所述被测试人员的语音进行文本无关语音韵律评估,获得语音韵律特征;通过预存的所述语音韵律特征和所述语音韵律预测模型,获得所述被测试人员的语音韵律评分;
总体评分模块,用于利用所述被测试人员的内容评分、发音评分、流利度评分和语音韵律评分,通过预存的内容评分、发音评分、流利度评分和语音韵律评分至总体评分的预测模型,获得所述被测试人员对所述口语半开放试题的总体评分。
11.根据权利要求10所述的半开放式口语试题的测试系统,其特征在于,
所述关键内容检测模块,与所述特征提取模块、所述声学模型模块和所述得分点数据库模块相连接;
所述发音评分模块与所述关键内容检测模块相连接;
所述流利度评分模块与所述特征提取模块相连接;
所述语音韵律评分模块与所述特征提取模块相连接;
所述总体评分模块与所述内容评分模块、发音评分模块、流利度评分模块、语音韵律评分模块相连接。
12.根据权利要求10所述的半开放式口语试题的测试系统,其特征在于,该系统还包括:
评价反馈模块,与所述总体评分模块相连接,用于将被测试人员的发音、词汇使用、句型使用、韵律的意见反馈至被测试人员。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102542114A CN102354495B (zh) | 2011-08-31 | 2011-08-31 | 半开放式口语试题的测试方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102542114A CN102354495B (zh) | 2011-08-31 | 2011-08-31 | 半开放式口语试题的测试方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102354495A true CN102354495A (zh) | 2012-02-15 |
CN102354495B CN102354495B (zh) | 2012-11-14 |
Family
ID=45578051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102542114A Active CN102354495B (zh) | 2011-08-31 | 2011-08-31 | 半开放式口语试题的测试方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102354495B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559892A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 口语评测方法及系统 |
CN103594087A (zh) * | 2013-11-08 | 2014-02-19 | 安徽科大讯飞信息科技股份有限公司 | 提高口语评测性能的方法及系统 |
CN103761975A (zh) * | 2014-01-07 | 2014-04-30 | 苏州思必驰信息科技有限公司 | 一种口语评测方法及装置 |
CN103928023A (zh) * | 2014-04-29 | 2014-07-16 | 广东外语外贸大学 | 一种语音评分方法及系统 |
CN104599678A (zh) * | 2013-10-30 | 2015-05-06 | 语冠信息技术(上海)有限公司 | 口语发音评价系统及方法 |
CN104810017A (zh) * | 2015-04-08 | 2015-07-29 | 广东外语外贸大学 | 基于语义分析的口语评测方法和系统 |
CN105513612A (zh) * | 2015-12-02 | 2016-04-20 | 广东小天才科技有限公司 | 语言词汇的音频处理方法及装置 |
CN105740237A (zh) * | 2016-02-03 | 2016-07-06 | 湘潭大学 | 一种基于词汇语义相似度的学生能力达成度评价度量方法 |
CN105825852A (zh) * | 2016-05-23 | 2016-08-03 | 渤海大学 | 一种英语口语朗读考试评分方法 |
CN106847263A (zh) * | 2017-01-13 | 2017-06-13 | 科大讯飞股份有限公司 | 演讲水平评价方法和装置及系统 |
CN107945788A (zh) * | 2017-11-27 | 2018-04-20 | 桂林电子科技大学 | 一种文本相关的英语口语发音错误检测与质量评分方法 |
CN108959331A (zh) * | 2017-05-19 | 2018-12-07 | 日益得有限公司 | 运用设备学习框架的方法、装置及计算机程序 |
CN108961889A (zh) * | 2018-08-06 | 2018-12-07 | 苏州承儒信息科技有限公司 | 一种基于信息熵改变度的教育系统 |
CN109036429A (zh) * | 2018-07-25 | 2018-12-18 | 浪潮电子信息产业股份有限公司 | 一种基于云服务的语音匹配评分查询方法及系统 |
CN110085257A (zh) * | 2019-03-29 | 2019-08-02 | 语文出版社有限公司 | 一种基于国学经典学习的韵律自动评价系统 |
CN110164422A (zh) * | 2019-04-03 | 2019-08-23 | 苏州驰声信息科技有限公司 | 一种口语考试的多维度评估方法及装置 |
CN111833853A (zh) * | 2020-07-01 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 语音处理方法及装置、电子设备、计算机可读存储介质 |
CN111916108A (zh) * | 2020-07-24 | 2020-11-10 | 北京声智科技有限公司 | 一种语音评测方法及装置 |
CN115798519A (zh) * | 2023-02-10 | 2023-03-14 | 山东山大鸥玛软件股份有限公司 | 一种英语多题型口语发音评估方法及系统 |
CN116403604A (zh) * | 2023-06-07 | 2023-07-07 | 北京奇趣万物科技有限公司 | 一种儿童阅读能力评测方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145698A1 (en) * | 2008-12-01 | 2010-06-10 | Educational Testing Service | Systems and Methods for Assessment of Non-Native Spontaneous Speech |
CN101740024A (zh) * | 2008-11-19 | 2010-06-16 | 中国科学院自动化研究所 | 基于广义流利的口语流利度自动评估方法 |
CN101826263A (zh) * | 2009-03-04 | 2010-09-08 | 中国科学院自动化研究所 | 基于客观标准的自动化口语评估系统 |
CN102034475A (zh) * | 2010-12-08 | 2011-04-27 | 中国科学院自动化研究所 | 一种运用计算机对开放式短对话进行交互式评分的方法 |
-
2011
- 2011-08-31 CN CN2011102542114A patent/CN102354495B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101740024A (zh) * | 2008-11-19 | 2010-06-16 | 中国科学院自动化研究所 | 基于广义流利的口语流利度自动评估方法 |
US20100145698A1 (en) * | 2008-12-01 | 2010-06-10 | Educational Testing Service | Systems and Methods for Assessment of Non-Native Spontaneous Speech |
CN101826263A (zh) * | 2009-03-04 | 2010-09-08 | 中国科学院自动化研究所 | 基于客观标准的自动化口语评估系统 |
CN102034475A (zh) * | 2010-12-08 | 2011-04-27 | 中国科学院自动化研究所 | 一种运用计算机对开放式短对话进行交互式评分的方法 |
Non-Patent Citations (2)
Title |
---|
《清华大学学报(自然科学版)》 20091231 严可等 面向大规模英语口语机考的复述题自动评分技术 1356-1362 1-12 第49卷, 第S1期 * |
《电脑知识与技术》 20090331 宋芳芳等 基于语音识别技术的英语口语自学系统评分机制的研究 1726-1728 1-12 第5卷, 第7期 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104599678A (zh) * | 2013-10-30 | 2015-05-06 | 语冠信息技术(上海)有限公司 | 口语发音评价系统及方法 |
CN103594087B (zh) * | 2013-11-08 | 2016-10-12 | 科大讯飞股份有限公司 | 提高口语评测性能的方法及系统 |
CN103594087A (zh) * | 2013-11-08 | 2014-02-19 | 安徽科大讯飞信息科技股份有限公司 | 提高口语评测性能的方法及系统 |
CN103559892B (zh) * | 2013-11-08 | 2016-02-17 | 科大讯飞股份有限公司 | 口语评测方法及系统 |
CN103559892A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 口语评测方法及系统 |
CN103761975A (zh) * | 2014-01-07 | 2014-04-30 | 苏州思必驰信息科技有限公司 | 一种口语评测方法及装置 |
CN103761975B (zh) * | 2014-01-07 | 2017-05-17 | 苏州驰声信息科技有限公司 | 一种口语评测方法及装置 |
CN103928023A (zh) * | 2014-04-29 | 2014-07-16 | 广东外语外贸大学 | 一种语音评分方法及系统 |
CN104810017A (zh) * | 2015-04-08 | 2015-07-29 | 广东外语外贸大学 | 基于语义分析的口语评测方法和系统 |
CN104810017B (zh) * | 2015-04-08 | 2018-07-17 | 广东外语外贸大学 | 基于语义分析的口语评测方法和系统 |
CN105513612A (zh) * | 2015-12-02 | 2016-04-20 | 广东小天才科技有限公司 | 语言词汇的音频处理方法及装置 |
CN105740237A (zh) * | 2016-02-03 | 2016-07-06 | 湘潭大学 | 一种基于词汇语义相似度的学生能力达成度评价度量方法 |
CN105825852A (zh) * | 2016-05-23 | 2016-08-03 | 渤海大学 | 一种英语口语朗读考试评分方法 |
CN106847263A (zh) * | 2017-01-13 | 2017-06-13 | 科大讯飞股份有限公司 | 演讲水平评价方法和装置及系统 |
CN106847263B (zh) * | 2017-01-13 | 2020-09-11 | 科大讯飞股份有限公司 | 演讲水平评价方法和装置及系统 |
CN108959331A (zh) * | 2017-05-19 | 2018-12-07 | 日益得有限公司 | 运用设备学习框架的方法、装置及计算机程序 |
CN108959331B (zh) * | 2017-05-19 | 2022-01-25 | 日益得有限公司 | 运用设备学习框架的方法、装置及计算机程序 |
CN107945788B (zh) * | 2017-11-27 | 2021-11-02 | 桂林电子科技大学 | 一种文本相关的英语口语发音错误检测与质量评分方法 |
CN107945788A (zh) * | 2017-11-27 | 2018-04-20 | 桂林电子科技大学 | 一种文本相关的英语口语发音错误检测与质量评分方法 |
CN109036429A (zh) * | 2018-07-25 | 2018-12-18 | 浪潮电子信息产业股份有限公司 | 一种基于云服务的语音匹配评分查询方法及系统 |
CN108961889A (zh) * | 2018-08-06 | 2018-12-07 | 苏州承儒信息科技有限公司 | 一种基于信息熵改变度的教育系统 |
CN110085257A (zh) * | 2019-03-29 | 2019-08-02 | 语文出版社有限公司 | 一种基于国学经典学习的韵律自动评价系统 |
CN110164422A (zh) * | 2019-04-03 | 2019-08-23 | 苏州驰声信息科技有限公司 | 一种口语考试的多维度评估方法及装置 |
CN111833853A (zh) * | 2020-07-01 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 语音处理方法及装置、电子设备、计算机可读存储介质 |
CN111833853B (zh) * | 2020-07-01 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 语音处理方法及装置、电子设备、计算机可读存储介质 |
CN111916108B (zh) * | 2020-07-24 | 2021-04-02 | 北京声智科技有限公司 | 一种语音评测方法及装置 |
CN111916108A (zh) * | 2020-07-24 | 2020-11-10 | 北京声智科技有限公司 | 一种语音评测方法及装置 |
CN115798519A (zh) * | 2023-02-10 | 2023-03-14 | 山东山大鸥玛软件股份有限公司 | 一种英语多题型口语发音评估方法及系统 |
CN116403604A (zh) * | 2023-06-07 | 2023-07-07 | 北京奇趣万物科技有限公司 | 一种儿童阅读能力评测方法和系统 |
CN116403604B (zh) * | 2023-06-07 | 2023-11-03 | 北京奇趣万物科技有限公司 | 一种儿童阅读能力评测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102354495B (zh) | 2012-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102354495B (zh) | 半开放式口语试题的测试方法及系统 | |
CN101739867B (zh) | 运用计算机对口语翻译质量进行评分的方法 | |
CN101751919B (zh) | 一种汉语口语重音自动检测方法 | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
Bagshaw | Automatic prosodic analysis for computer aided pronunciation teaching | |
US8392190B2 (en) | Systems and methods for assessment of non-native spontaneous speech | |
CN101740024B (zh) | 基于广义流利的口语流利度自动评估方法 | |
CN101105939B (zh) | 发音指导方法 | |
CN102034475B (zh) | 一种运用计算机对开放式短对话进行交互式评分的方法 | |
CN104765996B (zh) | 声纹密码认证方法及系统 | |
CN102426834B (zh) | 测试英文口语韵律水平的方法 | |
CN107240394A (zh) | 一种动态自适应语音分析技术以用于人机口语考试的方法及系统 | |
Duan et al. | A Preliminary study on ASR-based detection of Chinese mispronunciation by Japanese learners | |
CN109300339A (zh) | 一种英语口语的练习方法及系统 | |
Peabody et al. | Towards automatic tone correction in non-native mandarin | |
Vidal et al. | EpaDB: A Database for Development of Pronunciation Assessment Systems. | |
Li et al. | English sentence pronunciation evaluation using rhythm and intonation | |
Yamashita et al. | Automatic scoring for prosodic proficiency of English sentences spoken by Japanese based on utterance comparison | |
Bang et al. | Compensatory strategies in the developmental patterns of English/s: Gender and vowel context effects | |
KR20130067854A (ko) | 코퍼스 기반 언어모델 변별학습 방법 및 그 장치 | |
Watson et al. | Resources created for building New Zealand English voices | |
Luo et al. | Investigation of the effects of automatic scoring technology on human raters' performances in L2 speech proficiency assessment | |
Csapó et al. | A novel irregular voice model for HMM-based speech synthesis. | |
CN114783412B (zh) | 一种西班牙语口语发音训练纠正方法及系统 | |
Navas et al. | Developing a Basque TTS for the Navarro-Lapurdian dialect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |