CN107818795B

CN107818795B - 一种英语口语的测评方法及装置

Info

Publication number: CN107818795B
Application number: CN201711126208.8A
Authority: CN
Inventors: 彭书勇; 杨嵩; 薛文韬; 林远东
Original assignee: Suzhou Chivox Information Technology Co ltd
Current assignee: Suzhou Chivox Information Technology Co ltd
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2020-11-17
Anticipated expiration: 2037-11-15
Also published as: CN107818795A

Abstract

本发明涉及一种英语口语的测评方法及装置，所述方法包括：采集用户的语音数据，所述语音数据为用户的英语口音数据；将所述语音数据转换为对应的文本数据；对所述文本数据中的口语习惯文本数据进行标注；获取标注后的文本数据的文本特征和所述语音数据的声学特征；根据所述文本特征和声学特征获取用户的口语习惯信息；根据所述口语习惯信息对用户的英语口语水平进行测评。本发明在测评过程可以全面反映英语学者表达的流畅性、句子单元的组织能力等，也可以综合体现英语学习者掌握语言的水平高低。

Description

一种英语口语的测评方法及装置

技术领域

本发明涉及语音识别和评价技术领域，特别是涉及一种英语口语的测评方法及装置。

背景技术

随着对英语对话能力的要求不断提高，纠正英语学习者口语发音不足的技术需求也越来越多。目前对英语口语的测评主要是基于声学及文本特征，声学特征用于评估英语学习者发音、流利度等水平，文本特征则用于英语学习者所表达内容与参考文本的匹配度计算，然后将二者结合作为评分特征来衡量英语学习者口语水平。

但声学及文本特征均局限于内容层面，其忽略了英语学习者的口语习惯。口语习惯是英语学习者个体特有的信息特征，尤其体现在口语表达过程中可能出现的卡顿现象、断句位置是否合理等情况。因此，目前的测评技术无法全面反映英语学者表达的流畅性、句子单元的组织能力等，更无法综合体现英语学习者掌握语言的水平高低。

发明内容

基于此，有必要针对目前英语口语测评无法全面反应英语学者的英语水平问题，提供一种英语口语的测评方法及装置。

一种英语口语的测评方法，所述方法包括：

采集用户的语音数据，所述语音数据为用户的英语口音数据；

将所述语音数据转换为对应的文本数据；

对所述文本数据中的口语习惯文本数据进行标注；

获取标注后的文本数据的文本特征和所述语音数据的声学特征；

根据所述文本特征和声学特征获取用户的口语习惯信息；

根据所述口语习惯信息对用户的英语口语水平进行测评。

在其中一个实施例中，所述口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据；

所述对所述文本数据中的口语习惯文本数据进行标注，具体为：

对所述文本数据中包括的填充词、重复信息、矫正信息和断句位置信息所对应的文本数据进行标注。

在其中一个实施例中，所述获取标注后的文本数据的文本特征，具体为：

获取所述标注后的文本数据的单词特征和词性特征。

在其中一个实施例中，所述获取所述语音数据的声学特征，具体为：

获取所述语音数据中的用户发音时的基频特征和能量特征。

在其中一个实施例中，所述根据所述文本特征和声学特征获取用户的口语习惯信息，包括：

对所述文本特征进行组合；

结合标注信息由所述声学特征和组合后的文本特征生成用户的口语习惯信息。

在其中一个实施例中，所述结合标注信息由所述声学特征和组合后的文本特征生成用户的口语习惯信息，包括：

由标注信息获取分类器模型的标签信息；

将声学特征和组合后的文本特征输入所述分类器模型，以由所述分类器模型输出所述用户的口语习惯信息。

在其中一个实施例中，所述口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据，所述标注信息包括对在所述文本数据中对所述填充词、重复信息、矫正信息和断句位置信息进行的标注；

所述由所述分类器模型输出所述用户的口语习惯信息，具体为：

由所述分类器模型输出所述填充词、重复信息、矫正信息和断句位置信息。

一种英语口语的测评装置，所述装置包括：

采集模块，用于采集用户的语音数据，所述语音数据为用户的英语口音数据；

转换模块，用于将所述语音数据转换为对应的文本数据；

标注模块，用于对所述文本数据中的口语习惯文本数据进行标注；

特征获取模块，用于获取标注后的文本数据的文本特征和所述语音数据的声学特征；

信息获取模块，用于根据所述文本特征和声学特征获取用户的口语习惯信息；

测评模块，用于根据所述口语习惯信息对用户的英语口语水平进行测评。

在其中一个实施例中，所述信息获取模块还用于：

对所述文本特征进行组合；

由标注信息获取分类器模型的标签信息；

以上所述英语口语的测评方法及装置在对英语学者进行测评时，对文本数据中的口语习惯文本数据进行标注，获取标注后的文本数据的文本特征和所述语音数据的声学特征，根据所述文本特征和声学特征获取用户的口语习惯信息，根据所述口语习惯信息对用户的英语口语水平进行测评；整个过程将口语习惯添加到测评当中，由于口语习惯是英语学习者个体特有的信息特征，因此，测评过程可以全面反映英语学者表达的流畅性、句子单元的组织能力等，也可以综合体现英语学习者掌握语言的水平高低。

附图说明

图1为本发明一个实施例的英语口语的测评方法的流程图；

图2为本发明一个实施例的英语口语的测评装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明一个实施例的英语口语的测评方法的流程图。如图1所示，该方法包括：

步骤S110，采集用户的语音数据，语音数据为用户的英语口音数据。

本实施例中，用户均表示英语学习者。语音数据可以是用户发出的英语口音数据，例如，可以对英语读本中文字的阅读，也可以是正常的对话过程中语音数据等。本实施例不限于对采集用户的语音数据时的场景和情况进行具体限定，这在本实施例当中均可以实现。

步骤S120，将语音数据转换为对应的文本数据。

可以通过机器识别得到文本数据，也可以利用现有语音识别系统，如经典的GMM-HMM模型，也可自行训练准备解码资源并设计实现框架。

可以理解的是，这里转换后的文本数据为英文文本。

步骤S130，对文本数据中的口语习惯文本数据进行标注。

本实施例中，口语习惯是指在英语学习者口语表达中，其语句中可能出现的填充词、重复信息、矫正信息、断句位置等特征，这些特征体现了用户在学习过程中的流畅性、短语组织能力、从句掌握熟练度等信息。

其中，填充词是一些没有实际语义的语气词，表征用户的口语习惯中自然但不合理的停顿标记。

重复信息表征用户口语习惯中组织语言表达的速度快慢。

矫正信息是对已表达语句的局部或整体修正，表征用户在口语习惯中自我调整的能力。

断句位置的合理与否，则表征用户在口语习惯中对语法知识的掌握水平。

结合口语习惯所包含的信息可知，口语习惯是用户特有的信息特征，其可以全面反映用户表达的流畅性、句子单元的组织能力等，也可以综合体现英语学习者掌握语言的水平高低。

步骤S140，获取标注后的文本数据的文本特征和语音数据的声学特征。

获取标注后的文本数据的文本特征，具体为：获取标注后的文本数据的单词特征和词性特征。文本特征是对文本数据的直接体现。单词的上下文信息可以较好表达短语语义，单词特征即为单词本身。词性特征则是单词在句子整体中的具体角色表达，词性特征的提取可通过词性标记(POS)工具得以实现。

获取语音数据的声学特征，具体为：获取语音数据中的用户发音时的基频特征和能量特征。

基督特征记录了用户音频的基音频率信息，决定了用户声音的音高，是用户的标志性信息。基频特征主要有：基频原始值的最大值、最小值、均值、差分值等统计量，以及上述统计量的归一化结果。

能量特征记录了用户在口语表达过程中的声音信号强弱变化情况，间接体现用户理解并表达出的断句信息。能量特征具体是信号的振幅表征，其包括能量原始值的统计量，能量平滑后的统计量，单词对应能量平滑曲线的升降标记，以及上述特征的归一化结果。

步骤S150，根据文本特征和声学特征获取用户的口语习惯信息。

步骤S160，根据口语习惯信息对用户的英语口语水平进行测评。

以上所述英语口语的测评方法在对英语学者进行测评时，对文本数据中的口语习惯文本数据进行标注，获取标注后的文本数据的文本特征和所述语音数据的声学特征，根据所述文本特征和声学特征获取用户的口语习惯信息，根据所述口语习惯信息对用户的英语口语水平进行测评；整个过程将口语习惯添加到测评当中，由于口语习惯是英语学习者个体特有的信息特征，因此，测评过程可以全面反映英语学者表达的流畅性、句子单元的组织能力等，也可以综合体现英语学习者掌握语言的水平高低。

本实施例中，口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据。进一步的，步骤S130对文本数据中的口语习惯文本数据进行标注，具体为：

对文本数据中包括的填充词、重复信息、矫正信息和断句位置信息所对应的文本数据进行标注。

进一步的，本实施例中，可以将重复信息与矫正信息作为一方面进行标注，整体标注分为填充词标注、重复信息和矫正信息标注、断句位置信息标注。

填充词标注时，可以预先建立用于标注填充词的填充词字典。具体的，可以基于线上系统收集的英语学习者大规模语音数据及口语表达经验，设置候选的填充词字典。线上系统包括开放的口语练习打分系统，也涵盖专用的口语考试系统，所收集的英语学习者语音数据来源于口头作文、半开放式问答等题型。在口语表达实践过程中，可以积累得到一定规模的填充词列表，如eh、oh、i’m sorry等。当然，填充词可以是单词，也可以是短语形式。结合填充词字典，同时结合对应的语音数据，以综合作出合理标注。

重复信息和矫正信息的标注时，由于重复信息总是先于其对应的矫正信息出现，且二者之间一般会夹杂填充词，因此，一般是重复信息的标注先于矫正信息，便二者需要相互结合实现。

断句位置信息标注时，作为用户口语习惯的重要表征，其可以参考转换后的文本数据。

进一步的，步骤S150根据文本特征和声学特征获取用户的口语习惯信息，包括：

对文本特征进行组合；

结合标注信息由声学特征和组合后的文本特征生成用户的口语习惯信息。

其中，结合标注信息由声学特征和组合后的文本特征生成用户的口语习惯信息，包括：

由标注信息获取分类器模型的标签信息；

将声学特征和组合后的文本特征输入分类器模型，以由分类器模型输出用户的口语习惯信息。

由于口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据，因此，标注信息包括对在文本数据中对填充词、重复信息、矫正信息和断句位置信息进行的标注。进一步的，本实施例中，由分类器模型输出用户的口语习惯信息，具体为：

由分类器模型输出填充词、重复信息、矫正信息和断句位置信息。

其中，本实施例中的分类器模型优先采用深度神经网络(DNN)与条件随机场(CRF)相结合。DNN是一种全连接的神经元结构，通过隐层节点的联结组合，能够表达非常复杂的非线性模型。CRF是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是可以建立特征在时间序列上的联系。

进一步的，由于CRF模型能够表征特征在时间上的关系，本实施例通过CRF内部的特征模板函数，对输入其中的文本特征进行特征组合。

进一步的，将声学特征和组合后的文本特征输入分类器模型之前，可以对声学特征和组合后的文本特征进行相应的调整。由于标注信息包括对在文本数据中对填充词、重复信息、矫正信息和断句位置信息进行的标注，因此，本实施例中，标签信息是由填充词、重复信息、矫正信息和断句位置信息形成的分类器模型的标签信息。由此，将声学特征和组合后的文本特征输入分类器模型后，即可以由分类器模型输出用户的口语习惯信息。

本实施例中，由分类器模型输出用户的口语习惯信息时，可以通过以下公式实现：

output(i)＝arg_resmax{αP_res(i|DNN)+βP_res(i|CRF)}；

α+β＝1；

其中，i表示句子中第i个单词；output表示其输出情况，可以包括是否为填充词、重复信息、矫正信息中的三者之一，或者是否为断句位置。P(i|DNN)、P(i|CRF)依次表示DNN或CRF模型预测输出的概率值，α、β则对应为其输出概率的权重，下标res取值表示决策结果的可能情况，它们均由模型训练过程所决定。

通过对口语习惯的检测，后续可以合理利用填充词、重复信息、矫正信息、断句位置信息等对文本数据进行调整，这也是纠正识别文本的必要基础，将更有利于准确提取用户实际想表达的语义，也能为用户提供多方位的反馈。

通过分类器模型进行预测，所得结果即为填充词、重复信息、矫正信息、断句位置信息等。合理利用上述信息，可以有效过滤文本数据中的冗余片段，呈现出用户实际想表达的口语文本，以提供更加合理的整体打分；也可以标记英语学习者在口语发音过程中出现的不良习惯及位置信息，支持英语学习者的自我反馈纠正，提升口语学习体验。

如图2所示，本实施例还提供了一种英语口语的测评装置，装置包括：

采集模块110，用于采集用户的语音数据，语音数据为用户的英语口音数据。

转换模块120，用于将语音数据转换为对应的文本数据。

可以理解的是，这里转换后的文本数据为英文文本。

标注模块130，用于对文本数据中的口语习惯文本数据进行标注。

重复信息表征用户口语习惯中组织语言表达的速度快慢。

特征获取模块140，用于获取标注后的文本数据的文本特征和语音数据的声学特征。

信息获取模块150，用于根据文本特征和声学特征获取用户的口语习惯信息；

测评模块160，用于根据口语习惯信息对用户的英语口语水平进行测评。

本实施例中，口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据。进一步的，标注模块130对文本数据中的口语习惯文本数据进行标注，具体为：

进一步的，信息获取模块150还用于：

对文本特征进行组合；

由标注信息获取分类器模型的标签信息；

output(i)＝arg_resmax{αP_res(i|DNN)+βP_res(i|CRF)}；

α+β＝1；

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种英语口语的测评方法，其特征在于，所述方法包括：

将所述语音数据转换为对应的文本数据；

对所述文本数据中的口语习惯文本数据进行标注；

根据所述文本特征和声学特征获取用户的口语习惯信息；

根据所述口语习惯信息对用户的英语口语水平进行测评，

其中，所述口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据；

其中，所述根据所述文本特征和声学特征获取用户的口语习惯信息，包括：

对所述文本特征进行组合；

由标注信息获取分类器模型的标签信息；

2.根据权利要求1所述的方法，其特征在于：所述对所述文本数据中的口语习惯文本数据进行标注，具体为：

3.根据权利要求1或2所述的方法，其特征在于，所述获取标注后的文本数据的文本特征，具体为：

获取所述标注后的文本数据的单词特征和词性特征。

4.根据权利要求1或2所述的方法，其特征在于，所述获取所述语音数据的声学特征，具体为：

获取所述语音数据中的用户发音时的基频特征和能量特征。

5.根据权利要求4所述的方法，其特征在于，所述口语习惯文本数据包括填充词、重复信息、矫正信息和断句位置信息所对应的文本数据，所述标注信息包括对在所述文本数据中对所述填充词、重复信息、矫正信息和断句位置信息进行的标注；

6.一种英语口语的测评装置，其特征在于，所述装置包括：

转换模块，用于将所述语音数据转换为对应的文本数据；

测评模块，用于根据所述口语习惯信息对用户的英语口语水平进行测评；

所述信息获取模块还用于：

对所述文本特征进行组合；

由标注信息获取分类器模型的标签信息；